首先,你要搞到一份系统依赖图和流程图,这里包括上游、下游、以及对应的qps预估,以及实际的对应qps限流值。 它大约是长这个样子的:

需要考虑到:
- 系统有哪些上游调用方,它们届时qps是多少,如果它们超限了会怎么样(比如上游反复重试就会导致超限)
- 系统依赖于哪些下游,这些下游服务自己是否设置了上限(比如说kafka,支付宝)
- 系统内部是否有写死的上限(比如说2019春晚钱包自己设了个上限)
从这个图里我们也要重点看:
- 大流量的环节,比如大于10W QPS的点都要关注。大流量的地方这里能上缓存的都上缓存,再加一层本地缓存,缓存里能打散的全打散,如果业务能提供热点数据,那么把数据能预热的尽量都预热一下(别忘了TTL的设置!)。
- 检查一下对应服务在各机房的部署情况、限流配置情况、超时情况。
- 还要看重试的环节,有重试的地方就容易有雪崩,如果局部集群雪崩是否能快速恢复。
有了这个流量大图之后,我们就需要一个实时流量大屏,这个大屏能看出来实时流量的情况,低于预期流量不要怕,高于预期流量是要命的。
根据这个大屏和流量图之后,我们要继续收集下面这接口的详细信息和基础组件的信息。

降级预案+限流+硬件扩容准备+2层缓存保护+主动预热,已经好几层保护了,应该问题不大了。
如果涉及到资金,还要关注资金安全,比如会不会超发资金,资金池有没有兜底方案。