双十一的促销战在0点落下帷幕,天猫商城以571亿交易量破去年记录。无疑,阿里再一次赢得了一众败家的心,一次属于电商的胜利。他们在今年的战斗已经结束,但战火的硝烟并没停息。正如我昨天抱怨的那样,作为快递行业的我们,必须为这个战场进行打扫,那正是我们的战斗。

据内部消息,双十一当天,发件量破1137万,将近是去年的两倍。也就是说,我们公司必须承受较去年两倍的压力。早在双十一前夕,公司就做好了应对的措施,包括轮班处理异常,指挥调度中转等事项确保双十一顺利度过。

我们的系统被认为是计算量最大的系统。去年的600万件量,差点没把一代系统搞挂。为何如此脆弱?一是复杂路由实时运算。我们系统包括路由实时计算、路由预测、异常预警,加之精准的时间计算机制与大量异常场景的妥协处理逻辑;二是计算框架问题。工厂模式的落后计算机制,在消费小量数据的实时计算效果显著,但应对大量进入的数据,无法通过并行调度资源应对压力。

在那个现状下,我们系统的改造提上了集团项目,并在今年三月开始,进行了为期六个月的重构。重上图来看,重构是明智的。大量业务人员的加入梳理业务场景使得第一个问题得以优化。强大的IT团队也重构了计算架构,以适应单天2800万件量的计算目标。

今天是双十一后第一天,也是快件流转的高峰。从昨天开始,我们系统就遭到了非议,而今天,问题一直在处理。也就是说,即使我们做了很多努力,但我们的系统仍然是不稳定的。在双十一这场战斗中,我们其实已经输了一回合,现在,我们的团队正努力为系统不挂掉而努力。

我们老大已经准备着后续的总结会,问题会有很多,但我们相信经过总结教训,我们会学习更多,明白更多和实现更多。我们的战斗仍在持续,尽是否定,但我们相信我们的系统会站到最后。

题图为时效系统11日17点到12日17点服务器压力