九月初旬,北京召开了顶级技术盛会Qcon全球软件开发大会。货拉拉货运研发部技术总监亓隆基受邀,并于5日在“稳定性和可观测性”技术专场上发表了题为《货拉拉交易核心链路连续无故障500+天的建设实践》的主题演讲,分享了货拉拉交易核心链路的稳定性建设思路和实践。
在本次演讲中,亓隆基首先对稳定性建设和可用性建设底层逻辑进行了概述。他指出,货拉拉的稳定性建设既包含了系统的可靠可用性的建设、也包含了功能稳定性的建设,货拉拉稳定性建设的目标是系统可用、功能可靠、没有资损。谈及可用性建设的底层逻辑,亓隆基剖析了云上环境的单体微服务的运行环境,指出针对服务自身及依赖的核心方法是做到failsafe。建设过程中,亓隆基认为应遵循三个原则,分别是木桶原理(最短板决定水平)、逆向思维(从故障出发)和墨菲定律(不要侥幸),同时他将可用性建设分为事前、事中、事后三个重要节点,并对各环节的重要部分做了提示,事前要防护完备,事中要做好应急,发生事故之后第一时间定位和止损,事后则需要对事故的过程和根因连续问五个Why,彻底把系统、流程、组织的漏洞找出来并落地改进。
随后,亓隆基围绕货拉拉功能可用性建设、业务可观测性和技术架构可观测性的三个实践和探索展开具体阐述。在功能可用性建设方面,货拉拉在Doom的核心思想上进行拓展,把一个微服务群及其依赖(如数据库redis中间件)当做黑盒,然后把黑盒之外的依赖进行录制回放。此时,当一个入口请求进来时,就可以通过录制回放,获取输出结果进行比对。同时,也可以从黑盒内部的存储中获取数据库的记录、发送的消息等,跟生产环境的进行转换比对,确保所有的副作用都是等价的,从而解决跨模型、跨协议、跨数据模型的录制回放问题。
在可观测性建设方面,亓隆基举了“计价业务”的例子。通过建设事前四重防护网(单元测试、接口自动化、场景自动化、录制回放)和三重业务可观测体系(实时核对、离线核对、在线价格大盘),货拉拉解决了计算频率高、价格体系复杂、出现问题影响面大等计价业务挑战,实现了分钟级感知价格业务情况,拦截线上问题超过60个,持续事故少。技术架构上,货拉拉建立了全局视野,主动感知链路变化,自动检测链路稳定性设计和自动监测畸形调用,链路治理时效从Months转变为Days,为技术架构的持续可观测性建设提供了一套标准化的解决方案。
货拉拉运行的稳定性日益提高,创造了“连续500天以上无故障”的优秀战绩。复杂难以把控的业务情况,被亓隆基等人按照事情发展的逻辑巧妙分解,采用经典的科学原理指导业务发展,采用务实的态度完成工作。出现问题层层筛查,多问几个“为什么”,在落地整改时,执行力不打折扣。货拉拉积极采用Doom的核心思想,积极拓展,并采用全局视角技术架构,持续降低问题的出现率。当下,货拉拉通过一路探索创下成绩新高,未来,货拉拉将持续带来更优的用户体验。
本文网址:http://shang156.com/xinwen/5558.html
声明:本站原创/投稿文章所有权归上海企业新闻网所有,转载务必注明来源;文章仅代表原作者观点,不代表上海企业新闻网立场;如有侵权、违规,可直接反馈本站,我们将会作删除处理。
网友评价
来自江苏省江阴市的热心网友评价:
转发了
来自黑龙江省牡丹江市的热心网友评价:
老司机带带我
来自新疆维吾尔自治区阿拉尔市的热心网友评价:
啊舍不得啊
来自安徽省宿州市的热心网友评价:
做个记号
来自浙江省杭州市的热心网友评价:
前排关注
2022-02-03
2020-09-07
2020-09-04
2020-09-04
2020-08-24