服务稳定性保障的五大误解

服务稳定性保障的五大误解

原创

快猫星云

运维

09/06 15:05

阅读数 113

> 在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日，这个方向实际仍然有很多基本的概念都没有对齐。今天这篇文章就罗列下那些混淆不清的概念，期望有一天大家沟通时不是鸡同鸭讲，各说各话。

误解一：服务可用性

听过很多技术分享，看过很多平台的承诺，上来都是讲我们的服务稳定性99.9xx%，但似乎都“忘记”了提供这个稳定性的具体算法和解读。如果没有明确的定义，这个数值其实毫无意义。

> 服务稳定性目标的算法并没有行业标准，Google SRE Book 中提到两种：

基于时间的可用性：可用性 = 系统正常运行时间 /（系统正常运行时间+停机时间）
合计可用性：可用性 = 成功请求数 / 总请求数

使用哪种统计算法很可能因业务的类型（电商服务、打车服务等）或服务的类型（请求类服务、存储类服务等）不同而不同，甚至因公司的传统和文化而不同。

而实际上，以上两种算法本身就存在很多不明确的地方。

如基于时间的可用性统计，哪部分时间适合算到停机时间里？服务还部分可用算不算？只影响了10%的用户算不算？如果只统计完全停机的时间，那即使是非常严重的事故也可能统计不到停机时间里，这显然是不合理的。

而合计可用性也一样，通常这种方式都是在接入网关上对请求的日志做统计，但故障时很有可能出现：

1）后端异常了用户大量重试，导致统计到的流量和错误量都暴涨。
2）核心流程故障了或端上故障了，网关上或统计点上根本就没有了流量。

这些因素都会导致统计上的错误，并且数据修正非常困难。

国内，各家公司的可用性统计方法五花八门，可能基于以上方法做了各种变形和补充，因此相互之间并没有可比性。各公司内部也只有在统计算法不变的情况下，和历史去对比才能看出价值。

所以，当提到服务可用性目标时，比较严谨的说法是： > 我们的服务可用性从99.xxx%提高到了99.yyy%，它的算法是什么，意味着什么什么。

误解二：故障

什么样的异常算故障？笔者在做运维的早期第一次听到这个问题时，有种被击中了的感觉。因为我们天天大谈故障，甚至 KPI 里都有故障相关的任务，但都只是凭感觉，却没有对它做过定义和量化。

入口模块的一两个请求失败算不算故障？1% 的请求失败算不算故障？到什么程度算故障？

故障，直观上大家的理解是比较严重的异常。只是一般的异常和严重的异常如果不加区分，可能会有几种后果：

让稳定性保障的同学们时刻紧张，疲于奔命。笔者开始做运维的那个年代，只要短信报警响起大家半夜都能直接蹦起来，所有报警都如此，压力可想而知；
另一种结果是“重要”的报警太多，最后变得都不重要；
异常的严重程度对应的处理方法其实也是有重大不同的，不加区分可能影响故障的恢复时间，这点在后面的“根因定位”会进一步说明；

完善的服务稳定性保障，建议对这些概念进行量化定义：事件、异常、故障、事故。笔者认为这几个概念的范围是从大到小，影响程序逐级递增的。

而且值得用一个专门的系统来对这些概念做量化和报警。这样，当大家提到“故障”时，或收到“故障”的报警时，它在大家脑子里的严重程度都是一个量级的。

误解三：根本原因

> 什么是根本原因？

在过往的故障复盘经验中，我发现故障的直接原因、重要原因、触发原因、主要原因，这些原因都是相对能够确定并被接受的。但唯独根本原因，这个原因如果深究起来，并不太容易形成共识。并且这么沉重的一个词，很多团队潜意识里不太想承担这个原因对应的责任。

比如，一个新用户上线变更，没有好好检查导致了服务故障。这个事故很可能的直接原因是上线变更，触发原因是程序中的某个bug，重要原因是没有按要求做好变更检查。

但根本原因是什么？因为根本两个字就要寻根究底，假设从重要原因出发，这位同学没有按要求做好检查，那为什么他不按要求做检查？导师没有培训过？团队没有做好变更意识的培训？平台为什么没有做好变更的拦截？他自己一时大意，但针对这种重要的变更为什么没有double check机制？

如果继续深究，那根因最终会归因到笔者前公司的一个口号：一切责任都是管理者的责任！但任何故障的根因如果都是这个，那以后也就不必分析根因了，因为结论都一样。这也是为什么只要出现事故，管理者一般都会跟着被处罚的原因，因为他们的管理责任就是“根本原因”。

所以，如果提及这个原因，希望你们的公司或团队对他的定义和深究的程度已经是明确的。

误解四：根因定位

故障处理中往往会提到这个概念。这个场景下大家自然不会像复盘时那样联想到去找管理上的、流程上的根因。但却有可能将一些人引导到错误的故障定位方向上去，比如，一开始就对个别报警前后分析，深入代码去寻找bug，或深陷在技术的追根溯源上。

这个做法对不对呢？在问题排查中是对的，但在故障处理场景中是不对的！

为什么呢？因为故障处理时的第一原则是止损，是尽快恢复服务的核心流程和核心体验。

要做到这一点我们应该寻找尽可能高效的方法。比如，多活服务中的一个单元异常了，这时候只要确认其它单元的服务正常，容量充足，做一个简单的流量调度即可完成止损，最多再锁定变更，这个故障处理的过程就结束了。再比如，服务故障时优先查看有没有核心模块的变更，如果有，尽快回滚，很可能服务就恢复了。

故障处理的过程其实是一个将故障整体的关键特征、关键事件去和一个有效预案连接的过程，是一个多团队协同的过程。把它叫做根因定位从表意上就不准确，而且隐含一种错误的引导：让处理人员在这个场景下优先去寻找bug、寻找异常在技术上的深层原因。上来就从前往后trace、debug，最终可能也能解决问题，但应该是在首先分析全局的故障特征和关键事件后，发现没有有效的办法/预案再去做。

所以，故障处理中，不建议提根因定位，叫故障定位、故障定界、故障分析这类的词都会比“根因定位”产生的误导少。

误解五：业务监控

运维或基础技术团队通常离真正的“业务方”比较远，最常打交道的是业务的研发团队，技术部门里业务研发团队是经常和“业务方”打交道的团队。因此在运维和基础技术团队看来，业务研发团队可能就被代表了“业务方”。

基于这个认定，通常在监控划分时会出现把业务研发团队提的需求或关心的指标归类为业务监控的情况，如错误日志、模块流量、接口延迟等。但实际上真正站在业务负责人或公司的角度，业务肯定不是指业务研发团队，业务研发团队只是直接支撑业务的团队之一，还有运营团队、产品团队、销售团队等等。

业务监控对应的指标，应该是业务负责人和这些团队共同关心的指标，甚至是运营、产品、销售这些团队更为关心的指标。这类指标包括类似在线用户数、订单量、GMV、在线商品量等。以及这类指标衍生的指标，如分地域、分人群、分时段、分渠道来观察的这些指标。

对了，你或许想到了，这些指标通常可能已经存在于公司的BI系统里，老板们用它们来观察分析业务的发展情况，运营们用它们来分析营销的效果。如果严格定义业务监控，应该是对这类指标做监控展示，并实时的报警，这才叫业务监控。

当然，在具体的指标采集上，有可能一个业务监控指标和其他监控指标是同一个指标，比如，一个关键模块的流量，或从模块日志中提取出来的特定流量可能就可以代表这个业务的订单量。

> 那如何区分一个监控到底是不是属于业务监控呢？我认为可以从以下几个方面来判断：

监控的目的：业务监控应该是用于报告整个业务的健康状态，而不是用于发现某个模块、组件或基础设施的异常；
指标的含义：业务监控指标的含义是一个非技术人员也很容易理解，甚至是非技术团队更容易理解的概念；
指标的重要性：如果你告诉老板这个指标异常了，他会立马理解并重视；
技术无关性：无论研发采用何种架构、如何划分服务的模块、如何重构服务，除了采集方法，这些业务监控指标的含义都不会也不需要变化；
业务监控“通常”是一个“量”相关的指标，如在线用户数、下单量等，而不是成功率，但这点并不是绝对的；

如果细分故障处理的过程，业务监控是发现故障的重要手段。但很多企业或业务要么没有业务监控，要么实际是把其它监控混杂在了“业务监控”的概念里，如应用/模块的监控，也没有明确这些监控应该面向的真正对象。这个做法的后果是业务监控得不到应有的重视，发挥不了应有的价值。

总结

《服务稳定性保障的五大误解》总结了服务稳定性保障中常被混淆误解的五个概念，可能还有更多的概念未被清晰的定义，希望以此为鉴，大家一起推动服务保障领域的标准化、量化和最佳实践。后面还将谈谈稳定性保障中常见的错误做法，敬请期待，也欢迎交流探讨。

Binx 2024-09-07 08:28

最好提高苹果税到80%，不然怎么彰显尊贵的苹果用户身份

279778325 2024-08-16 16:22

好不容易有个国产开发平台，没有鼓励只有贬低，就算宣传夸大怎么了？那么较真干什么？遍地都是夸大的广告宣传怎么不一个一个去找厂家？批判的同时想想自己能搞一个吗？为什么加上国产俩字就非要这么较真？

kushu001 2024-08-14 15:24

为什么一定要强调“国产”？是开源的项目么？如果开源，是不是不接受国外开发者的贡献？我只是好奇，不带“国产”，是宣传不了了么😀

我要探索宇宙 2024-09-16 14:43

3.5.2版本，队列redis能用集群模式的redis吗？

封神梦 2024-09-14 17:53

反正wps就是各种vip广告，挺恶心人的

fzn0268 2024-09-04 14:26

这是那个做代码生成器的老哥起的吧

longzz 2024-09-14 11:04

🤣65岁还在写代码吗？

RustDesk 2024-09-16 11:20

惨淡

0day 2024-07-21 11:52

一个流氓也配谈安全？

烈冰 2024-07-22 08:41

不如说国内90%的电脑都没安装CrowdStrike软件

黑人牙膏 2024-07-21 12:12

真的人不要脸则无敌，只要他不尴尬，尴尬的是别人。

优秀良民 2024-07-10 16:17

明明能躺平，明明可以割韭菜，还花钱研发？为了找骂？说这个能割韭菜？你被割了？你买了吗？是谁年年换mac，是谁年年换iphone？华为的用户好像没有那么干的吧？真让我一个小米用户都看不下去了！

dwingo 2024-07-18 10:12

不是不让用jni和unsafe啊, 只是做了"限制", 只要加命令行参数就能继续用, 目的是为了让使用者考量程序的安全性.

Tobyee 2024-07-09 11:04

没GMS是借口，本质还是不想适配国内的手机系统，等鸿蒙Next出来，看微软拥抱不拥抱就知道了

简洛-默 2024-08-12 19:31

你是家里才通网吗? 龙芯早都弃用MIPS了，现在是自研的LoongArch。自己好好看看吧：https://loongarch.dev/zh-cn/posts/20210501-loongarch-manual/

zb79463626 2024-09-15 12:07

纯血鸿蒙不再是用android改的了，DevEco什么时候也纯血脱离Eclipse啊？😄

Artrener 2024-07-21 15:12

可以看他不爽，看360不爽，但人家说的是事实。比如说航空业的业内人士也这么说的。

fasiondog 2024-09-14 17:26

👍

高排量低炭烧 2024-09-14 23:34

牛逼🤬

加百列Gabriel 2024-09-14 13:50

各位不要急着更新, 更新完之后linux虚拟机不支持3D加速了

Ask_x_Seek 2024-09-14 15:19

支持

平波 2024-09-14 19:01

你了做过为为的项目啊；😂

zb79463626 2024-08-26 15:51

IBM中国哪有什么研发? 全部都是测试！所谓的搞研发的都是去养老混日子的！

阳光满地 2024-09-15 00:25

加个证书那么简单的事，为什么还要等下一步再优化呢？

大后锋 2024-07-10 14:03

然后交警找责任方，打过去是牛逼高大上的生成式AI的客服

平波 2024-09-14 15:46

你真是行家里手啊，😂；这个本质是数学建模，就像初中数学中的板据两点确定一条直线，然后可以根据任意x,预测y值啊，其实就这么简单啊

呼呼南风 2024-09-14 11:18

幸好我把自己电脑换成win10了。

Kevin586 2024-09-14 16:00

vagrant什么时候支持7.1我才更

blue_think 2024-08-26 11:00

别光喷华为啊，说点你自己的能力，到了什么程度，有什么成就，这样好歹有点说服力吧

Yanlongli 2024-07-11 17:28

降低了视觉复杂性，增高了操作复杂性。

无尽的拉格朗日 2024-09-14 12:56

底层代码大部分估计都能共用反正都是c/c++，上层界面层重写吧

yh2216 2024-09-14 10:24

wps确实做的很棒，比微软的office好用，比libreoffice好用很多。wps加油，鸿蒙做的不错，继续加油，支持生态建设。

开源博客 2024-09-14 22:13

Virtualbox新管网使用vw布局单位，高分屏上使用浏览器的缩放没效果，字体仍老大==

HalLi 2024-09-09 01:10

普通用户不懂就算了，怎么连程序员都不懂？苹果是全平台30%，国产是渠道服50%。微信、抖音这种大app哪来的渠道服，除了游戏，哪个app带渠道服。

CloudShi83 2024-07-06 17:13

感谢祖师爷赏饭吃，给你磕一个

osc_566335 2024-08-01 15:05

“虽然两人只有大专学历”—— 大专也算高等教育，现在这些媒体口中已经文盲一个级别的感觉了吗？

平波 2024-09-14 15:57

我倒是觉得好用，像真人就行；我可不希望它是真正的智慧生物；深度这些东东，本质就是曲面建模和贝叶斯/马尔科夫链这种概率建模；只要知识量够大，算力够强，机器就越像人；它有没有意识，并不重要；因为人的意思，估计也是伪命题；

fastfail 2024-09-15 08:37

捞钱捞到手抽筋

平波 2024-07-07 16:54

吃完就砸锅，好像那个啥纯血，吃完了，就想把小米，oppo、vivo的锅咂了；😂

kakai 2024-09-07 10:39

微信咋得罪你了？不管怎么样，微信此举哪怕从自身商业利益出发，让苹果降低中国税率这是利于中国人的，这个税率可不仅仅是针对微信的，还苹果大功一件，这是多么愚蠢、可耻的言论！

Kevin586 2024-07-29 17:09

真降低成本还是得换go，java太吃内存了

osc_566335 2024-08-05 10:48

os是媾粉聚集地还不了解吗？只要碰到国产、华子相关报道，必然评论区乌烟瘴气口伏声难止。还能期待啥有深度发言？大佬敢发这些，那还给搞前端什么都懂的“程序员”粪死？

智布道 2024-08-13 12:02

不管是谁在打平安县城，我三五八团一定帮帮场子！

天

天1天1天 2024-09-14 16:56

文章写的也没错，至于是不是steam的功劳，也无所谓，反正能玩了。

osc_50722289 2024-09-06 13:51

如果苹果不让步，微信也不让步那就好看了！微信在中国深入寻常百姓家！支付社交微信根本离不开，如果微信不在IOS上更新，苹果“不用混了”

叨

叨叨颠颠 2024-09-14 16:17

代码这东西就和女人穿不同衣服一样，包装不同，就可以换个人样儿，其实里面还是。字符串替换--变量名改改、方法名改改、文件名改改，方法return的改为void，值参改形参，一个类改几个拼接，一个结构体改几个组合，一个方法改几代继承。哪个敢说这是抄，百分之百纯自研，原生态。

深夜49 2024-09-14 14:36

免费版只能用30分钟，太坑了吧。

infoworld 2024-09-11 18:00

感谢，正是有你们这些先驱做的实事，才能避免被国外的系统和应用垄断。

开源中国首席路人王 2024-09-15 15:47

ipv6 tomcat需要改什么支持吗

我有我可以 2024-07-09 11:40

喷子们之所以喷，其本质是为自己的阴暗和自卑找理由罢了。

Azeroth008 2024-07-09 10:43

有自研操作系统挺好的啊，那些乱喷的人是什么心态？

来开源啊 2024-09-14 15:07

25× 23.1 √

liming0101 2024-09-10 09:09

什么纳吉东西，还碰瓷黑神话

vb2005xu 2024-09-14 10:17

这数据有1%真吗

奶奶灰 2024-09-15 20:28

换kvm 了

字节跳动开源 2024-09-14 16:05

可以的，可以看看发布的一些用户案例

songdragon 2024-08-14 13:11

这个对比的条件还存在好几个问题。 1. solon使用的是smart-http，spring使用的是undertow 2. solon启动本身的自动配置少于spring 这两点就决定了对比的维度不同，性能更好的原因大概率是web服务器、应用配置依赖导致的。如果要拉齐，需要使用同样的web服务器，spring应用排除掉所有的自动配置，只保留web必须的，才能说明框架的性能差距。现在这个结果，无法说明solon本身性能好。

Francesca 2024-09-15 17:30

会不会是你用的版本比较老，新版本应该没问题

yh2216 2024-09-14 10:26

猜测：c++部分应该是切换了鸿蒙的系统api，UI则仅仅是使用鸿蒙的UI框架而已。

浪_客 2024-09-15 12:54

继续用vm吧，ensp不让用新版vbox😂

误解一：服务可用性

误解二：故障

误解三：根本原因

误解四：根因定位

误解五：业务监控

总结

热门内容

全站热门评论

关于作者

作者的专辑

作者的其它热门文章

热门资讯

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号

服务稳定性保障的五大误解

误解一：服务可用性

误解二：故障

误解三：根本原因

误解四：根因定位

误解五：业务监控

总结

热门内容

全站热门评论

关于作者

作者的专辑

作者的其它热门文章

热门资讯

推荐关注

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号