没有不宕机的大厂

Summer_Rebecca · 发表于 2023-5-14 15:58:56

没有 100% 的稳妥，但大厂的宕机来得还是如此频繁。5 月 11 日，苹果 iCloud 账户与登录、iCloud 邮件等功能在 15:27-16:10 发生超过 40 分钟服务故障，虽然只是部分用户，但影响范围遍及全球。
苹果不是第一个被用户质问的大厂。与苹果同为海外科技巨头的 Facebook，过去几年也屡出事故，2021 年 10 月 4 日和 8 日，Facebook 连续两次出现全球性宕机，合计时长超过 9 个小时。在国内，最近半年时间，阿里云、微信等大厂先后发生产品故障。2022 年 12 月中旬阿里云香港机房宕机超过 10 个小时；2023 年 3 月底，微信、QQ 等业务出现大面积功能异常。
由于产业链纵深关联，大厂宕机带来的影响是实打实的。这就难怪今年 4 月 12 日，工信部信息通信管理局听取腾讯关于 "3 · 29" 微信业务异常情况汇报，要求腾讯坚决避免发生重大安全生产事故，切实提升公众业务安全稳定运行水平。
宕机引发用户关注，考验大厂的态度，更考验大厂的能力。以往外界想当然或者大厂自我标榜的安全水平，在现实面前不堪一击。
宕机，一方面冲击用户对企业的信任度：如腾讯、苹果这般数千亿上万亿美元的企业，有人才有资金有技术，何至于还会发生这些技术故障？如果态度没问题，能力就无法自圆其说；另一方面，科技大厂代表的不只是自己，还是新技术新趋势的引领者。阿里云香港机房的长时间故障，吓坏了自家客户，也给云计算 " 是否真的那么好 " 蒙上了一层不确定。
宕机真的不可避免吗？以现阶段的主流技术方案，答案是残酷的，宕机真的无法避免。原因多种多样，最核心的一点无法避开：不管本地计算还是云计算，互联网服务最终指向的都是数据中心。而全球多数数据中心仍以中心化数据储存机制为主，批量计算机和服务器组成中心节点，这种物理属性决定了数据中心无法规避外界因素，也就无法做到永不宕机。
对宕机无法容忍，却无法做到永不宕机，企业能努力的就是灾备，上述大厂的宕机事故，恰恰是灾备能力没有达到预想中的状态。
某种意义上，企业越大，产品（功能）越多，技术越新，发生技术 BUG 的可能性反而越大。因此，大厂之 " 大 " 在产品和数据安全层面是把双刃剑，好的一面是，在与竞争对手的 PK 中，能够提供更顺滑的用户体验和信任层面的安全加持；但坏的一面是，新功能新技术的试水，数据指数级的起伏，都会带来安全事故的概率增大。
有些合乎逻辑的 " 失误 " 能够理解，比如某个热搜发酵之时微博的宕机，" 双 11" 抢购潮中的付款拥堵 …… 企业没能准确预料流量峰值，多加几组服务器就能解决。而有些事故之所以成为事故，如开篇所列例子，关键还是大厂的灾备能力远没有所言得那么强大。

账号		自动登录	找回密码
密码			立即注册