宕机–科技不能承受之重

本周是美国独立日的重要日子,本是举国欢庆的时候,但是很多人却高兴不起来,因为就在独立日的当天 Apple与 FB完成了一次完美的宕机接力。

虽然这一次Apple’s Cloud宕机并未涉及到Apple的核心业务,但依旧影响许多用户的正常使用,甚至有些用户在Twitter上报告称App store 和 部分第三方应用受到了影响。

而就在前一秒FB的图片服务也遭遇宕机,许多用户无法打开图片,这一服务影响到了FB旗下 Facebook、Instgram 和 WhatsApp多个应用,而这 以问题官方的说法和今年三月份的遭遇一样是由于遭遇大面积停电导致。

为什么这些科技巨头任然会宕机,不是有分布式,不是有灾备么?

什么微服务,什么智能预警,面对停电全都拉闸。

诚然电力问题无疑是本世纪最大的问题。

而与此同时各类虚拟货币的生产正在消耗着巨大的电力资源!!!

据研究报告称Bitcoin一年的消耗的电量比整个瑞士的耗电量还多。

说回停电问题,美国的电网系统由于建设早、网路简单、智能化水平较低加上供应商多,电力系统抗灾能力较差,在电网遭遇电力波动时容易出现大面积停电。

难道这些服务器机房就没有应急供电?

很显然是有的,但在遭遇如此大规模的停电,是服务器必须优先保证核心业务的稳定,将有限的电力投入到核心业务的保障上。

但是非核心业务的影响显然被低估。

一个优秀的产品无疑是建立在无数优秀的细节上的,而当这些细节被破坏时,他的优秀自然也会蒙上阴影。

甚至有些看似细节的东西,其实已经是整个产品的核心,没有照片的FB我不知道访问它还有什么意义,更别提以照片为和核心的Instgram 。

但是架构师在设计的时候显然是将图片服务单独作为一个项目在运作,为FB旗下的三个APP应用服务。这种看似美好的解耦设计,反而导致了在一个图片服务受影响时会影响到三个APP,这难道不是另一种意义上的耦合嘛?

就如同一个ICloud的宕机绝不会只是单单影响到ICloud的相关业务,其他相关的第三方应用也会受到牵连。

而从这几次的恢复时间也可以看出,这种庞大的服务集群修复过程也是极其漫长的。

而最惨的莫不过于去年腾讯云服务的硬盘BUG!

系统架构的设计就是不断的在正反中演进,就像数据库设计有范式又有反范式,正如软件的本质就是0和1 一样。在架构的设计中过分的追求正或反都会带来无法想象的灾难,正确的衡量两者带来的影响才是设计的关键。

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *