扎克伯格的个人财富一天蒸发超过60亿美元。
在被指控“从放大仇恨言论的算法中获利”后不久,脸书再次陷入危机。
美国东部时间10月4日上午11点39分左右,美国社交媒体脸书、instagram和即时通讯软件WhatsApp出现大规模宕机,持续了近7个小时,创下了脸书自2008年以来最长宕机时间的新纪录。
美国互联网监测网站downdecotors的监测显示,脸书在欧美和大洋洲几乎完全离线,在日韩印等亚洲国家也无法访问。据报道,“微信”即时通讯产品WhatsApp和Facebook Messenger在全球分别拥有20亿和13亿用户,社交平台instagram的用户数也达到了10亿。
除了给数十亿用户带来麻烦,脸书的服务中断还导致其员工无法使用内部工具进行沟通。脸书的电子邮件和工具是内部管理的,许多脸书员工不经常工作。
脸书首席技术官迈克·斯科洛普夫在推特上道歉。
一个指令引发的“血案”
脸书表示,故障的根本原因是日常维护工作发出的错误命令,导致其DNS服务器无法使用,切断了脸书整个骨干网与数据中心的连接。
所谓的主干网是脸书为所有计算设施建立的全球连接网络。它由数万英里长的光缆组成,跨越世界各地,连接世界各地的数据中心。脸书基础设施副总裁Santosh Janardhan在文章中解释说,数据中心主要有两种形式:一种是存储数百万数据存储和高强度计算负载运行设备的“巨大建筑”,另一种是通过骨胳网络连接整个互联网的小型设备,构建脸书社交平台的方方面面。
当用户打开应用程序并加载摘要或消息时,应用程序提出的数据请求将从当前设备传输到最近的设施,然后通过骨干网络直接与更大的数据中心通信。应用程序所需的信息会在这些数据中心被检索和处理,然后结果会通过网络发回用户的手机。
维护基础设施的日常工作非常繁重。工程师通常需要离线维护部分主干,包括修复光纤线路、扩容或更新路由器自带软件。这也是停电的原因。
Janardhan表示,在一次例行维护工作中,工程师发出了评估全球骨干网络容量可用性的指令,但意外切断了骨干网络中的所有连接,这本质上是脸书全球数据中心之间的断开。不幸的是,脸书的系统旨在审查此类指令以防止错误,但其功能是发送错误提示,但不能真正停止指令的执行。
事故导致脸书数据中心与互联网的服务器连接完全断开,带来一系列连锁效应,使情况进一步恶化。
在此关闭事件中,由于整个主干网络已经瘫痪,每个DNS服务器位置都报告了连接状态问题,边界协议(BGP)通知被取消。最终的结果是,虽然脸书的DNS服务器仍在运行,但不经常访问,所以其他互联网用户不经常访问它的服务器。
响应DNS查询是小型机构的一项重要任务。DNS可以称为互联网的通讯录,它可以将用户在浏览器中输入的简单网络名称转换成特定的服务器IP地址。这些翻译查询由脸书权威的域名服务器回答,这些服务器本身占据了最著名的IP地址。接下来,这些服务器通过边界协议(BGP)通知互联网的其余部分。为了保证运行的可靠性,如果DNS服务器本身无法与数据中心通信,所有BGP公告将被禁用,表明当前网络连接状态不正确。
简而言之,脸书拿走了告诉世界计算机如何找到各种在线资产的地图。因此,当在网络浏览器中输入facebook.com时,浏览器不知道在哪里可以找到facebook.com,所以它会返回一个错误页面。
为什么不能及时修复?
为什么故障持续了近七个小时?
Janardhan表示,工程师们在修复这一故障时面临两大障碍:首先,脸书的工程师们由于主干网络的故障而无法正常访问他们的脸书数据中心;其次,DNS没有响应,这使得脸书无法使用常规的内部工具来调查和解决停机问题。
接入骨干网和带外网失败,意味着工程师只能去现场调试,尝试重启系统。但这需要时间,因为各地的设施都遵循高级别的物理和系统安全政策。
不正确的更新将阻止脸书员工恢复和更改系统,他们中的大多数都是远程工作。与此同时,那些能够真正参观脸书大楼的人无法访问脸书的内部工具。
“任何人都很难进入,一旦进入并获得物理访问权,这些硬件和路由器的设计也很难修改。因此,需要花费更多的时间来引导工程师进入机房,并为他们提供在服务器上工作所需的安全访问协议。Janardhan写道,只有在这种情况下,“我们才能确认问题,并使主干恢复在线。" .
有专家估计,脸书、instagram和WhatsApp的全球服务中断一小时,将给全球经济造成1.6亿美元的损失。与此同时,脸书的股价当天暴跌6%,扎克伯格的个人财富每天蒸发超过60亿美元。
每天晚上都下雨。在脸书全球网络服务中断期间,据说黑客论坛出售了超过15亿脸书用户的数据。然而,脸书否认用户数据泄露与服务中断有关。
Janardhan说:“我们希望澄清,这次关闭背后没有恶意活动。根本原因是我们错误的配置更改。我们也没有证据表明用户数据因此次停机而受损。”。
建筑缺陷
东部时间下午6点33分,脸书在Twitter上宣布,其应用程序和服务已经恢复运行。每个数据中心区域的主干连接恢复后,一切都会恢复。但问题并没有真正结束。
同时重启所有服务会带来新的隐患,因为流量激增可能会导致新一轮的崩溃。个别数据中心还报告称,由于停机,设施的功耗减少了几十兆瓦,排放导致的功耗突然激增可能会对各种设备(如电气系统和缓存)产生意想不到的影响。
Janardhan表示,虽然脸书一直在进行“风暴”演习,将服务、数据中心甚至整个地区离线,并对所有相关的基础设施和软件进行压力测试,以模拟重大系统故障,但没有练习过全球骨干网络的离线情况,未来将找到可行的解决方案。
思科产品营销总监安琪丽可·梅迪纳负责监控互联网流量和故障。她说,这件事暴露了脸书架构的一个短板:如果DNS失败,DNS没有备份,可能是长期的失败。“所以我认为这次事件的一个重要教训就是使用冗余的DNS。”
Medina表示,更健壮的架构将拥有双DNS服务,因此一个DNS服务可以支持另一个。例如,根据Medina的说法,亚马逊(其AWS提供DNS服务)的DNS使用两种外部服务:dyn和ultradns。
同时,停电也使得脸书在反垄断调查中的处境更加糟糕。
美国众议院议员亚历山大·奥卡西奥·科尔特斯(Alexandria ocasio Cortez)表示,脸书的大规模宕机凸显了该公司在全球通信和其他服务领域的垄断地位。该公司在推特上表示,周一脸书的大规模关闭提醒人们,该公司垄断了全球通信和其他服务,并再次表明脸书应该分裂。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。
原文地址"facebook宕机事件原因,facebook发现大规模宕机故障原因":http://www.ljycsb.cn/qukuailian/254099.html。

微信扫描二维码投放广告
▲长按图片识别二维码