美国电信运营商Level 3因BGP故障引起“断网”事故

   日期:2020-09-03     浏览:89    评论:0    
核心提示:2020年8月30日,美国电信运营商Level 3经历了一次严重的网络中断。Level 3是美国六个骨干网之一,为北美、拉丁美洲和欧洲的很多互联网运营商提供核心 IP、语音、视频和内容传输。在Level 3网络中断期间全球流量下降了3.5%,导致北美、欧洲很多互联网用户在长达4小时时间内无法访问亚马逊、hulu、playstation network等网站。下图显示了事故发生前后,Cloudflare网络和美国六个骨干网运营商之间的流量变化。红色部分是Level 3的流量,在事件发生期间流量降至接近于零

2020年8月30日,美国电信运营商Level 3经历了一次严重的网络中断。Level 3是美国六个骨干网之一,为北美、拉丁美洲和欧洲的很多互联网运营商提供核心 IP、语音、视频和内容传输。在Level 3网络中断期间全球流量下降了3.5%,导致北美、欧洲很多互联网用户在长达4小时时间内无法访问亚马逊、hulu、playstation network等网站。

下图显示了事故发生前后,Cloudflare网络和美国六个骨干网运营商之间的流量变化。红色部分是Level 3的流量,在事件发生期间流量降至接近于零。稍后Cloudflare启动了流量调度功能,自动将被阻断的Level 3流量重路由到其他网络供应商,如Cogent、NTT、GTT、Telia等,以减轻影响,确保流量的正常流动。

本次事故原因分析

在事故发生之初,全球的域间路由系统中出现了大量的BGP更新消息,所占流量约是正常情况下的十几倍。BGP更新消息由边界路由器发出,用来表示路由已经更改或不再可用。

这些更新显示了Level 3骨干网中BGP路由的不稳定。Level 3已经承认是由于一个错误的Flowspec规则导致了这种BGP异常。Flowspec是BGP协议的一个扩展,它使得防火墙规则可以很容易地在一个网络内部分发,或在多个网络之间分发。

Cloudflare工作人员由此推测该Flowspec规则原本试图阻止针对Level 3网络的某些攻击,但事与愿违的阻断了所有BGP路由的传递,因此导致BGP更新消息数量飙升。而在长达几小时时间内全球BGP更新消息的流量都保持较高水平,可能是因为发生了循环攻击,即Level 3的每一个接收到Flowspec规则的路由器会阻断BGP路由传播,这导致他们停止接收Flowspec规则。于是这些路由器会重新启动,再次按照BGP规则运行,直到再次触犯这个Flowspec规则,那么BGP就又被阻断……该过程会一遍又一遍的循环下去。在每一个循环周期中,BGP更新消息会在Level 3网络中积累,导致路由器的内存和CPU超载,从而加大了恢复网络的难度。

恢复所花时间为何如此之长?

毫无疑问这是一次重大的全球互联网中断,Level 3团队马上就收到了警报。作为一个世界级的骨干网运营商,为什么他们花了四个多小时才解决这个问题呢?据Cloudflare推测,首先,可能是因为Flowspec规则和大量BGP更新对路由器造成的严重负载使得它们很难访问自己的接口,从而无法修改路由规则以应对该事故。其次,该Flowspec规则可能不是由Level 3自己发布的,而是由他们的某个客户发布的。当出现问题时,对违规的Flowspec规则的溯源就变得困难。

参考资料

https://blog.cloudflare.com/analysis-of-todays-centurylink-level-3-outage/

 

 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服