close
整理 | Tina
來源 | InfoQ 公眾號
這一年,那些「崩潰」過的互聯網企業。

這一篇文章可以說是吃瓜文章,我們來吃一下去年互聯網中都有哪些"宕機"的瓜。

互聯網技術發展到了 2022 年,理論上來說是可以做到「永不宕機」的。但過去的 2021 年,宕機事故看起來一點也沒有減少。

隨着「國民級應用」增多,大家對技術的依賴程度越來越高,面臨的風險比以往任何時候都多。宕機影響的不僅是內部用戶,連帶還會影響到客戶和合作夥伴的收入、信譽和生產力等各個方面。

宕機事故不可預測,因此它也被稱為系統中的「黑天鵝」。當前大型互聯網系統架構日趨複雜,穩定性風險也在升高,系統中一定會有一些黑天鵝潛伏着,只是還沒被發現。然而墨菲定律告訴我們「該出錯的終究會出錯」。我們整理了 2021 年發生的十個重大宕機事件,並總結了故障原因。這些故障大部分是人為造成的,並且依然是我們在系統建設中需要特別注意的地方。

1國內宕機事件:交待清楚故障原因也是一種能力
B 站崩潰,讓年輕人無心睡覺

7 月 13 日晚間,視頻網站嗶哩嗶哩(B 站)出現服務器宕機事故,無法登陸的用戶湧向其它站點,連鎖導致了一系列宕機事故。「B 站崩了」、「豆瓣崩了」、「A 站也崩了」、「晉江崩了」等接連衝上了熱搜。

據數據顯示,當時 B 站月活用戶為 2.23 億,其中 35 歲及以下的用戶比重超過 86%。顯然這些年輕人非常能熬夜,雖然宕機發生在深夜,但是大家吵吵鬧鬧地分析原因甚至還驚動了消防局。有網友認為「B 站崩了是因為有火情發生」,上海消防回覆說:「經了解,位於上海市政立路 485 號國正中心內的嗶哩嗶哩彈幕網 B 站(總部)未出現火情,未接到相關報警。具體情況以站方公布為準。」

半夜 2 點之後,B 站終於發了一個非常簡短的說明:「部分服務器機房發生故障,造成無法訪問。」

只是 B 站這個解釋,像是什麼都說了,又像是什麼都沒說。

富途證券服務中斷,創始人發 2000 字硬核長文解釋技術故障

10 月 9 日凌晨,互聯網券商富途證券 App 出現故障,用戶無法登錄進行交易。到了下午,富途證券發布了相關說明並致歉。富途證券表示,事故原因為「運營商機房電力閃斷導致的多機房網絡故障」,公司已於第一時間聯繫運營商進行修復,並在 2 小時內陸續恢復核心服務。

這次宕機本來並未引起證券行業之外的關注,但是隨後富途創始人李華(葉子哥)的文章卻讓這次宕機事件火出了圈。11 日中午,技術出身的李華發布了一篇 2000 字長文,向用戶致歉,文章里更多的篇幅卻是從技術角度解釋為什麼會「宕機」。

雖然和 B 站一樣是因為服務器機房故障,李華卻從容災設計的各個環節給了大家詳細的說明。

李華表示,富途的證券系統中從行情到交易、從服務器到交易網關到網絡傳輸都有做雙路或多路的冗餘設計。不同的子系統設計會有所不同。以行情為例,單向傳輸為主、對時延的敏感度也不是那麼高,富途很早就作了多區域多 IDC 的容災設計;尤其像美股行情,涉及到越洋傳輸,為避免中斷,富途選擇了全球頂級的兩家行情供應商分別提供行情源,分別從美國、香港多地多點接入,當這些都不可用時,富途還保留了富途美國 IDC 直傳的能力。不考慮其他的冗餘設計,光是因為行情源的冗餘,富途一年增加的成本過千萬港元。

李華指出,在實時熱備的多路冗餘交易系統的設計上會面臨着兩種選擇。一是較差的交易性能更大的訂單延時但更好容災能力的跨 IDC 多路冗餘方案,二是更好的交易性能較小的訂單提交延時單一 IDC 的多路冗餘方案,但 IDC 本身會成為故障的單點。這也間接導致了一定要做出選擇。在李華看來,考慮到 IDC 的建設標準,IDC 的大級別事故是罕見的,尤其是在電力故障方面。經過綜合推演之後,富途選擇了更好性能的方案二,也因此留下了 IDC 的單點故障隱患。這次事故恰恰就是 IDC 出了問題,而且是最不應該出現問題的電力系統出了問題,不間斷電源和柴油發電機都沒能發揮應有的作用。

李華的硬核文章也得到了很多富途證券用戶的支持和鼓勵。

西安「一碼通」半個月崩潰兩次

2021 年 12 月 20 日,西安「一碼通」因訪問量過大導致系統崩潰。當時西安市大數據資源管理局稱,「一碼通」註冊用戶已達 4695.2 萬人,日均掃碼量超 800 萬人次。由於在各公共場所加大了掃碼查驗,同時開展多輪全員核酸檢測,「一碼通」每秒訪問量達到以往峰值的 10 倍以上,並建議市民非必要不展碼、亮碼。

2022 年 1 月 4 日上午 9 時,西安「一碼通」第二次崩潰。西安市開啟新一輪核酸篩查,許多西安網友反應,「西安一碼通」系統再次崩潰,無法顯示疫情防控碼。話題 # 西安一碼通 # 一度衝上微博熱搜第一。西安市相關部門公開回應稱,因訪問量太大,全市「一碼通」均出現無法正常顯示的問題。當天下午西安「一碼通」已經逐步恢復正常使用。

據了解,西安「一碼通」是 2020 年 2 月西安市針對疫情防控牽頭開發的大數據平台,業主單位是西安市大數據資源管理局。據工信部官網 1 月 4 日的報道,12 月 30 日 -31 日,工信部曾對陝西省通信管理局展開疫情防控工作調研,並要求西安「一碼通」加強技術改進和網絡擴容,確保不擁塞宕機。

碰巧的是,2022 年 1 月 10 日上午 8:30 左右,不少用戶反映「粵康碼」打不開了。上午 10:00 之後,情況逐漸得到緩解。隨後,「粵康碼」App 發布了一個很專業的官方說明。

今天(10 日)上午 8:31,平台監測到粵康碼流量異常增大,最高達每分鐘 140 萬次,超出承載極限,觸發系統保護機制,導致部分用戶訪問粵康碼緩慢或者異常,運行保障團隊緊急處置,於 9:04 部分緩解,9:56 完全恢復順暢運行。由此給您帶來不便,敬請諒解!
2國際宕機事件:小 Bug 引起大麻煩
Facebook 史上最嚴重宕機,市值一夜蒸發三千億

10 月 4 日,美國社交媒體 Facebook、Instagram 和即時通訊軟件 WhatsApp 出現大規模宕機,此次宕機長達近 7 個小時,刷新了 Facebook 自 2008 年以來的最長宕機時長。

WhatsApp 和 Facebook Messenger 兩款「微信」類即時通信產品,分別在全球範圍擁有 20 億用戶和 13 億用戶,社交平台 Instagram 用戶數也達到了 10 億用戶,也就是說這次宕機影響了超 30 億用戶。宕機期間,絕望的用戶湧向了 Twitter、Discord、Signal 和 Telegram,又導致這些應用程序的服務器紛紛崩潰。

Facebook 事後發表了故障報告,表示在一項日常維護工作中,工程師們發出一條用於評估全球骨幹網容量可用性的指令,但意外切斷了骨幹網絡中的所有連接,這實質上就是斷開了 Facebook 全球數據中心之間的連接。服務中斷之後,Facebook 的工程師們因無法通過正常方式訪問 Facebook 數據中心進行修復,導致故障持續了 7 個小時之久。

據悉,這次事故讓臉書一夜之間市值蒸發約 473 億美元 (約合 3049 億元人民幣)。

Roblox 發生超長宕機,表示關鍵業務堅決不上雲

10 月 28 日,Roblox 發生了一次長達 73 小時的宕機事故。Roblox 是目前在全球範圍內備受歡迎的在線遊戲平台,日活躍用戶超過 5000 萬,其中許多人的年齡在 13 歲或以下。值得一提的是,Roblox 還被認為是「元宇宙」(metaverse)的關鍵參與者。

Roblox 隨後發布了非常詳細的故障報告。在報告中,Roblox 的技術人員解釋到,Roblox 程序運行在他們自己的數據中心中。為了管理自己眾多的服務器,Roblox 使用了開源 Consul 進行服務發現、健康檢查。Roblox 表示宕機主要是因啟用了 Consul 里的流式傳輸功能代替長輪詢機制,但流式傳輸功能存在 bug,最終導致性能下降而引起系統崩潰。宕機 54 個小時後才排查出故障原因,通過禁止流式傳輸功能,逐漸恢復了系統的服務能力。

在這樣的服務中斷之後,很多人很自然地詢問 Roblox 是否會考慮遷移到公共雲,讓第三方管理 Roblox 的基礎計算、存儲和網絡服務。

Roblox 技術人員表示,與使用公有雲相比,自建數據中心能夠顯着控制成本。此外,擁有自己的硬件並構建自己的邊緣基礎設施能使 Roblox 最大限度地減少性能變化並管理全球玩家的延時。但也並不拘泥於任何特定的方法:「我們將公共雲用於對我們的玩家和開發人員最有意義的用例,例如突發容量、大部分 DevOps 工作流程以及大部分內部分析。但對於對性能和延遲至關重要的工作負載,我們選擇在本地構建和管理自己的基礎架構。這樣才能使我們能夠建立一個更好的平台。」

Salesforce 工程師走捷徑修 Bug 引起全球大宕機

Salesforce 是目前最受歡迎的雲軟件應用程序之一。據報道該軟件應用程序已被全球大約 150,000 個組織中的數百萬名員工使用。Salesforce 提供的服務涉及客戶關係管理的各個方面,從普通的聯繫人管理、產品目錄到訂單管理、機會管理、銷售管理等。用戶無需花費大量資金和人力用於記錄的維護、儲存和管理,所有的記錄和數據都儲存在 Salesforce.com 上面。

5 月 11 日,Salesforce 的服務開始不可用,宕機持續了 5 個小時。事後,Salesforce 公司組織了一次客戶簡報會,完整披露了事件情況與相關工程師的操作流程。雖然 Salesforce 向來以高度自動化的內部業務流程為傲,但其中不少環節仍然只能手動操作完成——DNS 正是其中之一。工程師使用的配置腳本執行一項配置變更,變更後需要重啟服務器生效,不幸的是,腳本更新發生超時失敗。隨後更新又在 Salesforce 各數據中心內不斷部署,超時點也被不斷引爆...... 對這位決心繞開既有管理政策、意外肇事的工程師本人,Salesforce 表示「我們已經對這位員工做出了適當處理。」

3雲計算相關服務提供商:一旦出岔子,「爆炸半徑」就很大!
雲計算巨頭 OVH 數據中心失火,360 萬個網站被迫下線

3 月份,歐洲雲計算巨頭 OVH 位於法國斯特拉斯堡的機房近日發生嚴重火災,該區域總共有 4 個數據中心 (Strasbourg Data Center),發生起火的 SBG2 數據中心被完全燒毀,另有一個數據中心 SBG1 的建築物部分受損。當地報紙稱 115 位消防員投入 6 個小時才將其撲滅。經過長達 6 個小時的持續燃燒,SBG2 內的數據應該會損失慘重。

這場大火對歐洲範圍內的眾多網站造成嚴重影響。據悉,總共有跨 464000 個域的多達 360 萬個網站下線。

受到此次大火影響的客戶包括歐洲航天局的數據與信息訪問服務 ONDA 項目,此項目負責為用戶託管地理空間數據並在雲端構建應用程序。Rust 旗下的遊戲工作室 Facepunch Studios 證實,有 25 台服務器被燒毀,他們的數據已在這場大火中全部丟失。即使數據中心重新上線後,也無法恢復任何數據。其他客戶還包括法國政府,其 data.gouv.Fr 網站也被迫下線。另外還有加密貨幣交易所 Deribit,以及負責跟蹤 DDoS 殭屍網絡與其他網絡濫用問題的信息安全威脅情報廠商 Bad Packets......

其中還有些人很不走運:「不!!!我靠!!!我的服務器在機架 70C09 上,我就是個普通客戶,我沒有任何災難恢復計劃……」

搞癱全球大半個互聯網,Fastly 是何方神聖?

6 月 8 日,當全球各地數以億計的互聯網用戶登陸自己平日經常登陸的網站時,發現頁面無法打開,並出現了「503 Errors」的錯誤提示,包括亞馬遜、Twitter、Reddit、Twitch、HBO Max、Hulu、PayPal、Pinterest 以及包括紐約時報、CNN 等在內的各種類型的網站均悉數中招。

大約持續了一個小時之後,人們才發現這場大規模故障是由 CDN 服務公司 Fastly 引起的。Fastly 通過其官方推特和博客稱,「我們發現一個服務配置的更改引發了全球服務的短暫中斷,目前已將這一配置關閉,我們全球服務網絡已恢復正常。」

於 2011 年成立的 Fastly 是全球為數不多的大型 CDN 供應商之一,可加快用戶瀏覽速度和體驗。有意思的是,出問題之後 Fastly 的股價在當天出現大漲,因為通過這起事件,投資者意識到,這家總部位於舊金山,員工數不到 1000 人的小公司,對互聯網世界有着舉足輕重的影響力。

谷歌雲全球宕機 2 小時

11 月 16 日,據國外媒體報道,全球最大的雲服務提供商之一谷歌雲(Google Cloud)出現了宕機,導致許多依賴於谷歌雲的大型公司網站中斷服務。

中斷持續約 2 個小時,其中包括家得寶、Spotify 等公司都接到用戶關於服務中斷的反饋,另外 Etsy 和 Snap 的服務也發生網絡故障。此外本次宕機對谷歌自家服務影響頗深,YouTube、Gmail、Google Search 均停止了工作。

據悉此事件是谷歌雲用戶錯誤配置外部代理負載平衡 (GCLB) 所導致,算是一個漏洞,在 6 個月前被引入,極少數情況下,該漏洞允許損壞的配置文件被推送到 GCLB。11 月 12 日,一位 Google 工程師就發現此漏洞。谷歌原計劃於 11 月 15 日推出補丁,但是不巧的是還沒修復完,服務中斷就發生了。

AWS 一個月內發生 3 次宕機

在 2021 年的最後一個月,AWS 發生了 3 次宕機。第一次宕機發生美國東部時間 7 日,從上午 10 點 45 分持續到下午 2 點 22 分,包括迪斯尼、奈飛、Robinhood、Roku 等大量熱門網站和應用都發生了網絡中斷。同時,亞馬遜的 Alexa AI 助理、Kindle 電子書、亞馬遜音樂、Ring 安全攝像頭等業務也受到影響。

12 月 10 日,AWS 公布了本次宕機的原因:某內部客戶端的意外行為導致連接活動激增,使內部網絡和主 AWS 網絡之間的聯網設備不堪重負,從而導致這些網絡之間的通信延遲。這些延遲增加了在網絡之間通信的服務延遲和錯誤,從而導致更多的連接嘗試和重試,最終引發持續的堵塞和性能問題。

12 月第二次宕機發生在 16 日上午 7 點 43 分左右,包括 Twitch、Zoom、PSN、Xbox Live、Doordash、Quickbooks Online 和 Hulu 等在線服務均受到影響。AWS 隨後公布了故障原因:由於主網絡中某自動化軟件原因,錯誤得將一些流量轉移到主幹網,結果影響了一些互聯網應用的連接。

12 月第三次宕機發生在 23 日美國東部時間 7 點 30 分左右,包括 Slack、Epic Games、加密貨幣交易所 Coinbase Global、遊戲公司 Fortnite 、約會應用程序 Grindr 和交付公司 Instacart。對於此次中斷,AWS 初步調查稱是數據中心供電的問題。

最後,希望 2022 年大家都不會經歷宕機~

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()