
來源:內容來自半導體行業觀察(ID:icbank)編譯自NYT,謝謝。
想象一下,為世界上最大的數據中心提供動力的服務器內的數百萬個計算機芯片存在罕見的、幾乎無法檢測到的缺陷。發現缺陷的唯一方法是將這些芯片投入到巨大的計算問題上,這在十年前是不可想象的。隨着計算機芯片中的微型開關已經縮小到幾個原子的寬度,芯片的可靠性已成為運行世界上最大網絡的人們的另一個擔憂。去年,亞馬遜、Facebook、Twitter 和許多其他網站等公司都經歷了令人驚訝的中斷。中斷有幾個原因,例如編程錯誤和網絡擁塞。但人們越來越擔心,隨着雲計算網絡變得越來越大、越來越複雜,它們在最基本的層面上仍然依賴於現在不太可靠、在某些情況下更難以預測的計算機芯片。在過去的一年裡,Facebook 和谷歌的研究人員都發表了描述計算機硬件故障的研究,這些故障的原因不容易確定。他們認為,問題不在於軟件,而在於不同公司製造的計算機硬件的某個地方。谷歌拒絕對其研究發表評論,而 Facebook 沒有回覆對其研究發表評論的請求。「他們看到了這些無聲的錯誤,基本上來自底層硬件,」專門測試計算機硬件的斯坦福大學電氣工程師 Subhasish Mitra 說。Mitra 博士說,人們越來越相信製造缺陷與這些不易被發現的所謂無聲錯誤有關。研究人員擔心他們會發現罕見的缺陷,因為他們正試圖解決越來越大的計算問題,這會以意想不到的方式給他們的系統帶來壓力。十多年前,運行大型數據中心的公司開始報告系統性問題。2015 年,在工程出版物IEEE Spectrum中,一群在多倫多大學研究硬件可靠性的計算機科學家報告說,每年穀歌數百萬台計算機中有多達 4% 遇到無法檢測到的錯誤並導致他們意外關閉。在一個擁有數十億個晶體管的微處理器中——或者一個由數萬億個微型開關組成的計算機內存板中,每個微型開關都可以存儲一個 1 或 0——即使是最小的錯誤也會破壞現在通常每秒執行數十億次計算的系統。在半導體時代初期,工程師們擔心宇宙射線偶爾會翻轉單個晶體管並改變計算結果的可能性。現在他們擔心開關本身越來越不可靠。Facebook 研究人員甚至爭辯說,這些開關變得越來越容易磨損,並且計算機內存或處理器的壽命可能比以前認為的要短。越來越多的證據表明,隨着每一代新一代芯片的出現,這個問題都在惡化。芯片製造商 Advanced Micro Devices 於 2020 年發布的一份報告發現,當時最先進的計算機內存芯片的可靠性大約比上一代低 5.5 倍。AMD 沒有回應對該報告發表評論的請求。資深硬件工程師大衛·迪策爾 (David Ditzel) 說,追蹤這些錯誤具有挑戰性,他是 Esperanto Technologie公司的董事長兼創始人,該公司是加州山景城為人工智能應用設計的新型處理器的製造商。他說,他的公司的新芯片剛剛上市的 1,000 個處理器由 280 億個晶體管組成。他將芯片比作一座橫跨整個美國表面的公寓樓,發現新錯誤有點像在那棟樓的一間公寓裡尋找一個正在運行的水龍頭,只有當臥室燈亮着並且公寓門打開時才會出現故障。到目前為止,計算機設計人員一直試圖通過在芯片中添加特殊電路來糾正錯誤來處理硬件缺陷。電路自動檢測和糾正不良數據。它曾經被認為是一個極其罕見的問題。但幾年前,谷歌生產團隊開始報告難以診斷的錯誤。根據他們的報告,計算錯誤會間歇性發生並且難以重現。一組研究人員試圖追查這個問題,去年他們發表了他們的發現。他們得出的結論是,該公司龐大的數據中心由基於數百萬個處理器「內核」的計算機系統組成,正在經歷新的錯誤,這可能是幾個因素的組合:接近物理極限的較小晶體管和測試不足。谷歌研究人員在他們的論文「不重要的核心」中指出,這個問題非常具有挑戰性,以至於他們已經投入了相當於數十年的工程時間來解決它。現代處理器芯片由數十個處理器內核組成,計算引擎可以分解任務並並行解決它們。研究人員發現,一小部分核心很少會產生不準確的結果,而且僅在某些條件下才會產生。他們將這種行為描述為零星的。在某些情況下,只有在計算速度或溫度發生變化時,內核才會產生錯誤。據谷歌稱,處理器設計複雜性的增加是失敗的重要原因之一。但工程師們也表示,較小的晶體管、三維芯片和僅在某些情況下會產生錯誤的新設計都導致了這個問題。在去年發布的一篇類似論文中,Facebook 的一組研究人員指出,一些處理器會通過製造商的測試,但在投入使用時就開始出現故障。英特爾高管表示,他們熟悉谷歌和 Facebook 的研究論文,並正在與兩家公司合作開發檢測和糾正硬件錯誤的新方法。英特爾數據平台集團副總裁 Bryan Jorgensen 表示,研究人員所做的斷言是正確的,「他們對行業提出的挑戰是正確的去處。」他說英特爾最近啟動了一個項目,幫助為數據中心運營商創建標準的開源軟件。該軟件將使他們能夠發現並糾正芯片內置電路未檢測到的硬件錯誤。去年,當英特爾的幾位客戶悄悄地發出警告稱他們的系統產生了未檢測到的錯誤時,這一挑戰就凸顯出來了。全球最大的個人電腦製造商聯想告知其客戶,幾代英特爾至強處理器的設計變化意味着這些芯片可能會產生比早期的英特爾微處理器更多的無法糾正的錯誤。英特爾沒有公開談論這個問題,但喬根森先生承認了這個問題,並表示它已經得到糾正。此後,該公司改變了設計。計算機工程師對於如何應對挑戰存在分歧。一種普遍的反應是對新型軟件的需求,這些軟件可以主動監視硬件錯誤,並使系統操作員能夠在硬件開始退化時將其移除。這為提供監控數據中心底層芯片健康狀況的軟件的新初創企業創造了機會。加利福尼亞州洛斯加托斯的一家公司 TidalScale 就是這樣的一家公司,該公司為試圖將硬件中斷最小化的公司提供專門的軟件。其首席執行官 Gary Smerdon 表示,TidalScale 和其他公司面臨着嚴峻的挑戰。*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。
今天是《半導體行業觀察》為您分享的第2945內容,歡迎關注。
★國產射頻前端,攀登新高峰
★半導體缺人,不僅僅出現在中國
★UWB芯片熱潮乍起
『半導體第一垂直媒體』
實時 專業 原創 深度
識別二維碼,回復下方關鍵詞,閱讀更多
晶圓|集成電路|設備|汽車芯片|存儲|台積電|AI|封裝
回復 投稿,看《如何成為「半導體行業觀察」的一員 》
回復 搜索,還能輕鬆找到其他你感興趣的文章!