Meta 訓(xùn)練 Llama 3 遭遇頻繁故障：16384 塊 H100 GPU 訓(xùn)練集群每 3 小時(shí)“罷工”一次

科技探索者 ? 2024年7月29日 15:24:00 ? AI

近日消息，Meta 發(fā)布的一份研究報(bào)告顯示，其用于訓(xùn)練 4050 億參數(shù)模型 Llama 3 的 16384 個(gè)英偉達(dá) H100 顯卡集群在 54 天內(nèi)出現(xiàn)了 419 次意外故障，平均每三小時(shí)就有一次。其中，一半以上的故障是由顯卡或其搭載的高帶寬內(nèi)存（HBM3）引起的。

Meta 訓(xùn)練 Llama 3 遭遇頻繁故障：16384 塊 H100 GPU 訓(xùn)練集群每 3 小時(shí)“罷工”一次

由于系統(tǒng)規(guī)模巨大且任務(wù)高度同步，單個(gè)顯卡故障可能導(dǎo)致整個(gè)訓(xùn)練任務(wù)中斷，需要重新開始。盡管如此，Meta 團(tuán)隊(duì)還是保持了 90% 以上的有效訓(xùn)練時(shí)間。

在為期 54 天的預(yù)訓(xùn)練中，共出現(xiàn)了 466 次工作中斷，其中 47 次是計(jì)劃中斷，419 次是意外中斷。計(jì)劃內(nèi)的中斷是由于自動(dòng)化維護(hù)造成的，而意外的中斷則主要源于硬件問題。 GPU 問題是導(dǎo)致故障的主要原因，占意外中斷的 58.7%。其中只有三起事件需要大量人工干預(yù)，其余的由自動(dòng)化管理。

在 419 個(gè)意外中斷中，148 個(gè)（30.1%）是由各種 GPU 故障（包括 NVLink 故障）引起的，而 72 個(gè)（17.2%）是由 GPU 的 HBM3 內(nèi)存故障引起的。有趣的是，54 天內(nèi)只有兩個(gè) CPU 發(fā)生故障。41.3% 的意外中斷是由多種因素造成的，包括軟件錯(cuò)誤、網(wǎng)絡(luò)電纜和網(wǎng)絡(luò)適配器。

為提高效率，Meta 團(tuán)隊(duì)開發(fā)了一系列工具和優(yōu)化策略，包括縮短任務(wù)啟動(dòng)和檢查點(diǎn)時(shí)間、利用 PyTorch 的 NCCL 飛行記錄器診斷性能問題、識別拖后顯卡等。此外，Meta 還關(guān)注到了環(huán)境因素的影響，如午間溫度波動(dòng)對 GPU 性能的輕微影響，以及巨量 GPU 同時(shí)運(yùn)行對數(shù)據(jù)中心電網(wǎng)的巨大壓力。

然而，隨著人工智能模型參數(shù)量的不斷增加，所需的計(jì)算資源也隨之?dāng)U大。以 xAI 計(jì)劃中的 10 萬塊 H100 顯卡集群為例，故障率可能會(huì)成倍增長，給未來的 AI 訓(xùn)練帶來更大的挑戰(zhàn)。

原創(chuàng)文章，作者：科技探索者，如若轉(zhuǎn)載，請注明出處：http://rponds.cn/article/670210.html

科技探索者管理團(tuán)隊(duì)

0 0

新聞

英偉達(dá)2025-2026年度博士獎(jiǎng)學(xué)金揭曉：6位華人學(xué)者獲獎(jiǎng)

今日，英偉達(dá)公司公布了其2025-2026年度博士獎(jiǎng)學(xué)金名單，共有10位博士研究生獲此殊榮，其中包括6位華人學(xué)者。此次獎(jiǎng)學(xué)金金額較往年上漲20%，每位獲獎(jiǎng)?wù)邔@得6萬美元的資助。 …

小科同學(xué)
2天前
新聞

英偉達(dá)回應(yīng)Nvidia App致部分游戲性能下降：正全力修復(fù)

當(dāng)?shù)貢r(shí)間周一，Tom’s Hardware對最新的“英偉達(dá)應(yīng)用程序”（Nvidia App）展開測試，結(jié)果發(fā)現(xiàn)該應(yīng)用會(huì)致使某些游戲性能降低最高達(dá) 15%。對此，英偉達(dá)官…

野游栗
5天前
商業(yè)

英偉達(dá)股價(jià)持續(xù)下滑，投資者擔(dān)憂AI支出前景

近日，英偉達(dá)股價(jià)持續(xù)呈現(xiàn)下跌趨勢，周二再跌1.2%，引發(fā)了市場的廣泛關(guān)注。這家全球領(lǐng)先的人工智能芯片制造商的股價(jià)，已從11月初的歷史高峰148.88美元下跌了約12%。據(jù)了解，投…

商業(yè)頭條
5天前
商業(yè)

Meta股價(jià)創(chuàng)新高，扎克伯格年內(nèi)拋售22億美元股票

今年，Meta股價(jià)一路攀升不斷創(chuàng)下新高。在此情形下，Meta聯(lián)合創(chuàng)始人兼首席執(zhí)行官馬克·扎克伯格大量拋售公司股票。據(jù)《財(cái)富》雜志依據(jù)公開交易數(shù)據(jù)的分析，今年扎克伯格出售Meta股票…

商業(yè)頭條
5天前
新聞

Meta要求加州阻止OpenAI轉(zhuǎn)營利計(jì)劃

據(jù)《華爾街日報(bào)》今日報(bào)道稱，Meta已致信加州總檢察長Rob Bonta，要求阻止OpenAI轉(zhuǎn)型為營利性企業(yè)的計(jì)劃。此舉表明，Meta在硅谷兩大AI巨頭間的爭斗中站在了馬斯克一方…

NEWS
2024年12月14日
新聞

英偉達(dá)中國否認(rèn)“斷供”：將持續(xù)為中國客戶提供服務(wù)

近日，NVIDIA技術(shù)服務(wù)（北京）有限公司通過其官方微博@NVIDIA英偉達(dá)中國發(fā)布聲明，針對“NVIDIA對中國市場斷供”的傳聞，英偉達(dá)中國否認(rèn)“斷供”，明確表示該消息為不實(shí)傳聞…

NEWS
2024年12月13日
新聞

美法院拒絕英偉達(dá)投資者訴訟案上訴請求，案件將繼續(xù)審理

近日，美國最高法院拒絕了英偉達(dá)關(guān)于一項(xiàng)投資者集體訴訟的上訴請求。據(jù)了解，該訴訟由投資者發(fā)起，指控英偉達(dá)在加密貨幣市場對其銷售額影響的問題上誤導(dǎo)了股東。信息顯示，該訴訟起源于201…

李森
2024年12月12日
新聞

Counterpoint：2024年Q3全球半導(dǎo)體市場回暖，AI和內(nèi)存需求強(qiáng)勁

近日，市場調(diào)查機(jī)構(gòu)Counterpoint Research發(fā)布報(bào)告稱，2024年第三季度全球半導(dǎo)體市場呈現(xiàn)回暖趨勢，主要得益于人工智能（AI）技術(shù)需求和內(nèi)存市場的復(fù)蘇。報(bào)告顯示…

李小白
2024年12月11日
新聞

英偉達(dá)回應(yīng)反壟斷立案調(diào)查：愿配合監(jiān)管機(jī)構(gòu)

近日，據(jù)國家市場監(jiān)督管理總局通報(bào)，全球知名圖形處理器制造商英偉達(dá)公司因涉嫌違反《中華人民共和國反壟斷法》及相關(guān)審查決定，已被該局依法立案調(diào)查。對此，英偉達(dá)回應(yīng)反壟斷立案調(diào)查表示：愿…

NEWS
2024年12月10日
商業(yè)

英偉達(dá)市值一夜蒸發(fā)6400億元，AI芯片巨頭遭遇市場“滑鐵盧”

美東時(shí)間周一，全球科技巨頭英偉達(dá)遭遇了一場前所未有的市值危機(jī)。據(jù)最新數(shù)據(jù)顯示，芯片龍頭英偉達(dá)收跌2.55%，報(bào)收138.810美元，英偉達(dá)市值一夜蒸發(fā)6400億元。作為AI芯片領(lǐng)…

商業(yè)頭條
2024年12月10日
新聞

涉嫌違反反壟斷法英偉達(dá)被立案調(diào)查

近日，有消息稱，因涉嫌違反反壟斷法，英偉達(dá)被立案調(diào)查。報(bào)道稱，英偉達(dá)公司因涉嫌違反《中華人民共和國反壟斷法》及相關(guān)法規(guī)，被中國國家市場監(jiān)管總局依法立案調(diào)查。此次調(diào)查的原因是英偉達(dá)…

小丸子
2024年12月10日
新聞

英偉達(dá)CEO黃仁勛被曝涉嫌利用美國遺產(chǎn)稅收漏洞避稅80億美元

近日，有媒體報(bào)道，英偉達(dá)CEO黃仁勛被曝利用美國聯(lián)邦遺產(chǎn)稅和贈(zèng)與稅中的法律漏洞，成功規(guī)避高達(dá)80億美元的潛在稅款。據(jù)報(bào)道，黃仁勛的凈資產(chǎn)目前高達(dá)1270億美元，是美國第十大富豪?！?/p>

科技探索者
2024年12月9日
出海

英偉達(dá)宣布收購越南VinBrain，拓展醫(yī)療AI領(lǐng)域

昨日，英偉達(dá)公司CEO黃仁勛宣布，英偉達(dá)將收購越南Vingroup旗下的人工智能公司VinBrain。黃仁勛表示，此次收購是英偉達(dá)“未來主要設(shè)計(jì)中心的起點(diǎn)”，標(biāo)志著英偉達(dá)在人工智能…

NEWS
2024年12月6日
新聞

Meta將豪擲100億美元建全球最大AI數(shù)據(jù)中心

據(jù)路透社報(bào)道，Meta近日宣布將在美國路易斯安那州投資100億美元（約合727.47億元人民幣）建設(shè)該公司全球最大的AI數(shù)據(jù)中心。據(jù)了解，該中心將專門處理支撐數(shù)字基礎(chǔ)設(shè)施所需的海量…

泡沫大盜
2024年12月5日
新聞

傳聞xAI已訂購價(jià)值10.8億美元英偉達(dá)GB200 AI服務(wù)器，將于2025年1月交付

據(jù)外媒最新報(bào)道，馬斯克旗下的xAI公司已經(jīng)訂購了價(jià)值10.8億美元的英偉達(dá)GB200 AI服務(wù)器。這些服務(wù)器預(yù)計(jì)將于2025年1月獲得交付。據(jù)了解，這批GB200 AI服務(wù)器已經(jīng)…

NEWS
2024年12月5日
商業(yè)

英偉達(dá)財(cái)報(bào)發(fā)布：營收351億美元?jiǎng)?chuàng)歷史新高，數(shù)據(jù)中心業(yè)務(wù)強(qiáng)勁增長

今日，英偉達(dá)公司公布了其截至2024年10月27日的2025財(cái)年第三季度的財(cái)務(wù)報(bào)告。本季度，英偉達(dá)以驚人的表現(xiàn)再次刷新了營收紀(jì)錄，總營收達(dá)到351億美元（當(dāng)前約2540.77億元人…

商業(yè)頭條
2024年11月21日
新聞

印度監(jiān)管機(jī)構(gòu)重罰WhatsApp：隱私政策違規(guī)，Meta被罰21億盧比

近日，印度競爭委員會(huì)對Meta旗下社交應(yīng)用WhatsApp開出了一張高達(dá)21.314億盧比（約合1.83億元人民幣）的罰單，原因是指控WhatsApp的2021年版隱私政策違反了印…

小丸子
2024年11月19日
新聞

英偉達(dá)與谷歌Quantum AI合作加速量子計(jì)算機(jī)開發(fā)

近日，英偉達(dá)與谷歌Quantum AI宣布達(dá)成一項(xiàng)重要合作，旨在利用英偉達(dá)CUDA-Q平臺(tái)助力谷歌研究人員開發(fā)量子計(jì)算機(jī)的海量數(shù)字模型，共同解決量子計(jì)算處理器設(shè)計(jì)中的復(fù)雜難題。根…

NEWS
2024年11月19日
產(chǎn)品

英偉達(dá)Blackwell處理器災(zāi)情：因過熱問題致項(xiàng)目延期

當(dāng)?shù)貢r(shí)間周日，有外媒報(bào)道了關(guān)于英偉達(dá)Blackwell處理器災(zāi)情的消息。英偉達(dá)新一代Blackwell處理器在高容量服務(wù)器機(jī)架中遭遇了嚴(yán)重的過熱問題。這一技術(shù)難題不僅導(dǎo)致了設(shè)計(jì)上的…

AI
2024年11月18日
新聞

Meta因違反歐盟反壟斷規(guī)定被罰7.98億歐元

近日，歐盟委員會(huì)宣布對全球社交媒體巨頭Meta處以7.98億歐元（約合61.08億元人民幣）的罰款，原因是指控Meta將其在線分類廣告服務(wù)Facebook Marketplace與…

李小白
2024年11月15日