Meta 訓(xùn)練 Llama 3 遭遇頻繁故障英偉達(dá)GPU真的在拖后腿嗎？

科技探索者 ? 2024年7月29日 19:21:21 ? AI

近日，Meta發(fā)布了一份詳細(xì)的研究報(bào)告，揭示了在訓(xùn)練Llama 3 405B參數(shù)模型過(guò)程中面臨的重大挑戰(zhàn)。該系統(tǒng)在包含16384個(gè)Nvidia H100 GPU的集群上運(yùn)行，在54天的訓(xùn)練期間，經(jīng)歷了419次意外故障，平均每三個(gè)小時(shí)發(fā)生一次。這些故障中的一半以上歸因于GPU及其高帶寬內(nèi)存（HBM3）。

Meta 訓(xùn)練 Llama 3 遭遇頻繁故障英偉達(dá)GPU真的在拖后腿嗎？

什么是Llama 3.1？深度解析Llama 3.1研發(fā)思路

Meta剛剛發(fā)布開源Llama 3.1雖然自帶論文，但依舊激起了廣大網(wǎng)友強(qiáng)烈的好奇心和求知欲。Llama 3.1都使用了哪些數(shù)據(jù)？其中有多少合成數(shù)據(jù)？為什么不使用MoE架構(gòu)？后訓(xùn)練與RLHF流程是如何進(jìn)行的？模型評(píng)估是如何進(jìn)行的？我們什么時(shí)候可以見到Llama 4？Meta是否會(huì)發(fā)展agent？

LLM的參數(shù)規(guī)模選擇需要考慮多種因素，包括scaling law、訓(xùn)練時(shí)間、GPU和硬件的約束等等。不僅要考慮Meta所用的硬件，還要考慮整個(gè)AI社區(qū)的不同GPU型號(hào)和顯存大小。此外，目前廣泛應(yīng)用于推理階段的量化技術(shù)也會(huì)影響推理和訓(xùn)練/微調(diào)成本的比重。

在Scaling Law和訓(xùn)練token總量的限制內(nèi)，進(jìn)行了一些權(quán)衡，找到了一個(gè)有合適推理效率的平衡點(diǎn)。之所以做到405B這么大規(guī)模，一個(gè)真正與GPT-4比肩的開源模型。雖然目前還沒(méi)有完全達(dá)到目標(biāo)，但差距正在逐漸縮小。下一代模型將繼續(xù)擴(kuò)展。

Scaling Law主要關(guān)注模型權(quán)重和訓(xùn)練量。Chinchilla論文強(qiáng)調(diào)了訓(xùn)練數(shù)據(jù)token總量的重要性，認(rèn)為在有限算力前提下，存在一個(gè)模型參數(shù)量和訓(xùn)練token數(shù)的最佳比率。

但是，Meta希望發(fā)布的旗艦?zāi)Ｐ托枰叩耐评硇剩虼诉x擇增加訓(xùn)練的token數(shù)和訓(xùn)練時(shí)長(zhǎng)，讓模型達(dá)到“過(guò)度訓(xùn)練”的狀態(tài)。我們希望模型有更好的推理表現(xiàn)，從而更多地應(yīng)用于開源社區(qū)，因此需要做出一些超越Chinchilla定律的選擇。

相比Llama 2，Llama 3的架構(gòu)沒(méi)有太多變化，但在擴(kuò)展數(shù)據(jù)的規(guī)模和質(zhì)量方面作出了很多努力，數(shù)據(jù)集從2T token增加到15T token。

目前的模型研發(fā)有一個(gè)趨勢(shì)，即針對(duì)基準(zhǔn)分?jǐn)?shù)進(jìn)行模型的后訓(xùn)練改進(jìn)。模型評(píng)估是一個(gè)開放的研究問(wèn)題，目前還沒(méi)有很好的答案。當(dāng)試圖提升模型在某個(gè)基準(zhǔn)上的分?jǐn)?shù)時(shí)，可能會(huì)存在過(guò)擬合，分?jǐn)?shù)提升未必能遷移成為相似的能力。Meta已經(jīng)在6月開始訓(xùn)練Llama 4模型，重點(diǎn)可能圍繞agent技術(shù)，并且已經(jīng)在Toolformer等agent工具上進(jìn)行了一些工作。

Llama 3訓(xùn)練任務(wù)為什么會(huì)多次遭遇故障？

由于Llama 3訓(xùn)練任務(wù)的規(guī)模龐大且高度同步，單個(gè)GPU的故障會(huì)導(dǎo)致整個(gè)訓(xùn)練過(guò)程中斷，必須重新啟動(dòng)。在419次意外故障中，58.7%的故障與GPU相關(guān)，具體包括NVLink等各種GPU故障和HBM3內(nèi)存故障。這種情況并不意外，因?yàn)镹vidia的H100 GPU消耗約700W并承受大量熱應(yīng)力。盡管出現(xiàn)了大量的故障，但只有三起事件需要顯著的人工干預(yù)，其余的問(wèn)題均能由自動(dòng)化處理。

盡管存在這些問(wèn)題，Llama 3團(tuán)隊(duì)通過(guò)支持自動(dòng)化集群維護(hù)，實(shí)現(xiàn)了超過(guò)90%的有效訓(xùn)練時(shí)間（有效訓(xùn)練時(shí)間是指實(shí)際用于有用訓(xùn)練的時(shí)間與經(jīng)過(guò)時(shí)間的比例）。Meta開發(fā)了多種工具和優(yōu)化策略，包括減少任務(wù)啟動(dòng)和檢查點(diǎn)時(shí)間、廣泛使用PyTorch內(nèi)置的NCCL飛行記錄器，以及識(shí)別滯后的GPU。其中，NCCLX在故障檢測(cè)和定位方面發(fā)揮了至關(guān)重要的作用，尤其是對(duì)于NVLink和RoCE相關(guān)問(wèn)題。

PyTorch的NCCL飛行記錄器能夠?qū)⒓w元數(shù)據(jù)和堆棧跟蹤記錄到環(huán)形緩沖區(qū)中，從而在大規(guī)模情況下快速診斷和解決掛起和性能問(wèn)題。NCCLX通過(guò)與PyTorch的緊密協(xié)同設(shè)計(jì)，提高了故障檢測(cè)和定位的速度和準(zhǔn)確性，允許PyTorch訪問(wèn)NCCLX的內(nèi)部狀態(tài)并跟蹤相關(guān)信息。

訓(xùn)練過(guò)程中，成千上萬(wàn)的GPU可能同時(shí)增加或減少功耗，例如等待檢查點(diǎn)完成或集體通信結(jié)束，或整個(gè)訓(xùn)練任務(wù)的啟動(dòng)或關(guān)閉。這會(huì)導(dǎo)致數(shù)據(jù)中心的功耗瞬時(shí)波動(dòng)達(dá)到幾十兆瓦的數(shù)量級(jí)，可能使電網(wǎng)不堪重負(fù)。Meta必須確保其數(shù)據(jù)中心有足夠的電力，以維持Llama 3 405B模型及未來(lái)更大規(guī)模模型的正常運(yùn)轉(zhuǎn)。

Meta還注意到，環(huán)境因素會(huì)影響大規(guī)模訓(xùn)練性能。Llama 3 405B訓(xùn)練期間，每天中午因溫度較高影響了GPU的動(dòng)態(tài)電壓和頻率調(diào)整，導(dǎo)致吞吐量波動(dòng)1-2%。盡管這不是大問(wèn)題，但它揭示了溫度變化對(duì)GPU性能的潛在影響。

考慮到16384個(gè)H100 GPU的集群在54天內(nèi)經(jīng)歷了419次意外故障，平均每24小時(shí)7.76次，xAI的孟菲斯超級(jí)計(jì)算機(jī)集群（配備10萬(wàn)個(gè)H100 GPU）可能會(huì)面臨更高的故障率。埃隆·馬斯克（Elon Musk）最近在社交平臺(tái)上宣布啟動(dòng)了“世界上最強(qiáng)大的人工智能訓(xùn)練集群”，預(yù)計(jì)在今年12月前創(chuàng)建“世界上所有指標(biāo)最強(qiáng)大的人工智能”。根據(jù)GPU規(guī)模比例，xAI的孟菲斯超級(jí)計(jì)算機(jī)集群可能會(huì)面臨更多的故障和挑戰(zhàn)。

隨著人工智能模型參數(shù)量的不斷增加，所需的計(jì)算資源也隨之?dāng)U大。以 xAI 計(jì)劃中的 10 萬(wàn)塊 H100 顯卡集群為例，故障率可能會(huì)成倍增長(zhǎng)，給未來(lái)的 AI 訓(xùn)練帶來(lái)更大的挑戰(zhàn)。盡管挑戰(zhàn)重重，Meta通過(guò)開發(fā)和應(yīng)用多種技術(shù)和優(yōu)化策略，展示了在大規(guī)模人工智能訓(xùn)練中克服故障、提升效率的能力。未來(lái)，隨著人工智能模型參數(shù)量的不斷增加，計(jì)算資源需求也將持續(xù)增長(zhǎng)。Meta的經(jīng)驗(yàn)為業(yè)界提供了寶貴的參考，也為未來(lái)更大規(guī)模模型的訓(xùn)練奠定了基礎(chǔ)。

原創(chuàng)文章，作者：科技探索者，如若轉(zhuǎn)載，請(qǐng)注明出處：http://rponds.cn/article/670512.html

科技探索者管理團(tuán)隊(duì)

0 0

商業(yè)

Meta股價(jià)創(chuàng)新高，扎克伯格年內(nèi)拋售22億美元股票

今年，Meta股價(jià)一路攀升不斷創(chuàng)下新高。在此情形下，Meta聯(lián)合創(chuàng)始人兼首席執(zhí)行官馬克·扎克伯格大量拋售公司股票。據(jù)《財(cái)富》雜志依據(jù)公開交易數(shù)據(jù)的分析，今年扎克伯格出售Meta股票…

商業(yè)頭條
5天前
新聞

Meta要求加州阻止OpenAI轉(zhuǎn)營(yíng)利計(jì)劃

據(jù)《華爾街日?qǐng)?bào)》今日?qǐng)?bào)道稱，Meta已致信加州總檢察長(zhǎng)Rob Bonta，要求阻止OpenAI轉(zhuǎn)型為營(yíng)利性企業(yè)的計(jì)劃。此舉表明，Meta在硅谷兩大AI巨頭間的爭(zhēng)斗中站在了馬斯克一方…

NEWS
2024年12月14日
新聞

Meta將豪擲100億美元建全球最大AI數(shù)據(jù)中心

據(jù)路透社報(bào)道，Meta近日宣布將在美國(guó)路易斯安那州投資100億美元（約合727.47億元人民幣）建設(shè)該公司全球最大的AI數(shù)據(jù)中心。據(jù)了解，該中心將專門處理支撐數(shù)字基礎(chǔ)設(shè)施所需的海量…

泡沫大盜
2024年12月5日
新聞

印度監(jiān)管機(jī)構(gòu)重罰WhatsApp：隱私政策違規(guī)，Meta被罰21億盧比

近日，印度競(jìng)爭(zhēng)委員會(huì)對(duì)Meta旗下社交應(yīng)用WhatsApp開出了一張高達(dá)21.314億盧比（約合1.83億元人民幣）的罰單，原因是指控WhatsApp的2021年版隱私政策違反了印…

小丸子
2024年11月19日
新聞

Meta因違反歐盟反壟斷規(guī)定被罰7.98億歐元

近日，歐盟委員會(huì)宣布對(duì)全球社交媒體巨頭Meta處以7.98億歐元（約合61.08億元人民幣）的罰款，原因是指控Meta將其在線分類廣告服務(wù)Facebook Marketplace與…

李小白
2024年11月15日
新聞

Meta再向歐盟監(jiān)管低頭：Facebook和Instagram在歐無(wú)廣告版訂閱降價(jià)高達(dá)40%

Meta下調(diào)歐盟Facebook和Instagram無(wú)廣告版訂閱收費(fèi)，降幅達(dá)38.5%-40%，并推出個(gè)性化程度較低的廣告選項(xiàng)。此舉旨在響應(yīng)歐盟監(jiān)管要求，同時(shí)預(yù)計(jì)多數(shù)人仍會(huì)選擇個(gè)性化廣告。ValueAct已持股Meta10億美元。

潮玩君
2024年11月13日
新聞

Meta對(duì)歐盟用戶推無(wú)廣告訂閱降價(jià)40%并調(diào)整廣告?zhèn)€性化

近日，Meta公司宣布對(duì)歐盟地區(qū)的Facebook和Instagram進(jìn)行重大調(diào)整，以應(yīng)對(duì)歐盟嚴(yán)格的隱私和數(shù)據(jù)保護(hù)法規(guī)。 Meta公司表示，歐盟地區(qū)的用戶現(xiàn)在可以選擇訂閱無(wú)廣告服務(wù)…

野游栗
2024年11月13日
新聞

澳大利亞擬立法禁止16歲以下青少年使用社交媒體

澳大利亞總理安東尼·阿爾巴尼斯近日宣布，為保護(hù)青少年心理健康，政府將出臺(tái)立法，禁止16歲以下少年兒童使用社交媒體。這一舉措旨在減少社交媒體對(duì)青少年的負(fù)面影響，并迫使相關(guān)公司采取嚴(yán)格…

聆聽
2024年11月7日
新聞

Meta第三季度營(yíng)收增長(zhǎng)19%，Reality Labs部門持續(xù)投資未來(lái)

Meta三季度業(yè)績(jī)強(qiáng)勁，日活用戶達(dá)32.9億，營(yíng)收增19%；但RealityLabs虧損44億。Meta將加大VR/AR技術(shù)研發(fā)，拓展應(yīng)用場(chǎng)景，加強(qiáng)合作，推動(dòng)市場(chǎng)快速發(fā)展。

潮玩君
2024年11月1日
AI

扎克伯格押注AI：Meta正推動(dòng)美國(guó)政府使用其Llama模型

Meta 首席執(zhí)行官馬克?扎克伯格在第三季度財(cái)報(bào)電話會(huì)議上表示，Meta 正在“與公共部門合作，推動(dòng) Llama AI 模型在整個(gè)美國(guó)政府機(jī)構(gòu)中得到應(yīng)用”。

科技探索者
2024年10月31日
商業(yè)

Meta發(fā)布第三季度財(cái)報(bào)：營(yíng)收同比增長(zhǎng)19%至405.80億美元

今日，Meta發(fā)布了其2024年第三季度未經(jīng)審計(jì)的財(cái)務(wù)報(bào)告，Meta財(cái)報(bào)數(shù)據(jù)顯示該季度營(yíng)收達(dá)到405.80億美元，同比增長(zhǎng)19%，凈利潤(rùn)則同比增長(zhǎng)35%至156.88億美元，每股攤…

商業(yè)頭條
2024年10月31日
新聞

Meta開發(fā)AI搜索引擎，力求減少對(duì)微軟谷歌依賴并追趕OpenAI

據(jù)外媒The Information昨日（10月28日）發(fā)布報(bào)道稱，Meta公司正在積極開發(fā)一款A(yù)I搜索引擎，旨在減少對(duì)微軟和谷歌的依賴，并追趕OpenAI在人工智能領(lǐng)域的快速發(fā)展…

若安丶
2024年10月29日
產(chǎn)品

Meta Quest系列頭顯v71系統(tǒng)更新：Quest 3/3S GPU性能提升約10%

近日，Meta為其Quest系列虛擬現(xiàn)實(shí)（VR）頭顯推出了v71公測(cè)版系統(tǒng)更新，引發(fā)了廣泛關(guān)注。據(jù)Reddit用戶發(fā)帖指出，此次更新顯著提升了Quest 3和Quest 3S的GP…

泡沫大盜
2024年10月21日
新聞

Meta面臨美國(guó)多州訴訟，被指控加劇青少年心理健康問(wèn)題

據(jù)路透社報(bào)道，美國(guó)加州聯(lián)邦法官Yvonne Gonzalez Rogers于當(dāng)?shù)貢r(shí)間周二裁定，F(xiàn)acebook母公司Meta將不得不面對(duì)由美國(guó)多個(gè)州發(fā)起的訴訟。這些訴訟的核心指控是…

小科同學(xué)
2024年10月17日
新聞

Meta再次裁員，涉及WhatsApp、Instagram等部門

據(jù)外媒報(bào)道，Meta公司近期已開始在其多個(gè)部門實(shí)施裁員，受影響的主要包括WhatsApp、Instagram以及Reality Labs等部門。此次Meta裁員似乎與特定團(tuán)隊(duì)的重組…

李森
2024年10月17日
商業(yè)

臺(tái)積電市值逼近萬(wàn)億美元，股價(jià)年內(nèi)飆升近90%

10月14日，在美股開盤后，臺(tái)積電股價(jià)持續(xù)上漲，最高達(dá)到194.25美元（約合1377元人民幣），再次刷新股價(jià)紀(jì)錄。盤中，臺(tái)積電市值一度觸及萬(wàn)億美元大關(guān)，盡管隨后漲幅有所回落，但仍…

商業(yè)頭條
2024年10月15日
新聞

扎克伯格：AR眼鏡將取代智能手機(jī) 成為主流工具

Meta舉行了一年一度的Meta Connect發(fā)布會(huì)，宣布了在虛擬現(xiàn)實(shí)、人工智能以及快速增長(zhǎng)的智能眼鏡領(lǐng)域取得的最新進(jìn)展，包括名為Orion的新型增強(qiáng)現(xiàn)實(shí)眼鏡原型機(jī)。

科技探索者
2024年10月6日
新聞

Meta新款A(yù)R眼鏡Orion震撼亮相：開啟增強(qiáng)現(xiàn)實(shí)新紀(jì)元

近日，全球科技巨頭Meta再次向世人展示了其在增強(qiáng)現(xiàn)實(shí)（AR）領(lǐng)域的深厚積累與前瞻視野，推出了其最新款A(yù)R眼鏡——Orion。這款被譽(yù)為迄今為止最先進(jìn)的增強(qiáng)現(xiàn)實(shí)產(chǎn)品之一，不僅標(biāo)志著Meta在AR技術(shù)上的重大突破，更預(yù)示著增強(qiáng)現(xiàn)實(shí)技術(shù)即將邁入一個(gè)全新的發(fā)展階段。

潮玩君
2024年10月5日
新聞

推出兩年后，Meta 宣布停產(chǎn) Quest Pro 頭顯

Quest Pro 于 2022 年推出，但市場(chǎng)反應(yīng)平平。Meta 在博客文章中并未明確說(shuō)明停產(chǎn) Quest Pro 的原因，但很明顯這款頭顯并未受到市場(chǎng)的廣泛歡迎。

潮玩君
2024年10月1日
產(chǎn)品

Meta Quest 3S vs Quest 2：虛擬現(xiàn)實(shí)新篇章的深度對(duì)比

隨著虛擬現(xiàn)實(shí)技術(shù)的飛速發(fā)展，Meta公司不斷推出令人矚目的新產(chǎn)品。最新發(fā)布的Meta Quest 3S與備受好評(píng)的Meta Quest 2在多個(gè)方面展現(xiàn)出顯著的不同。本文將從設(shè)計(jì)、…

小丸子
2024年9月28日