您現在的位置是:新聞中心 >>正文
16384塊N卡訓練4050億參數大模型:3小時(shí)報錯一次
新聞中心38184人已圍觀(guān)
簡(jiǎn)介如今的AI大模型規模越來(lái)越龐大,動(dòng)輒成百上千億參數,訓練過(guò)程不僅需要數萬(wàn)甚至十幾萬(wàn)塊GPU加速卡,出錯的幾率也越來(lái)越高。Meta(Facebook)就披露了一份驚人的報告。Meta在報告中披露,為了訓 ...
如今的塊N卡訓AI大模型規模越來(lái)越龐大,動(dòng)輒成百上千億參數,練億訓練過(guò)程不僅需要數萬(wàn)甚至十幾萬(wàn)塊GPU加速卡,參數錯次出錯的大模幾率也越來(lái)越高。Meta(Facebook)就披露了一份驚人的時(shí)報報告。
Meta在報告中披露,塊N卡訓為了訓練自己的練億Llama 3 4050億參數大模型,使用了包含16384塊NVIDIA H100 80GB GPU的參數錯次集群,一共花了45天,大模期間居然出現了419次意外報錯,時(shí)報平均每3個(gè)小時(shí)就一次,塊N卡訓而一半的練億錯誤都和GPU及其自帶的HBM3內存有關(guān)。
要知道,參數錯次大模型訓練的大模工作量異常龐大,而且需要高度同步,時(shí)報一次錯誤就可能導致整個(gè)訓練工作必須從頭再來(lái)。
報告顯示,為期45天的預訓練階段中,總共出現了466次工作中斷,其中47次是計劃內的自動(dòng)維護,419次是意外的,且大部分都來(lái)自硬件問(wèn)題,GPU又是最多的,占了其中的58.7%。
具體來(lái)說(shuō),148次即30.1%的意外中斷來(lái)自各種GPU失效(包括NVLink總線(xiàn)),72次即17.2%來(lái)自HBM3內存失效——畢竟,700W的功耗太熱了。
還有19次來(lái)自GPU SRAM,17次來(lái)自GPU處理器,6次來(lái)自GPU靜默數據錯誤,6次來(lái)自GPU散熱和傳感器。
其他錯誤來(lái)自軟件bug、網(wǎng)線(xiàn)和網(wǎng)卡等等各個(gè)方面。有趣的是,CPU錯誤只出現了2次。
還好,Llama 3團隊非常給力,在這么高的出錯幾率下,依然維持了超過(guò)90%的有效訓練時(shí)間,而且只有三次GPU報錯需要大量人工干預,其他都被自動(dòng)化管理糾正了。
Tags:
相關(guān)文章
亞馬遜宣布為任天堂Switch 2開(kāi)發(fā)游戲 愿意多等1年
新聞中心亞馬遜游戲部門(mén)近日宣布,將為任天堂Switch 2提供游戲支持! 公司副總裁克里斯托夫·哈特曼在接受IGN采訪(fǎng)時(shí)表示,亞馬遜游戲將為Switch 2開(kāi)發(fā)游戲,并希望任天堂能耐心打磨硬件,即使要推遲發(fā)布 ...
【新聞中心】
閱讀更多又一國!斯洛文尼亞宣布承認巴勒斯坦國
新聞中心“擊中目標!” 胡塞武裝:使用導彈襲擊以色列紅海城市2024年06月04日 17:05:21 印尼西爪哇省90余人疑似食物中毒,1人死亡2024年06月04日 16:27 ...
【新聞中心】
閱讀更多百年京式旗袍文化藝術(shù)展亮相什剎海
新聞中心“四季交響——來(lái)自中國的鄉土繪畫(huà)”展覽在巴黎揭幕2024年06月04日 09:57:40 文化中國行丨看鑒海南:灰塑筑美2024年06月04日 08:53:52 ...
【新聞中心】
閱讀更多
熱門(mén)文章
最新文章
友情鏈接
- Bungie再勝一場(chǎng) 《命運2》作弊站點(diǎn)需賠償6萬(wàn)多美元
- 狗好,人也好!《過(guò)木不汪》5月30日登陸NS,首發(fā)9折優(yōu)惠,支持簡(jiǎn)體中文
- 喬治·盧卡斯:《星球大戰》賣(mài)迪士尼后很多理念都丟了
- 《華納大亂斗》重啟獲熱度 但需要付費解鎖英雄引玩家不滿(mǎn)
- 《崛起力量: 測試英雄》Steam頁(yè)面上線(xiàn) 年內發(fā)售
- 艾倫聲優(yōu)梶裕貴AI合成聲音軟件推出 支持兩者理應共存
- 喪尸生存《歡迎來(lái)到帕拉迪澤》推出免費內容更新
- 大宇董事長(cháng)回應出售《仙劍奇俠傳》《軒轅劍》兩大經(jīng)典IP
- 和《血源》無(wú)關(guān)!PS1復古《夢(mèng)魘卡丁車(chē)》正式推出
- 電影《重返寂靜嶺》首曝預告 上映日期待定