<td id="68o0q"></td>

<pre id="68o0q"><label id="68o0q"><menu id="68o0q"></menu></label></pre>

<table id="68o0q"></table>

<sup id="wdpdz"><video id="wdpdz"><nobr id="wdpdz"></nobr></video></sup>

<delect id="wdpdz"><output id="wdpdz"><form id="wdpdz"></form></output></delect>

^{<menuitem id="wdpdz"><pre id="wdpdz"></pre></menuitem>}<style id="wdpdz"><tbody id="wdpdz"></tbody></style>

您現在的位置是：新聞中心 >>正文

16384塊N卡訓練4050億參數大模型：3小時(shí)報錯一次

新聞中心38184人已圍觀(guān)

簡(jiǎn)介如今的AI大模型規模越來(lái)越龐大，動(dòng)輒成百上千億參數，訓練過(guò)程不僅需要數萬(wàn)甚至十幾萬(wàn)塊GPU加速卡，出錯的幾率也越來(lái)越高。Meta(Facebook)就披露了一份驚人的報告。Meta在報告中披露，為了訓 ...

如今的塊N卡訓AI大模型規模越來(lái)越龐大，動(dòng)輒成百上千億參數，練億訓練過(guò)程不僅需要數萬(wàn)甚至十幾萬(wàn)塊GPU加速卡，參數錯次出錯的大模幾率也越來(lái)越高。Meta(Facebook)就披露了一份驚人的時(shí)報報告。

Meta在報告中披露，塊N卡訓為了訓練自己的練億Llama 3 4050億參數大模型，使用了包含16384塊NVIDIA H100 80GB GPU的參數錯次集群，一共花了45天，大模期間居然出現了419次意外報錯，時(shí)報平均每3個(gè)小時(shí)就一次，塊N卡訓而一半的練億錯誤都和GPU及其自帶的HBM3內存有關(guān)。

16384塊N卡訓練4050億參數大模型：3小時(shí)報錯一次

要知道，參數錯次大模型訓練的大模工作量異常龐大，而且需要高度同步，時(shí)報一次錯誤就可能導致整個(gè)訓練工作必須從頭再來(lái)。

報告顯示，為期45天的預訓練階段中，總共出現了466次工作中斷，其中47次是計劃內的自動(dòng)維護，419次是意外的，且大部分都來(lái)自硬件問(wèn)題，GPU又是最多的，占了其中的58.7%。

具體來(lái)說(shuō)，148次即30.1%的意外中斷來(lái)自各種GPU失效(包括NVLink總線(xiàn))，72次即17.2%來(lái)自HBM3內存失效——畢竟，700W的功耗太熱了。

16384塊N卡訓練4050億參數大模型：3小時(shí)報錯一次

還有19次來(lái)自GPU SRAM，17次來(lái)自GPU處理器，6次來(lái)自GPU靜默數據錯誤，6次來(lái)自GPU散熱和傳感器。

其他錯誤來(lái)自軟件bug、網(wǎng)線(xiàn)和網(wǎng)卡等等各個(gè)方面。有趣的是，CPU錯誤只出現了2次。

還好，Llama 3團隊非常給力，在這么高的出錯幾率下，依然維持了超過(guò)90%的有效訓練時(shí)間，而且只有三次GPU報錯需要大量人工干預，其他都被自動(dòng)化管理糾正了。

Tags：

上一篇：新游添加愿望單！蒸汽平臺鑒賞家大會(huì )定檔9月24日

下一篇：光榮《維納斯璀璨假期：死或生沙灘排球》正式公開(kāi)

相關(guān)文章

亞馬遜宣布為任天堂Switch 2開(kāi)發(fā)游戲愿意多等1年
新聞中心
亞馬遜游戲部門(mén)近日宣布，將為任天堂Switch 2提供游戲支持！公司副總裁克里斯托夫·哈特曼在接受IGN采訪(fǎng)時(shí)表示，亞馬遜游戲將為Switch 2開(kāi)發(fā)游戲，并希望任天堂能耐心打磨硬件，即使要推遲發(fā)布 ...

2024-10-11 13:42【新聞中心】
閱讀更多
又一國！斯洛文尼亞宣布承認巴勒斯坦國
新聞中心
“擊中目標！” 胡塞武裝：使用導彈襲擊以色列紅海城市2024年06月04日 17:05:21 印尼西爪哇省90余人疑似食物中毒，1人死亡2024年06月04日 16:27 ...

2024-10-11 13:23【新聞中心】
閱讀更多
百年京式旗袍文化藝術(shù)展亮相什剎海
新聞中心
“四季交響——來(lái)自中國的鄉土繪畫(huà)”展覽在巴黎揭幕2024年06月04日 09:57:40 文化中國行丨看鑒海南：灰塑筑美2024年06月04日 08:53:52 ...

2024-10-11 12:30【新聞中心】
閱讀更多

?

熱門(mén)文章

最新文章

友情鏈接

Bungie再勝一場(chǎng) 《命運2》作弊站點(diǎn)需賠償6萬(wàn)多美元
狗好，人也好！《過(guò)木不汪》5月30日登陸NS，首發(fā)9折優(yōu)惠，支持簡(jiǎn)體中文
喬治·盧卡斯：《星球大戰》賣(mài)迪士尼后很多理念都丟了
《華納大亂斗》重啟獲熱度但需要付費解鎖英雄引玩家不滿(mǎn)
《崛起力量: 測試英雄》Steam頁(yè)面上線(xiàn) 年內發(fā)售
艾倫聲優(yōu)梶裕貴AI合成聲音軟件推出支持兩者理應共存
喪尸生存《歡迎來(lái)到帕拉迪澤》推出免費內容更新
大宇董事長(cháng)回應出售《仙劍奇俠傳》《軒轅劍》兩大經(jīng)典IP
和《血源》無(wú)關(guān)！PS1復古《夢(mèng)魘卡丁車(chē)》正式推出
電影《重返寂靜嶺》首曝預告上映日期待定

一级毛片在线_国产一区视频一区欧美_日韩丰满少妇无码_东京热无码中文字幕av免费

<td id="68o0q"></td>

<pre id="68o0q"><label id="68o0q"><menu id="68o0q"></menu></label></pre>

<table id="68o0q"></table>

<form id="8mdef"><track id="8mdef"></track></form>

<form id="8mdef"><bdo id="8mdef"></bdo></form>