1. <td id="68o0q"></td>

  2. <pre id="68o0q"><label id="68o0q"><menu id="68o0q"></menu></label></pre>
    <table id="68o0q"></table>
  3. <td id="68o0q"></td>

      您現在的位置是:新聞中心 >>正文

      16384塊N卡訓練4050億參數大模型:3小時(shí)報錯一次

      新聞中心38184人已圍觀(guān)

      簡(jiǎn)介如今的AI大模型規模越來(lái)越龐大,動(dòng)輒成百上千億參數,訓練過(guò)程不僅需要數萬(wàn)甚至十幾萬(wàn)塊GPU加速卡,出錯的幾率也越來(lái)越高。Meta(Facebook)就披露了一份驚人的報告。Meta在報告中披露,為了訓 ...

      如今的塊N卡訓AI大模型規模越來(lái)越龐大,動(dòng)輒成百上千億參數,練億訓練過(guò)程不僅需要數萬(wàn)甚至十幾萬(wàn)塊GPU加速卡,參數錯次出錯的大模幾率也越來(lái)越高。Meta(Facebook)就披露了一份驚人的時(shí)報報告。

      Meta在報告中披露,塊N卡訓為了訓練自己的練億Llama 3 4050億參數大模型,使用了包含16384塊NVIDIA H100 80GB GPU的參數錯次集群,一共花了45天,大模期間居然出現了419次意外報錯,時(shí)報平均每3個(gè)小時(shí)就一次,塊N卡訓而一半的練億錯誤都和GPU及其自帶的HBM3內存有關(guān)。

      16384塊N卡訓練4050億參數大模型:3小時(shí)報錯一次

      要知道,參數錯次大模型訓練的大模工作量異常龐大,而且需要高度同步,時(shí)報一次錯誤就可能導致整個(gè)訓練工作必須從頭再來(lái)。

      報告顯示,為期45天的預訓練階段中,總共出現了466次工作中斷,其中47次是計劃內的自動(dòng)維護,419次是意外的,且大部分都來(lái)自硬件問(wèn)題,GPU又是最多的,占了其中的58.7%。

      具體來(lái)說(shuō),148次即30.1%的意外中斷來(lái)自各種GPU失效(包括NVLink總線(xiàn)),72次即17.2%來(lái)自HBM3內存失效——畢竟,700W的功耗太熱了。

      16384塊N卡訓練4050億參數大模型:3小時(shí)報錯一次

      還有19次來(lái)自GPU SRAM,17次來(lái)自GPU處理器,6次來(lái)自GPU靜默數據錯誤,6次來(lái)自GPU散熱和傳感器。

      其他錯誤來(lái)自軟件bug、網(wǎng)線(xiàn)和網(wǎng)卡等等各個(gè)方面。有趣的是,CPU錯誤只出現了2次。

      還好,Llama 3團隊非常給力,在這么高的出錯幾率下,依然維持了超過(guò)90%的有效訓練時(shí)間,而且只有三次GPU報錯需要大量人工干預,其他都被自動(dòng)化管理糾正了。

      Tags:

      相關(guān)文章

      ?
      一级毛片在线_国产一区视频一区欧美_日韩丰满少妇无码_东京热无码中文字幕av免费

      1. <td id="68o0q"></td>

      2. <pre id="68o0q"><label id="68o0q"><menu id="68o0q"></menu></label></pre>
        <table id="68o0q"></table>
      3. <td id="68o0q"></td>