H100 顯卡集群
-
Meta 訓練 Llama 3 遭遇頻繁故障:16384 塊 H100 GPU 訓練集群每 3 小時“罷工”一次
近日消息,Meta 發(fā)布的一份研究報告顯示,其用于訓練 4050 億參數(shù)模型 Llama 3 的 16384 個英偉達 H100 顯卡集群在 54 天內出現(xiàn)了 419 次意外故障,平均每三小時就有一次。其中,一半以上的故障是由顯卡或其搭載的高帶寬內存(HBM3)引起的。
近日消息,Meta 發(fā)布的一份研究報告顯示,其用于訓練 4050 億參數(shù)模型 Llama 3 的 16384 個英偉達 H100 顯卡集群在 54 天內出現(xiàn)了 419 次意外故障,平均每三小時就有一次。其中,一半以上的故障是由顯卡或其搭載的高帶寬內存(HBM3)引起的。