近日,英偉達(dá)悄然開源了其最新的超強(qiáng)大模型——Nemotron-70B。一經(jīng)發(fā)布,該模型便迅速在AI社區(qū)引發(fā)轟動,其性能在多個基準(zhǔn)測試中超越了包括GPT-4、GPT-4 Turbo以及Claude 3.5 Sonnet在內(nèi)的140多個開閉源模型,僅次于OpenAI的最新模型o1。
Nemotron-70B的基礎(chǔ)模型是基于Llama-3.1-70B開發(fā)而成,并通過人類反饋強(qiáng)化學(xué)習(xí)進(jìn)行了訓(xùn)練,特別是采用了“強(qiáng)化算法”。在訓(xùn)練過程中,英偉達(dá)使用了一種新的混合訓(xùn)練方法,包括Bradley-Terry和Regression在內(nèi)的訓(xùn)練獎勵模型,同時開源了訓(xùn)練數(shù)據(jù)集。該模型基于Llama-3.1-Nemotron-70B-Reward提供獎勵信號,并利用HelpSteer2-Preference提示來引導(dǎo)模型生成符合人類偏好的答案。
在LMSYS大模型競技場中的Arena Hard評測中,Nemotron-70B得分85,在AlpacaEval 2 LC上得分57.6,在GPT-4-Turbo MT-Bench上為8.98。這些成績充分展示了其強(qiáng)大的性能。
網(wǎng)友們紛紛對Nemotron-70B進(jìn)行了測試,發(fā)現(xiàn)該模型在處理復(fù)雜問題時表現(xiàn)出色。例如,在回答關(guān)于香蕉數(shù)量的問題時,Nemotron-70B能夠準(zhǔn)確地將問題所給信息進(jìn)行分解,并一步一步推理得出正確答案。此外,在回答關(guān)于活到89歲的名人名單時,盡管模型將某人的去世日期弄錯,但整體表現(xiàn)仍然令人印象深刻。
值得注意的是,Nemotron-70B在hard prompt上的表現(xiàn)也備受關(guān)注。雖然在一些測試中未能完全通過,但其給出的初步輸出非常有趣且富有啟發(fā)性。例如,在回答關(guān)于月球距離和步行到月球的合理性的問題時,Nemotron-70B從物理學(xué)的角度進(jìn)行了詳細(xì)分析,并得出了合理的結(jié)論。
業(yè)內(nèi)專家表示,英偉達(dá)之所以不斷開源超強(qiáng)模型,是為了推動芯片銷售。隨著模型變得越來越復(fù)雜,所有盈利公司都必須訂購更多芯片來訓(xùn)練這些模型。因此,開源模型實際上是在為硬件銷售鋪路。
然而,對于大模型初創(chuàng)企業(yè)來說,巨頭們的開源策略無疑帶來了巨大的壓力。這些企業(yè)往往難以在商業(yè)落地和名氣上與巨頭們競爭,如果無法創(chuàng)造利潤,將很快失去風(fēng)投的資助,面臨倒閉的風(fēng)險。
盡管如此,Nemotron-70B的開源仍然為AI社區(qū)帶來了巨大的價值。該模型的出現(xiàn)不僅推動了AI技術(shù)的發(fā)展,還為研究人員和開發(fā)人員提供了更多的選擇和可能性。
英偉達(dá)開源Nemotron-70B模型無疑為AI領(lǐng)域帶來了新的活力和機(jī)遇。我們期待未來能夠看到更多優(yōu)秀的開源模型出現(xiàn),共同推動AI技術(shù)的發(fā)展和進(jìn)步。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://rponds.cn/article/686939.html