當(dāng)?shù)貢r間8月14日,?埃隆·馬斯克旗下AI初創(chuàng)公司xAI發(fā)布了一款新的聊天機(jī)器人Grok-2,聲稱其性能與競爭對手OpenAI、谷歌和Anthropic的產(chǎn)品相當(dāng)。此次發(fā)布的Grok-2系列包括兩個版本:Grok-2和Grok-2 mini。其中,Grok-2是該公司推理能力最強(qiáng)的語言模型,而輕量化模型Grok-2mini則是Grok-2試圖實(shí)現(xiàn)小參數(shù)體型下的強(qiáng)功能。
Grok-2因何被稱為理解能力最強(qiáng)?
Grok-2被描述為“類GPT-4級別”的大模型,具備強(qiáng)大的推理、編程和聊天功能,在xAI內(nèi)部測試中表現(xiàn)出色。而Grok-2 mini則主打小巧精致,雖然在性能上不及Grok-2,但在響應(yīng)速度方面有著明顯優(yōu)勢,適合對速度要求較高的場景。
根據(jù)xAI的描述,Grok-2在模型推理能力上取得了顯著進(jìn)步,特別是在處理復(fù)雜任務(wù)時表現(xiàn)出色。與其前身Grok-1.5相比,Grok-2不僅在推理能力上有所提升,還在工具使用能力上展現(xiàn)出了更強(qiáng)的適應(yīng)性。例如,它能夠更準(zhǔn)確地識別缺失信息,通過事件序列進(jìn)行推理,并有效排除不相關(guān)的內(nèi)容。這些特性使得Grok-2在面對各種復(fù)雜任務(wù)時,能夠更加從容應(yīng)對。
在基準(zhǔn)測試方面,Grok-2的表現(xiàn)也相當(dāng)亮眼。根據(jù)xAI披露的數(shù)據(jù),Grok-2在LMSYS排行榜上的得分超過了GPT-4 Turbo和Claude 3 Opus,甚至在某些測試中與GPT-4o和Llama 3-405B平分秋色。不過,這些成績也引發(fā)了外界的質(zhì)疑。有分析指出,xAI在公布基準(zhǔn)測試結(jié)果時,選擇了與五月份的GPT-4o得分進(jìn)行對比,存在利用時間差美化結(jié)果的嫌疑。這一做法無疑讓外界對Grok-2的真實(shí)性能產(chǎn)生了更多疑問。
Grok-2躋身前五大AI聊天機(jī)器人之列!
根據(jù)獨(dú)立AI基準(zhǔn)機(jī)構(gòu)的測試,這款模型已經(jīng)躋身前五大AI聊天機(jī)器人之列,僅落后于谷歌的Gemini和OpenAI的ChatGPT等模型。沃頓商學(xué)院教授、AI專家Ethan Mollick在X上發(fā)帖稱:“現(xiàn)在有五款GPT-4級別的AI模型:GPT-4o、Claude 3.5、Gemini 1.5、Llama 3.1和現(xiàn)在的Grok-2?!?Mollick還稱:“所有的測試實(shí)驗(yàn)室都表示,AI模型還有繼續(xù)大幅改進(jìn)的空間,但目前我們還沒有看到任何模型真正超越GPT-4。”
xAI表示,Grok-2是AI模型向前邁出的重要一步,在廣泛的任務(wù)中,無論是尋求答案、協(xié)同寫作,還是解決編碼任務(wù),都更加直觀、可控和通用。 根據(jù)AI模型評測機(jī)構(gòu)LMSYS的排名,Grok-2的表現(xiàn)被認(rèn)為優(yōu)于Meta和Anthropic的最強(qiáng)模型。 xAI表示,在內(nèi)部評估該模型的性能時,其重點(diǎn)是確保系統(tǒng)遵循用戶指示,并提供準(zhǔn)確、真實(shí)的信息。 在此之前,Grok-2的上一代產(chǎn)品被專家批評為“AI幻覺”,即將虛假信息陳述為事實(shí),這也一直視為企業(yè)采用AI系統(tǒng)的障礙。
與前代模型相比,Grok-2最大的變化之一是具備了直接生成圖像的能力。據(jù)xAI團(tuán)隊成員透露,Grok-2的圖像生成功能是基于近期廣受歡迎的FLUX.1模型開發(fā)的。這一功能的加入,使得Grok-2在X平臺上的應(yīng)用更加多樣化,也為用戶提供了更多的創(chuàng)作可能性。
馬斯克特別強(qiáng)調(diào)了Grok-2的圖像生成能力,并指出這一功能將在X平臺上逐步開放給Premium和Premium+訂閱用戶。值得注意的是,Grok-2的圖像生成功能沒有任何限制,這使得用戶可以利用這一功能創(chuàng)作各種類型的圖像,包括政治人物的照片等。這一功能的開放性在社交媒體上引發(fā)了廣泛討論,部分用戶對其潛在的濫用表示擔(dān)憂,而另一些用戶則對其創(chuàng)作自由度表示歡迎。
然而,Grok-2的圖像生成功能也并非毫無限制。根據(jù)用戶反饋,Premium用戶每月可以生成約20-30張圖像,而Premium+用戶則可以生成更多的圖像。盡管這一限制在一定程度上控制了資源的使用,但也引發(fā)了部分用戶的不滿,認(rèn)為這一限制可能影響用戶的創(chuàng)作體驗(yàn)。
寫在最后:
在Grok-2發(fā)布的同時,馬斯克也透露了xAI的未來計劃。根據(jù)他此前的公開發(fā)言,xAI正在全力開發(fā)Grok-3模型,預(yù)計將于今年年底發(fā)布。Grok-3的開發(fā)規(guī)模和資源投入令人矚目,據(jù)馬斯克透露,xAI團(tuán)隊為Grok-3的訓(xùn)練調(diào)用了10萬塊英偉達(dá)H100芯片,目標(biāo)是在今年年底前推出一款“按每項(xiàng)指標(biāo)衡量都是世界上最強(qiáng)大的人工智能模型”。
對于xAI而言,Grok-3的發(fā)布將是一次至關(guān)重要的挑戰(zhàn)。如果Grok-3能夠成功實(shí)現(xiàn)其目標(biāo),xAI有望在AI行業(yè)中占據(jù)更為重要的地位。然而,考慮到目前AI行業(yè)的激烈競爭,以及OpenAI、Google等科技巨頭的強(qiáng)大實(shí)力,xAI要想真正突圍,仍需在技術(shù)創(chuàng)新和產(chǎn)品應(yīng)用上取得更大突破。
原創(chuàng)文章,作者:科技探索者,如若轉(zhuǎn)載,請注明出處:http://rponds.cn/article/674087.html