近日,阿里巴巴宣布開(kāi)源了其Qwen1.5系列中的首個(gè)千億參數(shù)模型——Qwen1.5-110B。這一舉措不僅彰顯了阿里巴巴在人工智能領(lǐng)域的創(chuàng)新實(shí)力,也標(biāo)志著中國(guó)企業(yè)在大型語(yǔ)言模型領(lǐng)域取得了顯著進(jìn)展。
據(jù)悉,Qwen1.5-110B模型采用了Transformer解碼器架構(gòu),并引入了分組查詢注意力(GQA)技術(shù),使得模型在推理時(shí)更加高效。該模型支持長(zhǎng)達(dá)32K tokens的上下文長(zhǎng)度,具備多語(yǔ)言處理能力,支持包括英、中、法、西、德、俄、日、韓、越、阿等在內(nèi)的多種語(yǔ)言。
在性能評(píng)估方面,Qwen1.5-110B模型展現(xiàn)出了與Meta的Llama3-70B模型相媲美的實(shí)力。這一成績(jī)是在沒(méi)有大幅改變預(yù)訓(xùn)練方法的情況下取得的,阿里巴巴方面認(rèn)為,性能的提升主要?dú)w功于模型規(guī)模的增加。這一結(jié)果不僅證明了阿里巴巴在模型設(shè)計(jì)和優(yōu)化方面的專業(yè)能力,也為中國(guó)在大型語(yǔ)言模型領(lǐng)域的發(fā)展注入了新的活力。
除了在基礎(chǔ)能力評(píng)估中表現(xiàn)出色外,Qwen1.5-110B模型在Chat評(píng)估中也取得了優(yōu)異的成績(jī)。在MT-Bench和AlpacaEval 2.0這兩個(gè)Chat模型基準(zhǔn)評(píng)估中,該模型相較于之前發(fā)布的72B模型表現(xiàn)出了顯著的優(yōu)勢(shì)。這一結(jié)果進(jìn)一步證明了更大規(guī)模的基礎(chǔ)語(yǔ)言模型可以帶來(lái)更好的Chat模型性能。
阿里巴巴方面表示,Qwen1.5-110B是Qwen1.5系列中規(guī)模最大的模型,也是該系列中首個(gè)擁有超過(guò)1000億參數(shù)的模型。這一成就不僅彰顯了阿里巴巴在大型語(yǔ)言模型領(lǐng)域的領(lǐng)先地位,也為中國(guó)企業(yè)在全球人工智能競(jìng)爭(zhēng)中贏得了更多的話語(yǔ)權(quán)。
隨著人工智能技術(shù)的不斷發(fā)展,大型語(yǔ)言模型已經(jīng)成為了各大科技企業(yè)的重點(diǎn)研究方向。阿里巴巴此次開(kāi)源Qwen1.5-110B模型,不僅為開(kāi)發(fā)者提供了更加優(yōu)秀的工具,也為推動(dòng)人工智能技術(shù)的普及和應(yīng)用做出了積極的貢獻(xiàn)。
未來(lái),我們期待看到更多中國(guó)企業(yè)在大型語(yǔ)言模型領(lǐng)域取得突破,為人工智能技術(shù)的發(fā)展和應(yīng)用注入更多的活力和創(chuàng)新力量。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://rponds.cn/article/651113.html