今日,阿里云通義千問(Qwen)宣布,經(jīng)過數(shù)月的持續(xù)研發(fā)和優(yōu)化,其AI開源模型系列已升級至Qwen2,并在Hugging Face和ModelScope上同步開源。此次升級不僅引入了五個尺寸的預訓練和指令微調(diào)模型,還在多項性能上實現(xiàn)了顯著提升,包括代碼和數(shù)學能力的增強,以及對更長上下文長度的支持。
Qwen2系列包括五個不同尺寸的模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B,這些模型在參數(shù)量、非Embedding參數(shù)量以及上下文長度上均有所不同,以滿足不同場景下的需求。特別值得一提的是,Qwen2-72B-Instruct模型的上下文長度支持最高達到了128K tokens,為用戶提供了更加廣闊的文本處理空間。
在訓練數(shù)據(jù)方面,Qwen2系列在中文和英語的基礎上,增加了27種語言相關的高質(zhì)量數(shù)據(jù),從而大幅提升了模型的多語言能力。同時,所有尺寸的模型都采用了GQA(Gradient-based Quantization Aware Training)技術,該技術能夠顯著加速推理過程并降低顯存占用,為用戶提供更加高效和穩(wěn)定的模型使用體驗。
在模型評測方面,Qwen2系列在大規(guī)模模型上實現(xiàn)了非常大幅度的效果提升。尤其是Qwen2-72B模型,在包括自然語言理解、知識、代碼、數(shù)學及多語言等多項能力上均顯著超越當前領先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。這一成果充分展示了Qwen2系列在AI模型研發(fā)領域的領先地位和強大實力。
阿里云通義千問作為阿里云旗下的AI開源項目,一直致力于推動AI技術的創(chuàng)新和發(fā)展。此次Qwen2系列的發(fā)布,不僅為用戶提供了更加先進和高效的AI模型,也進一步彰顯了阿里云在AI領域的技術實力和創(chuàng)新能力。未來,我們期待通義千問能夠繼續(xù)推出更多優(yōu)秀的AI模型和技術,為AI領域的發(fā)展貢獻更多的力量。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://rponds.cn/article/659662.html