阿里云昨日公布了其多模態(tài)大模型研究的新進展,推出了升級版的通義千問視覺理解模型Qwen-VL-Max。這款模型在視覺推理能力和中文理解能力上都有了顯著提升,性能表現(xiàn)堪比GPT-4V和谷歌的Gemini Ultra。
Qwen-VL-Max的升級主要表現(xiàn)在以下幾個方面:
- 基礎(chǔ)能力:Qwen-VL-Max能夠準確描述和識別圖片信息,并基于圖片進行信息推理和擴展創(chuàng)作。它還具備了視覺定位能力,能夠?qū)Ξ嬅嬷付▍^(qū)域進行問答。
- 視覺推理:新版模型能夠理解流程圖等復(fù)雜形式圖片,并能夠分析復(fù)雜圖標。此外,它在看圖做題、看圖作文以及看圖寫代碼等任務(wù)上也達到了世界最佳水平。
- 圖像文本處理:Qwen-VL-Max的中英文文本識別能力顯著提高,支持百萬像素以上的高清分辨率圖和極端寬高比的圖像。它既能夠完整復(fù)現(xiàn)密集文本,也能從表格和文檔中提取信息。
與LLM(大語言模型)相比,多模態(tài)大模型擁有更大的應(yīng)用想象力。例如,研究者正在探索將多模態(tài)大模型與自動駕駛場景結(jié)合,為“完全自動駕駛”找到新的技術(shù)路徑。此外,將多模態(tài)模型部署到手機、機器人、智能音箱等端側(cè)設(shè)備,可以讓智能設(shè)備自動理解物理世界的信息,或者基于多模態(tài)模型開發(fā)應(yīng)用,輔助視力障礙群體的日常生活等等。
Qwen-VL-Plus和Qwen-VL-Max目前限時免費,用戶可以在通義千問官網(wǎng)、通義千問APP直接體驗Max版本模型的能力,也可以通過阿里云靈積平臺(DashScope)調(diào)用模型API。
總的來說,阿里云的通義千問多模態(tài)大模型Qwen-VL-Max在視覺推理和中文理解方面都展現(xiàn)出了強大的實力,其性能表現(xiàn)足以與GPT-4V和谷歌的Gemini Ultra相媲美。這將為用戶提供更豐富、更準確的視覺信息理解和創(chuàng)作能力,推動AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。
原創(chuàng)文章,作者:若安丶,如若轉(zhuǎn)載,請注明出處:http://rponds.cn/article/624926.html