4月2日消息,蘋果公司的研究團(tuán)隊(duì)最近發(fā)表了一篇論文,宣布他們成功開發(fā)出了一款創(chuàng)新的人工智能系統(tǒng)。這個(gè)系統(tǒng)能夠準(zhǔn)確地理解屏幕上模糊的內(nèi)容及其相關(guān)對話和背景環(huán)境,進(jìn)而實(shí)現(xiàn)與語音助手更加自然的互動(dòng)。
這個(gè)系統(tǒng)被命名為ReALM(Reference Resolution As Language Modeling,即以語言建模為基礎(chǔ)的參考解析),它通過大語言模型的運(yùn)用,將理解屏幕視覺元素指向的復(fù)雜任務(wù)轉(zhuǎn)化為一個(gè)純粹的語言問題。這一轉(zhuǎn)換使得ReALM在性能上相較于現(xiàn)有技術(shù)有了顯著的提升。
蘋果研究團(tuán)隊(duì)強(qiáng)調(diào):“讓對話助手能夠理解上下文,包括相關(guān)的內(nèi)容指向,非常關(guān)鍵。能讓用戶根據(jù)他們所看到的屏幕內(nèi)容進(jìn)行提問,是確保真正實(shí)現(xiàn)語音操作體驗(yàn)的重要一步?!?/p>
增強(qiáng)對話助手的能力
ReALM的一大創(chuàng)新在于它能夠重新構(gòu)建屏幕內(nèi)容,即通過分析屏幕上的信息及其位置信息來生成文本表示,這一點(diǎn)對捕捉視覺布局至關(guān)重要。研究人員展示了這種方法與專為內(nèi)容指向調(diào)整的語言模型結(jié)合起來,能在執(zhí)行相關(guān)任務(wù)時(shí)超越GPT-4的性能。
研究人員表示:“我們對現(xiàn)有系統(tǒng)進(jìn)行了顯著改進(jìn),在處理多種類型的內(nèi)容指向時(shí)均展現(xiàn)出卓越性能。我們的最小模型就實(shí)現(xiàn)了超過5%的性能提升,而大型模型的表現(xiàn)則明顯超過了GPT-4?!?/p>
實(shí)際應(yīng)用與局限性
這項(xiàng)研究凸顯了專注于語言模型在處理如內(nèi)容指向解析等任務(wù)上的巨大潛力。由于響應(yīng)時(shí)間或計(jì)算資源的限制,大型端到端模型往往難以實(shí)施。通過這項(xiàng)創(chuàng)新性研究,蘋果展現(xiàn)了其持續(xù)投入,使Siri等產(chǎn)品在對話和理解上下文方面更加出色。
盡管如此,研究人員也指出,依靠自動(dòng)化解析屏幕內(nèi)容仍然面臨挑戰(zhàn)。在處理更復(fù)雜的視覺內(nèi)容,比如區(qū)分多個(gè)相似圖像時(shí),可能需要結(jié)合計(jì)算機(jī)視覺和多模態(tài)技術(shù)。
努力縮小與AI競爭對手差距
雖然在人工智能領(lǐng)域蘋果曾稍顯落后,但它正在默默取得顯著進(jìn)展。從融合視覺與語言的多模態(tài)模型,到開發(fā)AI驅(qū)動(dòng)的動(dòng)畫工具,再到構(gòu)建高性能的專業(yè)AI技術(shù),蘋果的研究實(shí)驗(yàn)室持續(xù)實(shí)現(xiàn)技術(shù)突破。
面對谷歌、微軟、亞馬遜和OpenAI等公司的激烈競爭——這些公司已在搜索、辦公軟件、云服務(wù)等領(lǐng)域推出了先進(jìn)的AI產(chǎn)品——作為一個(gè)以保密聞名的科技巨頭,蘋果正努力不落人后。
長期以來,蘋果更多在創(chuàng)新領(lǐng)域扮演跟隨者而不是領(lǐng)先者的角色,現(xiàn)在正面臨著一個(gè)由人工智能快速改變的市場。在6月舉辦的全球開發(fā)者大會上,蘋果預(yù)計(jì)將推出新的大語言模型框架、“AppleGPT”聊天機(jī)器人及其生態(tài)系統(tǒng)中的其他AI功能。
“我們很高興今年晚些時(shí)候分享我們在人工智能方面的工作進(jìn)展,”首席執(zhí)行官蒂姆·庫克(TimCook)最近在一次盈利電話會議上暗示。盡管蘋果向來低調(diào),但其在AI領(lǐng)域的廣泛努力已經(jīng)引起了業(yè)界的廣泛關(guān)注。
然而,在日益激烈的人工智能領(lǐng)域競爭中,蘋果的相對滯后使其處于不利地位。但憑借其雄厚的資金實(shí)力、品牌忠誠度、一流的工程師團(tuán)隊(duì)和緊密整合的產(chǎn)品線,蘋果仍有機(jī)會扭轉(zhuǎn)局面。
本文轉(zhuǎn)載自:cnBeta,不代表科技訊之立場。原文鏈接:https://www.cnbeta.com.tw/articles/tech/1425875.htm