在最近的Google Next活動中,谷歌宣布了對其人工智能模型Gemini 1.5 Pro的重大更新,這一更新為模型帶來了前所未有的聽覺能力。Gemini 1.5 Pro現(xiàn)在能夠處理和理解上傳的音頻文件,這意味著它可以直接從財報電話會議或視頻音頻中提取信息,而無需依賴書面文字記錄。
此次更新的亮點是,Gemini 1.5 Pro在性能上已經(jīng)超越了Gemini家族中最大最強的機型Gemini Ultra。谷歌聲稱,Gemini 1.5 Pro能夠理解復雜的指令,而無需對模型進行微調(diào),這標志著AI技術(shù)的一個重要進步。
然而,值得注意的是,Gemini 1.5 Pro的使用受限于能夠訪問Vertex AI和AI Studio的用戶。目前,大多數(shù)人通過Gemini聊天機器人接觸到Gemini語言模型,而Gemini Ultra則為Gemini Advanced聊天機器人提供動力。盡管Gemini Ultra功能強大,但在速度上不及Gemini 1.5 Pro。
除了Gemini 1.5 Pro,谷歌的另一大型AI模型Imagen 2也獲得了更新。Imagen 2是一種文本到圖像生成模型,它不僅增強了Gemini的圖像生成能力,還新增了圖像編輯功能,允許用戶在圖像中添加或刪除元素。此外,谷歌還為通過Imagen模型創(chuàng)建的所有圖片提供了SynthID數(shù)字水印功能,該功能在圖像上添加了一個對觀看者不可見的水印,以標記圖像的來源。
谷歌還公開預覽了一種新方法,將其人工智能響應(yīng)與谷歌搜索結(jié)合起來,以便用最新的信息進行回答。這一舉措意味著,即使是大型語言模型也能提供最新的信息,而不僅僅是基于內(nèi)部數(shù)據(jù)的回答。值得一提的是,谷歌有意不讓Gemini回答與2024年美國大選相關(guān)的問題,這表明了對信息敏感性的考量。
Gemini因生成與歷史人物不準確的照片而受到批評,這一事件提醒我們,盡管人工智能技術(shù)取得了巨大進步,但仍需謹慎處理與歷史和現(xiàn)實世界相關(guān)的數(shù)據(jù)。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://rponds.cn/article/645533.html