劍橋大學(xué)臨床醫(yī)學(xué)院的最新研究發(fā)現(xiàn),OpenAI的GPT-4模型在眼科評估中的表現(xiàn)幾乎可與該領(lǐng)域的專家相媲美。這一突破性成果在金融時報首次報道后,引起了醫(yī)療和科技界的廣泛關(guān)注。
在這項發(fā)表在PLOS數(shù)字健康雜志上的研究中,研究人員對GPT-4及其前身GPT-3.5、谷歌的PaLM 2以及梅塔美洲駝進行了眼科知識測試。測試內(nèi)容涵蓋了從光敏感到病變等各個方面的87道選擇題,難度與眼科教科書中的題目相當(dāng)。五名眼科專家、三名實習(xí)眼科醫(yī)生和兩名非專業(yè)初級醫(yī)生也接受了相同的模擬考試。值得注意的是,這些題目對于LLM模型而言是全新的,因為它們之前并未接觸過相關(guān)內(nèi)容。
在測試中,GPT-4展現(xiàn)了令人印象深刻的表現(xiàn),答對了60道問題,得分高于實習(xí)醫(yī)生和初級醫(yī)生。盡管這一成績略遜于眼科專家的平均得分66.4,但已足以顯示其在眼科評估領(lǐng)域的巨大潛力。相比之下,PaLM 2、GPT-3.5和梅塔美洲駝的得分分別為49分、42分和28分,均低于初級醫(yī)生的平均水平。
然而,盡管這些結(jié)果展示了LLM在醫(yī)療領(lǐng)域的潛在應(yīng)用,研究人員也警告稱,必須謹慎對待這些模型的輸出結(jié)果。他們指出,測試中的問題數(shù)量有限,特別是在某些類別中,這可能導(dǎo)致實際結(jié)果有所偏差。此外,LLM模型存在“幻覺”現(xiàn)象,即生成不相關(guān)或錯誤的事實,這在醫(yī)療領(lǐng)域尤為危險。如果模型錯誤地診斷出白內(nèi)障或癌癥等嚴重疾病,將可能對患者造成嚴重后果。
研究人員強調(diào),雖然LLM模型在眼科評估中展現(xiàn)了令人鼓舞的初步成果,但在實際應(yīng)用中仍需謹慎對待。未來,應(yīng)進一步探索如何提高模型的準確性和可靠性,以確保其能夠安全、有效地服務(wù)于醫(yī)療領(lǐng)域。
此項研究為LLM模型在醫(yī)療領(lǐng)域的應(yīng)用提供了新的視角,也提醒我們在追求技術(shù)進步的同時,必須關(guān)注其潛在的風(fēng)險和局限性。隨著LLM技術(shù)的不斷發(fā)展,我們期待未來能夠看到更多關(guān)于其如何在醫(yī)療領(lǐng)域造福社會的報道。
原創(chuàng)文章,作者:若安丶,如若轉(zhuǎn)載,請注明出處:http://rponds.cn/article/648782.html