隨著人工智能技術(shù)的飛速發(fā)展,數(shù)據(jù)成為驅(qū)動AI模型進(jìn)步的關(guān)鍵要素。然而,本周早些時候,《華爾街日報》報道指出,AI公司在收集高質(zhì)量訓(xùn)練數(shù)據(jù)方面遭遇了前所未有的困難。今日,《紐約時報》進(jìn)一步披露了AI公司處理這一問題的策略,涉及到了AI版權(quán)法的模糊地帶。
OpenAI,作為AI領(lǐng)域的領(lǐng)軍企業(yè),對訓(xùn)練數(shù)據(jù)的需求尤為迫切。據(jù)報道,為克服數(shù)據(jù)短缺的難題,OpenAI開發(fā)了Whisper音頻轉(zhuǎn)錄模型,轉(zhuǎn)錄了超過100萬小時的YouTube視頻,用于訓(xùn)練其先進(jìn)的大型語言模型GPT-4。此外,該公司還從Github獲取計算機(jī)代碼、國際象棋走棋數(shù)據(jù)庫以及Quizlet的作業(yè)內(nèi)容等多元數(shù)據(jù)資源。
然而,這一做法在法律層面引發(fā)了爭議。盡管OpenAI認(rèn)為其使用數(shù)據(jù)屬于合理范圍,但《泰晤士報》透露,OpenAI總裁Greg Brockman親自參與了所使用視頻的收集工作,這進(jìn)一步加劇了版權(quán)問題的復(fù)雜性。
OpenAI發(fā)言人在接受The Verge采訪時表示,公司為每個模型策劃了獨(dú)特的數(shù)據(jù)集,旨在幫助他們更好地了解世界,并保持全球研究競爭力。同時,發(fā)言人還提到,公司正在考慮生成自己的合成數(shù)據(jù),以緩解對外部數(shù)據(jù)源的依賴。
另一方面,谷歌也對OpenAI的行為表示了關(guān)注。谷歌發(fā)言人在一封電子郵件中稱,公司看到了有關(guān)OpenAI活動的未經(jīng)證實的報告,并強(qiáng)調(diào)其robots.txt文件和服務(wù)條款均禁止未經(jīng)授權(quán)的抓取或下載YouTube內(nèi)容。
YouTube首席執(zhí)行官Neal Mohan也在最近的采訪中公開表示,盡管沒有直接證據(jù)表明OpenAI使用YouTube視頻訓(xùn)練Sora模型,但這種行為違反了YouTube現(xiàn)行的平臺服務(wù)條款。
與此同時,Meta也面臨著數(shù)據(jù)可用性的限制。據(jù)《泰晤士報》報道,Meta的AI團(tuán)隊在討論追趕OpenAI的過程中,考慮了未經(jīng)許可使用版權(quán)作品的情況。為了擴(kuò)大數(shù)據(jù)集,Meta瀏覽了互聯(lián)網(wǎng)上的大量英語書籍、散文、詩歌和新聞文章,并考慮采取措施如支付圖書許可費(fèi)用,甚至直接收購大型出版商。
這一系列事件凸顯了AI行業(yè)在數(shù)據(jù)收集和使用方面所面臨的法律與倫理挑戰(zhàn)。隨著技術(shù)的不斷進(jìn)步,如何在保護(hù)版權(quán)的同時推動AI模型的發(fā)展,成為業(yè)界亟待解決的問題。未來,AI公司和相關(guān)監(jiān)管機(jī)構(gòu)需要共同努力,制定更加明確和合理的法規(guī),以促進(jìn)AI技術(shù)的健康、可持續(xù)發(fā)展。
原創(chuàng)文章,作者:小丸子,如若轉(zhuǎn)載,請注明出處:http://rponds.cn/article/643935.html