近日,字節(jié)跳動(dòng)的研究人員推出了一種超高清文生視頻模型MagicVideo-V2,該模型在視頻的高清度、潤滑度、連貫性、文本語義還原等方面表現(xiàn)出色,比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika 1.0等更優(yōu)秀。這一創(chuàng)新模型將為文生視頻領(lǐng)域帶來重大突破,引領(lǐng)行業(yè)進(jìn)入新的篇章。
MagicVideo-V2將文生圖像、圖像生成視頻、視頻到視頻和視頻幀插值4種功能整合到一個(gè)模型中,解決了之前面臨的4大難題。隨著Gen-2等模型的出現(xiàn),文生視頻領(lǐng)域?qū)崿F(xiàn)飛速發(fā)展,尤其是在這個(gè)短視頻時(shí)代被大量用戶應(yīng)用。然而,在生成的過程中,模型經(jīng)常面臨4個(gè)難題:視頻不美觀、內(nèi)容不一致、視覺質(zhì)量和清晰度較差以及視頻運(yùn)動(dòng)不連貫。
為了解決這些問題,字節(jié)跳動(dòng)的研究人員直接將4個(gè)模塊整合在MagicVideo-V2模型中。文生圖像模塊用于接收用戶提供的文本描述作為輸入,并生成一個(gè)高清的參考圖像,這有助于增強(qiáng)視頻的內(nèi)容和美學(xué)風(fēng)格。圖像到視頻模塊基于SD1.5模型,通過人類反饋來提高模型在視覺質(zhì)量和內(nèi)容一致性方面的能力。該模塊還使用了一個(gè)參考圖像嵌入模塊,用于利用參考圖像,使圖像提示可以有效地與文本提示解耦,并提供更強(qiáng)的圖像條件。
此外,視頻到視頻模塊進(jìn)一步對(duì)低分辨率視頻的關(guān)鍵幀進(jìn)行優(yōu)化和超分辨率處理,以生成高分辨率的視頻。該模塊就像照相機(jī)的美顏功能一樣,會(huì)根據(jù)圖像內(nèi)容自動(dòng)生成更豐富的像素級(jí)細(xì)節(jié),增強(qiáng)整體逼真度與紋理細(xì)節(jié)。這也是比其他文生視頻模型更高清的重要原因之一。
最后,視頻幀插值模塊可以在生成的視頻關(guān)鍵幀之間插入額外的幀,增加視頻的平滑性、動(dòng)態(tài)感以及連貫性。該模塊主要通過分析相鄰關(guān)鍵幀之間的運(yùn)動(dòng)信息,以及參考圖像和文本描述,插入中間幀,使視頻的運(yùn)動(dòng)更加連續(xù)和自然。
為了評(píng)估 MagicVideo-V2的性能,研究人員使用了人類評(píng)估和目前最先進(jìn)的 T2V 系統(tǒng)兩種評(píng)估方法。分別由61位評(píng)估者組成的小組對(duì) MagicVideo-V2 和另一種 T2V 方法進(jìn)行了 500 次并排比較。在每一輪比較中,每位投票者都會(huì)看到一對(duì)隨機(jī)的視頻,包括基于相同文本提示的一個(gè)我們的視頻和一個(gè)競爭對(duì)手的視頻。
投票者需要根據(jù)他們對(duì)三個(gè)標(biāo)準(zhǔn)的總體偏好進(jìn)行投票:哪種視頻具有更高的幀質(zhì)量和整體視覺吸引力;哪種視頻的時(shí)間一致性更高,運(yùn)動(dòng)范圍和運(yùn)動(dòng)連貫性更好;哪個(gè)視頻的結(jié)構(gòu)錯(cuò)誤或不良情況更少。測試結(jié)果表明,MagicVideo-V2 明顯更受評(píng)估者青睞。
總體而言,字節(jié)跳動(dòng)推出的超高清文生視頻模型MagicVideo-V2具有出色的性能表現(xiàn)和廣泛的潛在應(yīng)用場景。它將為短視頻創(chuàng)作、游戲設(shè)計(jì)、虛擬現(xiàn)實(shí)等領(lǐng)域帶來更多可能性。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場景的不斷拓展,相信文生視頻領(lǐng)域?qū)?huì)迎來更加廣闊的發(fā)展前景。
原創(chuàng)文章,作者:檸萌,如若轉(zhuǎn)載,請(qǐng)注明出處:http://rponds.cn/article/628078.html