在中關(guān)村論壇的未來人工智能先鋒論壇中,生數(shù)科技與清華大學(xué)攜手,正式推出了中國首個(gè)具備長時(shí)長、高一致性及高動(dòng)態(tài)性的視頻大模型——“Vidu”。
這款引領(lǐng)時(shí)代的視頻大模型,其核心在于團(tuán)隊(duì)原創(chuàng)的Diffusion與Transformer融合的U-ViT架構(gòu)。它不僅能一鍵生成長達(dá)16秒、清晰度達(dá)到1080P的高清視頻,更能在模擬真實(shí)物理世界的同時(shí),展現(xiàn)出驚人的想象力。多鏡頭生成、時(shí)空高度一致,這些都是Vidu的獨(dú)特魅力。
值得一提的是,Vidu自發(fā)布以來,便在全球范圍內(nèi)取得了顯著突破,其性能與國際頂尖水平比肩,并仍在不斷迭代優(yōu)化中。這一成就,離不開團(tuán)隊(duì)在貝葉斯機(jī)器學(xué)習(xí)和多模態(tài)大模型領(lǐng)域的深厚積累和多項(xiàng)原創(chuàng)性成果。
特別是團(tuán)隊(duì)于2022年9月提出的U-ViT架構(gòu),作為全球首個(gè)Diffusion與Transformer的融合架構(gòu),為Vidu的誕生奠定了堅(jiān)實(shí)基礎(chǔ)。隨后,在2023年3月,團(tuán)隊(duì)再次領(lǐng)先,開源了基于U-ViT融合架構(gòu)的多模態(tài)擴(kuò)散模型UniDiffuser,成功驗(yàn)證了U-ViT架構(gòu)的大規(guī)??蓴U(kuò)展性。
基于對U-ViT架構(gòu)的深入理解和豐富的工程、數(shù)據(jù)經(jīng)驗(yàn),團(tuán)隊(duì)在極短的時(shí)間內(nèi)攻克了長視頻表示與處理的多項(xiàng)關(guān)鍵技術(shù)難題,從而研發(fā)出了Vidu視頻大模型。這款模型在提升視頻連貫性和動(dòng)態(tài)性方面表現(xiàn)出色,進(jìn)一步推動(dòng)了視頻處理技術(shù)的發(fā)展。
Vidu的問世,不僅再次驗(yàn)證了U-ViT融合架構(gòu)在大規(guī)模視覺任務(wù)中的卓越性能,也展示了生數(shù)科技在多模態(tài)原生大模型領(lǐng)域的持續(xù)創(chuàng)新能力和行業(yè)領(lǐng)先地位。作為通用視覺模型,Vidu能夠生成更加多樣化、更長時(shí)長的視頻內(nèi)容,其靈活的架構(gòu)也將為未來兼容更廣泛的模態(tài)、拓展多模態(tài)通用能力的邊界提供無限可能。
原創(chuàng)文章,作者:科技探索者,如若轉(zhuǎn)載,請注明出處:http://rponds.cn/article/651014.html