首頁 > 科創

從“無到有”走向“有到優” 國產視頻生成大模型漸入佳境

經濟參考報 2024-08-08 10:44

　　文生視頻大(da)模型(xing)Sora誕生半年后，它的中國(guo)“挑戰者”列隊(dui)登場，爭奪(duo)下一張AI殺手級應用(yong)的“船(chuan)票”。過去一個月(yue)，4款國(guo)產(chan)視頻生成模型(xing)陸續上線(xian)、走向大(da)眾。

　　與(yu)Sora僅(jin)釋放小樣、未開放使用(yong)不(bu)同，中國(guo)的(de)(de)視(shi)頻生(sheng)成(cheng)大模(mo)型發布即上線，便于使用(yong)者“拿來就用(yong)”。眼下(xia)，在應用(yong)端，一(yi)批內容創作者已(yi)初嘗“會(hui)打字就會(hui)生(sheng)視(shi)頻”“生(sheng)視(shi)頻不(bu)求人”的(de)(de)樂趣(qu)；在技術(shu)側，還有(you)一(yi)批孵化中的(de)(de)視(shi)頻生(sheng)成(cheng)模(mo)型正在路上。盡管(guan)國(guo)產(chan)工具還不(bu)具備(bei)一(yi)次性“分鐘級”的(de)(de)生(sheng)成(cheng)能力、無法實現比(bi)肩實拍的(de)(de)“無縫”“絲滑(hua)”，但視(shi)頻生(sheng)成(cheng)已(yi)解決了“有(you)”的(de)(de)問題，逐步向“優”進化。

　　想(xiang)象力“動”起(qi)來

　　最近，文生視頻(pin)賽道擠滿了強有力的中國選手。7月下旬，我國人工智能獨角獸智譜AI推(tui)出視頻(pin)生成模(mo)型“清影”、愛詩科技發布視頻(pin)生成產品PixVerse V2、生數科技上線視頻(pin)生成模(mo)型Vidu的同時，快手6月發布的“可靈AI”已(yi)積(ji)累百萬用戶(hu)。

　　“Sora還停留在(zai)實驗室的小樣階段，國產(chan)視(shi)頻生成工(gong)具已密集上線，并向C端開放使用，令人振奮。”北京大(da)學(xue)深圳(zhen)研究生院(yuan)信息工(gong)程(cheng)學(xue)院(yuan)助理教(jiao)授、博導袁粒(li)說。

　　Sora的中國“挑戰者”有何本領？

　　清晨，大(da)熊貓坐在(zai)湖邊彈吉他、兔子在(zai)餐(can)廳里看報紙、袋鼠(shu)和金絲猴在(zai)一(yi)旁吃(chi)早餐(can)，然(ran)后去動(dong)物城(cheng)的(de)(de)運(yun)動(dong)場上集合，觀(guan)看一(yi)年一(yi)度(du)的(de)(de)自行車(che)大(da)賽……這部由可靈(ling)AI生成(cheng)的(de)(de)動(dong)畫微電(dian)影(ying)，盡管時長只有62秒，卻(que)表(biao)現出了對現實世界(jie)物理規律（反射定(ding)(ding)律、重(zhong)力(li)定(ding)(ding)律等）的(de)(de)理解與(yu)呈(cheng)現能力(li)，以及一(yi)定(ding)(ding)的(de)(de)想象力(li)與(yu)故事的(de)(de)實現能力(li)。

　　進入“奧(ao)運(yun)時(shi)間”，不少刷(shua)屏朋友圈的(de)、可(ke)銜接(jie)不同場(chang)景和運(yun)鏡的(de)短(duan)片，也同樣出自國產視頻(pin)生成大模型(xing)之(zhi)手。

　　“視(shi)頻(pin)(pin)生(sheng)成(cheng)(cheng)，簡(jian)言之是通過(guo)生(sheng)成(cheng)(cheng)式(shi)AI技術，將文本、圖片(pian)等多模態輸入，轉化為視(shi)頻(pin)(pin)信號。”快手(shou)視(shi)覺生(sheng)成(cheng)(cheng)和互(hu)動中心負責人萬鵬飛說，“與過(guo)去我(wo)們常見的(de)相機拍攝(she)、圖形(xing)渲(xuan)染獲(huo)得視(shi)頻(pin)(pin)的(de)方式(shi)不同，視(shi)頻(pin)(pin)生(sheng)成(cheng)(cheng)的(de)本質是從(cong)目標分布中采樣計算得到(dao)像素。這種方式(shi)能以更低的(de)成(cheng)(cheng)本，達到(dao)更高的(de)內容自由度。”

　　進入Vidu的(de)(de)視(shi)頻(pin)生(sheng)(sheng)成頁面，記者體(ti)驗了“一鍵(jian)生(sheng)(sheng)成”的(de)(de)自由。上傳一張照片設置為“起始幀(zhen)”或(huo)作為“參考的(de)(de)人物角色”，在(zai)對話框(kuang)里輸入想要生(sheng)(sheng)成場景的(de)(de)文字描(miao)繪(hui)，點擊(ji)“生(sheng)(sheng)成”鍵(jian)，一條栩(xu)栩(xu)如生(sheng)(sheng)的(de)(de)短視(shi)頻(pin)就(jiu)自動生(sheng)(sheng)成了。從進入頁面到下載完畢，不足1分(fen)鐘。

　　一(yi)(yi)名技術負責(ze)人(ren)告訴(su)記(ji)者(zhe)一(yi)(yi)個“生成秘籍”：“試試‘鏡頭(tou)語言+建立場(chang)景+細(xi)節描述’的(de)提(ti)示(shi)詞公式，不出5次就能獲(huo)得想(xiang)要的(de)視頻(pin)(pin)內(nei)容。”比如，在(zai)對(dui)話框中輸入(ru)“寫(xie)實風(feng)格，近距(ju)離(li)，老虎伏(fu)在(zai)地上(shang)，身(shen)體(ti)微微起伏(fu)”的(de)文本。1分鐘(zhong)后，一(yi)(yi)段視頻(pin)(pin)出現在(zai)屏幕上(shang)：微風(feng)拂過的(de)草地上(shang)，老虎的(de)身(shen)體(ti)隨呼(hu)吸起伏(fu)，它的(de)毛發、胡須隨風(feng)而動，甚(shen)至能“以假亂真”。

　　視頻生(sheng)(sheng)成技術的(de)快(kuai)速迭(die)代，建立在對(dui)生(sheng)(sheng)成內容效果的(de)精準評價之上。如何區分視頻生(sheng)(sheng)成模(mo)型性(xing)(xing)(xing)(xing)能的(de)優(you)劣？“一看(kan)可控(kong)性(xing)(xing)(xing)(xing)，即生(sheng)(sheng)成內容與輸入文本的(de)對(dui)應程度；二看(kan)穩定性(xing)(xing)(xing)(xing)、一致性(xing)(xing)(xing)(xing)；三看(kan)合(he)理(li)性(xing)(xing)(xing)(xing)，即生(sheng)(sheng)成內容是否合(he)乎物理(li)規律(lv)；四看(kan)風格、審(shen)美、創(chuang)意；最后一點，看(kan)生(sheng)(sheng)成的(de)實時性(xing)(xing)(xing)(xing)。”香(xiang)港大學計算機(ji)系教授、歐洲科(ke)學院(yuan)外籍院(yuan)士(shi)徐東這(zhe)樣(yang)歸(gui)納。

　　成本降下去速度提上來

　　國外網友已(yi)經用(yong)行(xing)動表(biao)達了對中國自研視頻生成模型的(de)贊許，不少Twitter賬(zhang)號發布的(de)文字已(yi)經配上了可靈AI、清(qing)影(ying)AI生成的(de)視頻。

　　“坦白說，現在技(ji)(ji)術還(huan)沒有到成(cheng)熟(shu)的階段，視(shi)頻(pin)生(sheng)(sheng)成(cheng)模型的技(ji)(ji)術天(tian)花板高，可以(yi)提(ti)升的空間大(da)。但(dan)是，我們看到了影視(shi)、動畫、廣告、游戲行(xing)業的痛(tong)點：制(zhi)作(zuo)周(zhou)期(qi)長(chang)、制(zhi)作(zuo)成(cheng)本(ben)高，而這是技(ji)(ji)術可以(yi)努力解決的。”生(sheng)(sheng)數(shu)科技(ji)(ji)聯合(he)創始人、首席執行(xing)官(guan)唐(tang)家渝告訴記者。

　　一項技(ji)術想要成為(wei)“剛需”，須在增(zeng)強可用性、可控(kong)性的(de)前提下降低成本。作(zuo)為(wei)直接拉低創(chuang)作(zuo)與制作(zuo)門檻的(de)技(ji)術，視頻生(sheng)成模(mo)型的(de)出現，讓影視動畫從(cong)業者(zhe)看到了“小(xiao)團(tuan)隊(dui)制作(zuo)動畫”“小(xiao)成本內容(rong)創(chuang)作(zuo)”的(de)春天(tian)。

　　“創作(zuo)AIGC（生(sheng)成式人(ren)工(gong)智能）動(dong)畫短片(pian)是(shi)一次有(you)趣的(de)經歷(li)。我們先是(shi)有(you)了一個創意，把它畫成故事(shi)版，然后用AI生(sheng)成圖像，再(zai)用Vidu把圖像生(sheng)成了視頻。”北京電影節AIGC短片(pian)單元最佳影片(pian)得主、Ainimate Lab AI負責人(ren)陳劉芳告訴記者。

　　視頻生成(cheng)，將讓科幻(huan)、奇幻(huan)、動畫不(bu)再(zai)是大廠才敢玩的“燒(shao)錢游戲”。陳劉芳說，用上(shang)Vidu之后，制(zhi)作周期與制(zhi)作成(cheng)本(ben)的降低堪(kan)稱顯(xian)著。

　　“拿動畫(hua)短片(pian)《一(yi)(yi)(yi)路(lu)向南(nan)》來(lai)說(shuo)，創作(zuo)團隊僅(jin)由三人(ren)構(gou)成：一(yi)(yi)(yi)名導演、一(yi)(yi)(yi)名故(gu)(gu)事(shi)版(ban)(ban)藝(yi)術家(jia)和一(yi)(yi)(yi)名AIGC技術應(ying)用專家(jia)。而(er)傳統(tong)流(liu)程(cheng)需要(yao)20人(ren)，包(bao)含導演、故(gu)(gu)事(shi)版(ban)(ban)、美術、建模(mo)、材質、燈光(guang)、渲(xuan)染(ran)等不同‘工種’，周(zhou)期在(zai)一(yi)(yi)(yi)個月左右。這樣(yang)算(suan)下(xia)來(lai)，成本降低了90%以(yi)上(shang)。”陳劉(liu)芳說(shuo)，當然，目前視(shi)頻生成技術的精致(zhi)程(cheng)度還不夠(gou)，約為傳統(tong)動畫(hua)性(xing)能的三分之一(yi)(yi)(yi)。

　　然而，更(geng)低的(de)成(cheng)本(ben)、更(geng)高的(de)效率，已讓傳統的(de)影視、動畫、游戲從(cong)業者感受(shou)到(dao)技術顛覆前夜的(de)凜冽。“‘人(ren)(ren)(ren)人(ren)(ren)(ren)成(cheng)為(wei)設計師’‘人(ren)(ren)(ren)人(ren)(ren)(ren)成(cheng)為(wei)導演’的(de)時(shi)代(dai)將會(hui)到(dao)來，就像當年(nian)進(jin)入‘人(ren)(ren)(ren)人(ren)(ren)(ren)擁(yong)有麥克風’的(de)時(shi)代(dai)。”智譜AI首席(xi)執行官張鵬(peng)說。

　　“這(zhe)對于動(dong)畫(hua)行業而言(yan)，是(shi)(shi)挑戰(zhan)，也是(shi)(shi)機遇。比如(ru)一(yi)名武林(lin)高手，哪怕用最簡單的武器、最普(pu)通的招式也會威力十(shi)足，核心(xin)在(zai)于他的內功強(qiang)大。對于動(dong)畫(hua)行業而言(yan)，‘招式’好比新技術，‘內功’則是(shi)(shi)創意、是(shi)(shi)視聽(ting)表達、是(shi)(shi)對審(shen)美的品控判斷。”中國(guo)傳媒(mei)大學動(dong)畫(hua)與數字藝術學院教授、動(dong)畫(hua)系(xi)主(zhu)任艾(ai)勝英說。

　　技術固然(ran)帶來了性價(jia)比(bi)更高的(de)工具(ju)，但(dan)也(ye)凸顯了創意的(de)關鍵作(zuo)用。“當(dang)影視、動畫(hua)、游戲的(de)制(zhi)作(zuo)環節投(tou)入占比(bi)大幅降低后，比(bi)拼的(de)就(jiu)更加是創意。”陳劉芳說。

　　“煉”一個殺手級應用

　　大語言模(mo)型敲開生成式(shi)AI的大門后，視頻作(zuo)為圖像模(mo)態(tai)的再擴展(zhan)，將AIGC的技術推向高(gao)潮，也讓(rang)AIGC的應用離(li)大眾越(yue)來越(yue)近。

　　當(dang)前，全球(qiu)視頻(pin)生(sheng)成的(de)(de)(de)技術路(lu)線(xian)主要有兩(liang)種：一種是(shi)擴散模(mo)型，這其中又分為兩(liang)類(lei)，一類(lei)是(shi)基于卷積神經網絡的(de)(de)(de)擴散模(mo)型，如Meta的(de)(de)(de)Emu Video、騰(teng)訊等(deng)推出(chu)的(de)(de)(de)VideoCrafter；另一類(lei)是(shi)基于Transformer架(jia)構的(de)(de)(de)擴散模(mo)型，如生(sheng)數(shu)科技的(de)(de)(de)Vidu、OpenAI的(de)(de)(de)Sora、快手的(de)(de)(de)可靈AI等(deng)。第(di)二(er)種是(shi)自回歸路(lu)線(xian)，如谷歌的(de)(de)(de)VideoPoet、Phenaki等(deng)。

　　“國(guo)內視頻生(sheng)成的主流選(xuan)擇是(shi)基于Transformer架構(gou)(gou)的擴散模(mo)(mo)型，這(zhe)一架構(gou)(gou)能使模(mo)(mo)型在(zai)處理語(yu)言、計(ji)算機視覺、圖像生(sheng)成等(deng)領域表現出擴展能力，遵(zun)從‘規模(mo)(mo)定(ding)律(lv)’。”徐東說(shuo)。

　　這一選(xuan)擇(ze)也意味(wei)著，更大的(de)(de)算力、更高的(de)(de)質量與更大規模的(de)(de)數據(ju)，以及復雜(za)的(de)(de)算法。

　　“首當(dang)其沖(chong)的(de)是算法(fa)。視頻在(zai)圖像的(de)基礎上增(zeng)加了時間維度(du)，算法(fa)的(de)復雜程度(du)會指數(shu)級增(zeng)長。”徐東說，數(shu)據、算力一定的(de)條件下(xia)，模(mo)型性能關鍵在(zai)于算法(fa)的(de)能力，取(qu)決于算法(fa)人才(cai)水平的(de)高低。

　　其次，最為缺乏(fa)的是(shi)數據(ju)。“視頻(pin)生成強依賴于數據(ju)。與文本(ben)數據(ju)相(xiang)比，視頻(pin)數據(ju)的積累難(nan)度更大。數據(ju)的質量(liang)提升，不僅包(bao)括(kuo)視頻(pin)的解(jie)析(xi)度、風(feng)格、分鏡、組合、連(lian)續性(xing)等，還(huan)包(bao)括(kuo)數據(ju)的清洗、篩選、處理(li)。”張(zhang)鵬說。

　　視頻(pin)生(sheng)成(cheng)(cheng)模(mo)型更是(shi)“吞卡巨獸(shou)”。從Sora的(de)(de)實(shi)踐來看，持續(xu)提高模(mo)型的(de)(de)數據(ju)量、參數規模(mo)，迄今依然是(shi)AIGC進化(hua)的(de)(de)核心。中(zhong)信證券測算，一個(ge)60幀的(de)(de)視頻(pin)（約6至8秒）大約需要6萬個(ge)Patches（補片），如果去(qu)噪步數是(shi)20的(de)(de)話，相當于生(sheng)成(cheng)(cheng)120萬個(ge)Tokens（詞元）。考慮到擴散模(mo)型在實(shi)際使用中(zhong)需多次(ci)生(sheng)成(cheng)(cheng)，實(shi)際計算量會遠超120萬個(ge)Tokens（詞元）。

　　“大模型參數(shu)正以每年十(shi)倍的(de)速度(du)增長(chang)。不論對科技(ji)企業(ye)還是研(yan)(yan)究機構而言，如(ru)何持續訓(xun)練高性能的(de)模型，依然是巨大挑戰(zhan)。但與此同時，C端的(de)‘殺手級應用’讓人充滿期(qi)待。從創意的(de)生成，到(dao)圖片、音樂、視頻(pin)的(de)制(zhi)(zhi)作，AI都將有大施拳(quan)腳之地。未來，視頻(pin)制(zhi)(zhi)作也許就像今天做PPT一樣簡單便捷。”北京智源人工智能研(yan)(yan)究院院長(chang)王(wang)仲遠說(shuo)。（記者張漫子）

91久久精品无码毛片国产高清

從“無到有”走向“有到優” 國產視頻生成大模型漸入佳境

中證路演Live

安乃達驅動技術（上海）股份有限公司首次公開發行A股上市儀式

上海雅創電子集團股份有限公司2023年度業績說明會

金牛生態圈Golden Bull Awards

2024金牛私募發展論壇

2024基金業投教創新論壇

2023金牛企業可持續發展論壇暨第一屆國新杯·ESG金牛獎頒獎典禮