91久久精品无码毛片国产高清

中證網
返回首頁

從“無到有”走向“有到優” 國產視頻生成大模型漸入佳境

經濟參考報

  文生視頻大(da)模型(xing)Sora誕生半年后,它的中國(guo)“挑戰者”列隊(dui)登場,爭奪(duo)下一張AI殺手級應用(yong)的“船(chuan)票”。過去一個月(yue),4款國(guo)產(chan)視頻生成模型(xing)陸續上線(xian)、走向大(da)眾。

  與(yu)Sora僅(jin)釋放小樣、未開放使用(yong)不(bu)同,中國(guo)的(de)(de)視(shi)頻生(sheng)成(cheng)大模(mo)型發布即上線,便于使用(yong)者“拿來就用(yong)”。眼下(xia),在應用(yong)端,一(yi)批內容創作者已(yi)初嘗“會(hui)打字就會(hui)生(sheng)視(shi)頻”“生(sheng)視(shi)頻不(bu)求人”的(de)(de)樂趣(qu);在技術(shu)側,還有(you)一(yi)批孵化中的(de)(de)視(shi)頻生(sheng)成(cheng)模(mo)型正在路上。盡管(guan)國(guo)產(chan)工具還不(bu)具備(bei)一(yi)次性“分鐘級”的(de)(de)生(sheng)成(cheng)能力、無法實現比(bi)肩實拍的(de)(de)“無縫”“絲滑(hua)”,但視(shi)頻生(sheng)成(cheng)已(yi)解決了“有(you)”的(de)(de)問題,逐步向“優”進化。

  想(xiang)象力“動”起(qi)來

  最近,文生視頻(pin)賽道擠滿了強有力的中國選手。7月下旬,我國人工智能獨角獸智譜AI推(tui)出視頻(pin)生成模(mo)型“清影”、愛詩科技發布視頻(pin)生成產品PixVerse V2、生數科技上線視頻(pin)生成模(mo)型Vidu的同時,快手6月發布的“可靈AI”已(yi)積(ji)累百萬用戶(hu)。

  “Sora還停留在(zai)實驗室的小樣階段,國產(chan)視(shi)頻生成工(gong)具已密集上線,并向C端開放使用,令人振奮。”北京大(da)學(xue)深圳(zhen)研究生院(yuan)信息工(gong)程(cheng)學(xue)院(yuan)助理教(jiao)授、博導袁粒(li)說。

  Sora的中國“挑戰者”有何本領?

  清晨,大(da)熊貓坐在(zai)湖邊彈吉他、兔子在(zai)餐(can)廳里看報紙、袋鼠(shu)和金絲猴在(zai)一(yi)旁吃(chi)早餐(can),然(ran)后去動(dong)物城(cheng)的(de)(de)運(yun)動(dong)場上集合,觀(guan)看一(yi)年一(yi)度(du)的(de)(de)自行車(che)大(da)賽……這部由可靈(ling)AI生成(cheng)的(de)(de)動(dong)畫微電(dian)影(ying),盡管時長只有62秒,卻(que)表(biao)現出了對現實世界(jie)物理規律(反射定(ding)(ding)律、重(zhong)力(li)定(ding)(ding)律等)的(de)(de)理解與(yu)呈(cheng)現能力(li),以及一(yi)定(ding)(ding)的(de)(de)想象力(li)與(yu)故事的(de)(de)實現能力(li)。

  進入“奧(ao)運(yun)時(shi)間”,不少刷(shua)屏朋友圈的(de)、可(ke)銜接(jie)不同場(chang)景和運(yun)鏡的(de)短(duan)片,也同樣出自國產視頻(pin)生成大模型(xing)之(zhi)手。

  “視(shi)頻(pin)(pin)生(sheng)成(cheng)(cheng),簡(jian)言之是通過(guo)生(sheng)成(cheng)(cheng)式(shi)AI技術,將文本、圖片(pian)等多模態輸入,轉化為視(shi)頻(pin)(pin)信號。”快手(shou)視(shi)覺生(sheng)成(cheng)(cheng)和互(hu)動中心負責人萬鵬飛說,“與過(guo)去我(wo)們常見的(de)相機拍攝(she)、圖形(xing)渲(xuan)染獲(huo)得視(shi)頻(pin)(pin)的(de)方式(shi)不同,視(shi)頻(pin)(pin)生(sheng)成(cheng)(cheng)的(de)本質是從(cong)目標分布中采樣計算得到(dao)像素。這種方式(shi)能以更低的(de)成(cheng)(cheng)本,達到(dao)更高的(de)內容自由度。”

  進入Vidu的(de)(de)視(shi)頻(pin)生(sheng)(sheng)成頁面,記者體(ti)驗了“一鍵(jian)生(sheng)(sheng)成”的(de)(de)自由。上傳一張照片設置為“起始幀(zhen)”或(huo)作為“參考的(de)(de)人物角色”,在(zai)對話框(kuang)里輸入想要生(sheng)(sheng)成場景的(de)(de)文字描(miao)繪(hui),點擊(ji)“生(sheng)(sheng)成”鍵(jian),一條栩(xu)栩(xu)如生(sheng)(sheng)的(de)(de)短視(shi)頻(pin)就(jiu)自動生(sheng)(sheng)成了。從進入頁面到下載完畢,不足1分(fen)鐘。

  一(yi)(yi)名技術負責(ze)人(ren)告訴(su)記(ji)者(zhe)一(yi)(yi)個“生成秘籍”:“試試‘鏡頭(tou)語言+建立場(chang)景+細(xi)節描述’的(de)提(ti)示(shi)詞公式,不出5次就能獲(huo)得想(xiang)要的(de)視頻(pin)(pin)內(nei)容。”比如,在(zai)對(dui)話框中輸入(ru)“寫(xie)實風(feng)格,近距(ju)離(li),老虎伏(fu)在(zai)地上(shang),身(shen)體(ti)微微起伏(fu)”的(de)文本。1分鐘(zhong)后,一(yi)(yi)段視頻(pin)(pin)出現在(zai)屏幕上(shang):微風(feng)拂過的(de)草地上(shang),老虎的(de)身(shen)體(ti)隨呼(hu)吸起伏(fu),它的(de)毛發、胡須隨風(feng)而動,甚(shen)至能“以假亂真”。

  視頻生(sheng)(sheng)成技術的(de)快(kuai)速迭(die)代,建立在對(dui)生(sheng)(sheng)成內容效果的(de)精準評價之上。如何區分視頻生(sheng)(sheng)成模(mo)型性(xing)(xing)(xing)(xing)能的(de)優(you)劣?“一看(kan)可控(kong)性(xing)(xing)(xing)(xing),即生(sheng)(sheng)成內容與輸入文本的(de)對(dui)應程度;二看(kan)穩定性(xing)(xing)(xing)(xing)、一致性(xing)(xing)(xing)(xing);三看(kan)合(he)理(li)性(xing)(xing)(xing)(xing),即生(sheng)(sheng)成內容是否合(he)乎物理(li)規律(lv);四看(kan)風格、審(shen)美、創(chuang)意;最后一點,看(kan)生(sheng)(sheng)成的(de)實時性(xing)(xing)(xing)(xing)。”香(xiang)港大學計算機(ji)系教授、歐洲科(ke)學院(yuan)外籍院(yuan)士(shi)徐東這(zhe)樣(yang)歸(gui)納。

  成本降下去 速度提上來

  國外網友已(yi)經用(yong)行(xing)動表(biao)達了對中國自研視頻生成模型的(de)贊許,不少Twitter賬(zhang)號發布的(de)文字已(yi)經配上了可靈AI、清(qing)影(ying)AI生成的(de)視頻。

  “坦白說,現在技(ji)(ji)術還(huan)沒有到成(cheng)熟(shu)的階段,視(shi)頻(pin)生(sheng)(sheng)成(cheng)模型的技(ji)(ji)術天(tian)花板高,可以(yi)提(ti)升的空間大(da)。但(dan)是,我們看到了影視(shi)、動畫、廣告、游戲行(xing)業的痛(tong)點:制(zhi)作(zuo)周(zhou)期(qi)長(chang)、制(zhi)作(zuo)成(cheng)本(ben)高,而這是技(ji)(ji)術可以(yi)努力解決的。”生(sheng)(sheng)數(shu)科技(ji)(ji)聯合(he)創始人、首席執行(xing)官(guan)唐(tang)家渝告訴記者。

  一項技(ji)術想要成為(wei)“剛需”,須在增(zeng)強可用性、可控(kong)性的(de)前提下降低成本。作(zuo)為(wei)直接拉低創(chuang)作(zuo)與制作(zuo)門檻的(de)技(ji)術,視頻生(sheng)成模(mo)型的(de)出現,讓影視動畫從(cong)業者(zhe)看到了“小(xiao)團(tuan)隊(dui)制作(zuo)動畫”“小(xiao)成本內容(rong)創(chuang)作(zuo)”的(de)春天(tian)。

  “創作(zuo)AIGC(生(sheng)成式人(ren)工(gong)智能)動(dong)畫短片(pian)是(shi)一次有(you)趣的(de)經歷(li)。我們先是(shi)有(you)了一個創意,把它畫成故事(shi)版,然后用AI生(sheng)成圖像,再(zai)用Vidu把圖像生(sheng)成了視頻。”北京電影節AIGC短片(pian)單元最佳影片(pian)得主、Ainimate Lab AI負責人(ren)陳劉芳告訴記者。

  視頻生成(cheng),將讓科幻(huan)、奇幻(huan)、動畫不(bu)再(zai)是大廠才敢玩的“燒(shao)錢游戲”。陳劉芳說,用上(shang)Vidu之后,制(zhi)作周期與制(zhi)作成(cheng)本(ben)的降低堪(kan)稱顯(xian)著。

  “拿動畫(hua)短片(pian)《一(yi)(yi)(yi)路(lu)向南(nan)》來(lai)說(shuo),創作(zuo)團隊僅(jin)由三人(ren)構(gou)成:一(yi)(yi)(yi)名導演、一(yi)(yi)(yi)名故(gu)(gu)事(shi)版(ban)(ban)藝(yi)術家(jia)和一(yi)(yi)(yi)名AIGC技術應(ying)用專家(jia)。而(er)傳統(tong)流(liu)程(cheng)需要(yao)20人(ren),包(bao)含導演、故(gu)(gu)事(shi)版(ban)(ban)、美術、建模(mo)、材質、燈光(guang)、渲(xuan)染(ran)等不同‘工種’,周(zhou)期在(zai)一(yi)(yi)(yi)個月左右。這樣(yang)算(suan)下(xia)來(lai),成本降低了90%以(yi)上(shang)。”陳劉(liu)芳說(shuo),當然,目前視(shi)頻生成技術的精致(zhi)程(cheng)度還不夠(gou),約為傳統(tong)動畫(hua)性(xing)能的三分之一(yi)(yi)(yi)。

  然而,更(geng)低的(de)成(cheng)本(ben)、更(geng)高的(de)效率,已讓傳統的(de)影視、動畫、游戲從(cong)業者感受(shou)到(dao)技術顛覆前夜的(de)凜冽。“‘人(ren)(ren)(ren)人(ren)(ren)(ren)成(cheng)為(wei)設計師’‘人(ren)(ren)(ren)人(ren)(ren)(ren)成(cheng)為(wei)導演’的(de)時(shi)代(dai)將會(hui)到(dao)來,就像當年(nian)進(jin)入‘人(ren)(ren)(ren)人(ren)(ren)(ren)擁(yong)有麥克風’的(de)時(shi)代(dai)。”智譜AI首席(xi)執行官張鵬(peng)說。

  “這(zhe)對于動(dong)畫(hua)行業而言(yan),是(shi)(shi)挑戰(zhan),也是(shi)(shi)機遇。比如(ru)一(yi)名武林(lin)高手,哪怕用最簡單的武器、最普(pu)通的招式也會威力十(shi)足,核心(xin)在(zai)于他的內功強(qiang)大。對于動(dong)畫(hua)行業而言(yan),‘招式’好比新技術,‘內功’則是(shi)(shi)創意、是(shi)(shi)視聽(ting)表達、是(shi)(shi)對審(shen)美的品控判斷。”中國(guo)傳媒(mei)大學動(dong)畫(hua)與數字藝術學院教授、動(dong)畫(hua)系(xi)主(zhu)任艾(ai)勝英說。

  技術固然(ran)帶來了性價(jia)比(bi)更高的(de)工具(ju),但(dan)也(ye)凸顯了創意的(de)關鍵作(zuo)用。“當(dang)影視、動畫(hua)、游戲的(de)制(zhi)作(zuo)環節投(tou)入占比(bi)大幅降低后,比(bi)拼的(de)就(jiu)更加是創意。”陳劉芳說。

  “煉”一個殺手級應用

  大語言模(mo)型敲開生成式(shi)AI的大門后,視頻作(zuo)為圖像模(mo)態(tai)的再擴展(zhan),將AIGC的技術推向高(gao)潮,也讓(rang)AIGC的應用離(li)大眾越(yue)來越(yue)近。

  當(dang)前,全球(qiu)視頻(pin)生(sheng)成的(de)(de)(de)技術路(lu)線(xian)主要有兩(liang)種:一種是(shi)擴散模(mo)型,這其中又分為兩(liang)類(lei),一類(lei)是(shi)基于卷積神經網絡的(de)(de)(de)擴散模(mo)型,如Meta的(de)(de)(de)Emu Video、騰(teng)訊等(deng)推出(chu)的(de)(de)(de)VideoCrafter;另一類(lei)是(shi)基于Transformer架(jia)構的(de)(de)(de)擴散模(mo)型,如生(sheng)數(shu)科技的(de)(de)(de)Vidu、OpenAI的(de)(de)(de)Sora、快手的(de)(de)(de)可靈AI等(deng)。第(di)二(er)種是(shi)自回歸路(lu)線(xian),如谷歌的(de)(de)(de)VideoPoet、Phenaki等(deng)。

  “國(guo)內視頻生(sheng)成的主流選(xuan)擇是(shi)基于Transformer架構(gou)(gou)的擴散模(mo)(mo)型,這(zhe)一架構(gou)(gou)能使模(mo)(mo)型在(zai)處理語(yu)言、計(ji)算機視覺、圖像生(sheng)成等(deng)領域表現出擴展能力,遵(zun)從‘規模(mo)(mo)定(ding)律(lv)’。”徐東說(shuo)。

  這一選(xuan)擇(ze)也意味(wei)著,更大的(de)(de)算力、更高的(de)(de)質量與更大規模的(de)(de)數據(ju),以及復雜(za)的(de)(de)算法。

  “首當(dang)其沖(chong)的(de)是算法(fa)。視頻在(zai)圖像的(de)基礎上增(zeng)加了時間維度(du),算法(fa)的(de)復雜程度(du)會指數(shu)級增(zeng)長。”徐東說,數(shu)據、算力一定的(de)條件下(xia),模(mo)型性能關鍵在(zai)于算法(fa)的(de)能力,取(qu)決于算法(fa)人才(cai)水平的(de)高低。

  其次,最為缺乏(fa)的是(shi)數據(ju)。“視頻(pin)生成強依賴于數據(ju)。與文本(ben)數據(ju)相(xiang)比,視頻(pin)數據(ju)的積累難(nan)度更大。數據(ju)的質量(liang)提升,不僅包(bao)括(kuo)視頻(pin)的解(jie)析(xi)度、風(feng)格、分鏡、組合、連(lian)續性(xing)等,還(huan)包(bao)括(kuo)數據(ju)的清洗、篩選、處理(li)。”張(zhang)鵬說。

  視頻(pin)生(sheng)成(cheng)(cheng)模(mo)型更是(shi)“吞卡巨獸(shou)”。從Sora的(de)(de)實(shi)踐來看,持續(xu)提高模(mo)型的(de)(de)數據(ju)量、參數規模(mo),迄今依然是(shi)AIGC進化(hua)的(de)(de)核心。中(zhong)信證券測算,一個(ge)60幀的(de)(de)視頻(pin)(約6至8秒)大約需要6萬個(ge)Patches(補片),如果去(qu)噪步數是(shi)20的(de)(de)話,相當于生(sheng)成(cheng)(cheng)120萬個(ge)Tokens(詞元)。考慮到擴散模(mo)型在實(shi)際使用中(zhong)需多次(ci)生(sheng)成(cheng)(cheng),實(shi)際計算量會遠超120萬個(ge)Tokens(詞元)。

  “大模型參數(shu)正以每年十(shi)倍的(de)速度(du)增長(chang)。不論對科技(ji)企業(ye)還是研(yan)(yan)究機構而言,如(ru)何持續訓(xun)練高性能的(de)模型,依然是巨大挑戰(zhan)。但與此同時,C端的(de)‘殺手級應用’讓人充滿期(qi)待。從創意的(de)生成,到(dao)圖片、音樂、視頻(pin)的(de)制(zhi)(zhi)作,AI都將有大施拳(quan)腳之地。未來,視頻(pin)制(zhi)(zhi)作也許就像今天做PPT一樣簡單便捷。”北京智源人工智能研(yan)(yan)究院院長(chang)王(wang)仲遠說(shuo)。(記者 張漫子)

中證網聲明:凡本網注明“來源:中國證券報·中證網”的所有作品,版權均屬于中國證券報、中證網。中國證券報·中證網與作品作者聯合聲明,任何組織未經中國證券報、中證網以及作者書面授權不得轉載、摘編或利用其它方式使用上述作品。