91久久精品无码毛片国产高清

中證網
返回首頁

谷歌“反擊戰”開啟 投資人熱議多模態模型商業化

楊皖玉 中國證券報·中證網

  繼ChatGPT上(shang)線(xian)一周年之后(hou),近日(ri),谷歌的(de)多(duo)模(mo)態Gemini忽然上(shang)線(xian),被業界視為(wei)“谷歌最(zui)強反(fan)擊戰開啟”。投(tou)資機構針對(dui)Gemini的(de)討論(lun)“炸開了鍋”。業內人(ren)士認為(wei),Gemini在(zai)視覺(jue)識別和推理推斷方面有顯著(zhu)優化,落到商業場景(jing)上(shang),實時交互場景(jing)或成為(wei)多(duo)模(mo)態人(ren)工(gong)智能(neng)模(mo)型應(ying)用(yong)的(de)焦點。

  Gemini“太震撼”

  近日(ri),谷歌CEO桑(sang)達爾(er)·皮查伊宣布(bu)Gemini1.0版正式上(shang)線。Google DeepMind產品副總裁伊萊·柯林斯表示,這是(shi)Google迄(qi)今為止功(gong)能最(zui)強大、最(zui)通用的(de)大模(mo)型。

  據了解,和(he)市面上(shang)現有大模(mo)(mo)(mo)型(xing)相比,Gemini從一開始(shi)就被創建為(wei)多模(mo)(mo)(mo)態的模(mo)(mo)(mo)型(xing),這意(yi)味著它可以歸(gui)納(na)并(bing)流暢地理解、操作以及組合不同類型(xing)的信息,包括(kuo)文本、代碼、音頻、圖(tu)像和(he)視頻。在靈活度上(shang),從數據中心到移動設備上(shang),它都能夠(gou)運行。

  在觀看Gemini系列(lie)(lie)演示(shi)視頻(pin)后(hou),不少投資人表(biao)示(shi)“太震撼”。“看了(le)Gemini的(de)(de)(de)演示(shi)視頻(pin),其所表(biao)現(xian)出(chu)來(lai)的(de)(de)(de)對多(duo)模(mo)態(tai)(tai)理(li)(li)解的(de)(de)(de)能(neng)力(li)(li)非常驚人,此(ci)外(wai),Gemini所表(biao)現(xian)出(chu)來(lai)的(de)(de)(de)推(tui)理(li)(li)能(neng)力(li)(li)目(mu)前看來(lai)是超過(guo)ChatGPT的(de)(de)(de)。”北(bei)京郵(you)電大學計算機學院副(fu)教授孫海峰表(biao)示(shi),一(yi)(yi)方(fang)面,在多(duo)模(mo)態(tai)(tai)信(xin)息(xi)處理(li)(li)上,Gemini遠(yuan)超OpenAI的(de)(de)(de)ChatGPT。Gemini既可以(yi)支(zhi)(zhi)(zhi)持多(duo)模(mo)態(tai)(tai)信(xin)息(xi)輸入(ru),也(ye)支(zhi)(zhi)(zhi)持多(duo)模(mo)態(tai)(tai)信(xin)息(xi)輸出(chu)。Gemini一(yi)(yi)個典型(xing)的(de)(de)(de)特點是支(zhi)(zhi)(zhi)持文(wen)(wen)本、圖像、音頻(pin)和視頻(pin)的(de)(de)(de)交(jiao)錯(cuo)序(xu)(xu)列(lie)(lie)作為輸入(ru),這對于ChatGPT或者(zhe)傳統架構的(de)(de)(de)多(duo)模(mo)態(tai)(tai)大模(mo)型(xing)來(lai)講(jiang),是很難實現(xian)的(de)(de)(de)。通常來(lai)講(jiang),ChatGPT僅僅支(zhi)(zhi)(zhi)持文(wen)(wen)字的(de)(de)(de)輸出(chu),其他模(mo)態(tai)(tai)的(de)(de)(de)輸出(chu)需要調(diao)用(yong)第三方(fang)API來(lai)實現(xian)。Gemini這種(zhong)交(jiao)錯(cuo)序(xu)(xu)列(lie)(lie)的(de)(de)(de)輸入(ru)方(fang)式(shi)更符(fu)合絕大多(duo)數場景(jing)的(de)(de)(de)需求。另(ling)一(yi)(yi)方(fang)面,在Gemini的(de)(de)(de)技術報告中(zhong),其在MMLU數據集測試中(zhong)的(de)(de)(de)準(zhun)確率達(da)到了(le)90.04%,超過(guo)了(le)人類專(zhuan)家(jia),其推(tui)理(li)(li)能(neng)力(li)(li)的(de)(de)(de)進(jin)化具有里程碑意義。

  在(zai)Gemini上(shang)線(xian)后的(de)(de)一天,谷(gu)歌被外界質疑稱,多模態視(shi)頻是(shi)剪輯拼貼的(de)(de),Gemini涉嫌(xian)夸大宣傳(chuan)。谷(gu)歌官方也給予了解釋:視(shi)頻的(de)(de)確有后期制作和(he)剪輯的(de)(de)成分(fen),Gemini所有交互不是(shi)實(shi)時感知到,而是(shi)工(gong)作人員給予圖片和(he)提示之(zhi)后的(de)(de)效果,即Gemini在(zai)讀取(qu)視(shi)頻方面還(huan)有待進(jin)一步發展。

  實時交互場景或是商業化焦點

  受此(ci)消息的(de)影響,國內投資人針對多模態技術(shu)及其應用展開熱議。

  某科技(ji)賽道的一級投資(zi)人(ren)(ren)表(biao)示(shi),相(xiang)較ChatGPT-4,Gemini的識圖和推理能力,以及目前看(kan)上去的響應速度有(you)很大進步(bu)。他個人(ren)(ren)認為,Gemini與(yu)OpenAI的產(chan)品各有(you)千秋,商業化(hua)落地方面還需要找(zhao)到(dao)合適的場景(jing)。“有(you)合適的場景(jing)適配,并(bing)找(zhao)到(dao)增值需求(qiu)還是(shi)關鍵,但Gemini確實(shi)是(shi)將AI模型的想象空間進一步(bu)打開了。”

  “可以大膽想(xiang)象,當多模(mo)態(tai)模(mo)型運(yun)行在(zai)機器人(ren)身上,可能(neng)(neng)實現具(ju)身智能(neng)(neng),另外,當多模(mo)態(tai)模(mo)型和谷歌眼(yan)鏡結合時,或(huo)將升級為超(chao)級智能(neng)(neng)體(ti)。”另一位(wei)投資人(ren)表示(shi)。

  某技(ji)術人(ren)士介紹,人(ren)類有(you)五(wu)種感官,我們所(suo)建造的(de)(de)世界(jie)、所(suo)消(xiao)費的(de)(de)媒體,都(dou)是(shi)以(yi)這樣(yang)(yang)的(de)(de)方式(shi)所(suo)呈現(xian)。而多模態模型(xing)意(yi)味著Gemini可(ke)以(yi)用和(he)人(ren)類一樣(yang)(yang)的(de)(de)方式(shi)理解周圍的(de)(de)世界(jie),并且吸(xi)收任何(he)類型(xing)的(de)(de)輸(shu)入(ru)和(he)輸(shu)出——無論是(shi)文字,還(huan)是(shi)代(dai)碼(ma)、音(yin)頻、圖(tu)像(xiang)、視頻。其中最(zui)關鍵的(de)(de)技(ji)術,是(shi)如何(he)混合所(suo)有(you)這些模式(shi),如何(he)從任意(yi)數量的(de)(de)輸(shu)入(ru)和(he)感官中收集盡可(ke)能多的(de)(de)數據,然(ran)后給出同樣(yang)(yang)多樣(yang)(yang)化的(de)(de)響應。

  “Gemini更(geng)(geng)像人了,更(geng)(geng)貼近(jin)人的視(shi)覺(jue)識別和(he)一(yi)些(xie)推理判斷,OpenAI的ChatGPT更(geng)(geng)多像一(yi)個大(da)知識庫(ku),它能夠給人提供(gong)信息參考。兩者不是(shi)誰超越(yue)誰,而是(shi)側(ce)重方向(xiang)有顯著不同。”某投(tou)資人表(biao)示。

  孫海峰表示(shi),目前還(huan)不太清楚Gemini的(de)具體實現結構是什么樣的(de),但是這種對多種模態信息可以交(jiao)錯序列作(zuo)為輸入(ru)方(fang)式的(de)模式,是許多場景、尤其是實時交(jiao)互場景非常需(xu)要(yao)的(de)。

  另一位科技(ji)投資人認為,Gemini的(de)發布意味(wei)著大(da)廠(chang)在(zai)人工智能(neng)方面(mian)(mian)具有(you)先發優勢(shi)更(geng)加確(que)定,比(bi)如谷歌的(de)Gemini視(shi)覺(jue)推理方面(mian)(mian)能(neng)力(li)突出,是因為他(ta)們有(you)基于搜(sou)索引擎的(de)各種資料作(zuo)為大(da)量的(de)訓練(lian)數(shu)據。此外(wai),大(da)廠(chang)在(zai)數(shu)據、流(liu)量、資金、算力(li)以及(ji)應(ying)用場景上的(de)優勢(shi)都很明顯。

中證網聲明:凡本網注明“來源:中國證券報·中證網”的所有作品,版權均屬于中國證券報、中證網。中國證券報·中證網與作品作者聯合聲明,任何組織未經中國證券報、中證網以及作者書面授權不得轉載、摘編或利用其它方式使用上述作品。