91久久精品无码毛片国产高清

中證網
返回首頁

搖錢樹還是吞金獸? 大模型考驗AI數據服務商

周春媚 證券時報

  “大模型對數(shu)據(ju)(ju)采集、標注等方面的(de)要求都非常高。以前大家(jia)還在卷價格,但現(xian)在處(chu)理一(yi)條數(shu)據(ju)(ju),成本甚至能達到幾百塊錢。”在一(yi)場大模型語(yu)料數(shu)據(ju)(ju)推介會中,北京(jing)晴數(shu)智慧(hui)科技有(you)限公司(si)(下稱“晴數(shu)智慧(hui)”)的(de)數(shu)據(ju)(ju)專(zhuan)家(jia)喬天說道(dao)。

  作為一家數據(ju)服(fu)(fu)(fu)務(wu)(wu)公(gong)司(si),晴(qing)數智慧主要為人(ren)工智能研(yan)發企業(ye)和(he)(he)科研(yan)機構(gou)提(ti)供高質量的(de)(de)AI訓練數據(ju)集及專業(ye)咨詢服(fu)(fu)(fu)務(wu)(wu)。喬天(tian)的(de)(de)感受并不是(shi)個例。證券時報記(ji)者采訪多家AI數據(ju)服(fu)(fu)(fu)務(wu)(wu)商(shang)發現(xian),今年以(yi)來(lai)(lai)大模型的(de)(de)火熱,為一批AI數據(ju)服(fu)(fu)(fu)務(wu)(wu)商(shang)帶來(lai)(lai)了更多訂單需求(qiu),卻(que)也極大提(ti)升了數據(ju)產品和(he)(he)服(fu)(fu)(fu)務(wu)(wu)的(de)(de)成本。

  大模型時代,機遇與挑戰并存(cun)。布局(ju)大模型是為未來種下一(yi)棵確定的(de)“搖錢(qian)(qian)樹”,還(huan)是在養一(yi)只(zhi)“錢(qian)(qian)”景(jing)不(bu)明(ming)的(de)“吞金(jin)獸”?隨著三季報盡(jin)數(shu)出爐,部分上市公司的(de)業績也透露出一(yi)個信號:AI數(shu)據服務商業績承壓(ya),正(zheng)面臨(lin)成本考(kao)驗。

  收益——

  需求井噴帶來更多訂單

  算力、數(shu)據(ju)、算法(fa),被稱為支(zhi)撐AI大(da)模(mo)型(xing)的三駕馬(ma)車。在今(jin)年(nian)的世界人工智能(neng)大(da)會(hui)(hui)上,中(zhong)信智庫專家委員會(hui)(hui)主(zhu)任、中(zhong)信建投證券研(yan)究所所長武超則表(biao)示,一個(ge)模(mo)型(xing)的好壞,20%由算法(fa)決定(ding),80%由數(shu)據(ju)質量決定(ding),未(wei)來高質量的數(shu)據(ju)將是提升模(mo)型(xing)性(xing)能(neng)的關鍵。

  訓(xun)練(lian)大模型需要大量高(gao)質量的數據(ju)。如果將(jiang)大模型比作一(yi)個學習者,那唯有提供優(you)質的“學習材料”,才能讓其更有效地(di)掌握知識,提升智(zhi)力水平。隨著預訓(xun)練(lian)大模型技術的發展,對數據(ju)的質量和數量的要求也越(yue)來(lai)越(yue)高(gao)。根據(ju)德勤預測,2027年AI預訓(xun)練(lian)數據(ju)服務的市場規模有望達(da)到160億元(yuan),5年復合(he)增速為(wei)28.9%。

  而且,目前大(da)模型加(jia)速應用于千(qian)行百業,對于垂直(zhi)領域(yu)高質量(liang)數據集的(de)(de)需求更是呈現(xian)(xian)井(jing)噴的(de)(de)狀態。記者梳理發(fa)現(xian)(xian),A股主要的(de)(de)AI數據服務公司最(zui)近(jin)一(yi)段時間紛(fen)紛(fen)宣布,已與大(da)模型公司或科研機構(gou)達成了(le)合作。

  比如,國(guo)內AI訓練數(shu)(shu)(shu)據(ju)龍頭海(hai)天瑞聲(sheng)近期宣布與北京(jing)智源(yuan)人(ren)(ren)工智能研(yan)究院正式簽(qian)署(shu)戰(zhan)略合(he)作協議,在(zai)大模(mo)型數(shu)(shu)(shu)據(ju)處理、大模(mo)型評測、數(shu)(shu)(shu)據(ju)集研(yan)發、人(ren)(ren)工智能標(biao)準研(yan)制等方面開展(zhan)合(he)作。拓爾思日前在(zai)投資者互動平臺(tai)表示,公(gong)司已與人(ren)(ren)工智能企業和(he)國(guo)家級實驗室簽(qian)訂銷售合(he)同,為(wei)其(qi)提(ti)供高質量、多(duo)元化的數(shu)(shu)(shu)據(ju),作為(wei)大模(mo)型預訓練數(shu)(shu)(shu)據(ju)集。

  “我們的一個明(ming)顯感受是,大模型在(zai)場景(jing)端實(shi)現了(le)真正的爆發(fa)。”上海數(shu)庫科(ke)技(ji)(ji)(ji)首席(xi)科(ke)技(ji)(ji)(ji)官曹(cao)峰在(zai)接(jie)受記者(zhe)采訪(fang)時說(shuo)。作為(wei)一家數(shu)據科(ke)技(ji)(ji)(ji)公司(si),數(shu)庫科(ke)技(ji)(ji)(ji)在(zai)金(jin)融及產業領域積累了(le)龐大的數(shu)據產品與系統服務。曹(cao)峰告訴記者(zhe),如(ru)今客(ke)戶會(hui)基于大模型的能力提(ti)出許多以往技(ji)(ji)(ji)術達(da)不到的需求,例如(ru)對現有研(yan)(yan)報和(he)公告進行深(shen)度解析,將(jiang)對上市公司(si)調研(yan)(yan)的訪(fang)談內容(rong)形成文字并自動提(ti)取要點(dian)等(deng)等(deng)。

  場景應用的(de)多(duo)元化(hua)以及信(xin)息加(jia)工的(de)深度化(hua),都(dou)意味(wei)著更多(duo)和更復雜的(de)數據需求。據介紹,這些數據有(you)(you)些需要借助大模(mo)型(xing)來生產(chan),有(you)(you)些則(ze)是作為垂直領域大模(mo)型(xing)的(de)訓(xun)練語料(liao)或者(zhe)生成內容時的(de)參考資料(liao)。

  成本——

  算力與人力開銷水漲船高

  雖(sui)然(ran)大模(mo)(mo)型橫空出世以前,AI數據服務(wu)商已經(jing)積(ji)累了不(bu)少成熟(shu)的數據產品,然(ran)而(er)很多(duo)并不(bu)契合(he)訓練大模(mo)(mo)型的要求。“大模(mo)(mo)型公司(si)就像廚(chu)師,數據服務(wu)商就像菜農(nong),廚(chu)師下單的一些‘食材’,是菜農(nong)之前沒有見過的。”財經(jing)信息服務(wu)商飛迪科技創始(shi)人丘慧慧向記者做了一個(ge)生動(dong)的比(bi)喻。

  “廚(chu)師(shi)”提出了定(ding)制化的(de)(de)、更高端(duan)的(de)(de)食材(cai)需求,“菜農”只能投入(ru)更多的(de)(de)精(jing)力、花費更高的(de)(de)成(cheng)本(ben)去(qu)制作(zuo)。這(zhe)帶來的(de)(de)一(yi)個直(zhi)觀影響,就是(shi)數據(ju)產品和服務的(de)(de)成(cheng)本(ben)變(bian)高了。

  具體是哪些地(di)方需要花更(geng)多的(de)錢(qian)呢?一名人工智能(neng)研究人員告訴記者,更(geng)高的(de)成本主要體現在兩(liang)個方面(mian)——算(suan)(suan)(suan)力和人力。算(suan)(suan)(suan)力方面(mian),由于(yu)大模型需對數據(ju)進行(xing)更(geng)深度(du)、精細的(de)挖(wa)掘(jue),離不開更(geng)強(qiang)大的(de)算(suan)(suan)(suan)力支(zhi)持(chi),數據(ju)服務商往往需要租賃(lin)或者采購更(geng)多的(de)芯片、顯(xian)卡等硬件資(zi)源。

  人力(li)方(fang)面,在(zai)過(guo)去(qu)相當長的(de)一段時(shi)間里,AI數(shu)(shu)據服務,尤其是(shi)數(shu)(shu)據標(biao)注服務被視(shi)為勞動密集(ji)型(xing)產業(ye),是(shi)臟活(huo)、苦活(huo)、低附加值的(de)活(huo)。以數(shu)(shu)據標(biao)注為例,一些科(ke)技大(da)廠和數(shu)(shu)據服務商常常在(zai)經濟欠發達的(de)地區設立(li)數(shu)(shu)據標(biao)注團(tuan)隊,助力(li)當地群眾就(jiu)業(ye)的(de)同時(shi)降低人力(li)成(cheng)本。然而在(zai)大(da)模(mo)型(xing)時(shi)代,數(shu)(shu)據質量要(yao)求(qiu)大(da)大(da)提升(sheng),數(shu)(shu)據處理難(nan)度變(bian)大(da),過(guo)往依(yi)賴低成(cheng)本勞動力(li)、“價低走(zou)量”的(de)模(mo)式不再成(cheng)立(li)。

  “以(yi)前中(zhong)專(zhuan)生(sheng)(sheng)或(huo)高(gao)中(zhong)生(sheng)(sheng)就可(ke)以(yi)滿足數(shu)據標(biao)注(zhu)(zhu)的(de)要(yao)求,如(ru)今需(xu)要(yao)招聘大學生(sheng)(sheng),甚至是(shi)碩士生(sheng)(sheng)、博士生(sheng)(sheng),處理指(zhi)定(ding)行業的(de)垂直類數(shu)據。”一名AI數(shu)據服務商(shang)向記者表示。據媒體報道,一家頭部大模型(xing)廠商(shang)建(jian)立的(de)數(shu)據標(biao)注(zhu)(zhu)基地(di),第一批標(biao)注(zhu)(zhu)員的(de)本科(ke)率達到(dao)了100%。毫(hao)無疑問(wen),至少在(zai)現階段,大模型(xing)讓數(shu)據標(biao)注(zhu)(zhu)員的(de)學歷卷起(qi)來了,人力(li)成(cheng)本自然(ran)也水(shui)漲船高(gao)。

  除(chu)此以(yi)外,將(jiang)數據(ju)(ju)“喂”給大模(mo)(mo)型(xing)(xing)之前可能需(xu)要對(dui)其進行(xing)初加工(gong)和預處理(li),需(xu)要搭(da)建(jian)新的平臺。對(dui)于AI數據(ju)(ju)服(fu)務商(shang)而(er)言,則需(xu)要布局數據(ju)(ju)存(cun)儲和處理(li)的硬件設備,同時也必然(ran)伴(ban)隨著更(geng)多(duo)算法工(gong)程(cheng)師的人力(li)投(tou)入。而(er)且在大模(mo)(mo)型(xing)(xing)浪(lang)潮下,一些積累了(le)高質量(liang)行(xing)業數據(ju)(ju)的數據(ju)(ju)商(shang)已經不(bu)滿足(zu)于提供數據(ju)(ju)服(fu)務,而(er)是自己(ji)下場搭(da)建(jian)行(xing)業大模(mo)(mo)型(xing)(xing)——而(er)這(zhe)則是更(geng)大的一筆投(tou)資(zi)。

  因此,布(bu)(bu)局大模型注定是一項(xiang)(xiang)“燒錢”的(de)(de)業(ye)務(wu)。反映在二級市場上(shang),多家(jia)開展數(shu)(shu)據業(ye)務(wu)的(de)(de)A股(gu)上(shang)市公司發(fa)(fa)(fa)(fa)布(bu)(bu)了(le)定增募資(zi)方案,以滿(man)足大模型的(de)(de)研(yan)(yan)發(fa)(fa)(fa)(fa)投入。6月(yue)(yue),海天(tian)瑞聲發(fa)(fa)(fa)(fa)布(bu)(bu)了(le)向(xiang)特定對(dui)象(xiang)發(fa)(fa)(fa)(fa)行(xing)A股(gu)股(gu)票(piao)預案,擬募資(zi)不(bu)超(chao)(chao)過(guo)7.90億元(yuan)(yuan),用(yong)于AI大模型訓練數(shu)(shu)據集建(jian)(jian)設項(xiang)(xiang)目(mu)、數(shu)(shu)據生產(chan)垂直大模型研(yan)(yan)發(fa)(fa)(fa)(fa)項(xiang)(xiang)目(mu);7月(yue)(yue),星環科技發(fa)(fa)(fa)(fa)布(bu)(bu)了(le)向(xiang)特定對(dui)象(xiang)發(fa)(fa)(fa)(fa)行(xing)A股(gu)股(gu)票(piao)預案,擬募資(zi)不(bu)超(chao)(chao)過(guo)15.21億元(yuan)(yuan),用(yong)于數(shu)(shu)據分析大模型建(jian)(jian)設項(xiang)(xiang)目(mu)、智(zhi)能量化(hua)(hua)(hua)投研(yan)(yan)一體化(hua)(hua)(hua)平臺(tai)建(jian)(jian)設項(xiang)(xiang)目(mu)等;8月(yue)(yue),拓(tuo)爾(er)思發(fa)(fa)(fa)(fa)布(bu)(bu)了(le)向(xiang)特定對(dui)象(xiang)發(fa)(fa)(fa)(fa)行(xing)股(gu)票(piao)預案,擬募集資(zi)金不(bu)超(chao)(chao)過(guo)18.45億元(yuan)(yuan),用(yong)于拓(tuo)天(tian)行(xing)業(ye)大模型研(yan)(yan)發(fa)(fa)(fa)(fa)及AIGC應用(yong)產(chan)業(ye)化(hua)(hua)(hua)項(xiang)(xiang)目(mu)。

  考驗——

  AI數據服務商業績普遍承壓

  今年以來大模型持續火(huo)熱(re)(re),點燃(ran)了(le)(le)一(yi)二級(ji)市(shi)(shi)場的(de)投資熱(re)(re)情,但市(shi)(shi)場亦(yi)有質疑的(de)聲音,擔憂高額的(de)投資能否產生相應的(de)回報。值得(de)注意(yi)的(de)是,在海天瑞聲和星環科技發布(bu)定(ding)增募(mu)資預案后,兩(liang)家公司均(jun)收(shou)到了(le)(le)監管部門的(de)問詢函,要求就募(mu)資的(de)必(bi)要性、公司的(de)現有業務及相關市(shi)(shi)場前景(jing)等問題進(jin)行具(ju)體(ti)說明(ming)。

  海天瑞聲9月(yue)對問詢函的回復中提到(dao),目(mu)前已面(mian)世的大模型(xing)產(chan)品(pin)(pin)(pin)以(yi)通用大語言模型(xing)為(wei)主,垂直領(ling)(ling)域及(ji)多(duo)模態領(ling)(ling)域的大模型(xing)數(shu)量仍然較少,數(shu)據(ju)需求(qiu)尚未(wei)充分釋放(fang)。鑒于公(gong)司下游大模型(xing)相(xiang)(xiang)關客戶的產(chan)品(pin)(pin)(pin)尚處(chu)于首(shou)代產(chan)品(pin)(pin)(pin)發布初期(qi)或研發階段,市(shi)場(chang)尚未(wei)大范(fan)圍(wei)應(ying)用,相(xiang)(xiang)關數(shu)據(ju)需求(qiu)將在產(chan)品(pin)(pin)(pin)投(tou)放(fang)市(shi)場(chang)后進一(yi)步釋放(fang),公(gong)司大模型(xing)業務相(xiang)(xiang)關收入未(wei)來有望進一(yi)步提升(sheng)。

  星環科(ke)技9月對問詢函的回復中(zhong)提(ti)到,基于當(dang)前(qian)人工智能(neng)行業的發展(zhan)趨勢(shi)以及市場(chang)競爭狀況,公司若不(bu)開展(zhan)大模型(xing)相關(guan)研發,未來可能(neng)在(zai)相關(guan)領域無法繼(ji)續維持市場(chang)競爭優(you)勢(shi)。

  在新技術(shu)浪潮滾滾而來時,每(mei)一個人(ren)都害怕被(bei)潮流(liu)拋(pao)棄,因而加速布局(ju)新的業績(ji)增(zeng)長點。然而,從(cong)三季度財務(wu)報表來看,AI數據服務(wu)商的業績(ji)普(pu)遍面(mian)臨不小的壓(ya)力。

  記者還注意到(dao),海天瑞聲(sheng)于10月25日發(fa)(fa)布了(le)定增調整(zheng)方(fang)案(an),募資額(e)由7.90億元(yuan)(yuan)下降至(zhi)6.66億元(yuan)(yuan),原(yuan)計劃投(tou)向數據生產(chan)垂直大(da)模型研發(fa)(fa)項目(mu)的(de)擬投(tou)入(ru)募資金額(e)縮水(shui)23.51%,原(yuan)計劃投(tou)入(ru)AI大(da)模型訓練(lian)數據集建設項目(mu)的(de)擬投(tou)入(ru)募資金額(e)縮水(shui)7.38%。

  AI數(shu)據(ju)服(fu)務商業績(ji)承(cheng)壓,押注大(da)模型會否是一場危險的豪賭?這(zhe)個問(wen)題或許還問(wen)得太早。一名券商人士向記者分析,搶占大(da)模型商業化應用(yong)必然面臨高(gao)額的投入,但相關(guan)產業目前(qian)還在發展的初期,大(da)模型尚(shang)需(xu)要時間(jian)下沉到更多的應用(yong)場景中,數(shu)據(ju)需(xu)求釋(shi)放(fang)也不(bu)是一朝一夕(xi)的事,無法以現階段(duan)的營收數(shu)據(ju)判斷未來(lai)的情(qing)況。

  “做(zuo)數(shu)據本身就是(shi)(shi)一(yi)項(xiang)(xiang)長跑,數(shu)據產業是(shi)(shi)一(yi)個長周期行業,需要提前布局和一(yi)些耐心(xin)。”晴數(shu)智慧創(chuang)始人(ren)(ren)張(zhang)晴晴說。她(ta)告訴記者(zhe),公司過去一(yi)直(zhi)聚焦(jiao)對(dui)話式的(de)場景,積累了(le)(le)很多高質量的(de)語(yu)音(yin)數(shu)據,其(qi)中就包(bao)括多說話人(ren)(ren)48kHz高采(cai)樣率的(de)語(yu)音(yin)數(shu)據。最(zui)近(jin),網絡上(shang)很多名人(ren)(ren)說地道外語(yu)或方(fang)言的(de)AI合成視(shi)頻廣泛流傳,“視(shi)頻口譯”成為了(le)(le)很熱門的(de)一(yi)項(xiang)(xiang)應用(yong)(yong),支撐這項(xiang)(xiang)應用(yong)(yong)的(de)關鍵技術之一(yi)的(de)語(yu)音(yin)復刻技術,正是(shi)(shi)使用(yong)(yong)了(le)(le)多說話人(ren)(ren)高采(cai)樣率的(de)數(shu)據實現的(de)。“最(zui)近(jin)向我們(men)問詢的(de)廠商非常多,但前提是(shi)(shi)我們(men)在(zai)這個方(fang)向默默耕耘了(le)(le)7年(nian),一(yi)直(zhi)在(zai)沉(chen)淀和積累這種數(shu)據。”張(zhang)晴晴說。

  財通證券(quan)近期(qi)的(de)(de)(de)一(yi)份(fen)研報指(zhi)出(chu),場(chang)景應用的(de)(de)(de)落地成為AI大模型新(xin)一(yi)輪的(de)(de)(de)發(fa)展動能,AI預訓(xun)練(lian)數(shu)據需求有望伴隨場(chang)景應用的(de)(de)(de)落地而(er)快速增(zeng)長。研報進一(yi)步指(zhi)出(chu),隨著行業進入快速發(fa)展期(qi),行業逐(zhu)漸向多(duo)模態(tai)、合規化(hua)、半自動化(hua)演變(bian),科技巨(ju)頭(tou)和專業預訓(xun)練(lian)數(shu)據服務(wu)商具備更強(qiang)的(de)(de)(de)研發(fa)優勢,有望形(xing)成資源整合和研發(fa)技術的(de)(de)(de)壁壘,切分更多(duo)市場(chang)增(zeng)量份(fen)額。

  AI數據(ju)服務商(shang)有(you)一個行(xing)業共(gong)識:大(da)模型(xing)的(de)(de)出現對于數據(ju)產業是一個利好,2023年是數據(ju)產業高質量發展(zhan)的(de)(de)元年。一位作家(jia)曾寫道,“你(ni)做三四(si)月的(de)(de)事(shi),在八(ba)九月自有(you)答案。”AI數據(ju)服務商(shang)們在元年種下(xia)的(de)(de)這顆種子,未來能夠開(kai)出怎樣的(de)(de)花、結(jie)出多(duo)少果,或許(xu)也(ye)唯有(you)時間能給我們答案。

中證網聲明:凡本網注明“來源:中國證券報·中證網”的所有作品,版權均屬于中國證券報、中證網。中國證券報·中證網與作品作者聯合聲明,任何組織未經中國證券報、中證網以及作者書面授權不得轉載、摘編或利用其它方式使用上述作品。