91久久精品无码毛片国产高清

中證網
返回首頁

百度沈抖:面向10萬卡算力集群升級計算平臺能力 文心大模型日調用量超7億次

楊潔 中國證券報·中證網

  中證網訊(記(ji)者 楊潔)隨著(zhu)大(da)(da)模(mo)型(xing)的(de)參(can)數(shu)規模(mo)越來越大(da)(da),對(dui)算(suan)力的(de)需求呈(cheng)現(xian)指數(shu)級增(zeng)(zeng)長趨勢。在9月25日召開的(de)2024百(bai)度(du)(du)云智(zhi)大(da)(da)會上(shang),百(bai)度(du)(du)集(ji)團執行副總裁、百(bai)度(du)(du)智(zhi)能云事業群(qun)(qun)總裁沈抖表示,大(da)(da)模(mo)型(xing)領(ling)域的(de)著(zhu)名定律Scaling Law(尺度(du)(du)定律)仍在持(chi)續,這一(yi)定律指出(chu),模(mo)型(xing)性能會隨著(zhu)參(can)數(shu)、算(suan)力、數(shu)據(ju)集(ji)的(de)規模(mo)增(zeng)(zeng)加而(er)提(ti)高,“很快(kuai),就會有更多10萬卡(ka)算(suan)力集(ji)群(qun)(qun)出(chu)現(xian)”。

  據沈抖觀(guan)察,過(guo)去一年,已經感(gan)受到客戶的(de)模(mo)(mo)(mo)型(xing)訓練需求猛增。他介紹,“2024年大(da)模(mo)(mo)(mo)型(xing)的(de)產業(ye)落地正在(zai)加(jia)速,目前在(zai)千帆大(da)模(mo)(mo)(mo)型(xing)平臺上,文心大(da)模(mo)(mo)(mo)型(xing)日均調用量超過(guo)7億次(ci),累計幫(bang)助用戶精調了3萬個大(da)模(mo)(mo)(mo)型(xing),開發出(chu)70多萬個企業(ye)級應用。”

  大模(mo)型訓(xun)練需(xu)求(qiu)增加,意味(wei)著所需(xu)要的(de)算力集(ji)群(qun)規模(mo)越來(lai)越大,與此(ci)同(tong)時,對模(mo)型推理(li)成(cheng)本的(de)持(chi)續下降(jiang)的(de)預期(qi)也越來(lai)越高(gao)。沈(shen)抖表示,這(zhe)些都對GPU管(guan)理(li)的(de)穩定(ding)性和(he)有效性提出了更(geng)高(gao)要求(qiu)。9月(yue)25日,百(bai)度(du)升級(ji)AI異(yi)構(gou)計算平臺百(bai)舸4.0,具(ju)備了10萬卡集(ji)群(qun)部署和(he)管(guan)理(li)能(neng)力。

  沈抖介紹,GPU算力集(ji)群有三(san)個特(te)征——極(ji)致(zhi)(zhi)規(gui)模、極(ji)致(zhi)(zhi)高密和極(ji)致(zhi)(zhi)互聯(lian),建(jian)(jian)一(yi)個萬卡(ka)集(ji)群,僅(jin)(jin)僅(jin)(jin)是GPU的采購成本就(jiu)高達(da)幾十億元。沈抖強(qiang)調,構(gou)建(jian)(jian)算力資源,并不是簡單地買來GPU,把GPU連(lian)接(jie)上就(jiu)好了,而是需(xu)要(yao)很多(duo)技術,“比(bi)如,GPU芯片的型號更多(duo)樣(yang),管理更復雜;GPU需(xu)要(yao)執行(xing)大(da)(da)量并行(xing)計(ji)算;數據(ju)的傳輸量變大(da)(da)、對(dui)速(su)度的要(yao)求更高”,他介紹,因此,百舸(ge)計(ji)算平臺需(xu)要(yao)支持異構(gou)芯片、高速(su)互聯(lian)、高效存(cun)儲(chu)。

  沈(shen)抖也(ye)(ye)表示,管(guan)理10萬(wan)(wan)(wan)卡(ka)的(de)(de)(de)集(ji)群(qun)與管(guan)理萬(wan)(wan)(wan)卡(ka)集(ji)群(qun)也(ye)(ye)有著(zhu)本(ben)質不(bu)同。首先,在(zai)物理層面(mian)(mian),部(bu)署(shu)(shu)10萬(wan)(wan)(wan)卡(ka)規模的(de)(de)(de)集(ji)群(qun),要占據大(da)(da)概(gai)10萬(wan)(wan)(wan)平方(fang)米(mi)的(de)(de)(de)空間,相(xiang)當(dang)于14個標準(zhun)足球場的(de)(de)(de)面(mian)(mian)積(ji),其次,在(zai)能(neng)耗(hao)(hao)方(fang)面(mian)(mian),這些服務器一天(tian)就(jiu)要消耗(hao)(hao)大(da)(da)約(yue)300萬(wan)(wan)(wan)千瓦時的(de)(de)(de)電力,相(xiang)當(dang)于北京市東城區一天(tian)的(de)(de)(de)居(ju)民用電量。10萬(wan)(wan)(wan)卡(ka)集(ji)群(qun)對于空間和能(neng)源的(de)(de)(de)巨大(da)(da)需求,遠遠超過了傳(chuan)統機房部(bu)署(shu)(shu)方(fang)式(shi)所能(neng)承載的(de)(de)(de)范(fan)疇,若考慮跨地域部(bu)署(shu)(shu)機房,就(jiu)又在(zai)網絡層面(mian)(mian)帶來(lai)巨大(da)(da)挑戰。此外,十萬(wan)(wan)(wan)卡(ka)集(ji)群(qun)中的(de)(de)(de)GPU故(gu)障將會(hui)非常頻繁,有效訓練時長(chang)占也(ye)(ye)將迎(ying)來(lai)新的(de)(de)(de)挑戰。

  沈抖介紹(shao),針對這(zhe)些難題,百(bai)舸(ge)4.0已經(jing)構建了(le)十(shi)萬(wan)卡(ka)級別的(de)超大(da)規(gui)模無擁塞HPN高性能網(wang)(wang)絡、10ms級別超高精(jing)度(du)網(wang)(wang)絡監控,以(yi)及面向十(shi)萬(wan)卡(ka)集(ji)(ji)群的(de)分(fen)鐘級故障恢復能力。“百(bai)舸(ge)4.0正是(shi)為(wei)部署十(shi)萬(wan)卡(ka)大(da)規(gui)模集(ji)(ji)群而設計的(de)。今天(tian)的(de)百(bai)舸(ge)4.0,已經(jing)具備(bei)了(le)成熟的(de)十(shi)萬(wan)卡(ka)集(ji)(ji)群部署和管(guan)理能力,就是(shi)要(yao)突破這(zhe)些新(xin)挑戰,為(wei)整(zheng)個產業提(ti)供持(chi)續(xu)領先的(de)算力平(ping)臺。”沈抖說。

  不僅是百度,越(yue)來(lai)(lai)(lai)越(yue)多的科(ke)技巨頭(tou)正面(mian)向(xiang)AI大模(mo)型需求(qiu),提升自身的算力(li)(li)基礎設施(shi)能力(li)(li)。9月(yue)初(chu),馬斯克宣布(bu),旗下AI初(chu)創公司xAI 打造的超級AI訓練(lian)集群Colossus已經正式上線,共搭載10萬塊英偉達H100 GPU加(jia)速卡,而在未(wei)來(lai)(lai)(lai)幾(ji)個(ge)月(yue)將再翻倍增加(jia)10萬塊GPU。9月(yue)19日(ri)2024年云棲大會上,阿里云也(ye)表(biao)示,以(yi)GPU為主(zhu)的AI算力(li)(li)將是未(wei)來(lai)(lai)(lai)計算范式的主(zhu)導,阿里云正在從芯片、服務器、網絡、存(cun)儲到散熱、供電、數據中心等方面(mian),升級面(mian)向(xiang)未(wei)來(lai)(lai)(lai)的AI基礎設施(shi)。

中證網聲明:凡本網注明“來源:中國證券報·中證網”的所有作品,版權均屬于中國證券報、中證網。中國證券報·中證網與作品作者聯合聲明,任何組織未經中國證券報、中證網以及作者書面授權不得轉載、摘編或利用其它方式使用上述作品。