上周,百度推出基于大模型的AI聊天機器人“文心一言”,成為國內(nèi)首個沖進GPT賽道的互聯(lián)網(wǎng)企業(yè)。3月18日,第一財經(jīng)記者從達觀數(shù)據(jù)獲悉,該公司自主研發(fā)的大型語言模型“曹植”系統(tǒng)也取得突破性進展,有望成為國內(nèi)大規(guī)模語言模型中首批可落地的產(chǎn)業(yè)應(yīng)用級模型。
在國產(chǎn)版GPT接踵而至的背景下,目前國內(nèi)的算力平臺還不足以提供支撐,這也成為制約我國大模型發(fā)展的重要瓶頸。
垂直大模型也需要上千張GPU
據(jù)介紹,“曹植”與ChatGPT和“文心一言”這類更加通用的大語言模型不同,是專注于垂直、專用領(lǐng)域的模型,目標是賦能金融、政務(wù)、制造等多個垂直領(lǐng)域。
達觀數(shù)據(jù)創(chuàng)始人CEO陳運文對第一財經(jīng)表示:“‘曹植’在垂直領(lǐng)域內(nèi)的理解和生成的任務(wù)上都達到了很好的效果。目前在一些技術(shù)細節(jié)方面還在調(diào)優(yōu),未來達觀數(shù)據(jù)將建立多個垂直領(lǐng)域的專用語言大模型,整體功能會很有特色!
他舉例稱,基于達觀AIGC智能寫作能力,可適配各類材料申報業(yè)務(wù)場景,基于已有各結(jié)構(gòu)化類數(shù)據(jù),快速撰寫各類制式和非制式文檔,應(yīng)用于公文、招投標、投行申報文檔、法律文書等專業(yè)寫作場景。
華為公司創(chuàng)始人任正非近期也對ChatGPT發(fā)表看法。他表示:“未來在AI大模型上會風起云涌,不只是微軟一家,人工智能軟件平臺公司對人類社會的直接貢獻可能不到2%,98%都是對工業(yè)社會、農(nóng)業(yè)社會的促進,大家要關(guān)注應(yīng)用!
ChatGPT帶動了自然語言處理整體上下游以及芯片的思考和發(fā)展,某種程度上大模型也很可能成為下一代技術(shù)發(fā)展的基礎(chǔ)設(shè)施。中國建立自己的基礎(chǔ)模型體系已成為必然需求,在這一發(fā)展過程中,目前國內(nèi)企業(yè)面臨的普遍問題是算力不足。
陳運文向第一財經(jīng)記者坦言,訓練一個垂直的大模型可能需要上千張GPU芯片集群。“現(xiàn)在面臨的問題是,我們需要的GPU數(shù)量還遠遠不夠,遠水解不了近渴!彼麑Φ谝回斀(jīng)記者說道,“集群需要的GPU數(shù)量很多,建設(shè)周期長投入大!
目前支撐包括ChatGPT大模型在內(nèi)的95%用于機器學習的芯片都是英偉達的A100(或者國內(nèi)使用的替代產(chǎn)品A800),該芯片的單價超過1萬美元。此外,英偉達最新一代的H100芯片的性能也遠超A100,但價格也更高,約合25萬元人民幣。
除了單個的芯片之外,英偉達還出售一個包含8個A100的服務(wù)器系統(tǒng)DGX,售價接近20萬美元。分析師和技術(shù)專家估計,訓練GPT-3等大型語言模型的耗資可能超過400萬美元。
這對于大多數(shù)中小企業(yè)而言幾乎是不可能承受的開支。在陳運文看來,如果有超大中心能夠提供算力租賃的模式,將會解決中小企業(yè)很大一部分算力不足的問題!皣鴥(nèi)現(xiàn)有的租賃平臺的問題是算力規(guī)模還太小,而且價格太高!标愡\文告訴第一財經(jīng)記者。
企業(yè)探索減少對算力的依賴
在GPT這類大模型問世前,國內(nèi)幾乎沒有任何應(yīng)用場景需要用到如此大的算力。第一財經(jīng)記者了解到,商湯科技等國內(nèi)企業(yè)都擁有自己的超算中心,但這些平臺僅向定向合作客戶開放;而阿里巴巴等對外出租的超算平臺的的算力仍然不足以滿足目前大量的大模型需求。
復旦大學自然語言處理實驗室邱錫鵬教授此前也表示,該實驗室開發(fā)的大語言模型MOSS受制于算力資源不足的問題。據(jù)介紹,MOSS是基于32張英偉達A100芯片算力。相比之下,ChatGPT模型背后擁有約3萬塊A100芯片,差距接近1000倍。
對此,邱錫鵬認為,在資源有限的情況下發(fā)展大模型的方向是“用規(guī)模較小的模型找到特定的應(yīng)用場景”,例如可以在企業(yè)內(nèi)部私有部署,經(jīng)過一些數(shù)據(jù)微調(diào)就可以轉(zhuǎn)化為生產(chǎn)力。
作為GPT算力最重要的提供者,英偉達已經(jīng)在探索新的商業(yè)模式。黃仁勛已經(jīng)表示,英偉達愿意將人工智能的算力放在云端共享給企業(yè)。
“我們提供的價值是將原來需要投入10億美元運行CPU的數(shù)據(jù)中心縮減為僅用1億美元就能搞定的數(shù)據(jù)中心,現(xiàn)在將該數(shù)據(jù)中心放在云端共享,意味著可以由100家公司來分擔這一成本,因此每家公司支付的實際上是非常少的費用。”他說道,“現(xiàn)在企業(yè)可以花一兩千萬來構(gòu)建一個類似GPT的大型語言模型,這是可以支付得起的!
不過也有業(yè)內(nèi)人士指出,解決算力問題只是開發(fā)大模型的第一步。瀾舟科技創(chuàng)始人CEO周明對第一財經(jīng)記者表示:“雖然現(xiàn)在算力平臺不足是行業(yè)面臨的普遍問題,但是即便算力問題解決了,還是會有其他問題,關(guān)鍵在于對大模型本質(zhì)的理解需要提升。”
周明表示,在美國現(xiàn)在大家也是一窩蜂地去搞大模型,其實很多人對大模型的機理理解還停留在比較初步的認知,包括大語言模型的工程化管理,缺乏獨立思考的精神。
周明也同意,未來大模型的一個發(fā)展方向是,在算法上進行優(yōu)化,從而減少對模型和算力的依賴!氨热缬煤苄〉腉PU也可以做大模型,這個方向值得關(guān)注!彼麑Φ谝回斀(jīng)記者表示。