巨頭搶灘“大模型” AI界掀起“新基座戰(zhàn)爭”

近年來,大模型已經(jīng)成為整個 AI (人工智能)產(chǎn)學界追逐的技術“寵兒”,“煉大模型”如火如荼,包括OpenAI、Google、微軟、英偉達、百度、華為、阿里巴巴等企業(yè)巨頭紛紛參與其中,各式各樣參數(shù)不一、任務導向不同的“大模型”也陸續(xù)面市。一時間,“煉大模型”成為了當下AI產(chǎn)業(yè)發(fā)展的一個主旋律。

方融科技高級工程師、科技部國家科技專家周迪在接受《中國經(jīng)營報》記者采訪時表示,Al大模型歷經(jīng)了前幾年的探索期、突破期,部分技術已經(jīng)逐漸成熟,現(xiàn)在在一定程度上達到推廣期了。各大企業(yè)紛紛發(fā)布AI大模型,就是搶抓這個時間節(jié)點,在這方面先取得入場門票。大模型具有效果好、泛化性強、研發(fā)流程標準化程度高等特點,正在成為人工智能技術及應用的新基座。

據(jù)中國信息通信研究院測算,2021年,算力核心產(chǎn)業(yè)規(guī)模超過1.5萬億元,關聯(lián)產(chǎn)業(yè)規(guī)模超過8萬億元。其中,云計算市場規(guī)模超過3000億元,IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)服務市場規(guī)模超過1500億元,人工智能核心產(chǎn)業(yè)規(guī)模超過4000億元。

AI新基座

在過去,絕大部分人工智能企業(yè)和研究機構遵循算法、算力和數(shù)據(jù)三位一體的研究范式,即以一定的算力和數(shù)據(jù)為基礎,使用開源算法框架訓練智能模型。而這也導致了當前大部分人工智能處于“手工作坊式”階段,面對各類行業(yè)的下游應用,AI 逐漸展現(xiàn)出碎片化、多樣化的特點,也出現(xiàn)了模型通用性不高的缺陷。這不僅是AI技術面臨的挑戰(zhàn),也限制了AI的產(chǎn)業(yè)化進程。

“從各類電商平臺的智能推薦到日常生活中的刷臉支付,現(xiàn)在我們生活的方方面面都離不開AI。為了滿足這些需求,我們需要為每種特定場景收集大量的數(shù)據(jù),再從中設計出專用于特定任務的模型,”周迪對記者說道,“AI大模型希望做到的就是能夠基于這個模型整合各類需求,從而適應多種差異化的業(yè)務場景,解決AI在賦能千行百業(yè)中面臨的碎片化、多樣化問題!

AI大模型提供了一種通用化的解決方案,通過“預訓練大模型+下游任務微調(diào)”的方式,可以有效地從大量標記和未標記的數(shù)據(jù)中捕獲知識,極大地擴展了模型的泛化能力。

華為昇騰計算業(yè)務總裁張迪煊對記者表示,過去在一個單一的AI應用場景里面,其實是由很多模型組成的,通過多模型支撐一個場景來完成多個任務。而大模型是AI發(fā)展的趨勢,也就是通過大模型能解決人工智能很多的問題,因為大模型具備很好的泛化性,可以通過大模型實現(xiàn)多個任務,原來場景需要多個小模型,現(xiàn)在大模型可以服務多個場景,這是生產(chǎn)效率的提升,F(xiàn)在國家相關部門也在牽頭制定大模型的沙盤,避免科研機構、企業(yè)重復研發(fā),通過各個領域的大模型與行業(yè)場景結合,可以更好地加速人工智能技術產(chǎn)業(yè)落地。

阿里巴巴資深副總裁、達摩院副院長周靖人則認為:“大模型模仿了人類構建認知的過程,這是當下我們面臨的重要機遇。通過融合AI在語言、語音、視覺等不同模態(tài)和領域的知識體系,我們期望多模態(tài)大模型能成為下一代人工智能算法的基石,讓AI從只能使用‘單一感官’到‘五官全開’,且能調(diào)用儲備豐富知識的大腦來理解世界和進行思考,最終實現(xiàn)接近人類水平的認知智能!

巨頭角力

事實上,從2020年開始,全球各大公司和研究機構就已經(jīng)開始了大模型的軍備競賽。2020年夏天,OpenAI推出GPT-3,在自然語言處理方面,GPT-3展示出驚人的能力,它能寫文章,做翻譯,還能生成代碼,甚至可以學習一個人的語言模式,并遵循這個模式與人進行談話。

GPT-3的面市也使得全球范圍內(nèi)AI大模型迎來大爆發(fā),參與企業(yè)越來越多,參數(shù)級別越來越大,成為新一輪AI競賽的賽場。2021年谷歌發(fā)布了萬億級模型Switch Transformer,微軟和英偉達也推出了包含5300億個參數(shù)的自然語言生成模型。

國內(nèi)的企業(yè)也不甘落后,華為、百度、阿里巴巴、浪潮等企業(yè)都相繼推出了自己的大模型。

今年9月2日,阿里巴巴達摩院發(fā)布了最新“通義”大模型系列。周靖人介紹說,為了讓大模型更加“融會貫通”,達摩院在國內(nèi)率先構建了AI統(tǒng)一底座,在業(yè)界首次實現(xiàn)模態(tài)表示、任務表示、模型結構的統(tǒng)一。

同日,華為也發(fā)布了基于昇騰AI的全球首個三模態(tài)大模型“紫東太初”。據(jù)悉,“紫東太初”是具備跨模態(tài)理解與跨模態(tài)生成能力的千億參數(shù)創(chuàng)新模型。除此之外,其首次使“以圖生音”和“以音生圖”成為現(xiàn)實,是從限定領域的弱人工智能邁向通用人工智能路徑的一次重要探索。

據(jù)華為方面介紹,自2021年以來,國內(nèi)產(chǎn)業(yè)界僅基于昇騰AI就先后推出了鵬程·盤古、鵬程·神農(nóng)、紫東·太初、武漢·LuoJia、華為云盤古系列等有影響力的大模型,并陸續(xù)在互聯(lián)網(wǎng)、智慧城市、生物醫(yī)藥、金融、農(nóng)業(yè)等行業(yè)孵化出多個解決方案,加速推動AI在各行各業(yè)的應用落地。

對此,周迪分析認為,Al大模型歷經(jīng)了前幾年的探索和突破,一些技術已經(jīng)逐漸成熟,現(xiàn)在在一定程度上達到推廣期了。各大巨頭紛紛發(fā)布AI大模型,就是搶抓這個時間節(jié)點,先取得入場門票。

挑戰(zhàn)仍存

當然,AI大模型的發(fā)展也并非一蹴而就。大模型在實現(xiàn)全模態(tài)和全任務的通用性上仍存在許多技術難點,同時受算力資源限制,其訓練與落地應用頗具挑戰(zhàn)性。

清華大學計算機系教授唐杰認為,大模型訓練面臨著諸多的挑戰(zhàn),訓練成本高昂,訓練1750億個參數(shù)的GPT-3,用到了上萬塊英偉達V100 GPU(圖形處理器),總成本據(jù)悉高達1200萬美元。人力投入巨大,谷歌PaLM 530B團隊,前期準備29人,訓練過程11人,整個作者列表68人。訓練過程不穩(wěn)定,易出現(xiàn)訓練不收斂現(xiàn)象(訓練過程中的損失值無明顯下降趨勢甚至上升),且調(diào)試困難。

周迪則認為,Al大模型的發(fā)展主要面臨體量、評價、應用三大瓶頸。一是體量龐大,研發(fā)部署困難。Al大模型的參數(shù)量和計算量要求給開發(fā)、調(diào)優(yōu)、部署等工程化環(huán)節(jié)帶來極大壓力,需要加強AI大模型輕量化技術研發(fā)。二是評價單一,運用效能難以顯現(xiàn)。當前AI大模型的評價以學術榜單為主,在行業(yè)場景下的應用效果難以客觀有效評價,建議完善AI大模型評估指標體系。三是應用受限,產(chǎn)品形態(tài)仍在探索。建議鼓勵AI大模型應用服務創(chuàng)新。比如有的企業(yè)采用分行業(yè)分層體系,逐步進行AI大模型的落地。

本報記者 秦梟 北京報道


微信掃描分享本文到朋友圈
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料
  • 1、回復“YD5GAI”免費領取《中國移動:5G網(wǎng)絡AI應用典型場景技術解決方案白皮書
  • 2、回復“5G6G”免費領取《5G_6G毫米波測試技術白皮書-2022_03-21
  • 3、回復“YD6G”免費領取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復“LTBPS”免費領取《《中國聯(lián)通5G終端白皮書》
  • 5、回復“ZGDX”免費領取《中國電信5GNTN技術白皮書
  • 6、回復“TXSB”免費領取《通信設備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領取《中國移動算力并網(wǎng)白皮書
  • 8、回復“5GX3”免費領取《R1623501-g605G的系統(tǒng)架構1
  • 本周熱點本月熱點

     

      最熱通信招聘

    業(yè)界最新資訊


      最新招聘信息