北京時(shí)間 9 月 2 日晚上,華為消費(fèi)者業(yè)務(wù) CEO 余承東在德國(guó)的 IFA 電子展的官方論壇上做了主題演講,正式發(fā)布了華為的新一代移動(dòng)計(jì)算芯片——麒麟 970。
作為一款為手機(jī)設(shè)計(jì)的系統(tǒng)級(jí)芯片(System On Chip,即 SoC),麒麟 970 包含了所有同類(lèi)產(chǎn)品該有的部件,比如 CPU、GPU、ISP、DSP、通訊基帶,但麒麟 970 又多了一個(gè)所有同類(lèi)產(chǎn)品都沒(méi)有的東西——一顆為人工智能運(yùn)算專(zhuān)門(mén)設(shè)計(jì)的 NPU。
下面我們就 SoC 的各個(gè)部件出發(fā),全面地了解一下麒麟 970。
CPU、GPU:重點(diǎn)是降功耗
如果你是一個(gè)非?粗厥謾C(jī) SoC 的 CPU、GPU 極限表現(xiàn)的‘性能黨’,麒麟 970 可能不會(huì)讓你太興奮。
CPU 方面,麒麟 970 的參數(shù)相比麒麟 960 基本沒(méi)有任何變化,依然是 8 顆核心,其中 4 顆為高性能的 ARM 公版 A73 架構(gòu),最高主頻 2.4GHz(麒麟 960 是 2.36GHz),4 顆位低功耗的 ARM 公版 A53 架構(gòu),最高主頻 1.8GHz(麒麟 960 是 1.84GHz)。
有些遺憾的是,麒麟 970 并沒(méi)有用上 ARM 在今年 5 月發(fā)布的新一代 Cortex-A75、Cortex-A55 架構(gòu)以及為 AI 相關(guān)運(yùn)算優(yōu)化的 DynamiIQ 設(shè)計(jì)(麒麟 970 選擇了另一種方法來(lái)提高 AI 運(yùn)算)。當(dāng)然了,考慮到 A75 和 A55 的發(fā)布時(shí)間、設(shè)計(jì)的復(fù)雜程度,麒麟 970 沒(méi)用上也是可以理解的。
在發(fā)布會(huì)上,余承東并沒(méi)有透露麒麟 970 的 CPU 性能相比 960 的變化,只是表示麒麟 970 的能耗比提升了 20%(主要得益于全新的 10 納米制程)。至于實(shí)際的性能表現(xiàn),不出意外的話,麒麟 970 應(yīng)該和麒麟 960 處于同一段位,不會(huì)有非常明顯的提升。
當(dāng)然,橫向來(lái)看的話,麒麟 970 的 CPU 性能沒(méi)提升其實(shí)不是什么大問(wèn)題。從 GeekBench 4 等跑分軟件的得分上看,麒麟 960 的分?jǐn)?shù)和高通驍龍 835、三星 Exynos 8895 基本處于同一水準(zhǔn),明顯強(qiáng)于聯(lián)發(fā)科 Helio X30。因此,即使麒麟 970 的 CPU 性能不變,也依然是 Android 陣營(yíng)里移動(dòng) SoC 的頂級(jí)水準(zhǔn),只是不再像麒麟 960 發(fā)布時(shí)那么領(lǐng)先。
相比起 CPU 上的保守,麒麟 970 在 GPU 上的‘誠(chéng)意’要顯得更足一些。
首先,麒麟 970 則用上了 ARM 在今年 5 月剛剛發(fā)布的 Mali-G72 架構(gòu),理論性能相比麒麟 960 上的 Mali-G71 有所提升(ARM 的官方說(shuō)法是相比 G71 性能提高 20%,功耗比提升 25%)。此外,在核心數(shù)上,麒麟 970 的 GPU 也從麒麟 960 的 8 核增加到了 12 核。
實(shí)際性能上,余承東表示,相比起麒麟 960,麒麟 970 的性能有 20% 的提升,并且能效比提升了 50%。
照理說(shuō),由于麒麟 970 的 GPU 核心架構(gòu)比麒麟 960 更先進(jìn),核心數(shù)還多了 50%,并且制程更先進(jìn),GPU 性能提升的幅度應(yīng)該遠(yuǎn)不止 20%。之所以出現(xiàn)這種情況,很可能是華為將麒麟 970 的 GPU 主頻壓得比較低,從而更好地降低功耗(于是就有了提升幅度高達(dá) 50% 的能效比)。不出意外,麒麟 960 上出現(xiàn)的 GPU‘滿血跑’時(shí)功耗感人的情況,麒麟 970 上不會(huì)再出現(xiàn)。
通訊基帶:比‘千兆 LTE’更快
作為一家通訊行業(yè)有著多年積累的公司,華為海思在通訊基帶上有著深厚的‘家底’,特別是去年的麒麟 960,直接在 SoC 中集成了支持 LTE Cat.12/13 的 Balong 750 基帶(最大下行速度 600Mbps,上行 150Mbps),并且支持 CDMA 網(wǎng)絡(luò),絲毫不遜色同期的高通驍龍 820、821。
在今年的麒麟 970 上,華為海思更進(jìn)一步,直接大跨步到了 LTE Cat.18,最高下載速度飆到了 1.2Gbps(4x4 MIMO,3CC CA,256QAM),也就是比之前業(yè)界最快、驍龍 835 和 Exynos 8895‘千兆 LTE’還要再快上 200Mbps。
麒麟 970 還終于支持了在同時(shí)使用兩張 SIM 卡時(shí),主副卡同時(shí)用 4G(上一代麒麟 960 的副卡只能支持 3G)。此外,麒麟 970 還特別針對(duì)高鐵時(shí)的使用做了優(yōu)化,信號(hào)更穩(wěn)定,減少掉線。
不過(guò)話還是要說(shuō)回來(lái),雖然麒麟 970 的通訊基帶的確是厲害,但和驍龍 835、Exynos 8895 等支持千兆 LTE 的 SoC 一樣,普通用戶(hù)想要真正體驗(yàn)到這種超高速 LTE 網(wǎng)絡(luò),還得過(guò)上相當(dāng)一段時(shí)間。
一方面,超高速 LTE 網(wǎng)絡(luò)需要運(yùn)營(yíng)商的支持,雖然目前全球不少運(yùn)營(yíng)商(包括中國(guó)聯(lián)通)已經(jīng)開(kāi)始了千兆級(jí) LTE 的測(cè)試,但距離大規(guī)模商用還仍需時(shí)日。另一方面,在手機(jī)端,除了需要 SoC 自身的基帶支持,如果要支持千兆級(jí)的 LTE,手機(jī)廠商還必須在手機(jī)的天線設(shè)計(jì)上投入額外的精力,以搭載驍龍 835 的手機(jī)為例,在目前上市的眾多驍龍 835 手機(jī)中,真正能支持到千兆 LTE 的只有三星 Galaxy S8、HTC U11 等少數(shù)國(guó)際品牌機(jī)型的部分型號(hào)。
ISP、DSP、Codec、協(xié)處理器
ISP 的全稱(chēng)是 Image Signal Processor(圖像信號(hào)處理器),主要功能是處理相機(jī)傳感器中收集到的數(shù)據(jù)。
麒麟 970 的 ISP 主要是一些‘常規(guī)升級(jí)’,依然是雙核設(shè)計(jì),擁有更快的速度,更快地對(duì)焦,更優(yōu)秀的降噪效果,并且對(duì)運(yùn)動(dòng)圖像的捕捉做了優(yōu)化。不過(guò)相比起單純的 ISP 升級(jí),NPU 對(duì)相機(jī)體驗(yàn)的提升可能會(huì)更大(下文會(huì)詳說(shuō))。
在 DSP、配套 Codec 等方面,麒麟 970 也有所提升,其中配套的音頻 Codec 可以支持 32bit/384k 的音頻解碼,過(guò)去幾代華為高端機(jī)(Mate、P 系列)上表現(xiàn)乏善可陳的內(nèi)放音質(zhì),有望在麒麟 970 這代產(chǎn)品上獲得明顯的提升,當(dāng)然前提是 Mate 10 和 P11 系列還能保留 3.5 毫米耳機(jī)插孔。
另外,麒麟 970 依然搭載了 i7 協(xié)處理器(和牙膏廠的 i7 沒(méi)啥關(guān)系),而 inSE(integrated secure element)和 TEE 安全引擎,在麒麟 970 上也都在。
在總線架構(gòu)上,不出意外的話,麒麟 970 采用的應(yīng)該是和 960 相同的 CCI-550。
10 納米制程,比驍龍 835 還多的 55 億個(gè)晶體管
制程上,不出意外,麒麟 970 用上了臺(tái)積電(TSMC)最新的 10 納米工藝,這應(yīng)該是繼蘋(píng)果 A10X、聯(lián)發(fā)科 Helio X30 之后,第三款采用臺(tái)積電 10 納米制程的移動(dòng) SoC。
通常來(lái)說(shuō),在芯片晶體管數(shù)量相同的情況下,更先進(jìn)的制程可以降低芯片的核心面積,有助于降低成本,并且更加有效地控制發(fā)熱和功耗。
在發(fā)布會(huì)上,余承東也表示,臺(tái)積電的 10 納米制程可以降低 20% 的能耗,將芯片核心面積縮小 40%。
不過(guò)有趣的是,麒麟 970 的核心面積并沒(méi)有因?yàn)橹瞥痰倪M(jìn)步而縮小,反而比麒麟 960 還要略大,這是因?yàn)轺梓?970 集成了高達(dá) 55 億個(gè)晶體管,比麒麟 960 多出了 15 億。
55 億個(gè)晶體管是什么概念呢?大家可以參考幾個(gè)數(shù)字。
Intel 在 2014 年發(fā)布的擁有 18 個(gè)核心的至強(qiáng) E5 CPU,也才內(nèi)置了 55.6 億個(gè)晶體管。在更具對(duì)比價(jià)值的移動(dòng) SoC 中,以‘堆料’著稱(chēng)的蘋(píng)果 A10 擁有 33 億個(gè)晶體管,高通驍龍 835 擁有 31 億個(gè)。
需要說(shuō)明的是,雖然晶體管數(shù)量對(duì)性能有一定的影響,并且通常是越多越好,但在芯片工藝、架構(gòu)不同的情況下,我們是無(wú)法簡(jiǎn)單地用晶體管數(shù)量來(lái)判斷性能的,尤其是在內(nèi)部部件眾多的移動(dòng) SoC 中。
NPU:首款內(nèi)置在手機(jī) SoC 中的人工智能芯片
終于到了麒麟 970 最特別的部分——NPU。
NPU 的全稱(chēng)是 Neural-network Processing Unit,也就是神經(jīng)網(wǎng)絡(luò)處理單元。關(guān)于這顆 NPU 的功能,大家可以簡(jiǎn)單理解為專(zhuān)門(mén)高效地進(jìn)行 AI 相關(guān)計(jì)算定制的處理器,就像 GPU 之于圖形處理相關(guān)的計(jì)算,ISP 之于成像相關(guān)的計(jì)算。
傳統(tǒng)的 CPU(包括 x86 和 ARM)和 GPU 也是可以用來(lái)做深度學(xué)習(xí)計(jì)算的,但由于它們本身并不是專(zhuān)門(mén)為深度學(xué)習(xí)定制的,效率并不高。而麒麟 970 的這顆 NPU 采用了來(lái)自寒武紀(jì)(Cambricon)的 IP,專(zhuān)門(mén)為深度學(xué)習(xí)而定制,F(xiàn)P16 性能達(dá)到了 1.92 TFLOP,差不多是麒麟 960 的 3 倍(0.6 TFLOP 左右)。
在發(fā)布會(huì)上,余承東展示了一張?jiān)谶M(jìn)行 AI 運(yùn)算時(shí),NPU 和 CPU、GPU 的對(duì)比。
可以看到,性能上,NPU 是 CPU 的 25 倍,GPU 的 6.25 倍(25/4),能效比上,NPU 更是達(dá)到了 CPU 的 50 倍,GPU 的 6.25 倍(50/8)。
另外,在華為內(nèi)部的測(cè)試中,麒麟 970 的 NPU 每分鐘可以識(shí)別出 2005 張照片,而不使用 NPU 的話則每分鐘只能識(shí)別 97 張(這個(gè)速度應(yīng)該是用 CPU 進(jìn)行計(jì)算的),優(yōu)勢(shì)同樣巨大。
至于這顆 NPU 具體能實(shí)現(xiàn)哪些特別的功能,我們還需要等到 Mate 10、Mate 10 Pro 上來(lái)揭曉。在發(fā)布會(huì)上,余承東提到了一些 NPU 在拍照方面的應(yīng)用。
具體到拍照中,NPU 可以幫助手機(jī)更精準(zhǔn)和快速地識(shí)別拍攝場(chǎng)景,讓手機(jī)選擇最合適的圖像處理算法,在雙攝背景虛化時(shí),讓手機(jī)對(duì)邊緣虛化的處理更準(zhǔn)確,還有最近很火的 AR 相機(jī),NPU 可顯著提高渲染的速度,降低功耗。
再比如說(shuō),有了 NPU 之后,手機(jī)可以將語(yǔ)音和語(yǔ)義識(shí)別的部分工作轉(zhuǎn)移到手機(jī)本地,提高語(yǔ)音和語(yǔ)義識(shí)別的表現(xiàn),提高手機(jī)中語(yǔ)音交互應(yīng)用(比如語(yǔ)音輸入法、智能語(yǔ)音助手)的體驗(yàn)。
值得一體的是,在發(fā)布會(huì)上,余承東還展示了‘開(kāi)放移動(dòng) AI 平臺(tái)(Open Mobile AI Platform)’,為 app 開(kāi)發(fā)者提供了包括開(kāi)發(fā)者網(wǎng)站和社區(qū)支持、開(kāi)發(fā)套件以及自家的 app 分發(fā)商店在內(nèi)的‘全套’服務(wù),吸引開(kāi)發(fā)者開(kāi)發(fā)可以調(diào)用 NPU 性能的 app。
不過(guò)這里有個(gè)問(wèn)題,這一套方案只是針對(duì)搭載麒麟 970 的華為手機(jī)的,并不是一個(gè)開(kāi)放的平臺(tái),這意味著開(kāi)發(fā)者即使寫(xiě)出來(lái)能調(diào)用 NPU 來(lái)實(shí)現(xiàn)某些強(qiáng)大功能的 app,也只能運(yùn)行在僅有的幾款華為手機(jī)上(短期內(nèi)應(yīng)該只有即將發(fā)布的 Mate 10 和 Mate 10 Pro)。
至于未來(lái)華為能吸引多少開(kāi)發(fā)者來(lái)利用 NPU 開(kāi)發(fā)支持自家 AI 平臺(tái)的 app,現(xiàn)在來(lái)看還是個(gè)未知數(shù),但至少在接下來(lái)的幾個(gè)月內(nèi),恐怕更多地需要依靠華為自己的軟件工程師來(lái)開(kāi)發(fā)相應(yīng)的 app。
當(dāng)手機(jī) SoC 遇到 AI
對(duì)于喜歡折騰手機(jī)的用戶(hù)來(lái)說(shuō),手機(jī) SoC 的性能可能永遠(yuǎn)都沒(méi)有‘過(guò)剩’的那一天,不過(guò)對(duì)于更多的‘普通用戶(hù)’來(lái)說(shuō),隨著過(guò)去幾年里 SoC 整體性能的不斷提升,新款 SoC 在性能上帶來(lái)的體驗(yàn)加成正在變得越來(lái)越小。在 5G 時(shí)代到來(lái)之前,在移動(dòng) VR 和 AR 應(yīng)用取得突破之前,這種情況很可能會(huì)一直持續(xù)下去。
在麒麟 970 上,華為探索了另外一種思路:在傳統(tǒng)的手機(jī) SoC 上,額外增加一顆專(zhuān)門(mén)為 AI 相關(guān)運(yùn)算定制的芯片(NPU),讓手機(jī)本身具備 AI 能力,完成一些和 AI 相關(guān)的應(yīng)用。
至于這顆 NPU 到底能有多大的意義,我們至少還需要等到 10 月 16 日發(fā)布 Mate 10 和 Mate 10 Pro 后才能作出判斷,但可以確定的是,在 AI 席卷整個(gè)科技圈的浪潮中,麒麟 970 在 AI 上的探索只是一個(gè)開(kāi)始。
今年 5 月,ARM 在發(fā)布新一代 CPU 架構(gòu) Cortex-A75 和 A55 時(shí),重點(diǎn)強(qiáng)調(diào)了提高 AI 運(yùn)算能力的 DynamIQ 設(shè)計(jì)。今年 7 月,高通開(kāi)放了自家的神經(jīng)處理引擎(Neural Processing Engine,NPE)的 SDK,幫助開(kāi)發(fā)者使用驍龍 SoC 進(jìn)行 AI 相關(guān)的運(yùn)算。
或許到明年這個(gè)時(shí)候,當(dāng)我們?cè)谟懻撘苿?dòng) SoC 的時(shí)候,AI 芯片就會(huì)像 CPU、GPU 那樣,成為智能手機(jī)中一個(gè)‘常規(guī)’的組成部分。