數(shù)據(jù)中心架構(gòu)的一個(gè)重點(diǎn)就是提高效率,以便獲得最佳資本回報(bào)并在有限的空間和電力下最大程度提高數(shù)據(jù)中心的輸出。處理器在數(shù)據(jù)中心優(yōu)化中起著根本性作用,處理器架構(gòu)的選擇對(duì)可擴(kuò)展性和效率有著巨大的影響。要想在這些因素之間達(dá)到理想的平衡,就需要遠(yuǎn)見、創(chuàng)造性和創(chuàng)新,而這些并不能一蹴而就。
英特爾廣泛的產(chǎn)品組合中體現(xiàn)了其數(shù)十年設(shè)計(jì)專用數(shù)據(jù)中心CPU和平臺(tái)的豐富經(jīng)驗(yàn)。一代又一代,英特爾不斷創(chuàng)新核心計(jì)算功能,以期提高處理器性能。但是我們的工作并未止步于此。所有內(nèi)核的連接和可擴(kuò)展性的改進(jìn)、對(duì)內(nèi)存層次結(jié)構(gòu)進(jìn)行微調(diào)、增強(qiáng)I/O也同樣重要,這些因素將確保組成數(shù)據(jù)中心主要構(gòu)建模塊的計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)系統(tǒng)的可擴(kuò)展性和效率。
成長(zhǎng)的煩惱:規(guī)模所帶來的挑戰(zhàn)
添加更多內(nèi)核并將其連接,以便創(chuàng)建一個(gè)多核數(shù)據(jù)中心處理器,這個(gè)任務(wù)聽上去可能很簡(jiǎn)單,但是CPU內(nèi)核、內(nèi)存層次結(jié)構(gòu)和I/O子系統(tǒng)在這些需要周密架構(gòu)子系統(tǒng)的連接提供了關(guān)鍵路徑。這些互聯(lián)就像一個(gè)精心設(shè)計(jì)的高速公路一樣,在關(guān)鍵位置設(shè)有合適數(shù)量的車道和坡道,以便讓交通一路暢通,而不是讓人們和貨物閑坐在路上浪費(fèi)時(shí)間。
增加處理器內(nèi)核的數(shù)量并提高內(nèi)存和每個(gè)處理器的I/O帶寬,以滿足大量數(shù)據(jù)中心負(fù)載的需求——這構(gòu)成了一些必須通過創(chuàng)造性架構(gòu)技術(shù)才能解決的挑戰(zhàn)。這些挑戰(zhàn)包括:
· 提高內(nèi)存、片上緩存層級(jí)架構(gòu)、內(nèi)存控制器和I/O控制器之間的帶寬。如果可用互聯(lián)帶寬并不能隨處理器上的其它資源適當(dāng)擴(kuò)展,那么互聯(lián)就會(huì)像令人沮喪的高峰期交通擁堵一樣,成為限制系統(tǒng)效率的瓶頸。
· 降低訪問來自芯片緩存、主內(nèi)存或其它內(nèi)核數(shù)據(jù)時(shí)的延遲。訪問延遲取決于芯片實(shí)體之間的距離、發(fā)送請(qǐng)求和響應(yīng)的路徑,以及互聯(lián)操作的速度。這相當(dāng)于在擴(kuò)張型城市vs緊湊型城市的通勤時(shí)間、可用路徑的數(shù)量,以及高速公路上的限速。
·
創(chuàng)造高能效的方式,把數(shù)據(jù)從芯片緩存和內(nèi)存提供到內(nèi)核和I/O。由于每個(gè)組件之間更遠(yuǎn)的距離和更高的帶寬,當(dāng)添加更多內(nèi)核時(shí),完成相同任務(wù)的數(shù)據(jù)遷移所需的能量就會(huì)相應(yīng)地增加。以交通為例,隨著城市成長(zhǎng)和通勤距離的增加,通勤期間所浪費(fèi)的時(shí)間和能量會(huì)讓用于生產(chǎn)工作的可用資源變得更少。
英特爾致力于創(chuàng)新架構(gòu)解決方案,以便在創(chuàng)建更強(qiáng)大、高效的處理器時(shí)走在挑戰(zhàn)的前面,從而滿足現(xiàn)有和新興工作負(fù)載——例如人工智能和深度學(xué)習(xí)的需求。
架構(gòu)未來的數(shù)據(jù)中心處理器
英特爾運(yùn)用其經(jīng)驗(yàn)和創(chuàng)新技術(shù),為即將推出的英特爾® 至強(qiáng)®可擴(kuò)展處理器開發(fā)了新架構(gòu),以便為現(xiàn)代數(shù)據(jù)中心奠定可擴(kuò)展的基礎(chǔ)。這些新架構(gòu)提供一種新的方式來互聯(lián)片上組件,以便提高多核處理器的效率和擴(kuò)展性。
英特爾® 至強(qiáng)®可擴(kuò)展處理器采用一個(gè)創(chuàng)新的“網(wǎng)格”片上互聯(lián)拓?fù)浣Y(jié)構(gòu) (Mesh),可在內(nèi)核、內(nèi)存和I/O控制器之間提供低延遲和高帶寬。圖1顯示了該網(wǎng)格架構(gòu)的示意圖,內(nèi)核、芯片緩存庫(kù)、內(nèi)存控制器和I/O控制器是按照行和列而組織的,在每個(gè)交叉口通過線和交換機(jī)而把它們連接在一起,以便允許轉(zhuǎn)彎。通過提供一個(gè)比之前環(huán)形架構(gòu)更加直接的路徑,以及更多通道來盡量減少瓶頸,網(wǎng)格可在更低的頻率和電壓下工作,并仍能實(shí)現(xiàn)非常高的帶寬和低延遲。這使性能得以提高、能效得以增強(qiáng),就像一個(gè)精心設(shè)計(jì)的高速公路系統(tǒng),讓交通能夠在不擁堵的前提下以最佳速度流通。
Figure 1: Mesh architecture conceptual representation
圖1:網(wǎng)格結(jié)構(gòu)概念示意圖
除了改進(jìn)片上互聯(lián)的連接和拓?fù),英特?#174;
至強(qiáng)®可擴(kuò)展處理器還采用一個(gè)帶有可擴(kuò)展資源的模塊化架構(gòu),以便訪問片上緩存、內(nèi)存、IO和遠(yuǎn)程CPU。這些資源分布在整個(gè)芯片上,這樣就能最大程度減少“熱點(diǎn)”或其它子系統(tǒng)的資源限制。該架構(gòu)的模塊化和分布式特性讓可用資源能夠隨處理器內(nèi)核數(shù)量的增加而擴(kuò)展。
這些可擴(kuò)展和低延遲的片上互聯(lián)框架也對(duì)共享的最后一級(jí)緩存架構(gòu)非常重要。這些大型共享緩存對(duì)于復(fù)雜的多線程服務(wù)器應(yīng)用——例如數(shù)據(jù)庫(kù)、復(fù)雜的物理模擬、高吞吐量網(wǎng)絡(luò)應(yīng)用,以及托管多個(gè)虛擬機(jī)——非常寶貴。訪問不同緩存庫(kù)時(shí)可忽略的延遲差異讓軟件能夠把分布式緩存庫(kù)當(dāng)作一個(gè)大型、統(tǒng)一的最后一級(jí)緩存。因此,應(yīng)用開發(fā)者不必?fù)?dān)心訪問不同緩存庫(kù)時(shí)不同的延遲,他們也不需要優(yōu)化或重新編譯代碼即可使其應(yīng)用的性能得到大幅提升。統(tǒng)一低延遲訪問的好處也能惠及內(nèi)存和IO訪問,多線程或分布式應(yīng)用(涉及不同內(nèi)核上的執(zhí)行之間的互動(dòng),以及來自IO設(shè)備的數(shù)據(jù))不需要仔細(xì)映射一個(gè)插槽內(nèi)的內(nèi)核上的協(xié)作線程即可獲得最佳性能。因此,這種應(yīng)用可充分利用大量?jī)?nèi)核,并且仍能實(shí)現(xiàn)良好的可擴(kuò)展性。
總結(jié)
采用Mesh的片上互聯(lián)的新架構(gòu)提供非常強(qiáng)大的框架來集成英特爾® 至強(qiáng)®可擴(kuò)展處理器的各種組件——內(nèi)核、緩存、內(nèi)存和I/O子系統(tǒng)。這種創(chuàng)新架構(gòu)能夠在最廣泛的使用場(chǎng)景中提高性能和效率,并為英特爾及其無與倫比的全球生態(tài)系統(tǒng)所帶來的持續(xù)改進(jìn)奠定基礎(chǔ),從而交付可提供數(shù)據(jù)中心客戶所期待的計(jì)算能力和效率的解決方案。