科普信息網

intel 推出Iris Xe MAX 獨立顯卡 提升0.3 GHz

發布時間:2020-11-06 11:39:01 來源:大事件兒 責任編輯:caobo

先看規格,Iris Xe MAX(DG1,應該是Discrete Graphic 1的縮寫,第一代獨立顯卡?)和TGL-U的Iris Xe(96EU)比,除了作為獨立顯卡存在必然需要的獨立顯存、使用PCIe接口而不是Ringbus和CPU內核連接外,唯一的區別就是頻率高了,從1.35 GHz提升到1.65 GHz,提升了0.3 GHz,22%,甚至連顯存都使用完全一樣的128 bit LPDDR4X-4266:

對筆記本硬件比較關注的,應該知道96EU的Xe核顯和MX350性能相近。基于上述條件,即便還沒看到DG1的評測,大概也能猜到,其它規格完全一樣,頻率提高22%的DG1,充其量僅僅能夠和NV在低壓本上最新的入門級獨顯——MX450相近。所以,不管是桌面還是游戲本,NV和AMD兩家的真·入門級獨顯,5500和1650,打DG1輕松的很。而且DG1的TDP僅僅是25W,顯然也不是面向供電散熱都有一定保證的游戲本、桌面市場的。

那么問題來了,Intel給出來一個和核顯規格一樣的獨顯,這是要干什么?可以實現類似NV的SLi或者AMD的交火那樣的效果么?很遺憾,不可以。Intel并沒有提供過類似的多顯卡的技術,要么用核顯,要么用獨顯——事實上,因為通過PCIe通道和CPU互聯,帶寬、延遲都不如核顯使用Ringbus,據說在某些游戲中,具備獨立顯存無需與CPU共享內存帶寬,頻率更高的DG1,性能甚至不如核顯。在低壓筆記本上,增加這么一塊芯片以及顯存,只為了部分游戲中獲得20-40%的性能提升,顯然很不合算。

結合Intel將近10年來,從Core 2 Quad直至Core gen7,一直維持主流平臺旗艦4核8線程的規格;高端桌面、服務器平臺除了增加核心規模外同時一直在推動SIMD計算;以及發布11代時的視頻中,大量的篇幅是介紹11代如何提升AI性能,加速應用。我的看法是:DG1是Intel在布局未來的人工智能、高性能計算的另一次嘗試。

Netburst架構的奔騰4因為功耗爆炸失敗后,Intel對于功耗是非常重視的。這些年來,Intel多次在不同場合給出了不同情況下,數據計算、傳輸消耗的功耗數據,沒有經過大量的研究、模擬、測試和統計分析,是不可能給出這些數據的。

具體的數據懶得重新翻出來了,大體上的結論就是執行某條指令的時候,參與工作的晶體管越多,CPU功耗就越高。不同的指令,計算單元本身的實現差異可能很大,例如浮點單元功耗可以達到整數單元的十多倍。想降低計算單元的功耗只能通過優化電路,使用更少的晶體管實現來降低,對于已經成熟的指令,這個幾乎不可能了。

而執行一條指令,除了計算單元外還有大量的晶體管參與工作。對于現代的CPU,計算單元不過是十多近二十級流水線中的一級,流水線的其它部分實現了取指、譯碼、分支預測、重排序、調度、寄存器重命名、發射、數據抓取/回寫等功能。除了CPU流水線外,現代CPU單個核心中還有大量的晶體管用于實現多級緩存。最終的結果,以Sandybridge(SNB)架構的Core Gen2為例,執行最傳統的x86指令(不含浮點),計算單元僅僅占用了整個內核功耗的6%左右。執行浮點計算指令好一點,計算單元的功耗和內核中額外的模塊相近(不含SIMD指令)。因此,現代CPU為了達成高工作頻率使用的多級流水線,以及為了降低各種情況導致的流水線空泡出現的概率,代價是使用了額外的大量晶體管。

SIMD(Single Instruction Multi Data,單指令多數據)指令是提高晶體管效率的有效手段。對于多個需要進行相同計算的數據,一條指令就可以完成。相應的計算單元、數據通道使用的晶體管多倍提升的同時,流水線其它模塊使用的晶體管數量并沒有明顯變化。因此,SNB執行256bit AVX指令時,計算單元的功耗占整個內核的75%,晶體管效率提高了很多。支持512bit的AVX512指令,大概可以進一步提高到87%。

然而這僅僅是指內核的功耗分布,現代CPU除了內核,還有uncore部分,以Intel早期的服務器CPU(至強E5/E7 V*)來說,包括內核間互聯的環形總線、末級緩存、內存控制器、PCIe控制器、多個CPU互聯的QPI總線控制器等非內核模塊。海量數據吞吐計算時,這些模塊的功耗占據了整個CPU大約40%。所以,即便是AVX2這樣的SIMD指令,其實計算單元功耗也只占整個CPU的45%,不到一半。

這就是現代CPU的功耗困局:即使是降低CPU的工作頻率,可以大幅降低內核功耗;在同等功耗限制下,不惜成本成倍增加晶體管數量,容納下更多核心,但仍然會因為流水線的其它模塊和CPU內部的其它模塊占用了大量晶體管,無法獲得理想的計算性能。這些代價,對于只需處理少量數據的傳統應用,或者追求高響應的應用,是值得的,而且是必須的。但對于海量數據吞吐的計算來說,還是否必須,是否值得,就有待商榷了。

從NVIDIA推出GPGPU以來,頻率低,流水線短,沒有分支預測、亂序執行機制,等同于超寬SIMD指令(16-64個單精度浮點數,相當于512-2048bit寬度)的GPU,雖然一直被詬病程序編寫困難、不夠靈活、延遲高、效率低等等,但也因為頻率低單個晶體管功耗也低,可以使用更成熟的生產工藝堆砌大量的計算單元。依靠大量線程的切換來回避流水線空泡,相對CPU簡單很多的指令流水線占用的晶體管數量少得多,效率更高。即便是最頑固的CPU擁護者,也無法忽視GPU動則比同時期CPU高三四倍甚至更高幅度的理論性能。算法合適的前提下,GPU能提供比CPU強得多的性能。即便是效率差一些的算法,實際性能往往也可以達到甚至超過CPU。

如果說傳統的高性能計算,CPU和GPU各有所長,整體上CPU編程更簡單方便更靈活,GPU對CPU威脅有限的話。這幾年的視頻內容流行,人工智能在移動端的流行,都是相當合適用GPU處理的算法,GPU對傳統CPU在數據中心市場造成了相當程度的沖擊。

Intel并非對GPU的沖擊毫無預見,但之前因為在x86的近乎壟斷地位,Intel采用的方案是集成大量的支持超寬SIMD指令但流水線簡化很多的x86 CPU,也就是至強融核。期望在這個市場也用x86優秀的兼容性,方便應用移植來從GPU手上爭奪回市場份額。即便是采用相對Core架構簡單很多的P54C架構,用4線程切換替換了亂序執行,因為指令譯碼、x86指令兼容、大容量緩存和交互總線依然消耗了大量晶體管,至強融核和同期的GPU相比,理論性能依然低不少。例如2012年的Xeon Phi 7120P,理論單精度浮點性能2.4 TFLOPS,同期的Geforce GTX 680是3 TFLOPS。這還是7120P用了22nm制程,功耗達到300W;680則是臺積電28nm制程,功耗195W的結果,因為晶體管數量7120P是50億,680僅僅是35億。

至強融核路線已經在2017年被取消了,而DG1則是負擔起抗衡NV的重任。但一開始就直接抗衡旗艦級產品并不現實,NV多年來的積累不是幾年的研發就能追趕上的。因此,低規格的DG1,憑借Intel和筆記本OEM廠商的關系,在低壓筆記本平臺上,搭配Xe核顯,在支持GPU加速的生產力應用上提供更強的性能——在低壓移動這個因為功耗、成本NV難以發力的平臺上,CPU+iGPU+dGPU配合打一下NV還是很有希望的。

Intel應該是期望隨著這個方案的普及,更多應用對Intel這套方案提供支持優化,在今天相對更普及的視頻編輯、人工智能(客戶端推斷)方面對NV發起反擊。

最后,搭載DH1的筆記本產品還沒上市,具體性能表現,市場表現,各軟件開發商支持力度,都難以推測。所以,最終效果能否達成Intel的期待,還要拭目以待。

標簽: intel

上一篇:什么是evd?快來認真看看
下一篇:光纖通信基本原理有哪些?光纖傳輸有什么優勢?

新聞排行