又到了ARM每年架構更新的時候。昨天晚間消息,ARM推出移動端新架構,分別為超大核心Cortex-X2、大核心Cortex-A710、小核心Cortex-A510,代替現(xiàn)有的X1、A78、A55。
終于,使用多年的A55小核更新了。同時三款CPU架構均基于Armv9兼容設計,其中X2僅支持AArch64 64位指令,擁有全新層級的性能。先來看Cortex-X2,官方表示在同一節(jié)點上構建并在相同頻率的環(huán)境下,X2相比X1內核實現(xiàn)16%的速度提升。同時優(yōu)化了X2的峰值性能,機器學習(ML)性能翻了一倍。 前端方面,分支預測與預取單元解耦分離,從而可以在內核之前提前運行,從而減少預測錯誤,同時改進了分支預測精度,提升了大型指令負載的性能。核心方面,流水線長度從11個指令周期減少到10個,其中分派階段從2個周期減少到1個。亂序執(zhí)行窗口增大了最多30%,244條增至最多288條。 后端方面,載入存儲窗口和結構增大了33%,可以提升內存級并行度,一級緩存d-TLB也增大了20%,另外增強了數(shù)據(jù)預取能力。綜上所述,ARM號稱X2的最高單線程性能比英特爾i5-1135G7高出40%。然后是A710、A510,同樣基于ARMv9 64位指令集,架構上和X2相通,因此可以集成于同一顆SoC。不過需要注意的是,X2、A510都是64位,不再兼容32位,A710則應中國客戶要求特殊設計的,繼續(xù)支持OL0 AArch32。 A710同樣改進了分支預測,精度更高,一級指令緩存TLB也從32條增至48條,不過macro-OP緩存仍然是1.5K(X2 3K)。macro-OP緩存、分支單元的寬度從6縮減到了5,主要是功耗、能效優(yōu)化考慮,也是X、A系列的重要區(qū)分。 因此,Cortex-A710只是比A78快10%(在同一節(jié)點和頻率上),但能效提高了30%,而且機器學習速度也是翻了一番。 最后是A510,也是最為重要的升級,相比三年前的A55提升35-62%%不等,功耗降低20%,機器學習能力提升3倍。根據(jù)ARM的說法,A510在性能方面接近之前的A大核芯。也就是說,未來采用A510的SoC的中低端機型,將有著相當大的性能提升。