0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

蘋果A12是蘋果公司又一次跨越代際的飛躍

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-10-10 09:39 ? 次閱讀

在過去的幾年里,蘋果的芯片設(shè)計團(tuán)隊一直處于架構(gòu)設(shè)計和制造工藝的前沿。蘋果A12是該公司又一次跨越代際的飛躍,因為它號稱是首款商用7nm芯片。在TechInsights公開分享了蘋果A12芯片的圖片后,anandtech網(wǎng)站隨后發(fā)布了首篇長達(dá)萬字的關(guān)于裸片照片的分析評論。

在談?wù)摴に嚬?jié)點時,一般而言,數(shù)字越小,晶體管就越小。雖然最近節(jié)點的名稱與實際物理尺寸之間的關(guān)聯(lián)早已失去了意義,但它仍代表密度的飛躍,因此,供應(yīng)商能夠在相同的芯片空間中封裝更多的晶體管。

感謝TechInsights公開分享了蘋果A12芯片的圖片,我們隨后發(fā)布了裸片照片的首篇分析評論:

蘋果A12芯片裸片照片(來源:TechInsights )

本文中,我再次回顧了A12芯片,我寫下了我自己定義的關(guān)于裸片照片的標(biāo)簽和解釋。新的A12芯片主要遵循蘋果的SoC布局結(jié)構(gòu)(同過去大多數(shù)裸片相比旋轉(zhuǎn)了90度)。

在右側(cè),我們看到了GPU復(fù)合體,中間是四個GPU內(nèi)核和共享的邏輯部分。CPU復(fù)合體位于底部,中間靠左側(cè)有兩個Vortex大CPU內(nèi)核,由大型L2緩存分隔開,緊挨著4個小CPU核心和它們各自的L2緩存。

中間的4個SRAM大組塊是系統(tǒng)緩存的一部分,這是SoC范圍的緩存層,位于內(nèi)存控制器和內(nèi)部系統(tǒng)互連以及區(qū)塊內(nèi)存子系統(tǒng)之間。蘋果將這個區(qū)塊用作節(jié)能功能:由于DRAM的內(nèi)存事務(wù)在能源使用方面非常昂貴,因此在片上進(jìn)行緩存會節(jié)省很多功率,而且由于數(shù)據(jù)的局部性,性能可能會有所提升,由此會帶來額外的好處。

到目前為止,蘋果A12的系統(tǒng)緩存出現(xiàn)了自蘋果A7推出以來最大的變化。布局上的巨大變化也表明了區(qū)塊功能的巨大變化,因為現(xiàn)在我們清楚地看到區(qū)塊被分成明顯的4個部分。在先前的蘋果SoC中,例如A11和A10,系統(tǒng)緩存看起來更像一個邏輯區(qū)塊,看起來似乎是兩個部分。區(qū)塊中部分的加倍可能會表明這個區(qū)塊的內(nèi)存性能發(fā)生了很大的變化,在后文中,我會進(jìn)行更詳細(xì)的分析。

最后一個關(guān)于A12的重要介紹是神經(jīng)網(wǎng)絡(luò)加速器IP的重大改進(jìn)。蘋果聲稱已經(jīng)從A11的雙核設(shè)計轉(zhuǎn)變?yōu)樾碌?核設(shè)計。在演講中,很重要的一點是,蘋果從來沒有提到這是內(nèi)部設(shè)計,營銷材料總是急著介紹SoC的其他IP區(qū)塊。

據(jù)傳去年的設(shè)計是CEVA IP,但是我們從未得到完全的確認(rèn),因為蘋果不希望它被人們所知。A12是8核設(shè)計,性能提升了4倍,但實際的性能提升接近8倍,從A11的600GigaOP增加到A12的5TeraOP。在裸片照片中,我們看到8個MAC引擎圍繞著一個大型中央緩存,頂部可能有共享的邏輯部分,負(fù)責(zé)固定功能和完全連接的層處理。

縱觀從A11到A12的不同區(qū)塊大小的變化,我們看到了臺積電新7nm工藝節(jié)點的優(yōu)點。值得注意的是,幾乎所有的IP區(qū)塊都經(jīng)歷了變化,所以用A11 vs A12的比較來確定新工藝節(jié)點的密度提高了多少并不是有效的方法。盡管如此,我們將單個GPU核心作為可能的候選(因為我們看到的結(jié)構(gòu)基本相同),觀察發(fā)現(xiàn),與A11相比,A12尺寸減小了37%。顯而易見的是,新節(jié)點使蘋果能夠添加一個額外的GPU核心,然而在絕對值上,A12中的GPU仍然較小。

更大的CPU和大規(guī)模緩存層次結(jié)構(gòu)

來源:TechInsights的蘋果A12裸片照片,ChipRebel的蘋果A11裸片照片

接下來是CPU復(fù)合體,尤其是新的大CPU核心,我們現(xiàn)在看到的可能是蘋果幾代芯片在CPU布局上最大的變化。特別是,我們看到新的Vortex CPU中的L1數(shù)據(jù)緩存增加了一倍,從64KB增加到128KB。在前端,我們還看到了雙倍的SRAM區(qū)塊,我將其歸因于L1指令緩存,我現(xiàn)在相信它也一定翻倍到了128KB。有趣的是,即使在幾年之后的今天,我們?nèi)匀粵]有真正弄清楚A10在前端區(qū)塊中引入了什么:在這里,我們看到了一個新的非常大的緩存區(qū)塊,其具體功能尚不清楚。

多年來的一個大問題是,蘋果的緩存層次結(jié)構(gòu)到底是什么樣的。查看不同測試深度下的內(nèi)存延遲行為,我們可以看到不同測試深度下的不同跳躍。我沒有標(biāo)注延遲數(shù)值,因為稍后我們將在此圖的非對數(shù)版本中再次看到它們。

在大核心方面,我們清楚地看到L1$從64KB跳躍到128KB,我認(rèn)為這里的增長毫無疑問。然而,進(jìn)入L2緩存,我們在延遲方面看到了一些奇怪的特性。很明顯,在3MB的范圍內(nèi),延遲增加,直到6MB左右。值得注意的是,只有在完全隨機(jī)模式下訪問時,才會出現(xiàn)3MB左右延遲緩慢增加的特性,在較小的訪問窗口中,延遲始終平坦,直到6MB。

我們暫時不再考慮這個問題,轉(zhuǎn)而進(jìn)入系統(tǒng)緩存服務(wù)的6MB以上區(qū)域。一開始很難弄清楚,因為整體低延遲會造成偏移,但總體而言,在我們達(dá)到DRAM延遲之前,延遲曲線會進(jìn)一步增加4MB左右。這與我們在裸片上實際看到的是一致的:新的系統(tǒng)緩存不僅使其區(qū)塊中劃分的部分加倍,而且容量也從4MB增加到8MB,翻了一倍。

我們接下來分析小核心,事情變得有點復(fù)雜。乍一看,你會相信A11的小核心L2被限制在512KB,而A12則高達(dá)1.5MB,然而我認(rèn)為我們正在被緩存的電源管理策略所欺騙。看看A11 Mistral核心延遲,我們可以看到768KB和1MB處的明顯跳躍。A12核心在2MB處也可以看到類似的跳躍。

此時,我們最好是回到裸片照片,做一些像素計算,從而得出下表:

大核心L2在A11和A12之間沒有任何結(jié)構(gòu)上的變化,二者都有128個SRAM macros instances ,分成兩個組塊。這里的問題仍然是,如果L2確實只有6MB,那么這意味著每SRAM區(qū)塊有48KB。

在查看小核心時,我們看到它們使用相同的SRAM macros。A12的小核心L2已從16個instance增加到32個,這意味著這里一定有加倍。然而,正如我們所看到的,L2的實測延遲深度至少增加了三倍,其他的事情肯定也在發(fā)生。我們測得的數(shù)據(jù)絕不代表硬件中的內(nèi)容,實際上,我們可以通過以更特殊的方式運行延遲測試來確認(rèn)這一點,這使得電源管理認(rèn)為它只是一些小的工作負(fù)載。在A12中,Tempest核心似乎只有512KB可用。

結(jié)論是,蘋果在每個bank的間隔尺度上使用了部分緩存電源關(guān)閉。在A12上,每個小核心的L2 bank是512KB,而在A11上是256KB。而且,這更讓我堅信A12上有2MB, A11上有1MB,只是測試可能無法滿足訪問完整緩存的策略要求。

反過來,因為這會確認(rèn)每個SRAM instance是64KB,我們可以回過頭來做一些關(guān)于大核心L2的假設(shè)。請再看一次,你會認(rèn)為它停留在了6MB,但仔細(xì)看,特別是A12,在8MB時特性發(fā)生了變化。同樣,內(nèi)核可能有8MB的物理緩存,一旦我們接近完整緩存,訪問行為就會發(fā)生明顯的變化。

這里的要點是,蘋果的緩存非常龐大,A12在這方面進(jìn)一步擴(kuò)展,將系統(tǒng)緩存大小加倍。在實踐中,我們在大型CPU內(nèi)核上有大約16MB的可用緩存層次結(jié)構(gòu)——這個龐大的數(shù)量只會讓SoC競爭者的內(nèi)存和緩存子系統(tǒng)相形見絀。

進(jìn)擊的GPU

在GPU方面,我們對A12有很大的期望,不僅在性能方面,而且在架構(gòu)方面。去年,Imagination發(fā)布了一份新聞稿,聲稱蘋果已經(jīng)通知他們,公司計劃在15至24個月內(nèi)不再在新產(chǎn)品中使用其IP。這最終導(dǎo)致股票價格暴跌,隨后公司被出售給一家股權(quán)公司。

因此,盡管蘋果聲稱A11 GPU是內(nèi)部設(shè)計,但它仍然看起來像Imagination衍生設(shè)計,因為它的區(qū)塊設(shè)計與之前的Rogue非常相似——最大的區(qū)別在于,現(xiàn)在所謂的核心是比先前的兩個核心更大的結(jié)構(gòu)。事實上,它仍然是一個TBDR(基于圖塊的延遲渲染),IMG擁有許多專利,但一個重要的事實是,蘋果仍然非常公開和支持PVRTC(PowerVR紋理壓縮,一種專有格式),這意味著GPU仍然可能與IMG的IP相關(guān)聯(lián)。此處,我們可能仍然會認(rèn)為是架構(gòu)許可設(shè)計,而不是我們通常所說的“清白”設(shè)計。

來源:TechInsights的蘋果A12裸片照片,ChipRebel的蘋果A11裸片照片

我們再來看A12 GPU,模型命名為G11P,我們看到與去年的A11 GPU有一些非常明顯的相似之處。各個功能區(qū)塊似乎在很大程度上位于相同的位置,并以類似的方式構(gòu)造。

我認(rèn)為蘋果A12 GPU最大的進(jìn)步是支持內(nèi)存壓縮。在發(fā)布會上聽到這個消息,我非常驚訝,因為這同時也意味著兩件事:先前的蘋果SoC和GPU顯然沒有內(nèi)存壓縮,而現(xiàn)在僅此一點就足以顯著提升新GPU的性能。

所謂內(nèi)存壓縮,特別是指從GPU到主內(nèi)存的透明幀緩沖區(qū)壓縮。在桌面領(lǐng)域,像英偉達(dá)AMD這樣的廠商擁有這一功能已經(jīng)很多年了,即使在內(nèi)存帶寬沒有增加的情況下,它也能提高GPU的性能。智能手機(jī)GPU同樣需要內(nèi)存壓縮,這不僅是因為移動SoC上的帶寬有限,而且最重要的是因為與高帶寬要求相關(guān)的功耗降低。ARM的AFBC一直是移動領(lǐng)域最公開談?wù)摰臋C(jī)制,但高通甚至Imagination等其他廠商都有自己的實現(xiàn)機(jī)制。

蘋果似乎很晚才通過A12引入了這一功能,但這也意味著A12將受益于效率和性能的巨大的代際提升,考慮到蘋果宣稱將大幅增加新GPU,這一舉措意義重大。

A12 Vortex CPU巡禮

在談到Vortex微架構(gòu)時,我們首先需要討論的是我們在蘋果新SoC上看到的頻率。在過去幾代中,Apple一直在穩(wěn)步提高其大核心的頻率,同時也提升了微架構(gòu)的IPC。我對A12和A11的頻率特性進(jìn)行了快速測試,得出了下表:

A11和A12的最大頻率實際上是單線程boost時鐘—— A11的Monsoon核心為2380MHz,A12的新Vortex核心為2500MHz。在ST的應(yīng)用中,這只有5%的頻率提升。當(dāng)添加第二個大線程時,A11和A12時鐘分別降至2325MHz和2380MHz。當(dāng)我們同時在小內(nèi)核上運行線程時,兩個SoC之間的情況發(fā)生了分歧:A11進(jìn)一步降至2083MHz,而A12繼續(xù)保持在2380MHz,直到達(dá)到熱極限并最終停止工作。

在小核心方面,相對于之前的Mistral,新的Tempest核心實際上更加保守。當(dāng)系統(tǒng)只在A11上運行一個小核心時,最大頻率提升到1694MHz。這種特性現(xiàn)在在A12上消失了,最大頻率是1587MHz。當(dāng)4個小內(nèi)核滿載時,頻率進(jìn)一步降低至1538MHz。

大大改進(jìn)的內(nèi)存延遲

正如前文所述,很顯然,蘋果在A12的緩存層次結(jié)構(gòu)和內(nèi)存子系統(tǒng)方面投入了大量工作?;氐骄€性延遲圖,我們可以看到,對于大核心和小核心的完全隨機(jī)延遲有以下特性:

與Monsoon內(nèi)核相比,Vortex內(nèi)核的頻率僅提升了5%,但絕對L2內(nèi)存延遲從11.5ns降至8.8ns,提升了29%。這意味著新的Vortex內(nèi)核的L2緩存現(xiàn)在可以在更少的周期內(nèi)完成操作。在Tempest方面,L2周期延遲似乎保持不變,但在L2分區(qū)和電源管理方面又發(fā)生了很大的變化,允許訪問更大的物理L2組塊。

我只在小于64MB的范圍內(nèi)進(jìn)行了深度測試,很明顯,在測試數(shù)據(jù)集中,延遲曲線還沒有變平緩,但可以看出DRAM的延遲已經(jīng)有所改善。當(dāng)小內(nèi)核處于活躍狀態(tài)時,內(nèi)存控制器的DVFS頻率的最大值會提高,這可以解釋為什么Tempest內(nèi)核的DRAM訪問存在較大的差異——當(dāng)大內(nèi)核上有大線程運行時,它們的性能會更好。

A12的系統(tǒng)緩存在其特性上發(fā)生了巨大的變化。雖然緩存層次結(jié)構(gòu)的這一部分帶寬與A11相比有所減少,但延遲得到了很大改善。這里的一個重要影響可以歸結(jié)為L2預(yù)取器,我也看到了系統(tǒng)緩存端有預(yù)取器的可能:延遲性能和流預(yù)取器的數(shù)量都提升了。

指令吞吐量和延遲

為了比較Vortex的后端特性,我們測試了指令吞吐量。后端性能由執(zhí)行單元的數(shù)量決定,延遲由設(shè)計質(zhì)量決定。

Vortex核心與先前的Monsoon(A11)看起來非常相似,除了我們貌似找到了新的除法單元,因為執(zhí)行延遲在整數(shù)和FP方面都減少了2個周期。在FP方面,除法吞吐量翻了一番。

從核心中部和后端來看,Monsoon(A11)是一個重要的微架構(gòu)更新。正是在這里,蘋果將Hurricane(A10)的微架構(gòu)從6-wide解碼改為7-wide解碼。后端最重要的變化是添加了兩個整數(shù)ALU單元,從4個單元增加到了6個。

Monsoon(A11)和Vortex(A12)是寬度極大的機(jī)器——具有6個整數(shù)執(zhí)行流水線,其中有兩個復(fù)雜單元、兩個負(fù)載單元和存儲單元、兩個分支端口、三個FP/矢量流水線,這給出了估計的13個執(zhí)行端口,遠(yuǎn)遠(yuǎn)超過ARM即將推出的Cortex A76,也比三星的M3寬度更大。事實上,假設(shè)我們沒有看到非典型的共享端口情況,蘋果的微架構(gòu)在寬度方面似乎遠(yuǎn)遠(yuǎn)超過其他任何東西,包括桌面CPU。

SPEC2006性能:達(dá)到桌面水平

我們在iOS設(shè)備上嘗試SPEC已經(jīng)有一段時間了——由于各種原因,在過去的幾年里我們無法繼續(xù)嘗試SPEC。我知道,很多人都希望我們能從我們離開的地方重新開始,我很高興告訴大家,我花了一些時間讓SPEC2006重新投入使用。

SPEC2006是一個重要的行業(yè)標(biāo)準(zhǔn)檢查基準(zhǔn)測試,與其他工作負(fù)載的區(qū)別在于,它所處理的數(shù)據(jù)集更大,更復(fù)雜。雖然GeekBench 4已經(jīng)成為了流行的行業(yè)基準(zhǔn)測試——我對實現(xiàn)完全跨平臺基準(zhǔn)測試的努力表示贊賞——但是我們必須考慮到,工作負(fù)載的程序大小和數(shù)據(jù)大小仍然是相對重要的。因此,SPEC2006作為基準(zhǔn)測試更好,它充分展示了給定的微架構(gòu)的更多細(xì)節(jié),特別是在內(nèi)存子系統(tǒng)性能方面。

以下SPEC數(shù)據(jù)是估算值,因為它們未經(jīng)SPEC提交和正式驗證?;鶞?zhǔn)測試庫的編譯設(shè)置如下:

Android:工具鏈:NDK r16 LLVM編譯器;Flags:-Ofast, -mcpu=cortex-A53

iOS: 工具鏈:Xcode 10; Flags:-Ofast

在iOS上,429.mcf是一個問題,因為內(nèi)核內(nèi)存分配器通常拒絕分配程序需要的單獨的大型1.8GB組塊(即使是新的4GB iPhone)。我修改了基準(zhǔn)測試,只使用了一半的arc,從而將內(nèi)存占用減少到大約1GB。我在幾個平臺上測量了運行時間的減少,還對iOS評分應(yīng)用了類似的比例因子,我估計評分的準(zhǔn)確率為+-5%。其余工作負(fù)載用手動驗證,并驗證是否正確執(zhí)行。

性能測量是在人造環(huán)境中運行的(即:用臺式風(fēng)扇冷卻手機(jī)),我們保證,在完成全套運行所需的1-2小時內(nèi),熱量不會成為問題。

在數(shù)據(jù)展示方面,我參考了今年早期的文章,例如我們在Galaxy S9評論中對Snapdragon 845和Exynos 9810的評估。

在衡量性能和效率時,重要的是要考慮三個指標(biāo):顯然,基準(zhǔn)測試的性能和運行時間表示在右側(cè)軸上,從右側(cè)開始增長。數(shù)據(jù)越大,SoC/CPU的性能就越好。標(biāo)簽代表SPECspeed分?jǐn)?shù)。

在左側(cè)軸上,條形圖表示給定工作負(fù)載的能量使用情況。條越長,意味著平臺使用的能量越多。條越短,代表平臺更節(jié)能,意味著使用的能量越少。標(biāo)簽代表平均功率(用瓦特表示),它是熱約束器件中考慮的重要次要指標(biāo),以及總能量(用焦耳表示),這是主要的效率指標(biāo)。

數(shù)據(jù)按照圖例中的順序排列,不同顏色代表不同的SoC供應(yīng)商以及不同的代際。我列出了蘋果A12、A11、Exynos 9810(2.7和2.3GHz)、Exynos 8895、Snapdragon 845和Snapdragon 835的數(shù)據(jù)。這讓我們概述了過去兩年來所有相關(guān)的CPU微架構(gòu)。

我們從SPECint2006工作負(fù)載開始:

在大多數(shù)工作負(fù)載下,A12的時鐘頻率比A11高5%,但我們必須記住,我們無法真正鎖定iOS設(shè)備上的頻率,所以這只是基準(zhǔn)測試期間運行時時鐘的一個假設(shè)。在SPECint2006中,A12的表現(xiàn)平均比A11好24%。

最小的增長見于456.hmmer和464.h264ref——它們是整套測試中兩個執(zhí)行最多的瓶頸測試。由于A12在這方面似乎并沒有什么大的變化,小幅增長主要歸因于更高的頻率以及緩存層次結(jié)構(gòu)的改進(jìn)。

445.gobmk的改進(jìn)非常大,達(dá)到了27%——這里的工作負(fù)載特征是存儲地址事件中的瓶頸以及分支錯誤預(yù)測。我確實測量到A12在處理緩存線路的存儲方式方面有一些重大變化,因為分支預(yù)測精度沒有顯著變化。

403.gcc的一部分、429.mcf、471.omnetpp、473.Astar和483.xalancbmk對內(nèi)存子系統(tǒng)很敏感,此時A12的性能從30%提高到42%,令人震驚。很明顯,新的緩存層次結(jié)構(gòu)和內(nèi)存子系統(tǒng)在這方面取得了很大的成效,因為蘋果實現(xiàn)了最近幾代芯片最主要的性能飛躍之一。

在衡量功率效率時,我們發(fā)現(xiàn),總體而言A12提高了12%,但我們必須記住,我們說的是最高性能時的能耗降低12%。A12展示出性能提高了24%,兩個SoC的性能/功耗曲線已經(jīng)大不相同。

在性能提升幅度最大的基準(zhǔn)測試中(即前面提到的內(nèi)存限制工作負(fù)載),我們看到功耗顯著上升。因此,盡管7nm工藝承諾增加功率,但蘋果選擇花費的能量比新工藝節(jié)點節(jié)省的能量更多,因此SPECint2006的平均功率從A11的3.36W上升到A12的3.64W。

接下來,我們轉(zhuǎn)到SPECfp2006,探討C和C++基準(zhǔn)測試,因為我們在XCode中沒有Fortran編譯器,而且要讓它在Android上工作非常復(fù)雜,因為它不是NDK的一部分,NDK有一個不推薦使用的GCC版本。

SPECfp2006有更多的內(nèi)存密集型測試,在7個測試中,只有444.namd,447.dealII和453.povray在內(nèi)存子系統(tǒng)達(dá)不到標(biāo)準(zhǔn)時看不到主要的性能回歸。

當(dāng)然,這主要有利于A12,因為SPECfp的平均增長為28%。433.milc從中脫穎而出,性能提升了75%。該基準(zhǔn)測試的特點是指令存儲受限,這又一次展示了Vortex的強(qiáng)大,我看到了很大的改進(jìn)。同樣的分析適用于450.soplex,出色的緩存層次結(jié)構(gòu)和內(nèi)存存儲性能的組合提高了42%的性能。

470.lbm對于蘋果CPU是一個有趣的工作負(fù)載,與ARM和三星的核心相比,它展示出了多因素性能優(yōu)勢。奇怪的是,高通的Snapdragon 820 Kryo CPU的表現(xiàn)仍然優(yōu)于最近的Android SoC。470.lbm的特點是最熱的代碼中有很大的循環(huán)。微架構(gòu)可以通過具有(更大的)指令循環(huán)緩沖區(qū)來優(yōu)化這樣的工作負(fù)載,在循環(huán)迭代中,核心將繞過解碼階段并從緩沖區(qū)獲取指令。蘋果的微架構(gòu)似乎有某種這樣的機(jī)制。另一種解釋是蘋果內(nèi)核的矢量執(zhí)行性能——Lbm的熱循環(huán)大量使用SIMD,而蘋果的3倍執(zhí)行吞吐量優(yōu)勢也可能是性能的重要貢獻(xiàn)者。

與SPECint類似,性能躍升幅度最大的SPECfp工作負(fù)載的功耗也有所增加。433.milc的功耗從2.7W提高到4.2W,性能同時提高了75%。

總體而言,功耗從3.65W躍升至4.27W。所有測試中的整體能效都有所增加,但482.sphinx3除外,其功率增加達(dá)到A12所有SPEC工作負(fù)載的最大值5.35W。在SPECfp2006中,A12的總能耗比A11低10%。

我沒有時間回去測量A10和A9的功率,但它們對于SPEC而言一般為3W左右。我運行了性能基準(zhǔn)測試,以下是A9到A12以及最新的Android SoC的綜合性能概述,適用于正在研究比較過去幾代蘋果的人士。

總體而言,新的A12 Vortex內(nèi)核以及SoC內(nèi)存子系統(tǒng)的架構(gòu)改進(jìn)為蘋果的新芯片提供了比蘋果的營銷材料提到的更大的性能優(yōu)勢。與最好的Android SoC相比,無論是在性能上還是在功率效率上,蘋果的優(yōu)勢都非常明顯。蘋果的SoC比最近所有的Android SoC具有更高的能效,并且有將近兩倍的性能優(yōu)勢。如果我們將能源使用正?;?,蘋果的性能效率將領(lǐng)先3倍,對此我不會感到驚訝。

這也讓我們對今年發(fā)布的三星M3核心有了一個很好的了解,只有當(dāng)總能量在可控范圍內(nèi)時,高能耗才能帶來更高的性能。在這里,Exynos 9810的能耗是去年A11的兩倍——性能赤字為55%。

與此同時,ARM的Cortex A76預(yù)定在幾周內(nèi)進(jìn)入麒麟980,作為華為Mate 20的一部分。我保證我們會為新的旗艦產(chǎn)品進(jìn)行適當(dāng)?shù)臏y試,并將其添加到目前的SoC性能和效率圖表中。

令人驚訝的是,蘋果的A11和A12與目前的臺式機(jī)CPU已經(jīng)相當(dāng)接近。我還沒有機(jī)會用更具有可比性的方式運行程序,但從我們的網(wǎng)站編輯Johan De Gelas在今年夏天早些時候提供的最新數(shù)據(jù)來看,我們看到A12在單線程性能方面優(yōu)于中等速度的Skylake CPU。當(dāng)然,我們要考慮到編譯器因素和各種頻率問題,但我們現(xiàn)在討論的仍然是非常小的差距,直到蘋果的移動SoC在ST性能方面優(yōu)于最快的桌面CPU。在接下來的幾個月里,在這個話題上得到更準(zhǔn)確的數(shù)據(jù)將是一件有趣的事情。

系統(tǒng)性能

雖然綜合測試性能是一回事,并且希望我們能夠很好地使用SPEC,但實際使用情況下的交互性能表現(xiàn)不同,而且軟件在測試性能方面可以發(fā)揮重要作用。

我必須承認(rèn),我們的iOS系統(tǒng)性能測試套件看起來非常糟糕:我們只剩下了web瀏覽器測試,因為iOS缺乏有意義的替代品,比如在Android的PCMark測試工具。

Speedometer 2.0是最新的行業(yè)標(biāo)準(zhǔn)JavaScript基準(zhǔn)測試,可測試最常見和最現(xiàn)代的JS框架性能。

A12與A11相比性能大幅躍升了31%,再次指出蘋果廣告中的性能數(shù)據(jù)遠(yuǎn)遠(yuǎn)低于新款芯片。

我們還看到iOS 12在上一代設(shè)備上的小幅提升。這不僅得益于iOS調(diào)度器處理負(fù)載的方式發(fā)生了變化,還得益于蘋果使用的每個不斷發(fā)展的JS引擎的進(jìn)一步改進(jìn)。

WebXPRT 3也是一種瀏覽器測試,但是它的工作負(fù)載更加廣泛和多樣化,包含了大量的處理測試。在這里,iPhone XS比iPhone X顯示出11%的優(yōu)勢,比Speedometer 2.0測試的優(yōu)勢稍小。

此前的設(shè)備也看到了穩(wěn)定的性能提升,iPhone X的得分從134分上升到147分,即10%。與iPhone 7的A10相比有33%的大幅提升,我們稍后會詳細(xì)介紹。

iOS12調(diào)度器加載斜坡分析

蘋果公司承諾iOS12系統(tǒng)將會有顯著的性能提升,這要歸功于他們的新調(diào)度器計算單個任務(wù)負(fù)載的方式。操作系統(tǒng)的內(nèi)核調(diào)度器跟蹤線程的執(zhí)行時間,并將其聚合為一個利用率指標(biāo),然后由DVFS機(jī)制等使用。決定這種負(fù)載如何隨時間變化的算法通常是一個簡單的軟件決策——它可以根據(jù)供應(yīng)商認(rèn)為合適的方式進(jìn)行調(diào)整和設(shè)計。

因為iOS的內(nèi)核是閉源的,所以我們無法真正看到變化是什么,但我們可以測量它們的效果。一個相對簡單的方法是跟蹤工作負(fù)載中從空閑到最高性能的頻率。在iOS12系統(tǒng)升級前后,我在iphone 6到X(和XS)上進(jìn)行了這個測試。

我們從帶有A8芯片組的iPhone 6開始,我在iOS11上得到了一些奇怪的結(jié)果,因為從空閑到最高性能的上升特性非常不尋常。我重復(fù)了幾次,但結(jié)果還是一樣。A8的CPU在空閑時為400MHz,并在此停留了110ms,直到它躍至600MHz,然后又停留了10ms,進(jìn)入最高性能時的1400MHz。

iOS12系統(tǒng)展示了一種更階梯式的特性,更早的時候就開始上升,并在90ms后達(dá)到最高性能。

iPhone 6S在iOS11上有明顯不同的上升特性,而A9芯片的DVFS非常慢。在這里,CPU總共需要435ms才能達(dá)到其最大頻率。隨著iOS12的更新,這個時間大幅縮減到80ms,大大提高了在更短的交互工作負(fù)載下的性能。

我很驚訝地看到調(diào)度器以前的速度之慢,這正是目前三星Exynos芯片組以及其他不優(yōu)化調(diào)度器的Android SoC的問題。雖然硬件性能可能存在,但它并沒有在短時間交互工作負(fù)載中表現(xiàn)出來,因為調(diào)度器負(fù)載跟蹤算法太慢了。

A10與A9有類似的缺點,達(dá)到最高性能的時間超過400ms。在iOS12系統(tǒng)中,iPhone 7將這個速度減半,約為210ms。與A9相比,A10在這方面更為保守,這很奇怪,但這可能與小核心有關(guān)。

在這張圖中,我們還可以看到小核心Zephyr的頻率,它們從400MHz開始,在1100MHz達(dá)到峰值。圖中的頻率回落到758MHz,因為此時有一個核心切換到大核心,然后它們的頻率繼續(xù)上升,直到達(dá)到最高性能。

在蘋果A11上,我沒有看到任何重大變化,實際上任何差異都可能是測量不同固件之間的隨機(jī)噪聲。在iOS11和iOS12中,A11在大約105ms內(nèi)上升到全頻。請注意,此圖中的x軸比之前的圖短很多。

最后,在iPhone XS的A12芯片組上,我們無法測量任何預(yù)更新和更新后的特性,因為iPhone XS自帶了iOS12。此時,我們再次看到它在108ms后達(dá)到了最高性能,我們看到了從Tempest核心轉(zhuǎn)向Vortex核心的趨勢。

總之,我希望這是iOS12給舊設(shè)備帶來的性能差異的最好和清晰的展示。

就iPhone XS而言,我對它的性能沒有任何質(zhì)疑,它的速度很快。我不得不承認(rèn)我仍然是Android用戶,并且我的手機(jī)完全關(guān)閉動畫,因為我發(fā)現(xiàn)這會阻礙設(shè)備的速度。iOS無法完全關(guān)閉動畫,雖然這只是我的主觀個人觀點,但我發(fā)現(xiàn)它們嚴(yán)重妨礙了手機(jī)的真實性能。在非交互式工作負(fù)載中,iPhone XS只是在沒有任何問題或異常的情況下完成了測試。

GPU性能

A12的GPU的性能提升是演講的最大亮點之一,與A11的GPU相比,性能提升了50%。蘋果通過“簡單地”在A11的三個GPU上添加第四個GPU核心,以及在GPU上引入內(nèi)存壓縮實現(xiàn)了這一目標(biāo)。我認(rèn)為,內(nèi)存壓縮是最有助于提高GPU的微架構(gòu)性能的因素,因為它實際上是巨大的一次性轉(zhuǎn)變,無可否認(rèn),蘋果花了很長時間才完成。

在進(jìn)入基準(zhǔn)測試之前,我想提一點,最新的蘋果 GPU的峰值性能和峰值功耗是一個問題。我們已經(jīng)看到,蘋果從一段時間內(nèi)的持續(xù)性能提升轉(zhuǎn)變?yōu)閺腟oC的峰值性能下降到實際性能下降的最糟糕的“罪犯”之一。這是有原因的,但我很快就會講到。

3DMark物理測試主要是一個CPU限制測試,它也強(qiáng)調(diào)整體平臺功率限制,而GPU也正在工作。我們看到,iPhone XS和A12相比于去年的iPhone取得了很大的進(jìn)步。這是一個在過去對蘋果CPU而言特別有問題的測試,然而這個微架構(gòu)的小問題似乎在A11和Monsoon核心中得到了解決。Vortex核心以及總是在提高的SoC功率效率進(jìn)一步提高了性能,最終在這項特定測試中匹配了ARM的核心。

在3DMark測試的圖形部分,iPhone XS的持續(xù)性能比去年的iPhone X提高了41%。在這個特殊的測試中,OnePlus 6更慷慨大方的熱敏元件仍然讓Snapdragon 845比新芯片表現(xiàn)更好。

在峰值性能方面,我在3DMark中遇到了一些大問題:我完全無法在iPhone XS或XS Max保持涼爽的情況下完成一次運行。如果設(shè)備足夠涼爽,GPU會提高到非常高的性能,甚至?xí)罎ⅰN乙恢笨梢砸槐楸榈刂噩F(xiàn)這一現(xiàn)象。我嘗試在測試中測量功率,平臺的瞬時平均功率為7-8瓦。對于高于8的數(shù)值,我懷疑這種測量方法沒能記錄下來。GPU崩潰意味著在運行過程中,電源輸出無法提供必要的瞬態(tài)電流,我們將看到電壓下降,引起GPU崩潰。

在幾次嘗試中多次重復(fù)測試時,我加熱SoC,直到它決定以較低的GPU頻率啟動,這便可以成功完成測試。

GFXBench測試

Kishonti最近發(fā)布了新的GFXBench 5 Aztec Ruins測試,它為我們的測試套件帶來了更新、更現(xiàn)代、更復(fù)雜的工作負(fù)載。在理想的情況下,我們將測試真正的游戲,但這在移動設(shè)備上令人難以置信,因為基本上沒有哪款游戲內(nèi)置基準(zhǔn)測試模式。有一些工具可以收集fps值,但這里最大的問題是手動玩游戲時工作負(fù)載的可重復(fù)性,這也是當(dāng)今許多在線游戲的一個大問題。

我仍然認(rèn)為,人造基準(zhǔn)測試在這里有一個非常穩(wěn)固的位置,只要你理解基準(zhǔn)測試的特性。Kishonti的GFXBench多年來一直是行業(yè)標(biāo)準(zhǔn),而新的Aztec測試給了我們不同的工作量。新的測試著色更濃,利用更復(fù)雜的效果來強(qiáng)調(diào)GPU的運算能力。盡管上表中的數(shù)據(jù)是在Mali G72 GPU上收集的,但它仍能夠提供對其他架構(gòu)的總體預(yù)期。新的測試由于其更大的紋理,因此也非常需要帶寬。

一般而言,游戲與基準(zhǔn)測試的關(guān)聯(lián)具體取決于各種圖形工作負(fù)載的百分比、是否有較大的填充或粗重的紋理、是否具有復(fù)雜的幾何形狀、或僅僅是著色效果越來越復(fù)雜,這就需要GPU的運算能力。

普通模式的Aztec Ruins是一項要求不高的新測試,新的蘋果A12手機(jī)展示出了極高的峰值性能,比去年的iPhone高出51%。

在持續(xù)表現(xiàn)方面,數(shù)字在幾分鐘后迅速下降,并在隨后進(jìn)一步穩(wěn)定下來。此時,iPhone XS的性能比iPhone X高出61%。蘋果A12也能夠在持續(xù)表現(xiàn)上以45%的優(yōu)勢擊敗目前的領(lǐng)導(dǎo)者OnePlus 6中的Snapdragon 845。

在Aztec Ruins的高級模式中,我們看到了一個驚人相似的性能排名。iPhone XS的峰值性能又一次非常出色,但重要的是持續(xù)的分?jǐn)?shù)。此時,iPhone XS性能比iPhone X高61%。OnePlus 6的Snapdragon 845的性能差值在這里降低到31%,比普通模式略低一點,我們可能在微架構(gòu)的某些方面遇到一些瓶頸。

GPU功率

蘋果設(shè)備的平臺和GPU功能一直是我想要發(fā)布的東西,但實現(xiàn)起來很復(fù)雜。我得到了新iPhone XS的合理數(shù)據(jù),但是舊的SoC數(shù)據(jù)仍然需要等待機(jī)會。

我沒有時間在各種設(shè)備上測試Aztec Ruins,所以我們?nèi)匀灰蕾囉跇?biāo)準(zhǔn)的Manhattan 3.1和T-Rex。首先,我們先列出測試結(jié)果:

同樣,在Manhattan 3.1中,新款iPhone XS的性能比iPhone X高出75%。這里的改進(jìn)不僅僅是因為GPU的微架構(gòu)的改進(jìn)、擁有一個額外的核心,以及SoC新工藝節(jié)點,還因為新的內(nèi)存壓縮減少了外部DRAM的能耗,它在帶寬繁重的3D工作負(fù)載中可占系統(tǒng)功耗的20-30%。DRAM上的功率節(jié)省意味著GPU和SoC可以使用更多的能量,從而提高了性能。

這里的功率數(shù)字是系統(tǒng)的有效功率,表示總設(shè)備功率減去給定工作負(fù)載情況下的空閑功率(其中包括屏幕功率)。

在峰值性能下,當(dāng)設(shè)備在22°C環(huán)境溫度下冷卻時,蘋果A12的GPU會非常耗電,功率達(dá)到6W。這并不是GPU的平均峰值,因為我先前提到過3DMark達(dá)到7.5W左右(在崩潰之前)。

即使在這個高功率數(shù)字下,A12的效率也超過了其他所有SoC。雖然這頗為有趣,但強(qiáng)調(diào)蘋果的節(jié)流特性是非常重要的。在僅僅3分鐘或3個基準(zhǔn)測試運行后,手機(jī)將節(jié)流約25%,達(dá)到我在效率表中所說的“溫暖”狀態(tài)。功率達(dá)到合理的3.79W。值得注意的是,電源效率并沒有大幅提高,只是比峰值提高了16%。這意味著該平臺的功率曲線相對較低,并且性能受到熱量的限制。

接下來看T-Rex,iPhone XS再次展示了61%的持續(xù)性能提升。

我們看到,T-Rex的功耗與Manhattan的功耗一致,低溫設(shè)備的峰值功率達(dá)到6W多一點。在運行3次之后,峰值功率再次降低到4W以下,性能下降了28%。這里的效率并沒有太大的提高,再次表明功率曲線相對較低。

需要注意的是,“溫暖”運行的功率度量并不代表持續(xù)的性能,我只是想在峰值數(shù)據(jù)旁邊添加一個額外的數(shù)據(jù)點。大多數(shù)設(shè)備的持續(xù)功率在3-3.5W范圍內(nèi)。

為什么蘋果公司在峰值性能和持續(xù)性能之間存在如此巨大的差異?先前,iPhone 6和A8發(fā)布的時候,持續(xù)性能便是蘋果的主要關(guān)注點之一。這種變化是由于日常GPU用例發(fā)生了變化,以及蘋果如何將GPU用于與3D無關(guān)的工作負(fù)載。

Apple大量使用GPU計算,用于各種用途,例如app中的一般硬件加速、使用GPU計算進(jìn)行相機(jī)圖像處理。在這些用例中,持續(xù)的性能并不重要,因為它們是事務(wù)性工作負(fù)載,這意味著需要盡快處理的固定工作負(fù)載。

在過去的幾年里,Android GPU計算一直是一場徹頭徹尾的災(zāi)難,我主要是聲討谷歌沒有在AOSP中支持OpenCL,這使得供應(yīng)商對OpenCL的支持非常零散。RenderScript從未獲得太多的關(guān)注,因為它不能保證性能。Android設(shè)備和SoC的碎片化意味著在第三方app中基本不存在GPU計算(如有錯誤,敬請指正!)

蘋果對API棧的垂直集成和嚴(yán)格控制意味著GPU計算成為了現(xiàn)實,而事務(wù)性GPU峰值性能是值得考慮的指標(biāo)。

現(xiàn)在,雖然這確實解釋了節(jié)流的原因,但我仍然認(rèn)為蘋果可以做一些熱優(yōu)化。我在iPhone XS上玩了Fortnite游戲,手機(jī)的發(fā)熱讓我不是很喜歡。此時,必須有某種方式來讓具有持續(xù)性能特征的游戲和app切實從GPU開始限制這種持續(xù)的性能狀態(tài)。

除了熱性能和峰值性能的考慮因素以外,iPhone XS和XS Max由于新的A12 SoC,展示出業(yè)界領(lǐng)先的性能和效率,并且目前是最好的手機(jī)游戲平臺。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    452

    文章

    49985

    瀏覽量

    419670
  • 晶體管
    +關(guān)注

    關(guān)注

    77

    文章

    9582

    瀏覽量

    137471
  • A12
    A12
    +關(guān)注

    關(guān)注

    1

    文章

    23

    瀏覽量

    5916

原文標(biāo)題:萬字長文解密蘋果A12芯片

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    蘋果汽車計劃帶給供應(yīng)商一次絕佳投資機(jī)會

    蘋果一次又一次改變了世界,也讓全世界許多投資人獲得巨大回報。如今,硅谷普遍傳言蘋果正在研發(fā)電動車,和特斯拉以及傳統(tǒng)汽車公司進(jìn)行競爭。而據(jù)美國財經(jīng)投資網(wǎng)站Fool報道,
    發(fā)表于 08-14 15:41 ?454次閱讀

    7nm制程會為蘋果A12處理器帶來哪些變化?

    蘋果即將發(fā)布的 A11 芯片,預(yù)計將基于臺積電的 10 納米工藝制程打造,并且臺積電在最近一次聲明中,強(qiáng)烈暗示后續(xù) A12 芯片蘋果會基于
    發(fā)表于 12-13 10:15 ?6486次閱讀
    7nm制程會為<b class='flag-5'>蘋果</b><b class='flag-5'>A12</b>處理器帶來哪些變化?

    【轉(zhuǎn)載】蘋果公司在日本申請iWatch商標(biāo)

    -數(shù)字展廳_展廳設(shè)計_數(shù)字展館_多媒體展廳_三維動畫_數(shù)字體驗館_數(shù)字沙盤_展廳設(shè)計公司_展廳設(shè)計   當(dāng)然,僅僅是申請注冊商標(biāo)并不表示蘋果公司定會開發(fā)這樣款產(chǎn)品,也不意味著這個商
    發(fā)表于 07-02 16:35

    蘋果公司的股價也在不斷波動

    “禁令”,這次iphone8雖然出現(xiàn)類似情況,但也不完全相同,如果其在飛機(jī)上出現(xiàn)這種問題,航空方面才會有所反應(yīng)。不過,受困于最近iphone8的系列表現(xiàn),蘋果公司的股價也在不斷波動,昨日晚間
    發(fā)表于 10-10 14:06

    困獸蘋果何去何從

    改變不了殘酷的市場淘汰。用戶的耐心是有限的,如果未來幾年,蘋果公司還拿不出款像樣的升級版本,公司走向衰落將是不可避免的。試問,有多少用戶會直為
    發(fā)表于 08-28 21:04

    蘋果公司為什么要用ARM處理器

    設(shè)備中,包括每部iPhone和iPad。蘋果公司指定了蘋果公司A系列芯片(用于iPhone和iPad),但基于ARM設(shè)計,從而賦予了蘋果公司很大的控制權(quán)?! ⊥ㄟ^直接控制其設(shè)備中最重
    發(fā)表于 06-22 11:21

    臺積電將獨家供應(yīng)蘋果A12處理器

    據(jù)外媒MacRumors報道,蘋果公司已經(jīng)選擇臺積電作為A12處理器的獨家代工商,預(yù)計2018年下半年推出的三款新iPhone將采用該處理器。報道援引蘋果公司供應(yīng)鏈中匿名消息人士的話,A12
    的頭像 發(fā)表于 02-20 16:20 ?2185次閱讀

    麒麟980與蘋果A12 Bionic芯片,究竟孰強(qiáng)孰弱?

    蘋果在不久前召開的秋季新品發(fā)布會上正式發(fā)布了A12 Bionic(A12仿生)芯片,蘋果號稱這是業(yè)界首款7nm芯片。A12 Bionic包含
    發(fā)表于 09-25 14:37 ?7851次閱讀

    深度解析蘋果A12處理器

    昨日外媒AnandTech發(fā)布了篇關(guān)于蘋果A12處理器的分析文章。AnandTech還引用了TechInsights對于蘋果A12的拆解圖
    的頭像 發(fā)表于 10-09 17:20 ?4.9w次閱讀

    巨虧之后的聯(lián)建光電,開啟了一次又一次的“瘦身”行動

    重壓之下,聯(lián)建光電也在積極尋找出路,其一次又一次的出售子公司股權(quán),就意味著聯(lián)建光電未來計劃“輕裝上陣”。
    的頭像 發(fā)表于 04-07 09:24 ?3054次閱讀

    蘋果A12處理器以上的手機(jī)原裝電池進(jìn)行加密處理

    發(fā)布會時“堅決不買”,買后“真香”的新款iPhone 11,讓蘋果手機(jī)的熱度再次提升到了個高度,但最近蘋果的騷操作引發(fā)熱議。具體情況是蘋果公司在采用
    發(fā)表于 10-22 15:49 ?1.4w次閱讀

    蘋果發(fā)布新專利,又一次刷新Apple Watch的操作體驗

    蘋果公司真不愧是世界上最偉大的科創(chuàng)公司,最近獲得項關(guān)于 Apple Watch 的新專利再次刷新了我們的認(rèn)知和必將給我們帶來全新操作體驗。
    的頭像 發(fā)表于 03-12 14:02 ?1794次閱讀

    蘋果或推出基于A12仿生改造的新款芯片

    2018年9月,蘋果正式發(fā)布A12仿生芯片。這款芯片曾出現(xiàn)在iPhone XS、iPhone XR以及iPad等產(chǎn)品中,是款非常成熟的芯片。而近期有消息稱,蘋果將推出
    的頭像 發(fā)表于 01-19 16:31 ?2498次閱讀

    蘋果公司造車代工廠將花落誰家?

    我們知道蘋果公司曾經(jīng)靠出色的產(chǎn)品架構(gòu)給世界帶來一次又一次變革,而近幾年在各大科技公司紛紛跨界進(jìn)軍汽車行業(yè)的時候,蘋果公司也蠢蠢欲動。近日,蘋果
    的頭像 發(fā)表于 02-19 09:11 ?1684次閱讀

    蘋果公司新專利曝光,通過心跳數(shù)據(jù)解鎖設(shè)備

    蘋果公司再次引領(lǐng)科技潮流,最新曝光的專利揭示了其探索利用心跳數(shù)據(jù)解鎖iPhone等設(shè)備的創(chuàng)新構(gòu)想——Heart ID。這技術(shù)突破,標(biāo)志著蘋果在生物識別領(lǐng)域的又一次大膽嘗試,繼Touc
    的頭像 發(fā)表于 08-05 11:43 ?545次閱讀