PCDVD數位科技討論區 - 瀏覽單個文章 - AMD Fusion第二波：CPU/GPU 2015年徹底融合

引用:
作者blair
推土機犧牲掉整數運算，也犧牲掉單線程能力，完全著重於多核心，這些是已知的

還有，請不要把多核心和超執行緒混在一起做牛丸了，這是兩回事
至今為止AMD也沒做過支援超執行緒(HT)的CPU
耶~我看到的好像有點不同!?
代碼:
一、推土機架構總覽

去年11月底的年度分析師會議上，AMD首次公佈了推土機架構的一些技術細節。今天，AMD提供了更詳細的架構圖。


每一個推土機模塊都包括兩個整數核心與一個浮點單元，其中每個整數核心有四條完整的整數管線，每條管線內又有一個算術邏輯單元(ALU)和一個地址生成單元(AGU)，可以執行x86整數代碼、存儲指令以及合併執行SSE、AVX整數代碼，這也是最大的變化。

浮點單元內有兩個128位寬範圍的FMAC單元，可以執行新的積和熔加運(FMA)指令或者浮點加法與乘法操作，這樣既能降低功耗，也能提高簡單操作的吞吐量。據AMD解釋，兩個FMAC單元既可以被兩個核心整數的兩個線程並行使用，也能被一個線程循環使用。

每個整數核心內還都有自己的16KB一級緩存和載入存儲單元(LSU)，其中後者負責管理來自自身所在整數核心以及浮點單元的所有存儲請求，每個核心能執行兩個在載入和一個存儲操作，都是最高128-bit。相比於K10架構，推土機的LSU還能執行數據和地址的推測。

為了減少分支預測的錯誤和由此造成的拾取操作延遲，分支預測單元也有所改進，能夠在每個時鐘週期內預測多個分支並發送代碼預取。

對性能提升貢獻很大的另一個重要特性是各個單元能運行在不同頻率上，可以關閉任何閒置的子單元並調整緩存容量(比如將一級緩存從四路16KB關閉成雙路 8KB)，還有一個電源控制器負責跟蹤每個子單元的載入和功耗情況，這叫作應用電源管理(APM)。

最後是五級緩存架構：

－ 零級緩存：每個線程(或核心)4KB 8路關聯；
－ 一級緩存：每個核心16KB 4路關聯數據緩存，延遲1個循環；每個模塊128KB 4路關聯；
－ 二級緩存：每個模塊2MB 8路關聯，兩個核心共享，全速；
－ 三級緩存：所有核心共享8MB，延遲24個循環，每個時鐘循環可同時處理最多兩個請求；
－ 四級緩存：桌面黑盒版以及服務器Opteron都將通過芯片堆棧新增四級緩存，容量32MB或者64MB。

二、新接口新工藝

推土機核心在基於32nm SOI工藝得初期試產中表現得異常可靠，因此AMD正在試驗使用28nm Bulk工藝進行小批量生產，但既未確認也未否認最終是否會使用28nm。


不過AMD確認，推土機處理器將採用Socket AM3+接口，941個針腳，不同於目前938個針腳的Socket AM3接口，其好處是可以支持DDR3-1866內存和高級節能技術，而且AM3+將是。

AM3+將是AMD的最後一代針腳柵格陣列(PGA)封裝，之後將改用觸點柵格陣列(LGA)，等到Fusion融合處理器降臨的時候就會使用LGA AF1新接口，觸點多達1591個，支持DisplayPort 1.2標準、PCI-E 3.0規範(32條信道)、四通道內存。

三、智能加速

Intel Core ix家族支持Turbo Boost，AMD Phenom II X6也祭出了Turbo Core，都是多核心智能加速技術，可以自動關閉部分核心，並提高剩餘核心的頻率。

推土機則提供了兩個級別的智能加速，其一是在每個模塊內，可以動態調整每條整數管線的能耗，能將其中一個整數核心徹底關閉，並加速另一個整數核。

AMD保證這會帶來0.6-1.6GHz不等的模塊核心頻率提升，幅度30-35％，比如：

2.0GHz－>2.6GHz ＋30％
2.4GHz－>2.6GHz ＋33％
2.8GHz－>3.8GHz ＋35％
3.2GHz－>4.2GHz ＋31％
3.6GHz－>4.6GHz ＋33％
4.0GHz－>5.6GHz ＋30％

第二個級別則是針對整體主頻，會在高負載的時候有規律地逐步提高200MHz，直到上限。如果一個模塊在最低能耗狀態，其他模塊就能超頻兩三個級別。

一旦超過功耗或者散熱限制，主頻就會自動遞減200MHz，直到低於限制。比如：

2.0GHz－>3.2GHz +60％
2.4GHz－>3.8GHz +58％
2.8GHz－>4.4GHz +57％
3.2GHz－>4.8GHz +50％
3.6GHz－>5.4GHz +50％
4.0GHz－>5.8GHz +45％