PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 電腦硬體討論群組 > 系統組件
帳戶
密碼
 

  回應
 
主題工具
everspiral
Elite Member
 
everspiral的大頭照
 

加入日期: Nov 2004
您的住址: 北平西路3號
文章: 4,613
引用:
作者lzarconlony1
多線程多執行緒xD

SNB架構IPC 6個指令 這數據哪來的?
不是16/8嗎...


你說的168個應該是拆分後的微碼

我說的是PreDecoder
在Nehalem之後一個周期內可以預讀6個指令,
到了Haswell微架構時提高到8個指令


https://zh.wikipedia.org/wiki/Haswe...%9E%B6%E6%A7%8B

IDF2011發佈資料後來有人做了一些整理
http://www.mouseos.com/arch/intel_m...chitecture.html

可以看到排程器內部,它有6個連接阜,表示排程器一次最高可以分派6個微碼到執行單元去,這部分AMD的Zen跟上了

微架構的流程圖相較於Bulldozer上市前就在網路上傳遍了,
但這次Zen到目前為止都還未流出(就算有也被AMD官方否認)

當時網路上推測Bulldozer的對手是Nehalem
所以這次Zen的假想敵應該是Sandy Bridge
     
      
舊 2015-11-10, 02:12 PM #21
回應時引用此文章
everspiral離線中  
lzarconlony1
*停權中*
 
lzarconlony1的大頭照
 

加入日期: Jun 2015
您的住址: 金一十大女支三
文章: 1,282
一般都是看decoder之後那段來決定...過程不重要 結果是一切

Predecoder這段 查了很久確定到Skylake都是16B with 6 instruction
K8/K10 32B with 3 ins. Bulldozer 32B with 4 ins.
Streamroller有點不好說 32B但不清楚到底4還8 可信資料不足

而Zen應該是32B with 4 ins. 已經取過多也取不夠多 不知道decoder會不會改
simple decoder可能有專利?

fetch不是越多越好 而是要搭配cache跟scheuling
CPU是一個整體 pipeline上面要均衡

我認為Bulldozer當初做太多Predecoder這段 Steamroller增加decoder
很明顯就是取太多但是後面跟不上 才會這樣改

因為還需要其他搭配 例如Skylake有標明 那個數據是Win 10 x64下的結果
你沒用這個OS 沒用AVX是達不到相同IPC & Flops

AMD資料超難找
http://ieeexplore.ieee.org/xpl/logi...umber%3D6757357
 

此文章於 2015-11-10 08:33 PM 被 lzarconlony1 編輯.
舊 2015-11-10, 08:31 PM #22
回應時引用此文章
lzarconlony1離線中  
lzarconlony1
*停權中*
 
lzarconlony1的大頭照
 

加入日期: Jun 2015
您的住址: 金一十大女支三
文章: 1,282
Bull..


Has..


其實從Core 2 Due開始就是一樣的東西 玩了七代.. 小改而已
原廠沒大改 可惜玩家都喜歡自己改


圖跟IEEE上幾乎一樣

此文章於 2015-11-10 08:54 PM 被 lzarconlony1 編輯.
舊 2015-11-10, 08:52 PM #23
回應時引用此文章
lzarconlony1離線中  
everspiral
Elite Member
 
everspiral的大頭照
 

加入日期: Nov 2004
您的住址: 北平西路3號
文章: 4,613
引用:
作者lzarconlony1
一般都是看decoder之後那段來決定...過程不重要 結果是一切

Predecoder這段 查了很久確定到Skylake都是16B with 6 instruction
K8/K10 32B with 3 ins. Bulldozer 32B with 4 ins.
Streamroller有點不好說 32B但不清楚到底4還8 可信資料不足

而Zen應該是32B with 4 ins. 已經取過多也取不夠多 不知道decoder會不會改
simple decoder可能有專利?

fetch不是越多越好 而是要搭配cache跟scheuling
CPU是一個整體 pipeline上面要均衡


我認為Bulldozer當初做太多Predecoder這段 Steamroller增加decoder
很明顯就是取太多但是後面跟不上 才會這樣改

因為還需要其他搭配 例如Skylake有標明 那個數據是Win 10 x64下的結果
你沒用這個OS 沒用AVX是達不到相同IPC & Flops

AMD資料超難找
http://ieeexplore.ieee.org/xpl/logi...3A%2F%2Fieeexpl...


intel的斯斯有兩種,p6跟p8架構
直到2代Core i才是真正的把p6跟p8架構的優點整合在一起,
scheule那邊看起來都差不多是因為Predecode之後都是沿用改良P6架構,
但是Predecode之前改良自p8架構。

http://bolgimg.b0.upaiyun.com/image...36DC5C93%7D.jpg

SNB這一代會有明顯的進步是因為Predecode之前這一段整個砍掉重練
fetch到Cache都比前代的Nehalem大,新設的Rop cache就是以前的Trace Cache
印象中NetBurst的缺點是命中率太低,所以花了很大的心力在演算法上面。
當資料的吞吐量變大有利於多工,後面的HSW跟SKL都是朝這個方向改進(不過不知為何要堅持用16B)



AMD的Bulldozer對Predecode之後作了改善,但L1 IC那邊的老問題一直沒解決
畢竟SRAM的造價昂貴,64KB 2路跟32KB 8路比較雖然容量較大,但頻寬差一大截
(多路的缺點是延遲,所以intel每跳一代都把延遲都減少一倍),當然還有另一個目的
"繪圖功能"

insttruction fetch到Predecode這邊,intel用大量的多緩衝解決16B寬度不足的問題,
而且也考慮到功號問題。

intel在後段的效率其實已經很好,當然也增加了很多緩衝增加靈活性。

我想未來intel會朝向Fine-grained multithreading(FMT,細質多執行緒)
這個方向走,等拉高資料的吞吐量之後再多一組decode也不是難事。
畢竟Yonah之後都維持現在1+3這個規模。

此文章於 2015-11-11 11:09 AM 被 everspiral 編輯.
舊 2015-11-11, 11:07 AM #24
回應時引用此文章
everspiral離線中  
Stone Crab
*停權中*
 
Stone Crab的大頭照
 

加入日期: Mar 2015
您的住址: 熱火隊地盤
文章: 2,703
舊 2015-11-11, 09:42 PM #25
回應時引用此文章
Stone Crab離線中  
limit555
Senior Member
 

加入日期: Jul 2012
文章: 1,103
引用:
作者everspiral
intel的斯斯有兩種,p6跟p8架構
直到2代Core i才是真正的把p6跟p8架構的優點整合在一起,
scheule那邊看起來都差不多是因為Predecode之後都是沿用改良P6架構,
但是Predecode之前改良自p8架構。

http://bolgimg.b0.upaiyun.com/image...36DC5C93%7D.jpg

SNB這一代會有明顯的進步是因為Predecode之前這一段整個砍掉重練
fetch到Cache都比前代的Nehalem大,新設的Rop cache就是以前的Trace Cache
印象中NetBurst的缺點是命中率太低,所以花了很大的心力在演算法上面。
當資料的吞吐量變大有利於多工,後面的HSW跟SKL都是朝這個方向改進(不過不知為何要堅持用16B)

http://www.valleytalk.org/wp-conten...B9%E6%AF%94.jpg

AMD的Bulldozer對Predecode之後作了改善,但L1 IC那邊的老...



問一下 我聽說cpu其實非常非常快
一點點的延遲都會很敏感
但都被記憶體脫累(即使L1 都是cpu在等)

是有多快?
我是說 假如沒有延遲等待的問題
cpu運算速度會是現在的幾倍呢?



ps:另外佔存器的延遲時間是多少 頻寬是多少呢?
從沒看過相關資料
沒辦法測?

此文章於 2015-11-11 11:02 PM 被 limit555 編輯.
舊 2015-11-11, 10:52 PM #26
回應時引用此文章
limit555離線中  
搗藥棒捅月兔
Major Member
 
搗藥棒捅月兔的大頭照
 

加入日期: Aug 2012
您的住址: 無限期潛水中...
文章: 227
只要把這幾年的CPU與5年前.10年前.15年前的CPU做比較

相同頻率的CPU,新的就是強過5年前產品

製程.快取.指令集.匯流排.周邊晶片,這些都是影響CPU效能的因素

-
舊 2015-11-12, 02:29 AM #27
回應時引用此文章
搗藥棒捅月兔離線中  
limit555
Senior Member
 

加入日期: Jul 2012
文章: 1,103
引用:
作者搗藥棒捅月兔
只要把這幾年的CPU與5年前.10年前.15年前的CPU做比較

相同頻率的CPU,新的就是強過5年前產品

製程.快取.指令集.匯流排.周邊晶片,這些都是影響CPU效能的因素

-


可是我想起e8400剛出的時後
L2大了整整50%

可是測試上差異卻很小
舊 2015-11-12, 05:00 AM #28
回應時引用此文章
limit555離線中  
搗藥棒捅月兔
Major Member
 
搗藥棒捅月兔的大頭照
 

加入日期: Aug 2012
您的住址: 無限期潛水中...
文章: 227
引用:
作者limit555
可是我想起e8400剛出的時後
L2大了整整50%

可是測試上差異卻很小

還是有些些差距

2008年的E8400
http://www.techpowerup.com/cpudb/46...-duo-e8400.html

2006年的Pentium D 925
http://www.techpowerup.com/cpudb/11...tium-d-925.html

同樣雙核心.同頻率,但是E8400的單核心效能比奔騰豬925還要好,也比較省電
http://cpuboss.com/cpus/Intel-Penti...Core2-Duo-E8400

-
舊 2015-11-12, 12:23 PM #29
回應時引用此文章
搗藥棒捅月兔離線中  
Abcb
Advance Member
 

加入日期: Sep 2004
您的住址: Kimagure Orange Road
文章: 401
引用:
作者搗藥棒捅月兔
還是有些些差距

2008年的E8400
http://www.techpowerup.com/cpudb/46...-duo-e8400.html

2006年的Pentium D 925
http://www.techpowerup.com/cpudb/11...tium-d-925.html

同樣雙核心.同頻率,但是E8400的單核心效能比奔騰豬925還要好,也比較省電
http://cpuboss.com/cpus/Intel-Penti...Core2-Duo-E8400

-

您對PD真是太善良了...

這個哪叫有些些差距?

根本就是完全一面倒的大屠殺啊XD
__________________
舊 2015-11-12, 12:37 PM #30
回應時引用此文章
Abcb離線中  


    回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是03:57 PM.


vBulletin Version 3.0.1
powered_by_vbulletin 2024。