PCDVD數位科技討論區 - Prescott架構的問題(爬文ed)

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)

- 效能極限 (https://www.pcdvd.com.tw/forumdisplay.php?f=18)

- - Prescott架構的問題(爬文ed) (https://www.pcdvd.com.tw/showthread.php?t=327954)

引用:

Originally posted by IceOnly
恩恩,是data dependencies和conditional branch statemnets
我也有讀到,不知是不是因為這樣:confused:
我真的是聽到那句話有疑問的
怕說先打了會被認為是自問自答= =a

不過還真的是跟計概課本一樣阿:D
這就是傳說中的"應用課本知識"嗎XD
-------------------------------------------------------
對了,好像prescott的效能問題也有hit rate這種東西?
看太多文章搞混了:cry:

沒想到這裡也會有人問這類的問題~真是令人高興~不過計概講的太少,建議去看計算機組織與結構的書~或是去修課..相信會有另一番心得跟興趣~會解開你心中許多疑惑~你也可以看看解決這些管線危機的各種方法,out of order ,Register renaming,分歧指令預測的各種方法配合早期CPU的結構歷史等等,甚至在看看為啥P4要用Trace cache,我來補充一下除了這些管線危機為主要原因以外,實作上由於每個stage之間不可能切的相同~所以每個stage之間會有一個buffer來暫存..所以stage越多buffer會越多,也減低pipeline的效應~不過依照未來趨勢pipeline深度還是會慢慢加深~就算是AMD也一樣~到底pipeline要多深才好呢~如果你可以提出很棒的分歧指令預測演算法~甚至像IA64全部移往編譯器解決,那我管線就可以做的越深~這方面你可以研究到發論文~學術是不段的進步的~也許以前是認為8最好大概是alpha cpu的關西吧~x86因為decoder比較複雜可以長一點十幾~但是似乎感覺是同時脈速度而言~但如果論我切多少個stage可以達到的最高速度就不一定了~譬如我同樣製程技術也p4 20stage可以做到3G AMD10個stage只能做到2G然後去比較到底哪個比較快~才是設計者要考量~目前由於奈米級半導體的瓶頸~沒法隨著製程縮小而減少很多耗電量,使得不利於P4,但如果說P4 core多爛那倒是也還好~有它獨特的地方~也許0.065微米順利的話~INTEL也許會繼續沿用高stage的特色也不一定~不過目前可以看到0.09微米製程,似乎不利於p4~因為就算prescott可以到5g~但是如果一定要用超級水冷那也沒用~

90nm製程還沒有調好，leakage current太大。
亂切Pipeline，Clock速度太高，動態current消耗太大。
因此不管靜態、動態電流都太大。Prescott嚴格說起來，是一個不能拿來賣的東西。

其實Transmeta的Decorder/Encorder + Pure RISC Core的設計也對CISC Pipeline的問題有另類解決方式。

這期的 pcshopper (04'04) 有一篇討論 prescott 為何會效能不佳的分析，根據文中所述，印象中該作者認為主因並非出在管線深度問題，而認為與以下兩點較有關係：
(1) 快取記憶體延遲時增加
(2) prescott 取消 double speed ALU

不過小弟的計概已經幾乎通通還給老師了 :( 所以不知道該文說的是否真的是關鍵因素... (有興趣的人不妨去翻翻)

還是請瞭解的大大們說明或提出不一樣的看法吧~ :shy:

引用:

Originally posted by adelies
這期的 pcshopper (04'04) 有一篇討論 prescott 為何會效能不佳的分析，根據文中所述，印象中該作者認為主因並非出在管線深度問題，而認為與以下兩點較有關係：
(1) 快取記憶體延遲時增加
(2) prescott 取消 double speed ALU

不過小弟的計概已經幾乎通通還給老師了 :( 所以不知道該文說的是否真的是關鍵因素... (有興趣的人不妨去翻翻)

還是請瞭解的大大們說明或提出不一樣的看法吧~ :shy:

管線深度問題,Intel應該已經藉由改進分支預測解決了,所以這應該不是prescott效能降低的原因

說到double speed ALU...
我之前在國外的網站上看到Intel在發表prescott前夕改了核心的部分以降低熱量...會不會就是ALU? 但是記的不久前,intel才發表了7G運算單元的構想不是...?

至於快取記憶體的延遲...補救辦法除了縮小L2來提高命中率,似乎就只有拉高時脈...
但是又會更熱...

引用:

Originally posted by Arucueid
管線深度問題,Intel應該已經藉由改進分支預測解決了,所以這應該不是prescott效能降低的原因

說到double speed ALU...
我之前在國外的網站上看到Intel在發表prescott前夕改了核心的部分以降低熱量...會不會就是ALU? 但是記的不久前,intel才發表了7G運算單元的構想不是...?

至於快取記憶體的延遲...補救辦法除了縮小L2來提高命中率,似乎就只有拉高時脈...
但是又會更熱...

今天正好有機會又翻到，特地看了一下，根據該文表示，intel 在他的新版 software optimization manual 有提到 double speed ALU 在 prescott 取消。因此以前只有 0.5 時脈週期的優勢在 p 就消失了... :( 因此，不管是 + - mov 等指令的延遲都由 0.5 > 1 時脈週期 (記性不好記不起來寫的東西 XD，大概是這樣)。

至於 7G 好像是說把 64bit ALU 交給兩組 32bit ALU，所以該文推測可能是因為這樣 ALU 延遲加長 (小弟到這邊完全無法想像該文的境界 :( )...

不過該文有測個解單的程式碼，發現 prescott 的 alu 的確比 northwood 遜 (比數字小弟就能理解了...:D )

至於快取延遲，L1 有點差異，L2 真的是暴增，所以這個地方應該真的是只能靠開 Turbo 來解了... :think: