PCDVD數位科技討論區 - NV35效能走漏??

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)

- 顯示卡討論區 (https://www.pcdvd.com.tw/forumdisplay.php?f=8)

- - NV35效能走漏?? (https://www.pcdvd.com.tw/showthread.php?t=207536)

好久沒有看到如此優質的文章了......

一開始還看的懂......

越看越是霧刷刷:D :D :D

我要加點油才行了:p

除了狂推想不出別的詞了!:D:D:D

全球同步禮拜一 14:00 GMT ,即將揭曉

引用:

Originally posted by Artx1

ATi現在比較重視DirectX, nVIDIA則把重心放在OpenGL, 兩個陣營分別對兩個範疇下的功夫不同, 未來當然都可能會有改變.
當年3Dlabs靠著相對比較好的Driver, 可以拿次級產品去和nVIDIA競爭(中階的Oxygen, 還用不到頂級的Wildcat), 現在可行不通了, 因為nVIDIA已經趕上來了; 所以ATi當然未來也有可能在這方面迎頭趕上.... 只是這絕非一蹴可幾, 想想當初從初代Quadro到現在過了幾年, nVIDIA好不容易才能超越3Dlabs, ATi要想再超過去, 沒有付出加倍於當初對手的努力, 只怕是免談.

ATI娛樂顯卡在浮點精度上只有24Bit，這是追求效能的做法
而Nvidia有16Bit、32bit等兩種模式
(不過有些人用自作的程式搭配43.45驅動後發現開不起來32bit FP)
在專業繪圖的應用上32bit確實可以比24Bit有更好的精確度，這我就不知道ATI專業繪圖卡是否能支援？
在未來的DX應用上32bit浮點精度也是必須的，這樣才能完善做到Vertex與PixelShader的整合

引用:

Originally posted by ss9785
NV35(GF5900U)來勢洶洶
但NV原先不是說NV35有NV30的2倍實力嗎?...............
(結果只多R9800P 1X%的實力而已.....差距和R9800和R9700的差距多一點)
不知ATI如何接招保住佔據沒多久的性能王寶座呢?
(R9800PRO+0.13? R9800PRO+DDRII? R9800+GDDR3?)
(還是學NV一樣用作弊的催化劑驅動來贏過NV35.....笑...相信ATI不會這樣做)
先期待C3.4有解決我的R8500(部分R9000系)+WIN98下更新率不能調的問題吧~
看到GF FX 5200 (GF4MX+DX9)起初賣到這麼貴因沒人買而跌價連連........
(賣不出去的GF4MX以堆的不知多高了)
不知NV35會不會又像NV30一樣只是一個一彈就破的大泡泡而已.........

看來閣下陷入評測程式真實性的迷思中。
現在有哪個整合型的Benchmark能完善反映出一張顯示卡各方面的性質數據？
nv35哪裡說過是nv30的兩倍實力，PS_FP能力的加倍並不代表3DMARK就能直接反應
如果之前的傳言不假，那麼nv35算是nv3x架構以後一個比較成熟的產品。
R9800已經無法對付搭配43.xx驅動的nv35，更何況是正體不明的50.xx？
這樣的產品已經沒有nv30吵人的風扇、效能又有不錯的表現
我實在看不出有哪些地方可以推論nv35是一個大泡泡？
==
GF4mx系列仍然是市場很好賣的產品，在一般電腦論壇被大家忽略是理所當然
但是把環境轉移到整個市場便不是如此。

引用:

Originally posted by ss9785

(還是學NV一樣用作弊的催化劑驅動來贏過NV35.....笑...相信ATI不會這樣做)

只有NV會用驅動作弊?:rolleyes:你把Ati想的太好了吧，以前8500針對Q3作弊的事件你應該知道吧。

引用:

Originally posted by ss9785
看到GF FX 5200 (GF4MX+DX9)起初賣到這麼貴因沒人買而跌價連連........
(賣不出去的GF4MX以堆的不知多高了)

不知道你有什麼銷售數據嗎?還是這只是你自己的推論?

引用:

Originally posted by orinsinal
ATI娛樂顯卡在浮點精度上只有24Bit，這是追求效能的做法
而Nvidia有16Bit、32bit等兩種模式
(不過有些人用自作的程式搭配43.45驅動後發現開不起來32bit FP)
在專業繪圖的應用上32bit確實可以比24Bit有更好的精確度，這我就不知道ATI專業繪圖卡是否能支援？
在未來的DX應用上32bit浮點精度也是必須的，這樣才能完善做到Vertex與PixelShader的整合

我似乎看到了某個非常熟悉的簽名檔.... XD

----
閒話放旁邊.
先前曾經傳說R350把32bit FP給補了進去, 不過看起來仍然是內部24bit浮點, 輸出對齊32bit.

以現在的製程技術而言, 32bit浮點(RGBA總合128bit)可是非常可怕的電晶體數, 為了成本理由誰都會想躲, nVIDIA真的拿出16bit/32bit浮點(還是IEEE754)出來當初嚇到了不少人, 結果果然跑不快, 拖到現在NV35才可能有解決; 當然強勢的指令集依舊.

不過, 32bit FP不管搭配哪一版Driver都沒開起來過.

說到DX10的 General Shader, 其實我搞不太清楚為什麼這兩個要合在一起?
OGL2也不打算把Vertex和Fragment合在一起啊.
當然整條管線維持同等精確度很重要就是了.(比如表示範圍統一)

引用:

Originally posted by Artx1
當然不太可能大部分的指令都有這種本事, 不然ATi的工程師絕對會洛陽紙貴家家都來挖.
當初測試用的Shader如下:

ps_1_1

def c0, 0.5, 0.25, 0.3, 0.4
def c1, 0.1, 0.2, 0.3, 0.2

tex t0

mov r1, c1
mad r0, v0, c0, r1
mad r0, r0, c1, r0
mul r0, r0, t0

我覺得可能是第一個mov有被optimize過.
所以跑出來只有3.2 cycles; 相對的當初在NV25上頭跑就是很規規矩矩的2cycles.
GF4每管線2Shaders,所以4指令2cycles理所當然; R300是每管線1Shader, 所以理應跑4cycles, 所以可以看出有optimize.

我一直在想這個optimize是怎麼達到的.
那意思是說,當c1載入的時候,順便載入一份到r1去(搞不好這麼做沒有損耗任何
效能).而在第一個mov指令時其實算是跳過去??這種作法有點不可思議....

還是第一個mov指令被合併到第二個mad去了??這.....也蠻神的.....

引用:

Originally posted by Artx1
我是沒有這麼悲觀啦.... ^^;

基本上NV30可以加強的地方不少.
CineFX的指令訂得很漂亮沒錯但是implement麻煩,根據手邊弄的Shader test,現在NV30可能還存在Color Blending和Texture Fetch會互相干擾的問題(不能同時做),我會覺得NV30那個Texture Unit實在太龐大所以去排擠到Color Blending unit. 也就是說NV30有不少指令都還要2 cycles才跑得出來.

這樣舉例好了, 根據nVIDIA公開的slides(a here, page3), NV30的Pixel Shader總計算能力是

500 Mhz * 8 pix/clk * 4-floats/pixel = 16 GFlops

而我們知道R300/350的Shader可以做到每時脈一個mad, 相當於8個flops. 於是它的Shader Performance就是

325MHz(425MHz) x 8pix/clk x 8-flops/pixel = 20.8G(27.2G)Flops

數字說了什麼? NV30的mad八成還需要2個cycle.
CineFX實在太龐大了, 要在去年第四季生出一個能夠有漂亮效益的管線結構實在太趕了.

而NV30、NV31/34和NV35這三個project全部都是三個不同的team同時在跑, NV35的容許時間比較長, 應該會改善這個部分, 而不是真的只做了256bit DDR, 因為那根本不會真的改善多少效能.... 別提和425/390的R350抗衡了, 會不會再被電也未可知. (別忘了R300/350的色彩壓縮比要比NV30/31/35要高, 這點也會影響記憶體效能)

另外, 從這邊的測試數據看起來, R300/350針對simple DX9指令進行了某種程度的最佳化(prefetch?), 一個4指令的Shader只跑了3.2cycle.... 真不簡單.

補充一下
R300 一個管線最多能在一個週期同時處理三個 shader 指令
四個指令跑了 3.2 cycle
程式碼的編排還有進步空間

引用:

CineFX還針對了專業Cg市場, 相較起來ATi打造"專業遊戲卡"的企圖心就比較明顯.畢竟24bit FP對Cg動畫而言實在不太夠用, nVIDIA犧牲了遊戲效能弄出32bit FP來顧專業市場, 反過頭來說ATi就是放給它不管, 遊戲市場乖乖顧好再說)

----
以我的觀點而言, NV35應該可以算是"成熟"的CineFX實作, 雖然很希望nVIDIA連Vitural Memory Addressing之類的功能全部作進去, 但是這種優先度低然後又不太簡單的東西可能要等導入PCI Express的時候一起做比較有意思.

(Vitural Memory由3Dlabs率先在P10上導入, 這個功能可以讓GPU定址到天文數字[P10是16GB]的主記憶體, 方便使用巨型材質.... 對未來組建GPU Based RenderFarm有很大幫助; 不過NV35其實也是有可能做 VM 的啦, 畢竟P10是個八千萬電晶體規模的DX8實作....)

virtual memory 對 3DLaabs 來說
幾年前就有類似的東西
名字叫 virtual texture
最高定址能力到 256MB
那是顯示卡記憶體也才 32MB
virtual memory 對遊戲來說
意義不大吧
那是專業繪圖才有需要的
遊戲一但用爆卡上記憶體
不管有沒有 vitual memory
效能都不能忍受

引用:

所以總歸一句, 如果NV35可以改善NV30的執行能力方面的缺點, 達到可以具備和R300/350同等效能的狀況的話, 32bit FP(本來一開剩下半速)和強大的CineFX說不定能讓它真正做到專業遊戲兩面通吃也說不定.

引用:

Originally posted by Artx1
well, 我會懷疑NV40在六月前tape-out的可能性....
考慮NV40計畫會在今年10月發表的話.

----
不過.... 那個三億電晶體是怎麼傳的啊? 真的傳得開也很奇怪....
明年的產品哪來那種製程技術去撐那種東西? ^^;
而且, 就算是用eDRAM, 大小其實也會受到很大的限制.

首先是很多人想到的--學PS2一樣拿來放Frame Buffer.
在PC上頭最大的問題就是遇上解析度問題,1600x1200@32bit+Z會超過7MB, 要是想開FSAA可能就得更大了.... 簡單講, 要是製程沒辦法支撐到16MB的eDRAM的話, 很可能反而會變成障礙, 如果是實際一點的數字的話, 1920x1080@32bit color + 32bit Z會需要16MB; 不過如果要開FSAA, 可能就得用Z3或者其他的點子去限制記憶體空間需求才成.... 但是就算是用Z3, 也可能會吃到48MB; 不過, 也可以靠一些技巧去分就是了, 比如說只把Z3的第一個fragment的資料放在eDRAM裡面, 剩下的放外接記憶體; 這樣一來16MB eDRAM就可以照顧到不少的應用.

但是這樣的東西實在很難在明年就搞出來.
別忘了台積電剛轉0.13um, 第一個生產的就是NV30, 搞得大家都灰頭土臉的; 上頭這種沒0.09um就沒辦法便宜生出來的玩意兒, 排隊到後年試試看.

嗯~我是覺得啦,主流遊戲跟娛樂性3D加速晶片會要求到1280*1024以上的可能性
並不高,倒也不用想得太多.CRT顯示器是否能夠支援到像1600*1200這麼高的解析度其實都蠻難說,LCD就更不用講了.真的要開那麼高解析度那就只能放棄效能了.其實我認為要搞個這麼大的eDRAM,應該也是拿來做frame buffer才是.PS2因為這4MB的eDRAM佔了不少便宜(不過成也這4MB,敗也這4MB....).
我是覺得用16MB eRAM,風險會不會太高了點?!

另外請教一點,何謂Z3??感覺Z Buffer技術的延伸應用?!

引用:

二來是L2 Texture Cache.
現在Pixel Shader會需要拿一些材質來當查表的用途, 這種表隨著Shader的增大可能不只一個, 用個cache來加速或許有用; 但是DX9的Shader的精確度提高, 對表的需求也慢慢減少了, 要是把Shader加快會比查表(會耗到記憶體頻寬)快的話, 那或許就沒必要搞查表. 而且計算效能是相對容易提升的. 有沒有必要弄這個cache就會開始有見仁見智的問題. (也不會小到哪裡去, 而且不如多加Shader, 還可以移做他用)

第三個用途是拿來做off-screen buffer.
隨著Pixel Shader越來越精確, Render2Texture的技巧開始越來越重要, 比如拿來做Shadow Map.....要是它真的成為常用的技巧, 那就會開始需要擺個專用的buffer在那邊增快效率; 不過, 這種buffer大概1024x1024(約需4MB)就很大了....^^;

(一般nVIDIA的晶片支援的材質大小都是2k*2k, 而max render size則為4k*4k; 做RT Shadow Map應該不會動輒需要弄到Max Texture, 所以準備個1k*1k應該算中肯的大小)

off-screen的應用也很重要,real-time cubemap environment map,shadow map等等不能隨心所欲的用,跟video memory的速度不夠快也有蠻大的關係.RT shadow map可以用到1k*1k?有那麼幸福的事??

引用:

另一個問題是, 這樣的東西用途都很片面, 很特定, 要是評估起來沒有非常實質的效益, 廠商大概都不會有意願去做; 為了加速Doom3的Volumetric Shadow, nVIDIA搞了個2sided stencil op, 這就很有用, DX9也支援了, 效果大家都看得到, 以後用Doom3引擎的人自然很多, Volumetric Shadow就很可能開始人人用, 這種玩意兒就很有實質效益, 做這種東西就比較有意思.

至於TBR, 以OpenGL 2.0的發展方向一點都不照顧這方面, 和nVIDIA對GL的重視來看, 看來是越來越難採用.... ^^;