PCDVD數位科技討論區 - [GZeasy]GDC2004上Demo的R420核心時脈500MHz

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)

- 顯示卡討論區 (https://www.pcdvd.com.tw/forumdisplay.php?f=8)

- - [GZeasy]GDC2004上Demo的R420核心時脈500MHz (https://www.pcdvd.com.tw/showthread.php?t=323034)

引用:

Originally posted by 宗毛
如何算出NV40跑PS1.1會比PS2.0慢呢?

嗯....單純推理。
PS1.1在硬體底層上是相當於FX10/12，
等於GL Extension "register_combiner2"，
以及fragment program；
而PS2.0a的底層硬體則是等於另一個Extension
"fragment_program2"
目前雖然支援PS3.0，不過fragment_program3還沒看到....
總之，目前NV40跑PS1.1實際上並不是完全與硬體相符，講白一點是emulate的。
還有NV3x本來有HW T&L，現在NV40也是改Vertex Program模擬了。
最後，沒記錯的話NV40的scaling現在是靠Pixel Shader模擬。

我是覺得既然不是完全和硬體接合，不太可能跑得那麼完美....啦。
不然就是反則了....
而且pass數多的話一定會變慢啊....

引用:

Originally posted by Artx1
嗯....單純推理。
PS1.1在硬體底層上是相當於FX10/12，
等於GL Extension "register_combiner2"，
以及fragment program；
而PS2.0a的底層硬體則是等於另一個Extension
"fragment_program2"
目前雖然支援PS3.0，不過fragment_program3還沒看到....
總之，目前NV40跑PS1.1實際上並不是完全與硬體相符，講白一點是emulate的。
還有NV3x本來有HW T&L，現在NV40也是改Vertex Program模擬了。
最後，沒記錯的話NV40的scaling現在是靠Pixel Shader模擬。

想請問一下，像是如nv40跑ps1.1/HW T&L被取代等
這類不依照正規方式的達成，有哪些好處?
是效能的提升還是節省晶片設計的考量:)

引用:

Originally posted by orinsinal
想請問一下，像是如nv40跑ps1.1/HW T&L被取代等
這類不依照正規方式的達成，有哪些好處?
是效能的提升還是節省晶片設計的考量:)

自認是晶片設計的考量....
NV3x有HW T&L，和疑似不太共用元件的VS 2.0，
現在NV4x去掉HW T&L，用VS3.0進行模擬，我覺得是想省下電晶體數。
不過這也不能算是"非正規方式"的達成啦，
因為還是有接近其硬體架構的Extension。

programmablility提升，無可避免地同一元件的速度一定會下降；
但是如果演算法上有配套措施，整個遊戲的執行效能有提升的話，
那麼GPU一堆元件整個搭配下來，效率也有可能回升。
所以Doom3的Z-Rendering pass這種東西去搭配UltraShadow之類的技術就蠻重要的....

總之，現在看R420和NV40，可以發現：
電晶體數量並沒有增加很多(30~50%)，
但是管線規模大多提升了。(2~4x)
我覺得意指過去有很多摸索中的設計，帶來了一些不必要的損耗；
不過有這些嘗試，才有現在的精實就是了。

嗯，精實，真好用的兩個字。

喔，有數據了。
http://www.beyond3d.com/previews/nv.../index.php?p=21

B3D 拿 D3DRightmark 測N V40，
目前，NV40 跑PS 2.0 simple 比 ps 1.1 simple 還快。
不過有趣的是，ps 2.0 pp 和 ps 1.1 差不多
(pp = FP16)
pp 比沒有 pp 快只有在 per pixel lighting，
可能是因為會用到 normalized (nrm_pp 在 shader0 是free)

PS2.0比需要靠模擬的1.1快可以想像，
但是跑FP16比FP32慢？有點難想像....
這只好想程式Driver bug了....
總之，可以看得出來....
現在NV40的Driver其實還蠻糟糕的；可是已經很暴力了。

有個有趣的地方：

這個Shader根據測試，在NV34上頭需要32~33個pass，
NV35則是宣稱12個pass。
但是NVIDIA這張圖顯示NV40只需要6個pass....
老實說有點誇張.... :D

這個shader因為有一個指令(swizzle)R300不支援，
所以沒辦法在9700/9800上測。
不過這個PS的確表現出了PS3.0相對上的一點優勢。

引用:

Originally posted by Artx1
有個有趣的地方：

這個Shader根據測試，在NV34上頭需要32~33個pass，
NV35則是宣稱12個pass。
但是NVIDIA這張圖顯示NV40只需要6個pass....

嗯，搞錯了，測試結果是32~33 cycle，
因為NV3x的tex和FP32沒辦法獨立，所以有texld就會卡住幾個cycle。
不過除了tex獨立之外又有兩個Shader，NV40應該可以跑20個cycle以內才對。

引用:

Originally posted by Artx1
嗯，搞錯了，測試結果是32~33 cycle，
因為NV3x的tex和FP32沒辦法獨立，所以有texld就會卡住幾個cycle。
不過除了tex獨立之外又有兩個Shader，NV40應該可以跑20個cycle以內才對。

其實你不講，大概也沒幾個人知道你說錯了 LOL

引用:

Originally posted by luke929
其實你不講，大概也沒幾個人知道你說錯了 LOL

因為太專業了!
我也不懂 :p

只能說......大大真強阿
專業級的

引用:

Originally posted by luke929
其實你不講，大概也沒幾個人知道你說錯了 LOL

對呀，一連串的專業轟炸，想努力吸收卻什麼都看不懂，只能再多多學習了。

真的是很棒的討論，Artx1大大真的很厲害。