PCDVD數位科技討論區

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)
-   顯示卡討論區 (https://www.pcdvd.com.tw/forumdisplay.php?f=8)
-   -   [GZeasy]GDC2004上Demo的R420核心時脈500MHz (https://www.pcdvd.com.tw/showthread.php?t=323034)

Artx1 2004-04-16 01:14 AM

引用:
Originally posted by 宗毛
如何算出NV40跑PS1.1會比PS2.0慢呢?


嗯....單純推理。
PS1.1在硬體底層上是相當於FX10/12,
等於GL Extension "register_combiner2",
以及fragment program;
而PS2.0a的底層硬體則是等於另一個Extension
"fragment_program2"
目前雖然支援PS3.0,不過fragment_program3還沒看到....
總之,目前NV40跑PS1.1實際上並不是完全與硬體相符,講白一點是emulate的。
還有NV3x本來有HW T&L,現在NV40也是改Vertex Program模擬了。
最後,沒記錯的話NV40的scaling現在是靠Pixel Shader模擬。

我是覺得既然不是完全和硬體接合,不太可能跑得那麼完美....啦。
不然就是反則了....
而且pass數多的話一定會變慢啊....

orinsinal 2004-04-16 01:22 AM

引用:
Originally posted by Artx1
嗯....單純推理。
PS1.1在硬體底層上是相當於FX10/12,
等於GL Extension "register_combiner2",
以及fragment program;
而PS2.0a的底層硬體則是等於另一個Extension
"fragment_program2"
目前雖然支援PS3.0,不過fragment_program3還沒看到....
總之,目前NV40跑PS1.1實際上並不是完全與硬體相符,講白一點是emulate的。
還有NV3x本來有HW T&L,現在NV40也是改Vertex Program模擬了。
最後,沒記錯的話NV40的scaling現在是靠Pixel Shader模擬。

想請問一下,像是如nv40跑ps1.1/HW T&L被取代等
這類不依照正規方式的達成,有哪些好處?
是效能的提升還是節省晶片設計的考量:)

Artx1 2004-04-16 08:45 AM

引用:
Originally posted by orinsinal
想請問一下,像是如nv40跑ps1.1/HW T&L被取代等
這類不依照正規方式的達成,有哪些好處?
是效能的提升還是節省晶片設計的考量:)


自認是晶片設計的考量....
NV3x有HW T&L,和疑似不太共用元件的VS 2.0,
現在NV4x去掉HW T&L,用VS3.0進行模擬,我覺得是想省下電晶體數。
不過這也不能算是"非正規方式"的達成啦,
因為還是有接近其硬體架構的Extension。

programmablility提升,無可避免地同一元件的速度一定會下降;
但是如果演算法上有配套措施,整個遊戲的執行效能有提升的話,
那麼GPU一堆元件整個搭配下來,效率也有可能回升。
所以Doom3的Z-Rendering pass這種東西去搭配UltraShadow之類的技術就蠻重要的....

總之,現在看R420和NV40,可以發現:
電晶體數量並沒有增加很多(30~50%),
但是管線規模大多提升了。(2~4x)
我覺得意指過去有很多摸索中的設計,帶來了一些不必要的損耗;
不過有這些嘗試,才有現在的精實就是了。

嗯,精實,真好用的兩個字。

Artx1 2004-04-16 02:53 PM

喔,有數據了。
http://www.beyond3d.com/previews/nv.../index.php?p=21

B3D 拿 D3DRightmark 測N V40,
目前,NV40 跑PS 2.0 simple 比 ps 1.1 simple 還快
不過有趣的是,ps 2.0 pp 和 ps 1.1 差不多
(pp = FP16)
pp 比沒有 pp 快只有在 per pixel lighting,
可能是因為會用到 normalized (nrm_pp 在 shader0 是free)

PS2.0比需要靠模擬的1.1快可以想像,
但是跑FP16比FP32慢?有點難想像....
這只好想程式Driver bug了....
總之,可以看得出來....
現在NV40的Driver其實還蠻糟糕的;可是已經很暴力了。

Artx1 2004-04-16 03:49 PM

有個有趣的地方:


這個Shader根據測試,在NV34上頭需要32~33個pass,
NV35則是宣稱12個pass。
但是NVIDIA這張圖顯示NV40只需要6個pass....
老實說有點誇張.... :D

這個shader因為有一個指令(swizzle)R300不支援,
所以沒辦法在9700/9800上測。
不過這個PS的確表現出了PS3.0相對上的一點優勢。

Artx1 2004-04-17 03:16 AM

引用:
Originally posted by Artx1
有個有趣的地方:


這個Shader根據測試,在NV34上頭需要32~33個pass,
NV35則是宣稱12個pass。
但是NVIDIA這張圖顯示NV40只需要6個pass....


嗯,搞錯了,測試結果是32~33 cycle
因為NV3x的tex和FP32沒辦法獨立,所以有texld就會卡住幾個cycle。
不過除了tex獨立之外又有兩個Shader,NV40應該可以跑20個cycle以內才對。

luke929 2004-04-17 04:11 AM

引用:
Originally posted by Artx1
嗯,搞錯了,測試結果是32~33 cycle
因為NV3x的tex和FP32沒辦法獨立,所以有texld就會卡住幾個cycle。
不過除了tex獨立之外又有兩個Shader,NV40應該可以跑20個cycle以內才對。


其實你不講,大概也沒幾個人知道你說錯了 LOL

yonoko 2004-04-17 04:21 AM

引用:
Originally posted by luke929
其實你不講,大概也沒幾個人知道你說錯了 LOL


因為太專業了!
我也不懂 :p

ss9785 2004-04-17 09:26 AM

只能說......大大真強阿
專業級的

char0392 2004-04-17 11:12 AM

引用:
Originally posted by luke929
其實你不講,大概也沒幾個人知道你說錯了 LOL


對呀,一連串的專業轟炸,想努力吸收卻什麼都看不懂,只能再多多學習了。



真的是很棒的討論,Artx1大大真的很厲害。


所有的時間均為GMT +8。 現在的時間是06:17 PM.

vBulletin Version 3.0.1
powered_by_vbulletin 2026。