PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 電腦硬體討論群組 > 顯示卡討論區
帳戶
密碼
 

  回應
 
主題工具
Artx1
Registered User
 

加入日期: Jun 2002
您的住址: 耗電量頗高的地方.
文章: 1,959
引用:
Originally posted by 宗毛
如何算出NV40跑PS1.1會比PS2.0慢呢?


嗯....單純推理。
PS1.1在硬體底層上是相當於FX10/12,
等於GL Extension "register_combiner2",
以及fragment program;
而PS2.0a的底層硬體則是等於另一個Extension
"fragment_program2"
目前雖然支援PS3.0,不過fragment_program3還沒看到....
總之,目前NV40跑PS1.1實際上並不是完全與硬體相符,講白一點是emulate的。
還有NV3x本來有HW T&L,現在NV40也是改Vertex Program模擬了。
最後,沒記錯的話NV40的scaling現在是靠Pixel Shader模擬。

我是覺得既然不是完全和硬體接合,不太可能跑得那麼完美....啦。
不然就是反則了....
而且pass數多的話一定會變慢啊....
     
      
舊 2004-04-16, 01:14 AM #11
回應時引用此文章
Artx1離線中  
orinsinal
Master Member
 
orinsinal的大頭照
 

加入日期: Feb 2002
您的住址: Taipei
文章: 1,611
引用:
Originally posted by Artx1
嗯....單純推理。
PS1.1在硬體底層上是相當於FX10/12,
等於GL Extension "register_combiner2",
以及fragment program;
而PS2.0a的底層硬體則是等於另一個Extension
"fragment_program2"
目前雖然支援PS3.0,不過fragment_program3還沒看到....
總之,目前NV40跑PS1.1實際上並不是完全與硬體相符,講白一點是emulate的。
還有NV3x本來有HW T&L,現在NV40也是改Vertex Program模擬了。
最後,沒記錯的話NV40的scaling現在是靠Pixel Shader模擬。

想請問一下,像是如nv40跑ps1.1/HW T&L被取代等
這類不依照正規方式的達成,有哪些好處?
是效能的提升還是節省晶片設計的考量
 
舊 2004-04-16, 01:22 AM #12
回應時引用此文章
orinsinal離線中  
Artx1
Registered User
 

加入日期: Jun 2002
您的住址: 耗電量頗高的地方.
文章: 1,959
引用:
Originally posted by orinsinal
想請問一下,像是如nv40跑ps1.1/HW T&L被取代等
這類不依照正規方式的達成,有哪些好處?
是效能的提升還是節省晶片設計的考量


自認是晶片設計的考量....
NV3x有HW T&L,和疑似不太共用元件的VS 2.0,
現在NV4x去掉HW T&L,用VS3.0進行模擬,我覺得是想省下電晶體數。
不過這也不能算是"非正規方式"的達成啦,
因為還是有接近其硬體架構的Extension。

programmablility提升,無可避免地同一元件的速度一定會下降;
但是如果演算法上有配套措施,整個遊戲的執行效能有提升的話,
那麼GPU一堆元件整個搭配下來,效率也有可能回升。
所以Doom3的Z-Rendering pass這種東西去搭配UltraShadow之類的技術就蠻重要的....

總之,現在看R420和NV40,可以發現:
電晶體數量並沒有增加很多(30~50%),
但是管線規模大多提升了。(2~4x)
我覺得意指過去有很多摸索中的設計,帶來了一些不必要的損耗;
不過有這些嘗試,才有現在的精實就是了。

嗯,精實,真好用的兩個字。
舊 2004-04-16, 08:45 AM #13
回應時引用此文章
Artx1離線中  
Artx1
Registered User
 

加入日期: Jun 2002
您的住址: 耗電量頗高的地方.
文章: 1,959
喔,有數據了。
http://www.beyond3d.com/previews/nv.../index.php?p=21

B3D 拿 D3DRightmark 測N V40,
目前,NV40 跑PS 2.0 simple 比 ps 1.1 simple 還快
不過有趣的是,ps 2.0 pp 和 ps 1.1 差不多
(pp = FP16)
pp 比沒有 pp 快只有在 per pixel lighting,
可能是因為會用到 normalized (nrm_pp 在 shader0 是free)

PS2.0比需要靠模擬的1.1快可以想像,
但是跑FP16比FP32慢?有點難想像....
這只好想程式Driver bug了....
總之,可以看得出來....
現在NV40的Driver其實還蠻糟糕的;可是已經很暴力了。
舊 2004-04-16, 02:53 PM #14
回應時引用此文章
Artx1離線中  
Artx1
Registered User
 

加入日期: Jun 2002
您的住址: 耗電量頗高的地方.
文章: 1,959
有個有趣的地方:


這個Shader根據測試,在NV34上頭需要32~33個pass,
NV35則是宣稱12個pass。
但是NVIDIA這張圖顯示NV40只需要6個pass....
老實說有點誇張....

這個shader因為有一個指令(swizzle)R300不支援,
所以沒辦法在9700/9800上測。
不過這個PS的確表現出了PS3.0相對上的一點優勢。
舊 2004-04-16, 03:49 PM #15
回應時引用此文章
Artx1離線中  
Artx1
Registered User
 

加入日期: Jun 2002
您的住址: 耗電量頗高的地方.
文章: 1,959
引用:
Originally posted by Artx1
有個有趣的地方:


這個Shader根據測試,在NV34上頭需要32~33個pass,
NV35則是宣稱12個pass。
但是NVIDIA這張圖顯示NV40只需要6個pass....


嗯,搞錯了,測試結果是32~33 cycle
因為NV3x的tex和FP32沒辦法獨立,所以有texld就會卡住幾個cycle。
不過除了tex獨立之外又有兩個Shader,NV40應該可以跑20個cycle以內才對。
舊 2004-04-17, 03:16 AM #16
回應時引用此文章
Artx1離線中  
luke929
Master Member
 
luke929的大頭照
 

加入日期: Mar 2002
您的住址: 台北市
文章: 2,195
引用:
Originally posted by Artx1
嗯,搞錯了,測試結果是32~33 cycle
因為NV3x的tex和FP32沒辦法獨立,所以有texld就會卡住幾個cycle。
不過除了tex獨立之外又有兩個Shader,NV40應該可以跑20個cycle以內才對。


其實你不講,大概也沒幾個人知道你說錯了 LOL
舊 2004-04-17, 04:11 AM #17
回應時引用此文章
luke929現在在線上  
yonoko
*停權中*
 
yonoko的大頭照
 

加入日期: Mar 2000
您的住址: 竹科之中很操的地方
文章: 2,496
引用:
Originally posted by luke929
其實你不講,大概也沒幾個人知道你說錯了 LOL


因為太專業了!
我也不懂
舊 2004-04-17, 04:21 AM #18
回應時引用此文章
yonoko離線中  
ss9785
Elite Member
 
ss9785的大頭照
 

加入日期: Jan 2002
您的住址: 高雄~高雄站到了
文章: 5,486
只能說......大大真強阿
專業級的
__________________
G心叵測 步步G心 是何G心 G情四射
日本各地實況攝影機影像收集站

舊 2004-04-17, 09:26 AM #19
回應時引用此文章
ss9785離線中  
char0392
*停權中*
 

加入日期: May 2003
您的住址: taichung
文章: 272
引用:
Originally posted by luke929
其實你不講,大概也沒幾個人知道你說錯了 LOL


對呀,一連串的專業轟炸,想努力吸收卻什麼都看不懂,只能再多多學習了。



真的是很棒的討論,Artx1大大真的很厲害。
舊 2004-04-17, 11:12 AM #20
回應時引用此文章
char0392離線中  


    回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是12:29 PM.


vBulletin Version 3.0.1
powered_by_vbulletin 2026。