![]() |
PCDVD數位科技討論區
(https://www.pcdvd.com.tw/index.php)
- 顯示卡討論區
(https://www.pcdvd.com.tw/forumdisplay.php?f=8)
- - [GZeasy]GDC2004上Demo的R420核心時脈500MHz
(https://www.pcdvd.com.tw/showthread.php?t=323034)
|
|---|
引用:
嗯....單純推理。 PS1.1在硬體底層上是相當於FX10/12, 等於GL Extension "register_combiner2", 以及fragment program; 而PS2.0a的底層硬體則是等於另一個Extension "fragment_program2" 目前雖然支援PS3.0,不過fragment_program3還沒看到.... 總之,目前NV40跑PS1.1實際上並不是完全與硬體相符,講白一點是emulate的。 還有NV3x本來有HW T&L,現在NV40也是改Vertex Program模擬了。 最後,沒記錯的話NV40的scaling現在是靠Pixel Shader模擬。 我是覺得既然不是完全和硬體接合,不太可能跑得那麼完美....啦。 不然就是反則了.... 而且pass數多的話一定會變慢啊.... |
引用:
想請問一下,像是如nv40跑ps1.1/HW T&L被取代等 這類不依照正規方式的達成,有哪些好處? 是效能的提升還是節省晶片設計的考量:) |
引用:
自認是晶片設計的考量.... NV3x有HW T&L,和疑似不太共用元件的VS 2.0, 現在NV4x去掉HW T&L,用VS3.0進行模擬,我覺得是想省下電晶體數。 不過這也不能算是"非正規方式"的達成啦, 因為還是有接近其硬體架構的Extension。 programmablility提升,無可避免地同一元件的速度一定會下降; 但是如果演算法上有配套措施,整個遊戲的執行效能有提升的話, 那麼GPU一堆元件整個搭配下來,效率也有可能回升。 所以Doom3的Z-Rendering pass這種東西去搭配UltraShadow之類的技術就蠻重要的.... 總之,現在看R420和NV40,可以發現: 電晶體數量並沒有增加很多(30~50%), 但是管線規模大多提升了。(2~4x) 我覺得意指過去有很多摸索中的設計,帶來了一些不必要的損耗; 不過有這些嘗試,才有現在的精實就是了。 嗯,精實,真好用的兩個字。 |
喔,有數據了。
http://www.beyond3d.com/previews/nv.../index.php?p=21 B3D 拿 D3DRightmark 測N V40, 目前,NV40 跑PS 2.0 simple 比 ps 1.1 simple 還快。 不過有趣的是,ps 2.0 pp 和 ps 1.1 差不多 (pp = FP16) pp 比沒有 pp 快只有在 per pixel lighting, 可能是因為會用到 normalized (nrm_pp 在 shader0 是free) PS2.0比需要靠模擬的1.1快可以想像, 但是跑FP16比FP32慢?有點難想像.... 這只好想程式Driver bug了.... 總之,可以看得出來.... 現在NV40的Driver其實還蠻糟糕的;可是已經很暴力了。 |
有個有趣的地方:
![]() 這個Shader根據測試,在NV34上頭需要32~33個pass, NV35則是宣稱12個pass。 但是NVIDIA這張圖顯示NV40只需要6個pass.... 老實說有點誇張.... :D 這個shader因為有一個指令(swizzle)R300不支援, 所以沒辦法在9700/9800上測。 不過這個PS的確表現出了PS3.0相對上的一點優勢。 |
引用:
嗯,搞錯了,測試結果是32~33 cycle, 因為NV3x的tex和FP32沒辦法獨立,所以有texld就會卡住幾個cycle。 不過除了tex獨立之外又有兩個Shader,NV40應該可以跑20個cycle以內才對。 |
引用:
其實你不講,大概也沒幾個人知道你說錯了 LOL |
引用:
因為太專業了! 我也不懂 :p |
只能說......大大真強阿
專業級的 |
引用:
對呀,一連串的專業轟炸,想努力吸收卻什麼都看不懂,只能再多多學習了。 真的是很棒的討論,Artx1大大真的很厲害。 |
| 所有的時間均為GMT +8。 現在的時間是06:17 PM. |
vBulletin Version 3.0.1
powered_by_vbulletin 2026。