PCDVD數位科技討論區 - 瀏覽單個文章 - 取代CPU，史丹福大學：GPGPU具有最好的通用計算性能

Beyond3d採訪了Stanford大學的Mike Houston，討論了ATi剛剛宣佈的Folding@Home項目。Houston表示目前ATI芯片具有最好的GPGPU架構，同時他還透漏NVIDIA GPU進行通用運算的劣勢所在。
Mike Houston:所有的GPU都是SIMD，所以分支肯定會有相應的性能結果。我們仔細設計了代碼，具有很高的分支統一性。代碼嚴重依賴於shader中巨大的循環數目。對於ATi而言，循環和分支運算可以通過數學來處理。我們有很多數學計算。我們所運行的fragment shader非常接近所使用的指令順序峰值。但是，我不能說分支就是該應用實現的關鍵。我認為是X1K令人難以置信的內存系統和線程設計使得它成為了最適合GPGPU的架構。這允許我們以接近峰值的速度運行fragment引擎。
ATi所能實現而NVIDIA卻無法做到的原因是因為運行Folding代碼需要在每個fragment中動態執行許多指令。而對於NVIDIA來說，在指令大於64K後，shader終止並在Color[0]->Color[3]中以R0->3退出。所以，對於NVIDIA顯卡，我們必須執行多通道運算，這可能導致緩存崩潰並增加芯片外部帶寬要求。
另外一個對我們很重要的是ATi硬件中紋理延遲隱藏的方式。通過數學計算，我們可以消除所有紋理讀取的成本。我們可以在很寬範圍內進行海量計算，我們可以在同一內存系統中驅動更多ALU。NVIDIA則無法隱藏紋理延遲率，更重要的是，即使發出一個float4取回命令也要花費4個週期。所以NVIDIA的成本=ALU+紋理+分支，而ATi則可以將GPGPU性能發揮到最好。
另外Rage3d刊登了一些ATi顯卡GPGPU性能信息
●X1900XT運算性能為500 GFlops，相比而言Cell處理器只有220 GFlops，Core 2 Duo處理器更是只有25 GFlops。
●10000台配備X1900XT顯卡的客戶機性能相當於一台PetaFlop的超級計算機。
●目前支持X1900、X1950等級顯卡，不久後就支持X1800。
●X1900XT folding時功耗為80W，比3D運算時還少

General Purpose Computation on Graphics Processors (GPGPU)
http://news.mydrivers.com/pages/200...82812_32832.htm