NVIDIA的GPU產品主要有GeForce、Tesla和Quadro三大系列,雖然從硬件角度來看它們都采用同樣的架構設計,也都支持用作通用計算(GPGPU),但因為它們分別面向的目標市場以及產品定位的不同,這三個系列的GPU在軟硬件的設計和支持上都存在許多差異。
其中Quadro的定位是專業用途顯卡而Tesla的定位是專業的GPGPU,單價相對較高,也都很少會被用作其他用途。但面向消費者的GeForce顯卡卻因為出貨量大,價格較低的緣故經常被當作另外兩個專業產品的替代品來使用。 本文主要探討Tesla和GeForce系列顯卡在各方面的差異。

- 生產廠商
Tesla系列產品全部由NVIDIA原廠設計和生產,產品品質和服務都更有保障。GeForce顯卡則主要由第三方廠商生產,而且還區分為采用原廠設計的公版型號和廠商自行設計的非公版型號,其產品的穩定性可能也因不同廠商的設計和工藝水平存在差異。
芯片及啟用核心數量的差異
雖然同一代的GPU產品都采用相同的核心架構,但不同型號的GPU采用的是不同等級的GPU核心,比如作為Tesla系列旗艦的P100采用的是GP100核心,而P40和P4則分別采用的是GP102和GP104核心,在GeForce系列產品里,則還有采用更低的GP106/107/108等型號核心的產品。

雙精度浮點(FP64)計算性能的差異
在采用Pascal架構的GPU核心里,只有GP100采用了單精度計算單元和雙精度計算單元為2:1的比例設計,其他核心采用的都是32:1的設計,這也就造成采用GP100核心的GPU比如Tesla P100和在雙精度計算能力方面遠遠超過其他型號。
ECC內存的錯誤檢測和糾正
在運行3D游戲的GeForce顯卡上,即使出現一些內存錯誤通常也不會造成什么嚴重的問題,對于個人用戶來說,顯示的畫面偶爾出現些許的錯誤完全可以容忍甚至會被忽視。但對于計算領域來說,就非常依賴于GPU返回數據的準確性,即使內存出現單比特錯誤也可能導致最終計算結果的極大誤差。
GeForce系列顯卡不具備錯誤檢測和糾正的功能,但Tesla系列GPU因為GPU核心內部的寄存器、L1/L2緩存和顯存都支持ECC校驗功能,所以Tesla不僅能檢測并糾正單比特錯誤也可以發現并警告雙比特錯誤,這對保證計算結果的準確性來說非常重要。
保修政策
NVIDIA對GeForce GPU產品的保修政策說明明確指出,GeForce產品并非設計用于在服務器上安裝,在服務器中安裝和允許GeForce GPU會使保修失效。
GPU內存性能
計算密集型應用程序不僅需要GPU提供高性能計算單元,也需要GPU提供快速訪問數據的能力,否則再好的GPU核心也將成為巧婦難為無米之炊。對于許多HPC應用程序,GPU內存性能的差異對最終結果的影響甚至比計算能力更明顯,Tesla GPU可以提供比GeForce GPU更好的內存帶寬:
造成這種性能差異的主要原因是GeForce GPU使用GDDR5或GDDR5x內存,而Tesla P100 GPU則使用性能更好的HBM2內存。
GPU內存(顯存)容量
一般來說,系統的內存越多,運行速度越快。尤其是對于某些HPC應用程序來說,內存不夠時甚至不能執行單次運行。GeForce 顯卡最大只能提供12GB的顯存,而Tesla P40 GPU則最大可以提供2倍的顯存——24GB,這對GPU執行深度學習運算時使用更大的框架提供了支持。
*Pascal核心的Tesla的統一內存技術還允許GPU共享彼此的內存以加載更大的數據集
GPU的接口帶寬差異:
PCI-E與NVLink -
設備到主機和設備到設備的吞吐量
影響GPU最終性能的瓶頸之一是GPU總是在等待數據傳輸,尤其是當多個GPU并行工作時,它們就需要更大的數據傳輸帶寬。GeForce GPU通過PCI-Express連接,理論峰值吞吐量為16GB/s,而NVLink則允許每個GPU以高達5倍的性能也就是80GB/s進行通信,只有Tesla和Quadro系列GPU才支持NVLink。
應用軟件支持
雖然一些軟件程序能夠在支持CUDA的任何GPU上運行,但某些軟件程序可以針對專業GPU系列進行設計和優化。大多數專業軟件包僅正式支持Tesla和Quadro GPU,使用GeForce GPU也許是可能的,但軟件供應商不會提供支持。
操作系統支持
GeForce的驅動僅在個人操作系統也就是Windows 7,Windows 8和Windows 10中受支持,使用Windows Server操作系統應該考慮使用NVIDIA的Tesla和Quadro GPU產品。
Linux驅動程序則支持所有型號的NVIDIA GPU。
產品生命周期
由于消費者市場的特點,GeForce產品的生命周期相對較短(通常在產品發布和生產終止之間通常不超過一年)。需要更長產品壽命的項目(如購買后3年以上可能需要更換部件的產品)應使用專業GPU。
電力效率
GeForce GPU旨在用于消費者游戲使用,通常不會設計節能特性。相比之下,Tesla GPU專為數據中心而設計,電源效率很重要,這使得Tesla GPU更適合用作大規模部署使用。
DMA引擎
GPU的DMA引擎允許在系統內存和GPU內存之間的快速傳輸數據傳輸,這個傳輸性能對GPU加速至關重要,緩慢的傳輸將會導致CPU或GPU閑置并等待,造成系統性能的無謂浪費。
GeForce產品一般只有單個DMA引擎,同時只能在一個方向上傳輸數據。如果數據正在上傳到GPU,則在上傳完成之前,無法返回由GPU計算的任何結果。同樣,從GPU返回的結果將阻止任何需要上傳到GPU的新數據。
Tesla GPU產品采用雙DMA引擎,數據可以在CPU和GPU之間同時輸入和輸出,無需等待,效率更高。
GPU Direct RDMA
NVIDIA的GPU-Direct技術可大大提高GPU之間的數據傳輸速度,RDMA功能則可以對多臺機器之間的數據傳輸提供最大的性能提升。
傳統上,在集群的GPU之間發送數據需要3個內存副本(一次到GPU的系統內存,一次到CPU的系統內存,一次到InfiniBand驅動程序的內存)。GPU Direct RDMA去除了拷貝到系統內存,允許GPU通過InfiniBand直接發送數據到遠程系統,新版本的CUDA甚至允許GPU不與GPU進行任何交互的情況下啟動RDMA傳輸,這可以極大的增加GPU之間數據傳輸的實際性能。
GeForce GPU只能支持單臺機器內部的P2P GPU Direct,不支持跨主機的GPU-Direct RDMA 。Tesla GPU則完全支持GPU Direct RDMA和各種其他GPU Direct功能,這對GPU機器的集群部署非常有幫助。
Hyper-Q的支持
Hyper-Q代理允許多個CPU線程或進程在單個GPU上啟動工作。這對于使用MPI編寫的現有并行應用尤其重要,然而,GeForce GPU僅僅支持CUDA Streams的Hyper-Q,也就是說GeForce只能從單獨的CPU內核有效地接受并運行并行計算,但跨多臺計算機運行的應用程序將無法有效地啟動GPU上的工作。Tesla則具備完整的Hpyer-Q支持能力,更適合多個GPU集群的并行計算。
GPU健康監測和管理能力
許多健康監測和GPU管理功能(對于維護多個GPU系統至關重要)僅在專業的Tesla GPU上得到支持。GeForce GPU不支持的健康檢測功能包括:
NVML / nvidia-smi用于監控和管理每個GPU的狀態和功能。這使得GPU支持來自許多第三方應用程序和工具,如Ganglia。Perl和Python綁定也可用。
OOB(通過IPMI進行帶外監視)允許系統監視GPU的健康狀況,調整風扇速度以適當地冷卻設備,并在出現問題時發送警報
InfoROM(持久配置和狀態數據)為系統提供有關每個GPU的附加數據
NVHealthmon實用程序為集群管理員提供即時使用的GPU健康狀態工具
TCC允許將GPU專門設置為僅顯示或僅計算模式
ECC(存儲器錯誤檢測和校正)
集群工具依靠NVIDIA NVML提供的功能,GeForce中大約有60%的功能不可用。
GPU Boost
所有最新的NVIDIA GPU產品都支持GPU Boost,但其實現因使用場景不同而異。Geforce顯卡只能根據工作負載和GPU的溫度自動確定時鐘速度和電壓,用戶沒辦法控制GPU Boost的運行頻率,但是TeslaGPU則可以用戶指定的時鐘頻率運行,因為HPC環境中的加速器通常需要彼此同步。TeslaGPU還支持同步增壓組內的自動升壓,當啟用自動升壓功能后,每組GPU會增加時鐘速度。該組將保持時鐘彼此同步,以確保整個組中的匹配性能。
深圳市立爾訊科技有限公司致力于為大數據,云計算,信息安全等應用領域提供基礎硬件定制化解決方案的服務器平臺供應商,具有高度的自主研發能力和生產能力,公司產品廣泛應用于人臉識別,數據存儲,移動互聯,人工智能,深度學習,超級計算,智能醫療等前端科技領域。
立爾訊具有完善的產品研發設計,生產加工和質量檢測的一體化研發生產體系,產品目前已經擴展到服務器管理軟件,服務器準系統,存儲服務器完整系統,信息安全系統等多個系列平臺,已經成功為多家上市企業,準上市企業,行業龍頭企業提供深度定制服務,并獲得客戶的高度認可。
憑借多年的行業經驗和專業的技術團隊,立爾訊有信心駕馭數據洪流的到來,為塑造未來經濟貢獻一份力量。
服務熱線:0755-23104880。