GPU 架構

CPU vs GPU

CPU 設計優化低延遲,擁有少量強大核心、大型快取和複雜分支預測。GPU 設計優化高吞吐量,擁有大量小型核心、共享記憶體,適合規則的資料平行運算。GPU 擁有數千個核心,專為大量資料平行處理而設計。

NVIDIA GPU 架構演進

架構年份SM 數核心/SM特色
Fermi20101632首款完整 GPGPU 架構
Kepler201215192硬體支援同時多執行緒
Pascal20165664HBM2 高頻寬記憶體
Volta20178064Tensor Core 加速矩陣運算
Turing20187264RT Core 光線追蹤
Ampere20208464第三代 Tensor Core
Hopper2022144128Transformer Engine

SM 架構

Streaming Multiprocessor 是 GPU 的基本運算單元。每個 SM 包含多個 CUDA 核心、Tensor Core、Register File、Shared Memory 和 L1 Cache。執行緒以 32 個為一組(Warp)進行排程,Warp 內所有執行緒執行相同指令(SIMT 模式)。

GPU 記憶體層次

相關連結