CPU 設計優化低延遲,擁有少量強大核心、大型快取和複雜分支預測。GPU 設計優化高吞吐量,擁有大量小型核心、共享記憶體,適合規則的資料平行運算。GPU 擁有數千個核心,專為大量資料平行處理而設計。
| 架構 | 年份 | SM 數 | 核心/SM | 特色 |
|---|---|---|---|---|
| Fermi | 2010 | 16 | 32 | 首款完整 GPGPU 架構 |
| Kepler | 2012 | 15 | 192 | 硬體支援同時多執行緒 |
| Pascal | 2016 | 56 | 64 | HBM2 高頻寬記憶體 |
| Volta | 2017 | 80 | 64 | Tensor Core 加速矩陣運算 |
| Turing | 2018 | 72 | 64 | RT Core 光線追蹤 |
| Ampere | 2020 | 84 | 64 | 第三代 Tensor Core |
| Hopper | 2022 | 144 | 128 | Transformer Engine |
Streaming Multiprocessor 是 GPU 的基本運算單元。每個 SM 包含多個 CUDA 核心、Tensor Core、Register File、Shared Memory 和 L1 Cache。執行緒以 32 個為一組(Warp)進行排程,Warp 內所有執行緒執行相同指令(SIMT 模式)。