NVIDIAより、「Graphics Reinvented」の標語のもと、新GPUのアーキテクチャー「Turing」の内容が2018年9月14日に公表された。これまでの最新のアーキテクチャー「Pascal」からどのように変わったのか分析してみたい。
記事の目次
新旧GPUの仕様比較
最初に、新旧GPUを比較するために、それぞれの最上位機種「GTX 1080 Ti」と「RTX 2080 Ti」の仕様を掲載する。
<基本仕様>
GPU Features | GTX 1080 Ti | RTX 2080 Ti | 備考 |
---|---|---|---|
Architecture | Pascal | Turing | |
GPCs | 6 | 6 | |
TPCs | 28 | 34 | |
SMs | 28 | 68 | |
CUDA Cores / SM | 128 | 64 | |
CUDA Cores / GPU | 3584 | 4352 | |
Tensor Cores / SM | NA | 8 | 追加 |
Tensor Cores / GPU | NA | 544 | 追加 |
RT Cores | NA | 68 | 追加 |
GPU Base Clock | 1480 | 1350 | |
GPU Boost Clock MHz | 1582 | 1545 | |
Frame Buffer Memory Size and Type | 11264 MB GDDR5X | 11264 MB GDDR6 | |
Memory Interface | 352-bit | 352-bit | |
Memory Clock (Data Rate) | 11 Gbps | 14 Gbps | |
ROPs | 88 | 88 | |
Texture Units | 224 | 272 | |
Memory Bandwidth (GB/sec) | 484 | 616 | |
L2 Cache Size | 2816 KB | 5632 KB | |
Register File Size/SM | 256 KB | 256 KB | |
Register File Size/GPU | 7168 KB | 17408 KB | |
Transistor Count | 12 Billion | 18.6 Billion | |
Die Size | 471 | 754 | |
Manufacturing Process | 16 nm | 12 nm FFN |
<性能指標>
GPU Features | GTX 1080 Ti | RTX 2080 Ti | 備考 |
---|---|---|---|
RTX-OPS (Tera-OPS) | 11.3 | 76 | 大幅増 |
Rays Cast (Giga Rays/sec) | 1.1 | 10 | 大幅増 |
Peak FP32 TFLOPS | 11.3 | 13.4 | |
Peak INT32 TIPS | NA | 13.4 | 整数演算ユニット |
Peak FP16 TFLOPS | NA | 26.9 | 半精度追加 |
Peak FP16 Tensor TFLOPS with FP32 | NA | 53.8 | Tensorコア |
Peak FP16 Tensor TFLOPS with FP16 | NA | 107.6 | Tensorコア |
Peak INT8 Tensor TOPS | NA | 215.2 | Tensorコア |
Peak INT4 Tensor TOPS | NA | 430.3 | Tensorコア |
Texel Fill-rate (Gigatexels/sec) | 354.4 | 420.2 |
トランジスタ集積規模の増加
最初に注目したいのは、ダイサイズと製造プロセスの変化である。ダイサイズが巨大化し(471mm2 →754mm2 )、製造プロセスが進化し(16nm→12nm FFN)、トランジスタ数が増えている(120億→186億)が、最大消費電力(250W)は必ずしも増えていない。
SM(Streaming Multiprocessor)の仕様の変化
増えたトランジスタは何に使用されているのであろうか。単純に考えれば、CUDAコア数を増やせば性能アップにつながると思われるが、Turingでは発想が異なる。GPUの心臓部とも呼べるSMにおいて、CUDAコア数も増えてはいるが、主な変化はリアルタイムレイトレーシング用にRTコアとTensorコアが追加されたことである。それ以外にも、FP32コアと同数のINT32コアが追加され同時に動作可能となっている。
<TuringのSM>
- 1個のTPC:2個のSM
- 1個のSM :64個のFP32コア、64個のINT32コア、8個のTensorコア、1個のRTコア
<TuringのSM>
- 1個のTPC:1個のSM
- 1個のSM :128個のFP32コア
追加されたユニットの用途
Turingアーキテクチャーでは、リアルタイムレイトレーシングへの対応が第一の特徴になっている。これまでのGPUでは、リアルタイムレイトレーシングには処理能力が全く足りず、影を別に描くなどでリアルさを演出していた。この課題に正面から取り組むために、RTコアとTensorコアが追加されている。リアルタイムレイトレーシングでは、影の描画も自然なロジックで行える。その他、AIを使用した画像処理(DLSS)も魅力的で、Tensorコアがあるおかげで実現できる。
他の用途への対応
逆に気になるのが、その他の用途への対応である。GPUは、科学技術計算やディープラーニングに使用されるようになっているが、特に科学技術計算については、単純にCUDAコアを追加したほうが扱いやすいのではと思われる部分がある。逆にディープラーニングについては、デープラーニング用に最適とも言える仕様のTensorコアが追加になっている。CUDAコアより圧倒的に速いとされており、Tensorコアを増やせばもっと早くなるのではなどと考えてしまう。レイトレーシングのように、CUDAコアとTensorコアを組み合わせて、より高速な演算など可能になるのであろうか。
まとめ
GPUの用途は、本来のグラフィックス以外にも科学技術計算やディープラーニングなど計算力が必要とされる用途に幅広く使用されるようになっている。Turingアーキテクチャーでは、グラフィックスの分野でリアルタイムレイトレーシング等の処理を行うために新しいコアを追加したが、特にTensorコアはディープラーニングの高速化にも焦点をあてたアーキテクチャーになっている。グラフィックスで必要とされるアーキテクチャーが少なくともディープラーニングでは有効であり、様々な分野で使用される行列計算が高速化されることから、新たな用途を見出してみたくなるアーキテクチャーであると感じる。Turingアーキテクチャーのグラフィックボードの価格が高くなりすぎないことを期待して、ローエンドまでのラインナップを待ちたい。
補足
NVIDIA GPUアーキテクチャーの一覧
アーキテクチャー | リリース年 | 主な特徴 |
---|---|---|
Turing | 2018 | Graphics Reinvented! RTコア、Tensorコア追加 | Pascal | 2016 | 16nm製造プロセス採用、GPUベースクロック向上 | Maxwell | 2014 | 低消費電力化 | Kepler | 2012 | ダイナミックパラレリズム機能追加 | Fermi | 2010 | 本格的なGPUコンピューティング・アーキテクチャー登場 |
GTX 1660 Ti / GTX 1660について
GTX 1660 TiおよびGTX 1660は、Turingアーキテクチャーではあるが、RTコアおよびTensorコアが搭載されていない。
RTX 2080 SUPER / RTX 2070 SUPER / RTX 2060 SUPER について
RTX 2080 SUPER、RTX 2070 SUPER、RTX 2060 SUPERは、それぞれ、RTX 2080、RTX 2070、RTX 2060のコア数、クロック数、メモリ容量を強化したバージョンである。
参考
NVIDIAのサイト
- NVIDIA Turing Architecture In-Depth (2018/9/14)
- PASCALアーキテクチャー
- KEPLERアーキテクチャー
- FERMIアーキテクチャー
- Key Technologies