GPUのロードマップと新アーキテクチャー（NVIDIA TURING）

2018-09-16 2024-01-31

Webmaster

NVIDIAより、「Graphics Reinvented」の標語のもと、新GPUのアーキテクチャー「Turing」の内容が2018年9月14日に公表された。これまでの最新のアーキテクチャー「Pascal」からどのように変わったのか分析してみたい。

記事の目次

1 新旧GPUの仕様比較
2 トランジスタ集積規模の増加
3 SM（Streaming Multiprocessor）の仕様の変化
4 追加されたユニットの用途
5 他の用途への対応
6 まとめ
7 補足
8 参考
- 8.1 NVIDIAのサイト
- 8.2 本サイトの関連記事
9 商品紹介（広告）

新旧GPUの仕様比較

最初に、新旧GPUを比較するために、それぞれの最上位機種「GTX 1080 Ti」と「RTX 2080 Ti」の仕様を掲載する。
＜基本仕様＞

GPU Features	GTX 1080 Ti	RTX 2080 Ti	備考
Architecture	Pascal	Turing
GPCs	6	6
TPCs	28	34
SMs	28	68
CUDA Cores / SM	128	64
CUDA Cores / GPU	3584	4352
Tensor Cores / SM	NA	8	追加
Tensor Cores / GPU	NA	544	追加
RT Cores	NA	68	追加
GPU Base Clock	1480	1350
GPU Boost Clock MHz	1582	1545
Frame Buffer Memory Size and Type	11264 MB GDDR5X	11264 MB GDDR6
Memory Interface	352-bit	352-bit
Memory Clock (Data Rate)	11 Gbps	14 Gbps
ROPs	88	88
Texture Units	224	272
Memory Bandwidth (GB/sec)	484	616
L2 Cache Size	2816 KB	5632 KB
Register File Size/SM	256 KB	256 KB
Register File Size/GPU	7168 KB	17408 KB
Transistor Count	12 Billion	18.6 Billion
Die Size	471	754
Manufacturing Process	16 nm	12 nm FFN

＜性能指標＞

GPU Features	GTX 1080 Ti	RTX 2080 Ti	備考
RTX-OPS (Tera-OPS)	11.3	76	大幅増
Rays Cast (Giga Rays/sec)	1.1	10	大幅増
Peak FP32 TFLOPS	11.3	13.4
Peak INT32 TIPS	NA	13.4	整数演算ユニット
Peak FP16 TFLOPS	NA	26.9	半精度追加
Peak FP16 Tensor TFLOPS with FP32	NA	53.8	Tensorコア
Peak FP16 Tensor TFLOPS with FP16	NA	107.6	Tensorコア
Peak INT8 Tensor TOPS	NA	215.2	Tensorコア
Peak INT4 Tensor TOPS	NA	430.3	Tensorコア
Texel Fill-rate (Gigatexels/sec)	354.4	420.2

トランジスタ集積規模の増加

最初に注目したいのは、ダイサイズと製造プロセスの変化である。ダイサイズが巨大化し（471mm² →754mm² ）、製造プロセスが進化し（16nm→12nm FFN）、トランジスタ数が増えている（120億→186億）が、最大消費電力（250W）は必ずしも増えていない。

SM（Streaming Multiprocessor）の仕様の変化

増えたトランジスタは何に使用されているのであろうか。単純に考えれば、CUDAコア数を増やせば性能アップにつながると思われるが、Turingでは発想が異なる。GPUの心臓部とも呼べるSMにおいて、CUDAコア数も増えてはいるが、主な変化はリアルタイムレイトレーシング用にRTコアとTensorコアが追加されたことである。それ以外にも、FP32コアと同数のINT32コアが追加され同時に動作可能となっている。
＜TuringのSM＞

1個のTPC：2個のSM
1個のSM ：64個のFP32コア、64個のINT32コア、8個のTensorコア、1個のRTコア

＜TuringのSM＞

1個のTPC：1個のSM
1個のSM ：128個のFP32コア

追加されたユニットの用途

Turingアーキテクチャーでは、リアルタイムレイトレーシングへの対応が第一の特徴になっている。これまでのGPUでは、リアルタイムレイトレーシングには処理能力が全く足りず、影を別に描くなどでリアルさを演出していた。この課題に正面から取り組むために、RTコアとTensorコアが追加されている。リアルタイムレイトレーシングでは、影の描画も自然なロジックで行える。その他、AIを使用した画像処理（DLSS）も魅力的で、Tensorコアがあるおかげで実現できる。

他の用途への対応

逆に気になるのが、その他の用途への対応である。GPUは、科学技術計算やディープラーニングに使用されるようになっているが、特に科学技術計算については、単純にCUDAコアを追加したほうが扱いやすいのではと思われる部分がある。逆にディープラーニングについては、デープラーニング用に最適とも言える仕様のTensorコアが追加になっている。CUDAコアより圧倒的に速いとされており、Tensorコアを増やせばもっと早くなるのではなどと考えてしまう。レイトレーシングのように、CUDAコアとTensorコアを組み合わせて、より高速な演算など可能になるのであろうか。

まとめ

GPUの用途は、本来のグラフィックス以外にも科学技術計算やディープラーニングなど計算力が必要とされる用途に幅広く使用されるようになっている。Turingアーキテクチャーでは、グラフィックスの分野でリアルタイムレイトレーシング等の処理を行うために新しいコアを追加したが、特にTensorコアはディープラーニングの高速化にも焦点をあてたアーキテクチャーになっている。グラフィックスで必要とされるアーキテクチャーが少なくともディープラーニングでは有効であり、様々な分野で使用される行列計算が高速化されることから、新たな用途を見出してみたくなるアーキテクチャーであると感じる。Turingアーキテクチャーのグラフィックボードの価格が高くなりすぎないことを期待して、ローエンドまでのラインナップを待ちたい。

補足

NVIDIA GPUアーキテクチャーの一覧

アーキテクチャー	リリース年	主な特徴
Turing	2018	Graphics Reinvented! RTコア、Tensorコア追加
Pascal	2016	16nm製造プロセス採用、GPUベースクロック向上
Maxwell	2014	低消費電力化
Kepler	2012	ダイナミックパラレリズム機能追加
Fermi	2010	本格的なGPUコンピューティング・アーキテクチャー登場

GTX 1660 Ti / GTX 1660について

GTX 1660 TiおよびGTX 1660は、Turingアーキテクチャーではあるが、RTコアおよびTensorコアが搭載されていない。

RTX 2080 SUPER / RTX 2070 SUPER / RTX 2060 SUPER について

RTX 2080 SUPER、RTX 2070 SUPER、RTX 2060 SUPERは、それぞれ、RTX 2080、RTX 2070、RTX 2060のコア数、クロック数、メモリ容量を強化したバージョンである。

新旧GPUの仕様比較

トランジスタ集積規模の増加

SM（Streaming Multiprocessor）の仕様の変化

追加されたユニットの用途

他の用途への対応

まとめ

補足

NVIDIA GPUアーキテクチャーの一覧

GTX 1660 Ti / GTX 1660について

RTX 2080 SUPER / RTX 2070 SUPER / RTX 2060 SUPER について

参考

NVIDIAのサイト

本サイトの関連記事

商品紹介（広告）

RTX 2080 Ti

RTX 2080

RTX 2070

RTX 2060