GPUのロードマップと新アーキテクチャー(NVIDIA TURING)

NVIDIAより、「Graphics Reinvented」の標語のもと、新GPUのアーキテクチャー「Turing」の内容が2018年9月14日に公表された。これまでの最新のアーキテクチャー「Pascal」からどのように変わったのか分析してみたい。

新旧GPUの仕様比較

最初に、新旧GPUを比較するために、それぞれの最上位機種「GTX 1080 Ti」と「RTX 2080 Ti」の仕様を掲載する。
<基本仕様>

GPU Features GTX 1080 Ti RTX 2080 Ti 備考
Architecture Pascal Turing
GPCs 6 6
TPCs 28 34
SMs 28 68
CUDA Cores / SM 128 64
CUDA Cores / GPU 3584 4352
Tensor Cores / SM NA 8 追加
Tensor Cores / GPU NA 544 追加
RT Cores NA 68 追加
GPU Base Clock 1480 1350
GPU Boost Clock MHz 1582 1545
Frame Buffer Memory Size and Type 11264 MB GDDR5X 11264 MB GDDR6
Memory Interface 352-bit 352-bit
Memory Clock (Data Rate) 11 Gbps 14 Gbps
ROPs 88 88
Texture Units 224 272
Memory Bandwidth (GB/sec) 484 616
L2 Cache Size 2816 KB 5632 KB
Register File Size/SM 256 KB 256 KB
Register File Size/GPU 7168 KB 17408 KB
Transistor Count 12 Billion 18.6 Billion
Die Size 471 754
Manufacturing Process 16 nm 12 nm FFN

<性能指標>

GPU Features GTX 1080 Ti RTX 2080 Ti 備考
RTX-OPS (Tera-OPS) 11.3 76 大幅増
Rays Cast (Giga Rays/sec) 1.1 10 大幅増
Peak FP32 TFLOPS 11.3 13.4
Peak INT32 TIPS NA 13.4 整数演算ユニット
Peak FP16 TFLOPS NA 26.9 半精度追加
Peak FP16 Tensor TFLOPS with FP32 NA 53.8 Tensorコア
Peak FP16 Tensor TFLOPS with FP16 NA 107.6 Tensorコア
Peak INT8 Tensor TOPS NA 215.2 Tensorコア
Peak INT4 Tensor TOPS NA 430.3 Tensorコア
Texel Fill-rate (Gigatexels/sec) 354.4 420.2

トランジスタ集積規模の増加

最初に注目したいのは、ダイサイズと製造プロセスの変化である。ダイサイズが巨大化し(471mm2 →754mm2 )、製造プロセスが進化し(16nm→12nm FFN)、トランジスタ数が増えている(120億→186億)が、最大消費電力(250W)は必ずしも増えていない。

SM(Streaming Multiprocessor)の仕様の変化

増えたトランジスタは何に使用されているのであろうか。単純に考えれば、CUDAコア数を増やせば性能アップにつながると思われるが、Turingでは発想が異なる。GPUの心臓部とも呼べるSMにおいて、CUDAコア数も増えてはいるが、主な変化はリアルタイムレイトレーシング用にRTコアとTensorコアが追加されたことである。それ以外にも、FP32コアと同数のINT32コアが追加され同時に動作可能となっている。
<TuringのSM>

  • 1個のTPC:2個のSM
  • 1個のSM :64個のFP32コア、64個のINT32コア、8個のTensorコア、1個のRTコア

<TuringのSM>

  • 1個のTPC:1個のSM
  • 1個のSM :128個のFP32コア

追加されたユニットの用途

Turingアーキテクチャーでは、リアルタイムレイトレーシングへの対応が第一の特徴になっている。これまでのGPUでは、リアルタイムレイトレーシングには処理能力が全く足りず、影を別に描くなどでリアルさを演出していた。この課題に正面から取り組むために、RTコアとTensorコアが追加されている。リアルタイムレイトレーシングでは、影の描画も自然なロジックで行える。その他、AIを使用した画像処理(DLSS)も魅力的で、Tensorコアがあるおかげで実現できる。

他の用途への対応

逆に気になるのが、その他の用途への対応である。GPUは、科学技術計算やディープラーニングに使用されるようになっているが、特に科学技術計算については、単純にCUDAコアを追加したほうが扱いやすいのではと思われる部分がある。逆にディープラーニングについては、デープラーニング用に最適とも言える仕様のTensorコアが追加になっている。CUDAコアより圧倒的に速いとされており、Tensorコアを増やせばもっと早くなるのではなどと考えてしまう。レイトレーシングのように、CUDAコアとTensorコアを組み合わせて、より高速な演算など可能になるのであろうか。

まとめ

GPUの用途は、本来のグラフィックス以外にも科学技術計算やディープラーニングなど計算力が必要とされる用途に幅広く使用されるようになっている。Turingアーキテクチャーでは、グラフィックスの分野でリアルタイムレイトレーシング等の処理を行うために新しいコアを追加したが、特にTensorコアはディープラーニングの高速化にも焦点をあてたアーキテクチャーになっている。グラフィックスで必要とされるアーキテクチャーが少なくともディープラーニングでは有効であり、様々な分野で使用される行列計算が高速化されることから、新たな用途を見出してみたくなるアーキテクチャーであると感じる。Turingアーキテクチャーのグラフィックボードの価格が高くなりすぎないことを期待して、ローエンドまでのラインナップを待ちたい。

補足

NVIDIA GPUアーキテクチャーの一覧

アーキテクチャー リリース年 主な特徴
Turing 2018 Graphics Reinvented! RTコア、Tensorコア追加
Pascal 2016 16nm製造プロセス採用、GPUベースクロック向上
Maxwell 2014 低消費電力化
Kepler 2012 ダイナミックパラレリズム機能追加
Fermi 2010 本格的なGPUコンピューティング・アーキテクチャー登場

GTX 1660 Ti / GTX 1660について

GTX 1660 TiおよびGTX 1660は、Turingアーキテクチャーではあるが、RTコアおよびTensorコアが搭載されていない。

参考

NVIDIAのサイト

本サイトの関連記事

商品紹介(広告)

RTX 2080 Ti

RTX 2080

RTX 2070

RTX 2060

GTX 1660 Ti

GTX 1660 Ti