GPGPU歴代ハイエンド

GPGPUの歴代ハイエンドをまとめてみました。
(OpenCLに対応している事を前提にしています)

自分用メモです(キッパリ)

演算性能に幅が有るのは演算ロジックにより性能にバラツキが出る為と、モデルにより設定が異なる為です。
メーカ公証値及び各種ベンチマークによる実測結果などを元に記載しました。

Tesla 第1世代:単精度300~500GFLOPS、倍精度15~30GFLOPS
  コンシューマ:GeForce 8800Ultra(G80) -> 9800GTX(G92) -> 9800GTX+(G92b)
  プロ用:Quadro FX 5600(G80)
  演算用:Tesla C870(G80)

※:G80->G92は基本的にシュリンク版ですがバス幅が384->256bitに削減され性能が落ちる場面もあります。
※:G92->G92bはシュリンク版で高クロック&低消費電力化に成功

Tesla 第2世代:単精度350~900GFLOPS、倍精度35~50GFLOPS
  コンシューマ:GeForce GTX280(GT200) -> GTX 285(GT200b)
  プロ用:Quadro FX 5800(GT200b)
  演算用:Tesla C1060(GT200)

※:GT200->GT200bはシュリンク版で高クロック&低消費電力化に成功

Fermi 世代単精度1~1.5TFLOPS、倍精度250~500GFLOPS
  コンシューマ:GeForce GTX 480(GF100) -> GTX 580(GF110)
  プロ用:Quadro 6000(GF100)
  演算用:Tesla C2070/M2070(GF100) -> C2075(GF110)/M2090(GF110フルスペック)

※:GF100->GF110はシュリンク版では無しに物理設計の見直しで歩留まり改善しフルスペック化&高クロック&低消費電力化に成功

Kepler 世代:単精度3~4TFLOPS、倍精度1.1~1.3TFLOPS
  コンシューマ:GeForce GTX 780 Ti (GK110) ※予定
  プロ用:Quadro K6000(GK110) ※予定
  演算用:Tesla K20X(GK110)

※:Kepler初代ハイエンドGK100は発売されずに終了でしたがシュリンク版GK110は発売予定です。

R500 世代:単精度350GFLOPS、倍精度N/A
  コンシューマ:非対応(技術的には対応可、マーケ的に非対応)
  プロ用:対応している様ですが未調査です。
  演算用:FireStream 580(R580)

R600 世代:単精度500GFLOPS、倍精度100GFLOPS
  コンシューマ:非対応(技術的には対応可、マーケ的に非対応)
  プロ用:対応している様ですが未調査です。
  演算用:FireStream 9170(RV670)

R700 世代単精度0.5~1.4TFLOPS、倍精度200~300GFLOPS
  コンシューマ:Radeon HD4870(RV770 XT) -> HD4890(RV790 XT)
  プロ用:FirePro V8750(RV770 XT)
  演算用:FireStream 9270(RV 770)

※:R700世代のコンシューマ製品でのGPGPUは基本的にβレベルの対応の様です。
※:RV770->RV790はシュリンク版ではないが回路チューニングで高クロック&省電力化に成功

Evergreen 世代単精度1.2~2.7TFLOPS、倍精度500~600GFLOPS
  コンシューマ:Radeon HD5870 Eyefinity6(Cypress XT)
  プロ用:FirePro V9800(Cypress XT)
  演算用:FireStream 9370(Cypress XT)

Northern Islands 世代単精度1.2~2.5TFLOPS、倍精度600GFLOPS
  コンシューマ:Radeon HD6970(Cayman XT)
  プロ用:ハイエンドは未発表
  演算用:未発表

※:Evergreen -> Northern Islandsはコンシューマ向け機能強化(主に動画再生支援の向上)に留まり、演算に付いてはシェーダ構成が改良されるもコア数が若干削減され結果として演算性能にほとんど変化無しです。

Southern Islands 世代:単精度1.9~4.5TFLOPS、倍精度0.8~1.1TFLOPS
  コンシューマ:Radeon HD7970(Tahiti XT) -> HD7970 GHz Edition(Tahiti XT)
  プロ用:FirePro W9000(Tahiti XT)
  演算用:FirePro S9000(Tahiti XT)

※:FireStreamは、この世代からFireProのSシリーズに統合された様です(未確認)。

Knights Corner 世代:単精度1.8~2.2TFLOPS、倍精度0.9~1.1TFLOPS
  コンシューマ:無し
  プロ用:無し
  演算用:XEON Phi (Knights Corner 50~60-Core/1.3GHz/8GB/150W)

※:性能はスパコンTOP500中150位に成ったシステムの性能を元にチップ辺り性能を割り出し、発売までにクロックが1.11GHz->1.3GHzに向上する想定で1.17倍しています。
※:Larrabeeがそうだった様に、XEON Phiも元はGPUとして開発が進められてきたチップの延長線上にあり、実際 XEON Phi のES品的位置付けの Knights Corner *1 *2 *3 *4 の前世代(Knights Ferry)までGPU機能が盛り込まれnVidiaやAMDのGPUと競合できるか検証作業が行われていたらしく、結果としてGPUとしては発売しない様です。確証は無いのですがXEON PhiからはGPU関連機能が削られて純粋に演算のみに集中する構造に成っている様です。その方が演算に不要な回路が付属しないので消費電力の点でメリットが有りそうですが、反面、コンシューマを対象にしない事で量産効果が薄れItaniumの様な道を歩む事に成るかもしれません。

最新世代の演算単位辺り性能比較
 一般的にピーク性能に注目されがちですが、演算ロジックの都合やプログラミング技量により、演算の並列化が上手くいかない場合の性能として1演算単位辺りの性能を知っておく事も大切と思い算出しました。
(画像クリックで拡大)
GPGPUのVector辺り性能予測3
またXEON Phiでは演算データの順番がキャッシュ上に整列していない場合に遅延が大きくなる様で20コアでキャッシュへのアクセスが飽和状態に成り、それ以上パフォーマンスが伸びないといった情報も有ります。むろん整列していれば全コア有効活用出来るので、ピークパフォーマンスを出す為にはキャッシュ上でデータを整列させる様な何らかのテクニックが必要なのかもしれません。

単位辺り性能として算出された数百~数千MFLOPSはPentiumⅡ~Pentiumⅲ程度の性能で、Windows98時代のパソコン1台程度の演算性能です。
関連記事
スポンサーサイト

コメントの投稿

非公開コメント

プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて20台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR