IvyBridge-EP に対する意外な盲点

SandyBridge から周知の通り AVX が搭載されました。

AVX では SSE に比べ演算機が強化され 256Bit 演算機による SIMD で 単精度8個または倍精度4個の同時演算を1クロックで処理可能とされています。(この記事は、この情報を元に書いているので、これが無ければコア数が増えただけで、コア数なりの性能が出るというに留まります。つまり、AVXでは64Bit Double × 4 = 256Bit のレジスタを持っていますが Sandy-EP までは 演算機が128Bitのままだったので256Bit演算に2クロックサイクル必要だったのが Ivy-EP からは演算機も 256Bit に成ったので1クロックで演算可となり倍速という情報です。)  LINPACK で実証実験してみました。

つまり
 Westmere-EP  128Bitレジスタ(SSE4) 128Bit演算機
 SandyBridge-EP 256Bitレジスタ(AVX) 128Bit演算機
 IvyBridge-EP   256Bitレジスタ(AVX) 256Bit演算機
という情報を元にしています。
しかしながらSandyBridge-EPの時点で既に256Bit演算機が搭載されているという情報もあります。


IvyBridge-EP は 最大コア数が 12 に増え、HyperThread により 1-CPU 辺り 24スレッドを同時実行出来ますので 2-CPU つまりデュアルソケットでは 48 スレッドに成ります。

48 スレッドで 256Bit 演算機を利用すると、同時に 192 個の倍精度演算が出来る訳ですが、これは、同時演算出来る倍精度浮動少数の個数で言うと nVidia Tesla の現行ハイエンドにあたる Tesla C2075 の 224 個に肉薄し、かつ、クロックでは恐らく Tesla を大幅に上回ります。

仮に、アウトオブオーダーや HyperThread の特徴を無視して単純に1クロックで倍精度浮動少数点を 192 個演算出来る 3GHz の CPU が有ると仮定すれば 600 GFLOPS 程度となり Tesla C2075 の倍精度演算性能 500GFLOPS を上回る事になります。追記:LINPACKで実証実験してみましたらHyperThreadをOFFの状態で600GFLOPS程度に成りそうです。

とは言え、それでも AMD Tahiti ( Radeon HD7970 / FirePro S9000 ) の 1TFLOPS には届きませんし、Kepler世代の次期 Tesla K20 は Tesla C2075 の3倍の性能の様ですから GPGPU の優位性が消失した訳では無いのですが、あと1世代という所まで CPU の演算性能が GPGPU に肉薄してきているというところが凄いですね。

手元にあるSandyBridge-EPの結果を元にIvyBridge-EPの演算性能を予測してみましたら、笑える程の性能です。もちろんこの通りに成るとは限りませんがGPGPU不要論(自社のXEON Phiさえ潰しかねない)が出て来ても違和感が無い程に高い予測スコアです・・・

予測スコアは昨日の記事に載せた表に追加してみました。
OpenCL-Bench-2-LPK-6.png

予想スコアの計算は、XEON E5-2603 ( 4-Core 1.8GHz non-TB ×2CPU ) の結果を元に、コア数3倍、HyperThreadで1.5倍、クロックが1.6倍、合わせて7.2倍高速と仮定して算出しましたので大げさに誇張した予測ではありませんし、恐らく挟叉してると思います。

nQueenCLの結果が良くないのはIntel OpenCL 2012ランタイムの問題ではないかと思われます。AMD APP 2.7を使うと恐らく10秒台です。Intel OpenCLでnQueenCLを実行した場合、前半の殆どがシングルスレッドで処理され、つまりJITによる並列化に失敗して遅くなっていると思われますがAMD APP 2.7ですと18スレッド程度まで並列化される(つまりQueenの数だけスレッドが立つ)様です。

クロックを2.9GHzに設定したのは現行Ivyの45W-4C/8T-2.5GHz/TB3.5GHzを元に150W枠内でXEON E5系を作った場合にどうなるか?を考えて 130~150W 12C24T 全コアTB 2.8~3.0GHz だろうという予測です。現行のコンシューマ向けIvyBridgeより1ダイを単位とした場合の密度は上がりますが内蔵GPUが無いぶん、もう少しTDPを抑えるかクロックを上げる事が出来るかもしれません。ES品ですと10C/20T@2.8GHzの存在を確認していますが10-Core品の製品版は70Wらしいので12-Core通常品が130Wとするとハイエンドは12-Coreでありながら全コア3GHz以上も可能なのかもしれません。
関連記事
スポンサーサイト

コメントの投稿

非公開コメント

プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて20台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR