OpenCL での各種デバイスの相対性能をグラフ化してみました。

15号機が完成に近付き、Opteron 2439SE の実力が見えてきましたので、OpenCLを使って各種ベンチマークをとり、以前計測した値を元に XEON X5670 などとの比較をグラフ化してみました。
※2011/8/18
 修正1:グラフの目盛が変だった(XEON E5450が100に成ってなかった)ので、グラフの目盛を変更しました。
 修正2:10号機を復活させ、XEON 5050 ( Dempsey = PenD 3GHz 相当 ) の結果を追記しました。


グラフ化にあたり、下記の基準を設けました。
若干古い物もありますが、以前計測した値を流用する為に古い物で統一しました。

利用するベンチマーク
LuxMark v1.0
ratGPU 0.5.0 Beta
nQueen-CL (実行時オプション -local 18)
Sandra 2011 SP4a GPGPU (浮動少数演算と暗号処理)

利用するOpenCL SDK/ランタイム
Intel OpenCL SDK Alpha
ATI Stream SKD 2.3
GeForce 266.58 Driver

実行環境
・Windows 7 Ultimate 64Bit (但しCPUに64Bit命令セットがない場合は32Bit)

グラフ化する数値
 それぞれの実行環境で実行したベンチマーク結果を元に、XEON E5450 ( CoreMA 3GHz 4-Core ) x2CPU の計測値を100とした場合の相対的なスコアを計算。

結果

・CPUの総合性能(画像クリックで拡大します)
OpenCL_CPU_ALLCORE.png
Opteron 2439SEが、なかなか健闘してくれたので15号機を作った甲斐がありました。
Intel系CPUで利用したIntel OpenCL SDK AlphaがAlpha版ですので若干ハンデが有るかもしれませんが・・・

・CPUの1コア辺りの性能
(あくまでOpenCLでの並列演算に貢献した各コアのクロックあたりの性能比です)

OpenCL_CPU_ONECORE.png
並列演算をさせるとAMD系のCPUの方が効率が良さそうです。パフォーマンス/ワットを出すのは今の設備では厳しいですが、Opteronがスパコンに多用されるのも頷けます。
Core2世代とNehalem世代ではコアそのものには大きな変化が無い為と思われますが、あまり違いが有りません。X5670よりE5450の方がスコアが上なのは、nQueenCLの並列演算がIntel系CPUには若干効率が悪い事が影響していると思います。絶対性能ではコア数が多い方が高いのですが並列の度合いが増すに従ってIntel系つまりCoreMAを元にしたアーキテクチャでは効率が悪くなる様です。例えばX5670でnQueenCLを実行すると全体の負荷が60%ほどにしかならず40%が遊んでいますがコア数が同一の条件でOpteron 2439SEですと最大80%程度まで負荷が上昇しますのでCoreMAと比べ効率の良い並列処理が行われているのだと思います。

・XEON E5450 x2CPUを基準にしたGPGPUの性能比
OpenCL_GPGPU.png
GTX580が突出しているのが目立ちます。
Caymanが前世代に僅かに負けてるのが少々泣けますorz期待してたのに・・・

・GPGPUの個々のコアあたり性能比を出してみました・・・
OpenCL_GPGPU_ONECORE.png
このグラフに意味があるのか・・・それは見る人次第ですが、AMD系のGPGPUが単純なコアを多量に使って物量で性能を稼いでいるのに対し、nVidiaは個々のコアの性能をCPU並みに強化しているのが対照的だと思います。
加えて、AMD系GPUは3世代前から、ほぼ同一のアーキテクチャを元にしているという事と、nVidiaは世代間でアーキテクチャを大きく変更している事も想像できると思います。
ratGPUの結果を見るとXEONのコア単体よりCUDAコア単体の方が性能が高い様なグラフになっていますが、恐らくCPU用OpenCLの最適化が未だ不十分なのだと思います。アプリ側への見せ方(1コア=1ユニットなのか1CPUソケット=1ユニットなのか)などもアプリ側ロジックとの絡みで関連してきそうです。
対照的に同じくレイトレースしているLuxMarkではCPUコアの性能が圧倒的なのは並列化の粒度が細かく条件分岐などが多い為ではないか?と想像します。

ブログお休み宣言したのに、何やってんだろ俺・・・


  
 
関連記事
スポンサーサイト

コメントの投稿

非公開コメント

プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて20台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR