R9 nano を買ってみました。

昨日、別件で東京ビックサイトで開催されていたイベント会場に潜入した際に Tesla P100 を見掛けまして 単精度9.3TFlops 倍精度4.7TFlopsのスペックを見て、PEZY-SC Quadの方がスペック高いなと考えながら帰りに秋葉に寄って何故か R9 nano を買ってしまいました。

GeForce 1080 はチップがGP104らしいので購入を躊躇い(つまりGP100ではないので)、そういう意味では R9 nano も倍精度性能は低いのですがHBM搭載品が気に成って衝動買いした次第です。

お前何言ってるの?と言われそうですが、これが私の行動パターンなんでしょう・・・

GeForce 1095ti とか GeForce 1180 とか、GeForce TITAN P100 とか、そんな名前で GP100 搭載品が市場に出回る事を期待してます。TITAN X の新しい方はGP102でFP64が無い様ですね。今迄と同じパターンだとすればGP110/GP112搭載品を待つのが吉かも?と言う気がしてきたとも・・・

いつものベンチを更新です。やはり R9 nano は電力効率が良好ですね。
OpenCL-Bench-2-LPK-D2.png
推測値などは私の推測であって実態とは異なると思いますが、ホスト名が記載されている行は基本的には実測値です。

それにしても、これで何故にP100がGreen500でTOPを奪取出来たのか少し不思議です。電力効率に注力してクロックなどをチューニングしたのでしょうかね?それともNVLinkの効果?

あとまぁ、Skylake-EPで噂の32コア・ハイエンド品がデュアルソケットだとTesla P100と同程度の性能が出そうな事も気に成ります。Silvermontベースと言われるKnights Landing世代のXEON Phiとも重なりますね。

Vega10は、R9 Fury/Nano のシュリンクand/orブラッシュUP版でしょうかね?HBM2で16GBは魅力ですがTahitiを最後にFP64削ってるのが回復すると良いですね・・・
  
スポンサーサイト

Broadwell-EP の演算性能


 この表を更新するのは3年半ぶりですから、学生なら卒業という事でしょうか・・・

OpenCL-Bench-2-LPK-D.png

 どうやら、Broadwell-EP は2ソケットで現行 XEON Phi (Knights Corner) の演算性能を追い越した事になる様です。しかし、それにも増してPEZY-SCの凄さが目立ちますね、しかし AMD Fiji の倍精度対応版 FirePro が登場したら PEZY-SC に肉薄しそうなスペックを示しているのも注目に値すると思います。商業的には成功していそうなCUDAやXEON Phiが性能では一歩遅れている感があり、技術的な優劣が必ずしもマーケティングの優劣には直結しない例でしょうね・・・Polarisでは現行品を抜けそうですがマーケティング的にどうでしょう・・・

 近々登場予定の次期XEON Phi (Knights Landing) のスペックも予想してみましたが、こちらも次世代(未発売)でありながらPEZY-SCの半分程度の性能です。ここまで優劣に差が有ると、何らかの妨害工作を仕掛けそうな予感がしますね・・・既に実行中か?

 上の表にはワークステーション向けXEONとしては珍しく105Wに抑えた12コア定格3GHz品かつNonTurboでの性能を掲載しましたが、ハイエンド品は22コアの様ですから、ターボクロック次第では単機で現行XEON Phiに肉薄する演算性能=倍精度1TFLOPSかもしれません ( 計算上は 8FLOPS × 22Core × 3GHz ÷ 0.5Cycle = 1,056 GFLOPS で概ね XEON Phi に単機で並びますから、XEON E5-2699 v4 のAVXターボクロック次第です ) し、少なくとも2ソケットでは1TFlopsを超えていて、メモリも1CPUあたり1.5TBまで対応する様ですから、個人PCもテラスケール時代に突入ですね。

 ところで、LINPACKの替わりになるベンチマークとして注目されつつあるHPCGをLinux上で実行出来る XEON向けバイナリ(ソース付き)CUDA向けバイナリ(ソース無し) が入手可能です(残念ながらAMDプロセッサ向けバイナリは未だ見付けていません)。
 
 その他、参考リンク
 ・CPU で LINPACK を試す方法
 ・GPGPU で LINPACK を試す方法
 ・OpenCLベンチマーク

 
 

本物のスパコンを自作出来るかもしれない!?

クラスタではなく、拡張ボックスでもなく、単機の4Uラックマウント筐体に収まり、消費電力2800Wで政府基準のスパコン(50TFLOPS)に倍精度で到達出来そうです(ちなみに、この政府基準は10ヶ月前に改訂したばかりで、改訂から未だ1年経過していません)。単精度なら100TFLOPSクラスのピーク性能が出せそうです。

演算アクセラレータを8枚搭載可能な Tyan S7079
S7079.jpg

このマザーに和製演算アクセラレータのPEZY-SC Quad(単精度12TFLOPS、倍精度6TFLOPS)
PEZY-SC_QuadPCB-1_small.jpg
を8基搭載すと理論値で6×8=倍精度48TFLOPSとなり、政府基準の50TFLOPSまで、あと2TFLOPSとなります。

足りない2TFLOPSですが、Haswell-EPのハイエンド品(18コア AVX 1.9GHz~TB3.3GHz)×2個ではギリギリ届かないと思いますが、Broadwell-EPのXEON E5-26xx v4のハイエンド品を2個搭載する事で不足分の2TFLOPSを補って政府基準の50TFLOPSを倍精度で超えるのではないか?と思うのです。仮に超えなかったとしても49~50TFLOPSの範囲だと思いますので、これはもう政府基準のスパコンであると堂々と宣言出来ると思うのです。(といいますか宣言してしまうと、企業や官公庁は即時購入できなくなり数ケ月~1年以上もの手続きを経なければならず実質的に演算を1年待たなければいけないという不可解な(100万くらいのWSに1年間演算させた方が結果を出すまでの時間が早いかも?な)状況に陥りますので、ギリギリ50TFLOPSに届かない方がもしかしたら良いのかも?しれずグレーゾーンを潜り抜ける手段として有効かもしれませんね)

メインメモリは最大3TB搭載出来ますし、アクセラレータが1枚128GBで8枚だと1TBですから、合計4TBのメモリを4Uラック筐体1つの中に搭載可能という事になるかと思います。

消費電力は、PEZY-SC_Quadが6Pin補助電源4個仕様ですから75W×4=300W以下のはずです。これを8枚で2400Wですから、CPUが160W×2個、オンボードブリッジが20W×4個だとしても最大負荷で2800~2900W程度ではないかと思います。

本体重量ですが、冒頭に掲載しましたTyan S7079はベアボーン状態で35Kgありますが、CPU2個、メモリ4~24枚、演算アクセラレータ8枚、SSD4枚として、恐らく45~50Kg程度で収まると思います。

頑張れば個人宅で自作し運用する事も出来そうな気がしてきませんか?

ちなみに家庭用コンセントは1個あたり最大2000WですがTyan S7079のベアボーンに搭載されている3200W電源は3Wayリタンダントの様ですから、別系統のコンセントから3本配線すれば稼働出来るのではないかと思いますが、この辺りは一応、電気工事屋さんと相談かもしれませんね。色々な意味で怖いのでサージ保護付きUPSを咬ませたいですね。

冷却は、水冷や油没などもあると思いますが、一番ハードルが低そうなのは小型の冷房機を専用に1台購入し、冷房機からの冷気を全てスパコンの前面吸気にして、排出された3000W級の大型ドライヤー熱風は全て屋外へ排出する様なダクトを作ればなんとかなるのではないかと思います。ブレーカーは60A以上にしておけば、生活家電を含めてもなんとかなるでしょう・・・

価格は交渉次第な面もあると思いますが、新車1台ぶんの値段で揃えられそうですよね?或は木造一戸建て一軒分有れば十分でしょう。パーツの入手に際して個人には売らない企業じゃないと売れないと言われたら会社を興すという手段もあると思います。パーツ購入代金を資本金として会社を設立し、その資本金全額を使ってパーツを購入すれば税金を少しとられるくらいで済むと思います。会社としての法的手続きや会計事務が面倒で司法書士や税理士を雇って税金を払うと40~50万くらいは経費として消えてしまいますが、パーツ購入と同時に休眠企業として税務署に申請しておけば、それ以降は法人税を請求される事もないでしょう。
 

GK208とは?

先日の記事で紹介しましたGK208、もう既に知ってる人は多いのでしょうけどCompute Capabilityが3.5という値で、これは最新世代のTeslaやQuadroと同一の機能を備えた唯一のチップ(他にはGK110とGK210の演算向けハイエンドチップしかない)という事になりそうです。

GK208はCUDAやC++AMPやOpenCLやDirectComputeなどのGPGPUの勉強用として買うのに最適の素材かもしれませんし、恐らくゲーム全般普通に出来ると思われ、たぶんゲーム性能はGTX280程度じゃないかと思います。それに、ハイビジョン動画も問題無しどころか4K解像度のハードウエアアクセラレーションを搭載している様です。

演算能力的にはTesla C1060 を上回りTesla C2070 に迫る性能が出そうですから後ほど17号機を使って検証してみようと思います。とは言え私の計測方法ではCUDAの最新機能までは使ってないですが・・・

結果、Tesla C1060よりも、やや低い性能でしたOrz
しかし、僅か23Wの省電力ローエンドGPUが2世代前のTeslaハイエンド(188W)と比肩し得る性能を出しているのは凄いですし、新機能を使えば超えられるかもしれません。

LuxMark v2.0 LuxBall HDR
       Higher is better
 GT730(GK208) 1,746
 Tesla C1060 1,983
 Tesla C2070 3,636

RatGPU 0.5.5
       Lower is better
 GT730(GK208) 192.11
 Tesla C1060 112.85
 Tesla C2070 90.81

SiS Sandra 2012 SP5c 浮動小数演算と整数演算
      Higher is better
 GT730(GK208) 443.10 40.56 1.25 1.45
 Tesla C1060  351.14 41.72 1.56 2.63
 Tesla C2070 1,052.27 488.88 5.51 5.66

※ベンチが2012年版なのは筆者がTeslaを購入し計測してたのが2012年なので、当時の計測値との比較です。

スパコンの基準と R9-290X の倍精度演算性能

昨年末、政府が定める1.5TFLOPS超えたらスパコンという基準によってMacProがスパコン扱いになり簡単に買えないかもしれないというネタ話の様な騒動があった様ですが、当時、筆者は活動休止していましたので全く知りませんでした。

うーむ、じゃあ3年前!(もう3年も経つのか・・・)に作った19号機が既に4TFLOPS超えの実測性能ですから、当時から筆者の自作PCは政府基準ではスパコンだったのかもですね・・・政府基準・・・倍精度か単精度か、どっちが基準なのか判りませんが・・・

昨年末、つまり既に一年が経過した訳で私が活動休止していた知らない間に発売された AMD Radeon R9-290X に搭載されているチップ Hawaii の本来の性能は FirePro W9100 が示す様に倍精度浮動少数のピーク性能が 2TFLOPS を超えています。つまり当時はGPU単体で政府基準のスパコンだった訳ですが、発売された実際の製品は機能制限され0.9TFLOPS以下に抑えられている様です(とはいえ単精度では5TFLOPS超えてますから、もう政府基準は古すぎ)。

これってもしかして政府基準を回避する為に倍精度演算を機能制限したのか?とも思ったのですが、同じく昨年末に発売されたPS4が1.84TFLOPSですから、ゲーム機が既に政府基準のスパコンだった訳で、うーむ・・・

政府も重い腰をようやくあげて、少なくとも今年の3月には基準を50TFLOPSに上げた様です。

けど、50TFLOPSなんて簡単に超えちゃいますよね?

クラスタなら簡単ですし、単体のPCでもPCIe拡張ボックスを使えば1台のPCで50~100TFLOPSを容易に超える事ができます・・・まぁ、グラボを7枚以上なんて挿したら自作用のマザーだとBIOS/UEFIあたりがバグって正常起動出来ない可能性もありますが・・・
プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて20台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR