FC2ブログ

Intel VROC + Optane SSD の パフォーマンス

総評として、VROC は所謂ソフトウエアRAIDの域を抜けられていません。4K ランダムアクセス時の IOPS が圧倒的に高い事が最大の売りに成っている Optane SSD の特徴を殺してしまう形になるので、 VROC は、とても残念な RAID です。

■ まず最初に見慣れたCrystalDiskMarkから
最大サイズでやりました。
VROC で RAID を構築すると、体感速度に最も影響する4Kの値が単機の NAND SATA SSD よりも悪い値になってしまいます。これでは 4K を得意とする NVMe Optane SSD で RAID を組む意味が全くありませんね。Areca の RAIDカードに安価な SATA SSD を接続して RAID-6 を構築した方が精神的にも体感的にも快適です。
※この記事の最後に掲載していますが RAID5 で StripeSize をデフォルトの 64K のままにしておけばシーケンシャルのRead計測値はRAID0と同じ値まで向上します(但し4Kの値が若干悪化します)。

No22-VROCCDM1.jpg

下のスクショはCDMで計測中のCPU負荷ですが、RAID構成にどれを選んでも最大45%くらいのCPU負荷になりました。22号機は物理36コアですから4KQ8T8の測定には16コアくらい必要で、逆に言えば16コア以下の場合はCPUがボトルネックになり性能が出ませんし、見て判る通り個々のCPUコアが100%に張り付いていますのでCPUクロックで律速しています。よって、より高クロックのCPUでは高い値が出るでしょう。16コアはQ8T8のT8側、つまり 8スレッド × ( CDMスレッド + ソフトRAIDドライバスレッド ) = 16 コア の計算に成っていると思われます。
No22-VROCCDMCPU.jpg

■ 次にATTO で IOPS を見てみる。
※NTFSは最小アクセス単位が4KBですから、それ以下のサイズ計測は無意味です。
一見して単体のグラフが一番悪い様に見えますが、数字を見るとスケールが10倍になっている事が判ります、つまり、単体の場合は文字通り桁違いに早い為に逆にAutoスケールだとこうなってしまいます。つまり単体の方が圧倒的に良い結果です。
128KB の所にRAIDレベルに関係無く落ち込みが有る理由は判りませんが、単機では落ち込みが無い事からVROCの仕組み上の問題と思われます。

No22-VROCATTO-IOPS1.jpg

■AS SSD では 上記と同じ傾向を再確認
4Kと512Bが概ね同じIOPS値に成るのはNTFSの最小アクセス単位が4Kだからと思われ、逆に言えば4Kのスコアが良い程にアクセスタイムも早く、IOPSも高い値を示す事を意味しています。

速度
No22-VROCASSSD.jpg

IOPS
No22-VROCASSSD-IOPS.jpg

■ 結論として・・・
22号機は Areca が NVMe 対応 RAID カードを作ってくれるまでシステムドライブには Optan 900P 単機にしておくか、やっぱり予定通り VROC で RAID を組むか、で未だ迷っています。障害を2重に防止すると謳われている VROC RAID5 ならば RAID6 に近い耐障害性が得られるのかもしれません。下のスクリーンショットはストライプサイズを64K(デフォルト)に戻して更にQとTの合計を64に統一して計測し直したものです。ストライプ4K設定でも4K性能はあまり変わらない事から、恐らくStorportとNVMe間のプロトコルオーバーヘッドによる遅延が問題と思われ、とは言え4KQ1T1測定時のCPU負荷は1%程度ですのでデバイス調停的な部分で無駄にウエイトが入っている可能性もあります。
No22-VROCCDMszkEd.jpg

こちらは冒頭の計測値とは異なる(Direct I/O のチェックを外した)設定での計測で、実利用ではこちらの値に近い状況になると思われます。
No22-VROCATTO-IOPSs.jpg

Arecaさんには出来れば x16 仕様で御願いしたいですが x8 でもIOPSが良好なRAID6対応のやつを作ってくれそうな気がしているので期待して待っています。Broadcomがチップを売ってくれないとかの理由で作れないのかもしれませんが、それなら悲しいですね。
スポンサーサイト



Asus WS C621E SAGE に noctua NH-U12S DX-3647 を設置すると Slot#1 が干渉する。。。

掲題の通りです。
IMG_20190629_014534.jpg

対策として、
1)ヒートパイプは比較的曲り易いので、少し叩いて干渉しない様に曲げる。
2)水冷化する。

と言う事で、まず、現状(写真)で起動確認とかだけして、一通り動いたら1)を試して失敗したら2)に切り替えようかと・・・
->CPUヒートシンクを一旦取り外してハンマーで叩いて曲げたところ、イイ感じになったので、しばらくこのまま使おうと思います。
IMG_20190702_210058.jpg

水冷用のCPU水枕は購入済みですがラジエターやポンプなど一式揃えてないんですよね。
というか、水冷化した方が熱対策で良いのは判っていても、ホンダソウイチロウさんやフェルディナントポルシェさんの様に水冷化に抵抗している保守派なのかもです。

ですが Q-Code "bd" で止まってしまい画面が出ません Orz
そこで下記の手順を踏みました
1)CMOSクリア
2)オンボードVGAにディスプレイを接続
3)電源ON -> Q-Code画面表示(オンボードVGA側)
4)幾度か勝手に再起動(設定初期化してるっぽい)
5)RTX2080ti側にBIOS画面表示
6)BIOS設定を一通り確認、初期状態に戻っていた

コンビニで買った新品USBに最新BIOSイメージを入れてUSB BIOS Flashbackを試しているのですが、開始まではマニュアルの記載通りに3秒押し3回点滅と進みました、マニュアルによるとBIOS更新が終わるとLEDが消灯するはずですが1時間待っても消灯しません。。。これはどういう事でしょうね???。。。翌朝まで待っても何も変わらなかったので上記のCMOSクリアから再開しました。->USBはFAT32でフォーマットしないと駄目な様で、FAT32でフォーマットし直したら更新できました。数分で終わります。

グラボはSlot#1に挿したかったのですが、当初は、この記事のタイトルの通りCPUクーラーと干渉して挿せなかった為、マニュアル記載通りにSlot#3とSlot#5に挿していました。4Slot用のNVLinkブリッジは準備してありましたが2Slot用は買ってない&この状態での常用はしないので、とりあえずSLIはしばらく御預けですね。->上記しました通りハンマーで叩いて曲げた所Slot#1に干渉しなくなりましたがNVLinkブリッジに干渉します->NVLinkブリッジを分解して剥き出しの基板状態にして干渉しない様にしました(光るのがあまり好きじゃないので、この方が私の好みです)

NVMe で U.2 接続の Optan SSD を 4台接続しています。これでRAIDを組む予定でしたが、マニュアルによると別売りのKeyモジュールを取り付けないと出来ない様で、、、昔からこの手の商売変わってませんね。。。しかも4ピンの所謂ドングル的な物です。その為、今日は一時的に単機のOptanにOSを入れてみます。

ボトルネックを探せ@22号機 Asus WS C621E SAGE

ボトルネックを探せシリーズ

今回は22号機のダイヤグラムを今組んでる途中の構成をベースに来月頃の完成形で書いてみました。と言っても今と完成形の違いはArecaのRAIDカードを追加する事くらいです。今は未だ Areca が入っていないのは Optane を CPU 直結してシステム用にする為で、構築初期には必須ではないからです。と言うか筆者は Areca が U.2 NVM Express 対応の RAID6 カードを製品化してくれる事を期待しています。 それまでは CPU に Optane を直結しておきます。

No22_Diagram3.png

マニュアルによると Slot#3 に 1台目の GPU 、 Slot#5 に2台目の GPU 、 Slot#1 に3台目の GPU を推奨すると記載されていますが、それだと1台目の GPU の吸気が若干妨げられます(水冷が前提なのかもしれませんが・・・)し、スイッチチップを経由するのは極力避けたいと思うので上記になっていますが問題が起きた場合は推奨の通りに変更する予定です。ですので、そういった意味もありArecaは未だ設置していません。

それと、いつものボトルネックを探せシリーズではGPUの中も書くのですが、RTX-2080 ti の中がいまひとつよくわかりません。というか概ね概要は判っていますが・・・Pascal 系統からの発展形では無く Volta 系というか事実上は Volta から倍精度を削ってレイトレコアを追加した物と思われVolta世代と言って良いのではないかとも思います。名前が変わった理由というかレイトレ機能の部分が主に謎領域で、この部分を追加したが為に Volta から Turing に名前を変えたのだと思う訳です。この図で凄いのは CPU 間インターコネクトの UPI よりも、GPU 間インターコネクトの NVLink の方が早い!という事です。(但し、マザーボードのブロックダイアグラムを見てもUPIが何本接続されているか判りません、最大3本、最小1本、上図は2本で書いています)

    CUDA Tensor FP32
GV100 5120 640 15.7TFLOPS 倍精度重視
TU102 4608 576 16.3TFLOPS レイトレ重視

GP100 3584 N/A  9.3TFLOPS 倍精度重視
GP102 3840 N/A 12.0TFLOPS 4K-VR重視

Pascal 世代には Tensor コアが無いので、この実装がアーキテクチャの境界線に成るかと。。。

nVidia が GPU を GPGPU として使いはじめたのは TESLA 世代の G80 からで、演算専用製品には初代GPUのアーキテクチャ名が冠され今まで継承され続けています。この当時、演算用に作った G80 はグラフィック用途としてはコア性能に比して過剰なメモリ帯域幅 384bit @ 1600MHz で、このままグラボ用にもハイエンド品に転用されましたが、よりグラフィック性能重視になった G92/G92b では CUDA コア数は同じ(但しクロックを高くし)、逆にメモリ帯域は 256bit @ 2200MHz に落としています。この時、G90 は登場せず1桁目は2でした。これが約10年前の事ですが、これ以降、トップエンドの演算用GPUコア名は全て1桁目がゼロで、それをそのままハイエンドのグラフィックボードにも転用(但し倍精度演算をDISABLEしつつクロックを高く設定し描画用にチューニング)していましたが、1桁目が2のGPUはトップエンド品をベースに演算重視から描画重視にコア構造ごとチューニングし直した物という位置付けになっていると思います。(例外は Maxwell ですね。プロセス微細化に際してパフォーマンスが出なかった事が原因の妥協策ではないかと推察致します)。

つまり、有るハズの TU100 が無くて、逆に GV100 以外に Volta アーキテクチャのグラボが無いのです。

これが最新世代と今迄との大きな違いで、演算用にはレイトレ専用機能が不要だった、もしくは、描画向けチューニングを行っていたら、いつのまにかレイトレ専用機能が出来上がってしまった、という流れではないかと思うのです。

筆者がレイトレにここまで着目するには理由がありまして、レイトレは筆者がパソコンに初めて関わった頃の原点であり、30年以上前にアセンブラでレイトレの立体視プログラムを作った経験があり、リアルタイムレイトレーシングは当時の夢でもあったからで、嬉しい様な、寂しい様な、そんな複雑な思いがRTXシリーズには有ります。

レイトレ + 立体視 + ジャイロ + モーションシミュレータ + 物理演算 + 音場

これらの技術が全て揃うと、真のVRが完成すると思うのです。というか、そういうプロジェクトを立ち上げてみたいですね。

上記に足りない物が有るとすれば味覚と嗅覚ですが、うーむ、、、今はそこまで無くても大丈夫・・・

今迄は、上記のどれかを実現した物は有りましたが、どれかが欠けていました。ですが RTX の登場によって全ての技術が揃いましたので、これら全てを組み合わせた物が完成すれば、現実と仮想空間の差が極限まで近付き、寝起きに体験したら見分けがつかないのではないかと思います。これを更に発展させ、4次元演算或いは11次元演算を行い表現すれば相対論や量子論の体験、或いは医療への応用、月面体験、恐竜との遭遇などなど、今迄は想像する事しか出来なかった体験を現実と差が無いレベルで体験したり、構築したり、と、、、これからが楽しみですね。

今組んでいますが Asus WS C621E SAGE はマザーボード単体でかなりの重量物です。最近思うに、新しいものをすぐに組み上げない主な理由は17号機や20号機あたりで満足しちゃってるからなのかもしれませんが、半年後に迫ってきた Win7 の終焉にそなえ、そろそろ本格的に何かしないとなんですよね。仕事で使っている Win10 は、どう考えても Win7 より使い辛くて遅いですコルタナとか辞めてくれよ、OFFにするのも面倒です、広告とかニュースもいちいち表示するなよ集中出来ないって、もう色々嫌なOSです、デフォでOFFでしょこれ全部。 

22号機は、マザーボードの穴の位置が SSI-EEB なので筆者所有のケースでは穴の加工が3ヶ所必要で、今、タップ加工するかナットにするか迷ってる段階で=>翌日タップ加工しました。けど実は未だ組み上げてません。まな板上でマザーの固定が終わった段階です。次はCPUとメモリとグラボと電源を挿して起動試験からBIOS最新化とBIOS設定をしてmemtest86を実行する予定です。それと、マザーをよく見るとメモリスロットが1ヶ所曲っていたのですが既に購入から結構な時間が経過しているのでこれが原因で動作不良になっても初期不良交換は無理で、もしかしたら組む前から修理対応かもですOrz
 
 

CascadeLakeSP のTBクロック比較

中古で8コア/16スレッドのSandyBridgeハイエンドが1万円台で買える今、何の為に新世代で自作するのか???と言う気もしますが、そこは人それぞれですよね!?経済を回す為とか、技術発展の為とか、Wintelに貢ぐ為、或いは新しい物が欲しい、などなど

CascadeLakeSP.png

FP64 @ TB-ALL
 896 GFLOPS XEON GOLD 6244
1,305 GFLOPS XEON GOLD 6246
1,670 GFLOPS XEON GOLD 6254
2,150 GFLOPS XEON Platinum 8280

2テラ超えましたね。

Platinum 8268 / 8270 もグラフに掲載しようと思いましたが微妙な感じだったので消しました。
両者はTB-ALL時の演算性能が等価です。
1,997 GFLOPS XEON Platinum 8268
1,997 GFLOPS XEON Platinum 8270

CascadeLakeSP は 14nm です、チック出来なかったので世代的には SkylakeSP と同一ですがクロックが微増して命令セットも微増しています(命令セットの微増はマイクロコードを少し変えただけじゃないか?と言う気がしてなりませんが=Skylakeにも同じ命令セットを乗せられるのではと勘繰ってしまいます)。SkylakeSP は ステッピング H0 ですが、ステッピング H1 を CascadeLakeSP に名称変更しただけのリネーム品では?とも。。。

プロセス微細化により(とは言えBroadwell-EPから変化無しですが)、

良い面:
  コア数増(もしくは機能強化)
  消費電力減(もしくは高クロック化)

悪い面:
  絶縁破壊(TDDB)による寿命短縮
  エレクトロマイグレーションによる寿命短縮
  ※両者とも微細化と高クロック化(電圧盛り)で加速する(高温でも加速)

売る側が悪い面をアピールする事は有り得ませんので殆どの人が悪い面に付いては知らないと思いますが、、、

最近の XEON が Core i シリーズに比べてクロック低め設定になっているのは、上記の悪い面を緩和する為ではないかと言う気がしてなりません。

物理的な寿命は 32nm のSandyBridge の方が 14nm の Skylake/CascadeLake より長いのかもしれません(発売日起算ではなく、今を起点にしても)。

性能と耐久性が程良くバランスするポイントは、どの辺りなんでしょうね?同様の事はCPUのみではなくGPU/メモリ/チップセット/NICなど多くの半導体(特に微細化され、かつ高発熱の物)でしょうね・・・
あまり寿命が長いと売る側は困るので、そこそこ短命にしておかないとなんでしょうけど、、、 14nm の技術で 32nm の製造をすれば、より長寿にはなりそうな気はします。

メモリスロットに挿すタイプの 3D-Xpoint は、一般向けには CascadeLakeSP/AP からですが、例えば SAP HANA が既に対応済みになっているのは SAP の開発者向けには SkylakeSP に 3D-XPoint 対応したマイクロコードを配布してあった為と思われ(そうでなければ開発出来ない)、つまり SkylakeSP の市販品は機能制限版であり CascadeLakeSP がフルスペック版というnVidiaと同じ様な売り方をしているのではないかと思うのです。。。

EPYC 7371 で行くか?それとも Rome (Zen2) まで待つか?

EPYC 7371 遅れて発表された筆者が欲しかったこの製品、、、他と比べてみます。
というか、最初からラインナップに乗せて欲しかったです。こいつが有ればWSとして組めますよ。

EPYC 7371
Threadripper 2990WX
XEON Gold 6154
などの比較表を作ってみました。

NEWCPU5.png


Threadripper 2990WX との比較では6コアまでは不利ですが、7コア以上のクロックは EPYC 7371 の方が有利です。
XEONとの比較ではAVX2のクロックがXEONの方が低い半面、演算機が512bit x2(EPYCは128bit x2 Rome は 256bit x2)の点で、実行するプログラムのロジック次第で優劣が入れ替わりそうです。もっとも、EPYCはメモリチャネルが多いのが最大の利点かと思いますので、その部分では他の追従を許さない面があるかと、、、逆に、それゆえにクロック抑え気味(メモリコントローラが熱源になる為)なんだと思います。

では、Rome(Zen2)ではどうか?と言えば、クロックと電力が同一ならコア数が倍に出来るらしいので
EPYC(Rome/Zen2) 200W
 32Core / 64Thread / 2Socket
 BASE : 3.1GHz
 TC-MAX : 3.8GHz (1~16Core/32Thread)
 TC-ALL : 3.6GHz

なかなか凄いですね。1ソケットのみでXeon W-3175Xと勝負できそうです。

但し、、、既存のEPYCは180Wでしたので筆者の21号機に200W品が載せられるのか?が最大の問題かもしれません。要VRM改造!?ですかね、そのまま乗る事を祈りますがターボは諦める必要があるかもしれません。。。

ところで、全く関係無い話題ですが PEZY-SC3 もうすぐ登場する様です。チケンが捕まえさえしなければもっと早く登場していたかもしれませんし、マスコミが偏向報道しなければもっと早く登場していたかもしれません。8,192コア/65,536スレッド @1.33GHz/400W 21TFLOPS@FP64 らしいです。Tesla V100 の2~3倍、Radeon VII の6倍(単精度は3倍)の演算能力ですね。クロック低めでコア数が多いのは電力効率のバランスするポイントかと思われます。PEZYには国の政策で助成金をジャンジャン積んで欲しいですね。財源はもちろん国債で。
プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて二十数台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です(以降、Bull/nano/Ryzenと数台仮組レベルで組んでいます)。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR