FC2ブログ

Intel VROC + Optane SSD の パフォーマンス

総評として、VROC は所謂ソフトウエアRAIDの域を抜けられていません。4K ランダムアクセス時の IOPS が圧倒的に高い事が最大の売りに成っている Optane SSD の特徴を殺してしまう形になるので、 VROC は、とても残念な RAID です。

■ まず最初に見慣れたCrystalDiskMarkから
最大サイズでやりました。
VROC で RAID を構築すると、体感速度に最も影響する4Kの値が単機の NAND SATA SSD よりも悪い値になってしまいます。これでは 4K を得意とする NVMe Optane SSD で RAID を組む意味が全くありませんね。Areca の RAIDカードに安価な SATA SSD を接続して RAID-6 を構築した方が精神的にも体感的にも快適です。
※この記事の最後に掲載していますが RAID5 で StripeSize をデフォルトの 64K のままにしておけばシーケンシャルのRead計測値はRAID0と同じ値まで向上します(但し4Kの値が若干悪化します)。

No22-VROCCDM1.jpg

下のスクショはCDMで計測中のCPU負荷ですが、RAID構成にどれを選んでも最大45%くらいのCPU負荷になりました。22号機は物理36コアですから4KQ8T8の測定には16コアくらい必要で、逆に言えば16コア以下の場合はCPUがボトルネックになり性能が出ませんし、見て判る通り個々のCPUコアが100%に張り付いていますのでCPUクロックで律速しています。よって、より高クロックのCPUでは高い値が出るでしょう。16コアはQ8T8のT8側、つまり 8スレッド × ( CDMスレッド + ソフトRAIDドライバスレッド ) = 16 コア の計算に成っていると思われます。
No22-VROCCDMCPU.jpg

■ 次にATTO で IOPS を見てみる。
※NTFSは最小アクセス単位が4KBですから、それ以下のサイズ計測は無意味です。
一見して単体のグラフが一番悪い様に見えますが、数字を見るとスケールが10倍になっている事が判ります、つまり、単体の場合は文字通り桁違いに早い為に逆にAutoスケールだとこうなってしまいます。つまり単体の方が圧倒的に良い結果です。
128KB の所にRAIDレベルに関係無く落ち込みが有る理由は判りませんが、単機では落ち込みが無い事からVROCの仕組み上の問題と思われます。

No22-VROCATTO-IOPS1.jpg

■AS SSD では 上記と同じ傾向を再確認
4Kと512Bが概ね同じIOPS値に成るのはNTFSの最小アクセス単位が4Kだからと思われ、逆に言えば4Kのスコアが良い程にアクセスタイムも早く、IOPSも高い値を示す事を意味しています。

速度
No22-VROCASSSD.jpg

IOPS
No22-VROCASSSD-IOPS.jpg

■ 結論として・・・
22号機は Areca が NVMe 対応 RAID カードを作ってくれるまでシステムドライブには Optan 900P 単機にしておくか、やっぱり予定通り VROC で RAID を組むか、で未だ迷っています。障害を2重に防止すると謳われている VROC RAID5 ならば RAID6 に近い耐障害性が得られるのかもしれません。下のスクリーンショットはストライプサイズを64K(デフォルト)に戻して更にQとTの合計を64に統一して計測し直したものです。ストライプ4K設定でも4K性能はあまり変わらない事から、恐らくStorportとNVMe間のプロトコルオーバーヘッドによる遅延が問題と思われ、とは言え4KQ1T1測定時のCPU負荷は1%程度ですのでデバイス調停的な部分で無駄にウエイトが入っている可能性もあります。
No22-VROCCDMszkEd.jpg

こちらは冒頭の計測値とは異なる(Direct I/O のチェックを外した)設定での計測で、実利用ではこちらの値に近い状況になると思われます。
No22-VROCATTO-IOPSs.jpg

Arecaさんには出来れば x16 仕様で御願いしたいですが x8 でもIOPSが良好なRAID6対応のやつを作ってくれそうな気がしているので期待して待っています。Broadcomがチップを売ってくれないとかの理由で作れないのかもしれませんが、それなら悲しいですね。
スポンサーサイト



Asus WS C621E SAGE に noctua NH-U12S DX-3647 を設置すると Slot#1 が干渉する。。。

掲題の通りです。
IMG_20190629_014534.jpg

対策として、
1)ヒートパイプは比較的曲り易いので、少し叩いて干渉しない様に曲げる。
2)水冷化する。

と言う事で、まず、現状(写真)で起動確認とかだけして、一通り動いたら1)を試して失敗したら2)に切り替えようかと・・・
->CPUヒートシンクを一旦取り外してハンマーで叩いて曲げたところ、イイ感じになったので、しばらくこのまま使おうと思います。
IMG_20190702_210058.jpg

水冷用のCPU水枕は購入済みですがラジエターやポンプなど一式揃えてないんですよね。
というか、水冷化した方が熱対策で良いのは判っていても、ホンダソウイチロウさんやフェルディナントポルシェさんの様に水冷化に抵抗している保守派なのかもです。

ですが Q-Code "bd" で止まってしまい画面が出ません Orz
そこで下記の手順を踏みました
1)CMOSクリア
2)オンボードVGAにディスプレイを接続
3)電源ON -> Q-Code画面表示(オンボードVGA側)
4)幾度か勝手に再起動(設定初期化してるっぽい)
5)RTX2080ti側にBIOS画面表示
6)BIOS設定を一通り確認、初期状態に戻っていた

コンビニで買った新品USBに最新BIOSイメージを入れてUSB BIOS Flashbackを試しているのですが、開始まではマニュアルの記載通りに3秒押し3回点滅と進みました、マニュアルによるとBIOS更新が終わるとLEDが消灯するはずですが1時間待っても消灯しません。。。これはどういう事でしょうね???。。。翌朝まで待っても何も変わらなかったので上記のCMOSクリアから再開しました。->USBはFAT32でフォーマットしないと駄目な様で、FAT32でフォーマットし直したら更新できました。数分で終わります。

グラボはSlot#1に挿したかったのですが、当初は、この記事のタイトルの通りCPUクーラーと干渉して挿せなかった為、マニュアル記載通りにSlot#3とSlot#5に挿していました。4Slot用のNVLinkブリッジは準備してありましたが2Slot用は買ってない&この状態での常用はしないので、とりあえずSLIはしばらく御預けですね。->上記しました通りハンマーで叩いて曲げた所Slot#1に干渉しなくなりましたがNVLinkブリッジに干渉します->NVLinkブリッジを分解して剥き出しの基板状態にして干渉しない様にしました(光るのがあまり好きじゃないので、この方が私の好みです)

NVMe で U.2 接続の Optan SSD を 4台接続しています。これでRAIDを組む予定でしたが、マニュアルによると別売りのKeyモジュールを取り付けないと出来ない様で、、、昔からこの手の商売変わってませんね。。。しかも4ピンの所謂ドングル的な物です。その為、今日は一時的に単機のOptanにOSを入れてみます。

ボトルネックを探せ@22号機 Asus WS C621E SAGE

ボトルネックを探せシリーズ

今回は22号機のダイヤグラムを今組んでる途中の構成をベースに来月頃の完成形で書いてみました。と言っても今と完成形の違いはArecaのRAIDカードを追加する事くらいです。今は未だ Areca が入っていないのは Optane を CPU 直結してシステム用にする為で、構築初期には必須ではないからです。と言うか筆者は Areca が U.2 NVM Express 対応の RAID6 カードを製品化してくれる事を期待しています。 それまでは CPU に Optane を直結しておきます。

No22_Diagram3.png

マニュアルによると Slot#3 に 1台目の GPU 、 Slot#5 に2台目の GPU 、 Slot#1 に3台目の GPU を推奨すると記載されていますが、それだと1台目の GPU の吸気が若干妨げられます(水冷が前提なのかもしれませんが・・・)し、スイッチチップを経由するのは極力避けたいと思うので上記になっていますが問題が起きた場合は推奨の通りに変更する予定です。ですので、そういった意味もありArecaは未だ設置していません。

それと、いつものボトルネックを探せシリーズではGPUの中も書くのですが、RTX-2080 ti の中がいまひとつよくわかりません。というか概ね概要は判っていますが・・・Pascal 系統からの発展形では無く Volta 系というか事実上は Volta から倍精度を削ってレイトレコアを追加した物と思われVolta世代と言って良いのではないかとも思います。名前が変わった理由というかレイトレ機能の部分が主に謎領域で、この部分を追加したが為に Volta から Turing に名前を変えたのだと思う訳です。この図で凄いのは CPU 間インターコネクトの UPI よりも、GPU 間インターコネクトの NVLink の方が早い!という事です。(但し、マザーボードのブロックダイアグラムを見てもUPIが何本接続されているか判りません、最大3本、最小1本、上図は2本で書いています)

    CUDA Tensor FP32
GV100 5120 640 15.7TFLOPS 倍精度重視
TU102 4608 576 16.3TFLOPS レイトレ重視

GP100 3584 N/A  9.3TFLOPS 倍精度重視
GP102 3840 N/A 12.0TFLOPS 4K-VR重視

Pascal 世代には Tensor コアが無いので、この実装がアーキテクチャの境界線に成るかと。。。

nVidia が GPU を GPGPU として使いはじめたのは TESLA 世代の G80 からで、演算専用製品には初代GPUのアーキテクチャ名が冠され今まで継承され続けています。この当時、演算用に作った G80 はグラフィック用途としてはコア性能に比して過剰なメモリ帯域幅 384bit @ 1600MHz で、このままグラボ用にもハイエンド品に転用されましたが、よりグラフィック性能重視になった G92/G92b では CUDA コア数は同じ(但しクロックを高くし)、逆にメモリ帯域は 256bit @ 2200MHz に落としています。この時、G90 は登場せず1桁目は2でした。これが約10年前の事ですが、これ以降、トップエンドの演算用GPUコア名は全て1桁目がゼロで、それをそのままハイエンドのグラフィックボードにも転用(但し倍精度演算をDISABLEしつつクロックを高く設定し描画用にチューニング)していましたが、1桁目が2のGPUはトップエンド品をベースに演算重視から描画重視にコア構造ごとチューニングし直した物という位置付けになっていると思います。(例外は Maxwell ですね。プロセス微細化に際してパフォーマンスが出なかった事が原因の妥協策ではないかと推察致します)。

つまり、有るハズの TU100 が無くて、逆に GV100 以外に Volta アーキテクチャのグラボが無いのです。

これが最新世代と今迄との大きな違いで、演算用にはレイトレ専用機能が不要だった、もしくは、描画向けチューニングを行っていたら、いつのまにかレイトレ専用機能が出来上がってしまった、という流れではないかと思うのです。

筆者がレイトレにここまで着目するには理由がありまして、レイトレは筆者がパソコンに初めて関わった頃の原点であり、30年以上前にアセンブラでレイトレの立体視プログラムを作った経験があり、リアルタイムレイトレーシングは当時の夢でもあったからで、嬉しい様な、寂しい様な、そんな複雑な思いがRTXシリーズには有ります。

レイトレ + 立体視 + ジャイロ + モーションシミュレータ + 物理演算 + 音場

これらの技術が全て揃うと、真のVRが完成すると思うのです。というか、そういうプロジェクトを立ち上げてみたいですね。

上記に足りない物が有るとすれば味覚と嗅覚ですが、うーむ、、、今はそこまで無くても大丈夫・・・

今迄は、上記のどれかを実現した物は有りましたが、どれかが欠けていました。ですが RTX の登場によって全ての技術が揃いましたので、これら全てを組み合わせた物が完成すれば、現実と仮想空間の差が極限まで近付き、寝起きに体験したら見分けがつかないのではないかと思います。これを更に発展させ、4次元演算或いは11次元演算を行い表現すれば相対論や量子論の体験、或いは医療への応用、月面体験、恐竜との遭遇などなど、今迄は想像する事しか出来なかった体験を現実と差が無いレベルで体験したり、構築したり、と、、、これからが楽しみですね。

今組んでいますが Asus WS C621E SAGE はマザーボード単体でかなりの重量物です。最近思うに、新しいものをすぐに組み上げない主な理由は17号機や20号機あたりで満足しちゃってるからなのかもしれませんが、半年後に迫ってきた Win7 の終焉にそなえ、そろそろ本格的に何かしないとなんですよね。仕事で使っている Win10 は、どう考えても Win7 より使い辛くて遅いですコルタナとか辞めてくれよ、OFFにするのも面倒です、広告とかニュースもいちいち表示するなよ集中出来ないって、もう色々嫌なOSです、デフォでOFFでしょこれ全部。 

22号機は、マザーボードの穴の位置が SSI-EEB なので筆者所有のケースでは穴の加工が3ヶ所必要で、今、タップ加工するかナットにするか迷ってる段階で=>翌日タップ加工しました。けど実は未だ組み上げてません。まな板上でマザーの固定が終わった段階です。次はCPUとメモリとグラボと電源を挿して起動試験からBIOS最新化とBIOS設定をしてmemtest86を実行する予定です。それと、マザーをよく見るとメモリスロットが1ヶ所曲っていたのですが既に購入から結構な時間が経過しているのでこれが原因で動作不良になっても初期不良交換は無理で、もしかしたら組む前から修理対応かもですOrz
 
 

CascadeLakeSP のTBクロック比較

中古で8コア/16スレッドのSandyBridgeハイエンドが1万円台で買える今、何の為に新世代で自作するのか???と言う気もしますが、そこは人それぞれですよね!?経済を回す為とか、技術発展の為とか、Wintelに貢ぐ為、或いは新しい物が欲しい、などなど

CascadeLakeSP.png

FP64 @ TB-ALL
 896 GFLOPS XEON GOLD 6244
1,305 GFLOPS XEON GOLD 6246
1,670 GFLOPS XEON GOLD 6254
2,150 GFLOPS XEON Platinum 8280

2テラ超えましたね。

Platinum 8268 / 8270 もグラフに掲載しようと思いましたが微妙な感じだったので消しました。
両者はTB-ALL時の演算性能が等価です。
1,997 GFLOPS XEON Platinum 8268
1,997 GFLOPS XEON Platinum 8270

CascadeLakeSP は 14nm です、チック出来なかったので世代的には SkylakeSP と同一ですがクロックが微増して命令セットも微増しています(命令セットの微増はマイクロコードを少し変えただけじゃないか?と言う気がしてなりませんが=Skylakeにも同じ命令セットを乗せられるのではと勘繰ってしまいます)。SkylakeSP は ステッピング H0 ですが、ステッピング H1 を CascadeLakeSP に名称変更しただけのリネーム品では?とも。。。

プロセス微細化により(とは言えBroadwell-EPから変化無しですが)、

良い面:
  コア数増(もしくは機能強化)
  消費電力減(もしくは高クロック化)

悪い面:
  絶縁破壊(TDDB)による寿命短縮
  エレクトロマイグレーションによる寿命短縮
  ※両者とも微細化と高クロック化(電圧盛り)で加速する(高温でも加速)

売る側が悪い面をアピールする事は有り得ませんので殆どの人が悪い面に付いては知らないと思いますが、、、

最近の XEON が Core i シリーズに比べてクロック低め設定になっているのは、上記の悪い面を緩和する為ではないかと言う気がしてなりません。

物理的な寿命は 32nm のSandyBridge の方が 14nm の Skylake/CascadeLake より長いのかもしれません(発売日起算ではなく、今を起点にしても)。

性能と耐久性が程良くバランスするポイントは、どの辺りなんでしょうね?同様の事はCPUのみではなくGPU/メモリ/チップセット/NICなど多くの半導体(特に微細化され、かつ高発熱の物)でしょうね・・・
あまり寿命が長いと売る側は困るので、そこそこ短命にしておかないとなんでしょうけど、、、 14nm の技術で 32nm の製造をすれば、より長寿にはなりそうな気はします。

メモリスロットに挿すタイプの 3D-Xpoint は、一般向けには CascadeLakeSP/AP からですが、例えば SAP HANA が既に対応済みになっているのは SAP の開発者向けには SkylakeSP に 3D-XPoint 対応したマイクロコードを配布してあった為と思われ(そうでなければ開発出来ない)、つまり SkylakeSP の市販品は機能制限版であり CascadeLakeSP がフルスペック版というnVidiaと同じ様な売り方をしているのではないかと思うのです。。。

Xeon Gold 6154 と Xeon W-3175X

DUAL LGA3647 で自作に使えそうなマザーの一覧は こちら へ、
このブログ( 双発電脳 : Dual Socket The World )の目次は こちら
参考:
 Skylake-SP高クロック多コア品のターボクロック一覧グラフ
 Skylake-SPのAVX512 FMAユニット数はモデルにより異なる
-------------------------------

 唐突ですが Xeon Gold 6154 と Xeon W-3175X を比較してみたいと思います。先日の i9-9980XE との比較とあわせて微妙な感じがしています。

 Xeon W-3175X は、間違いなくハイエンドCPUですが、(筆者的には)残念なことにデュアルソケットには対応していません、そこだけ制限されています。ソケット形状が同じで石も同じなのに、、、昔で言えば意図的にデュアル制限されたセレロンの様なものです(筆者的に見れば)

 下の表は、22号機を想定した比較です。つまり Xeon Gold 6154 は最大4ソケットまで対応していますので最大性能は下記の更に倍ですが、筆者的にはデュアルソケットなのです。筆者がデュアルに今までこだわってきたのはWindowsのWS向け、つまりPro系OSがデュアルまでの対応だった事に起因し、E-ATXフォームファクタとの相性にも起因します(4ソケ以上は鯖系OSかつ巨大で特殊な基板か拡張スロットが制限されていてグラボがまともに刺さりません、Win10からは最大4ソケットまで対応するWS用OSが登場していますが、LTSCではない為、例によってスパイ&プロパガンダ搭載で時々勝手に再起動してデバイスドライバが動作不良を起こしBSODを繰り返す9x並みの不安定OSですから、いづれにしろ筆者と4ソケットは相性が悪いです)。

XEON Gold 6154
 Dual Socket
Xeon W-3175X
 Single Socket
Stepping H0 or U0 (Skylake-SP HCC) H0 or U0 (Skylake-SP XCC)
Socket LGA 3647 x2 LGA 3647
コア数/スレッド数 36 Core72 Thread 28 Core56 Thread
定格/AVX2/AVX512 3.0GHz2.6GHz2.1GHz 3.1GHz  NA    NA
AVX512 FMA Unit 2 2
TDP 400W (200W x2) 255W
FP64@TB-ALL/FP32 3.1TFLOPS6.2TFLOPS 2.5TFLOPS5.0TFLOPS
TB-36Core/AVX2/AVX512 3.7GHz3.3GHz2.7GHz          
TB-28Core/AVX2/AVX512 3.7GHz3.3GHz2.8GHz 3.8GHz3.3GHz2.8GHz
TB-16Core/AVX2/AVX512 3.7GHz3.3GHz3.2GHz  NA    NA    NA
キャッシュ L2 / L3 1MB × 36-Core49.5MB 1MB × 28-Core38.5MB
メモリ 12ch DDR4-2666 ECC Reg 6ch DDR4-2666 ECC Reg
UPI-Link 3ch × 20.8GB/s Duplex 無し
PCI-Express 96 Lane (48 Lane x2) 48 Lane

 上表の通り、一般命令で 0.1GHz ほどの差が有るのみで他はGold 6154 の方が良く見えますが、Xeon W-3175X がデュアルソケットに対応してくれたら、全面的に Gold 6154 に全ての面で勝りそう、、、とも。

 スリッパもですが、元々デュアルソケット対応ハイエンドCPUを3GHz設定で販売しているのにシングルでしか動かない設定は何故?と、、、逆に言えば、デュアル対応だと何故にクロックが低いのか?

 電力性能比が原因と仮定してみますと、、、下記の通りコア数が同じPlatinum8180と比べると性能に比した電力増の為、チップセット含む周辺パーツを考慮すると、むしろ全体で見れば電力性能比はW-3175Xの方が良い結果になります。

  定格 3.1GHz ÷ 2.5GHz = 124%
  定格 255W ÷ 205W = 124%

 CPU間インターコネクトの消費電力に起因する発熱が原因で!?なんでしょうかね???

 下の表は Platinum 8180 との比較です。Platinum 8180 は W-3175X より全面的に 0.5~0.6GHz ほどクロックが低く上記計算の通りTDPも比例して低いです。

XEON Gold 6154
 Dual Socket
Platinum 8180
 Dual Socket
Stepping H0 or U0 (Skylake-SP HCC) H0 or U0 (Skylake-SP XCC)
Socket LGA 3647 x2 LGA 3647 x2
コア数/スレッド数 36 Core72 Thread 56 Core112 Thread
定格/AVX2/AVX512 3.0GHz2.6GHz2.1GHz 2.5GHz2.1GHz1.7GHz
AVX512 FMA Unit 2 2
TDP 400W (200W x2) 410W (205W x2)
FP64@定格/FP32 2.4TFLOPS4.8TFLOPS 3.0TFLOPS6.1TFLOPS
FP64@TB-ALL/FP32 3.1TFLOPS6.2TFLOPS 4.1TFLOPS8.1TFLOPS
TB-56Core/AVX2/AVX512           3.2GHz2.8GHz2.3GHz
TB-36Core/AVX2/AVX512 3.7GHz3.3GHz2.7GHz 3.5GHz3.1GHz2.6GHz
TB-28Core/AVX2/AVX512 3.7GHz3.3GHz2.8GHz 3.5GHz3.3GHz2.8GHz
TB-16Core/AVX2/AVX512 3.7GHz3.3GHz3.2GHz 3.5GHz3.3GHz3.2GHz
キャッシュ L2 / L3 1MB × 36-Core49.5MB 1MB × 56-Core77MB
メモリ 12ch DDR4-2666 ECC Reg 12ch DDR4-2666 ECC Reg
UPI-Link 3ch × 20.8GB/s Duplex 3ch × 20.8GB/s Duplex
PCI-Express 96 Lane (48 Lane x2) 96 Lane (48 Lane x2)


 TDPとFLOPSだけを比較するとPlatinum8180が凄く良く見えます、IntelのTDPは定格時なのでTB-ALL時はもう少し違うと思います。あと、Platinum8180の定格時とGold 6154のTB-ALL時のFLOPSが概ね同じくらいです。

 と言うかスリッパが無ければW-3175Xは存在しなかったと思われ、逆に言えばEPYCが頑張ればXEONも頑張るんじゃないかとも。


プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて二十数台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です(以降、Bull/nano/Ryzenと数台仮組レベルで組んでいます)。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR