FC2ブログ

CascadeLakeSP のTBクロック比較

中古で8コア/16スレッドのSandyBridgeハイエンドが1万円台で買える今、何の為に新世代で自作するのか???と言う気もしますが、そこは人それぞれですよね!?経済を回す為とか、技術発展の為とか、Wintelに貢ぐ為、或いは新しい物が欲しい、などなど

CascadeLakeSP.png

FP64 @ TB-ALL
 896 GFLOPS XEON GOLD 6244
1,305 GFLOPS XEON GOLD 6246
1,670 GFLOPS XEON GOLD 6254
2,150 GFLOPS XEON Platinum 8280

2テラ超えましたね。

Platinum 8268 / 8270 もグラフに掲載しようと思いましたが微妙な感じだったので消しました。
両者はTB-ALL時の演算性能が等価です。
1,997 GFLOPS XEON Platinum 8268
1,997 GFLOPS XEON Platinum 8270

CascadeLakeSP は 14nm です、チック出来なかったので世代的には SkylakeSP と同一ですがクロックが微増して命令セットも微増しています(命令セットの微増はマイクロコードを少し変えただけじゃないか?と言う気がしてなりませんが=Skylakeにも同じ命令セットを乗せられるのではと勘繰ってしまいます)。SkylakeSP は ステッピング H0 ですが、ステッピング H1 を CascadeLakeSP に名称変更しただけのリネーム品では?とも。。。

プロセス微細化により(とは言えBroadwell-EPから変化無しですが)、

良い面:
  コア数増(もしくは機能強化)
  消費電力減(もしくは高クロック化)

悪い面:
  絶縁破壊(TDDB)による寿命短縮
  エレクトロマイグレーションによる寿命短縮
  ※両者とも微細化と高クロック化(電圧盛り)で加速する(高温でも加速)

売る側が悪い面をアピールする事は有り得ませんので殆どの人が悪い面に付いては知らないと思いますが、、、

最近の XEON が Core i シリーズに比べてクロック低め設定になっているのは、上記の悪い面を緩和する為ではないかと言う気がしてなりません。

物理的な寿命は 32nm のSandyBridge の方が 14nm の Skylake/CascadeLake より長いのかもしれません(発売日起算ではなく、今を起点にしても)。

性能と耐久性が程良くバランスするポイントは、どの辺りなんでしょうね?同様の事はCPUのみではなくGPU/メモリ/チップセット/NICなど多くの半導体(特に微細化され、かつ高発熱の物)でしょうね・・・
あまり寿命が長いと売る側は困るので、そこそこ短命にしておかないとなんでしょうけど、、、 14nm の技術で 32nm の製造をすれば、より長寿にはなりそうな気はします。

メモリスロットに挿すタイプの 3D-Xpoint は、一般向けには CascadeLakeSP/AP からですが、例えば SAP HANA が既に対応済みになっているのは SAP の開発者向けには SkylakeSP に 3D-XPoint 対応したマイクロコードを配布してあった為と思われ(そうでなければ開発出来ない)、つまり SkylakeSP の市販品は機能制限版であり CascadeLakeSP がフルスペック版というnVidiaと同じ様な売り方をしているのではないかと思うのです。。。
スポンサーサイト

EPYC 7371 で行くか?それとも Rome (Zen2) まで待つか?

EPYC 7371 遅れて発表された筆者が欲しかったこの製品、、、他と比べてみます。
というか、最初からラインナップに乗せて欲しかったです。こいつが有ればWSとして組めますよ。

EPYC 7371
Threadripper 2990WX
XEON Gold 6154
などの比較表を作ってみました。

NEWCPU5.png


Threadripper 2990WX との比較では6コアまでは不利ですが、7コア以上のクロックは EPYC 7371 の方が有利です。
XEONとの比較ではAVX2のクロックがXEONの方が低い半面、演算機が512bit x2(EPYCは128bit x2 Rome は 256bit x2)の点で、実行するプログラムのロジック次第で優劣が入れ替わりそうです。もっとも、EPYCはメモリチャネルが多いのが最大の利点かと思いますので、その部分では他の追従を許さない面があるかと、、、逆に、それゆえにクロック抑え気味(メモリコントローラが熱源になる為)なんだと思います。

では、Rome(Zen2)ではどうか?と言えば、クロックと電力が同一ならコア数が倍に出来るらしいので
EPYC(Rome/Zen2) 200W
 32Core / 64Thread / 2Socket
 BASE : 3.1GHz
 TC-MAX : 3.8GHz (1~16Core/32Thread)
 TC-ALL : 3.6GHz

なかなか凄いですね。1ソケットのみでXeon W-3175Xと勝負できそうです。

但し、、、既存のEPYCは180Wでしたので筆者の21号機に200W品が載せられるのか?が最大の問題かもしれません。要VRM改造!?ですかね、そのまま乗る事を祈りますがターボは諦める必要があるかもしれません。。。

ところで、全く関係無い話題ですが PEZY-SC3 もうすぐ登場する様です。チケンが捕まえさえしなければもっと早く登場していたかもしれませんし、マスコミが偏向報道しなければもっと早く登場していたかもしれません。8,192コア/65,536スレッド @1.33GHz/400W 21TFLOPS@FP64 らしいです。Tesla V100 の2~3倍、Radeon VII の6倍(単精度は3倍)の演算能力ですね。クロック低めでコア数が多いのは電力効率のバランスするポイントかと思われます。PEZYには国の政策で助成金をジャンジャン積んで欲しいですね。財源はもちろん国債で。

Zen2世代のEPYC機でSO-DIMMを採用する可能性に付いて


下の写真は SuperMicr H11DSU-iN と H11DSi の合成写真ですが、これではスペース的にVRMが配置出来ない為、この写真はフェイクでしかありません(合成してる時点でフェイクですが)。

Zen2DualEATX.jpg

この様に E-ATX ではメモリスロット面積が約50%を占めますので何らかの対策を考えないと Zen2 世代の EPYC では基板レイアウトに非常に苦労するかと思います。

そこで、SO-DIMM ですよ。一つの選択肢として。
SO-DIMMは縦挿しソケットをあまり見ませんがDIMMの半分ですから4本の面積に8本入るとすれば H11DSi と同じ様なレイアウトに出来ますよね!><?

こちらは21号機の SuperMicr H11DSi です。
H11DSiNT.jpg
上の写真のDIMMスロットがSO-DIMMスロットに置き換わればZen2世代のEPYCでもフルスペックが出せる!!!のではないかと、イメージとしては Silicon Graphics visual workstation 320i の様に千鳥配列で、、、

ZEN2 の衝撃

ZEN2 世代のEPYCに付いては昨年11月に発表されている為、既に情報は概ね出揃っていますので、DualSocketでの構成に付いて整理してみました。

ZEN2.png

この構造のキモになるのは 14nm I/O Bridge 部分で、これが Skylake-X/SP で言うところのメッシュ構造に相当する部分を担い、スパコンでいうクロスバースイッチ相当の機能を実現する部分になるのでしょうね。CPUダイとは分離されていますから、この部分だけチューニングした世代が出現する可能性があるかもしれません。NUMAになる直前のIntel製MPチップセット(7300 Clarksboro の様な物)をスケールアップしたノースブリッジ相当の機能とも言えます。

8コアのダイを8個搭載、個々のコアには 256bit FMA を2基搭載、動作クロック据え置きもしくはコア数を削ってクロック向上とすると、下記の様に理論値での性能が簡単に割り出せます。
8-Core × 8-Die × 256bit-FMA × (1-ADD + 1-MUL) × 2基 ÷ FP64 × 2.7GHz × 2-Socket = 5529.6 GFLOPS-FP64 = 5.5 TFLOPS-FP64 となりますね。単精度(FP32)なら 11TFLOPS です。仮にXeon W-3175XがDualSocket対応だったとしても上回る性能です(実際にはXeon W-3175Xはシングルソケット限定仕様です)。

この演算性能は Tesla V100 や PEZY-SC Quad に迫りますが、GPGPUではなくx64ネイティブCPUで実現するところが衝撃的ですし、動作クロックによっては逆転する可能性もあります。次の世代はAVX-512に追従して性能が倍化するかもしれません。

筆者的な問題は、Rome世代以降のDualSocketフルスペックマザーは面積的にE-ATX 或いは SSI-EEB フォームファクタに収めるとPCIeスロットがせいぜい2スロットくらいしか収まらない事です。

例えば、21号機のマザーボード Supermicr H11DSiを見ますと下の写真の通り(8チャネルのメモリソケットとCPUソケット)×2で基板面積の6割程度を占めていますので、これが16チャネルのフルスペックにメモリが倍増した場合、CPUソケットとメモリソケットで基板面積の8割程度を占有すると思われ、PCIeスロットを設置するスペースが非常に限られてしまいます。ワークステーション化できる様な基板にすると仮定するならDRG-Q(現行世代で言えばX11DPG-QTX11DPX-T、SuperMicro以外でも Tyan S7105ADVANTECH ASMB-975 が概ね同サイズかつ同じ穴の位置で既成事実的に規格化している)サイズに拡張しないとですね。。。右側(小さな画面で見ている場合は下側)の画像は合成ですしVRMの冷却を考慮せずに切り貼りした画像なので実際はあと1スロットぶん削られる可能性が高いかと。
H11DSiNT.jpg=>Zen2DualEATX.jpg

Rome世代まではNaplesとソケット互換らしいので21号機には乗ると思いますが、E-ATXでの自作は、これが最後の世代になるのでしょうね。HBM化したらまた違う状況になるとは思いますが。

ところで、この世代で 256 Thread に達しますので、Windows 7 / 8 / 10 の Pro / Enterprise で認識できる上限に達します(Windows 10 Pro/Enterprise は 512 Thread かもしれない=システム要件に明記されていないが同世代のサーバが最大512である為)。その意味でも、この世代はデュアルソケット最後の世代になる可能性があります。
 

Xeon Gold 6154 と Xeon W-3175X

DUAL LGA3647 で自作に使えそうなマザーの一覧は こちら へ、
このブログ( 双発電脳 : Dual Socket The World )の目次は こちら
参考:
 Skylake-SP高クロック多コア品のターボクロック一覧グラフ
 Skylake-SPのAVX512 FMAユニット数はモデルにより異なる
-------------------------------

 唐突ですが Xeon Gold 6154 と Xeon W-3175X を比較してみたいと思います。先日の i9-9980XE との比較とあわせて微妙な感じがしています。

 Xeon W-3175X は、間違いなくハイエンドCPUですが、(筆者的には)残念なことにデュアルソケットには対応していません、そこだけ制限されています。ソケット形状が同じで石も同じなのに、、、昔で言えば意図的にデュアル制限されたセレロンの様なものです(筆者的に見れば)

 下の表は、22号機を想定した比較です。つまり Xeon Gold 6154 は最大4ソケットまで対応していますので最大性能は下記の更に倍ですが、筆者的にはデュアルソケットなのです。筆者がデュアルに今までこだわってきたのはWindowsのWS向け、つまりPro系OSがデュアルまでの対応だった事に起因し、E-ATXフォームファクタとの相性にも起因します(4ソケ以上は鯖系OSかつ巨大で特殊な基板か拡張スロットが制限されていてグラボがまともに刺さりません、Win10からは最大4ソケットまで対応するWS用OSが登場していますが、LTSCではない為、例によってスパイ&プロパガンダ搭載で時々勝手に再起動してデバイスドライバが動作不良を起こしBSODを繰り返す9x並みの不安定OSですから、いづれにしろ筆者と4ソケットは相性が悪いです)。

XEON Gold 6154
 Dual Socket
Xeon W-3175X
 Single Socket
Stepping H0 or U0 (Skylake-SP HCC) H0 or U0 (Skylake-SP XCC)
Socket LGA 3647 x2 LGA 3647
コア数/スレッド数 36 Core72 Thread 28 Core56 Thread
定格/AVX2/AVX512 3.0GHz2.6GHz2.1GHz 3.1GHz  NA    NA
AVX512 FMA Unit 2 2
TDP 400W (200W x2) 255W
FP64@TB-ALL/FP32 3.1TFLOPS6.2TFLOPS 2.5TFLOPS5.0TFLOPS
TB-36Core/AVX2/AVX512 3.7GHz3.3GHz2.7GHz          
TB-28Core/AVX2/AVX512 3.7GHz3.3GHz2.8GHz 3.8GHz3.3GHz2.8GHz
TB-16Core/AVX2/AVX512 3.7GHz3.3GHz3.2GHz  NA    NA    NA
キャッシュ L2 / L3 1MB × 36-Core49.5MB 1MB × 28-Core38.5MB
メモリ 12ch DDR4-2666 ECC Reg 6ch DDR4-2666 ECC Reg
UPI-Link 3ch × 20.8GB/s Duplex 無し
PCI-Express 96 Lane (48 Lane x2) 48 Lane

 上表の通り、一般命令で 0.1GHz ほどの差が有るのみで他はGold 6154 の方が良く見えますが、Xeon W-3175X がデュアルソケットに対応してくれたら、全面的に Gold 6154 に全ての面で勝りそう、、、とも。

 スリッパもですが、元々デュアルソケット対応ハイエンドCPUを3GHz設定で販売しているのにシングルでしか動かない設定は何故?と、、、逆に言えば、デュアル対応だと何故にクロックが低いのか?

 電力性能比が原因と仮定してみますと、、、下記の通りコア数が同じPlatinum8180と比べると性能に比した電力増の為、チップセット含む周辺パーツを考慮すると、むしろ全体で見れば電力性能比はW-3175Xの方が良い結果になります。

  定格 3.1GHz ÷ 2.5GHz = 124%
  定格 255W ÷ 205W = 124%

 CPU間インターコネクトの消費電力に起因する発熱が原因で!?なんでしょうかね???

 下の表は Platinum 8180 との比較です。Platinum 8180 は W-3175X より全面的に 0.5~0.6GHz ほどクロックが低く上記計算の通りTDPも比例して低いです。

XEON Gold 6154
 Dual Socket
Platinum 8180
 Dual Socket
Stepping H0 or U0 (Skylake-SP HCC) H0 or U0 (Skylake-SP XCC)
Socket LGA 3647 x2 LGA 3647 x2
コア数/スレッド数 36 Core72 Thread 56 Core112 Thread
定格/AVX2/AVX512 3.0GHz2.6GHz2.1GHz 2.5GHz2.1GHz1.7GHz
AVX512 FMA Unit 2 2
TDP 400W (200W x2) 410W (205W x2)
FP64@定格/FP32 2.4TFLOPS4.8TFLOPS 3.0TFLOPS6.1TFLOPS
FP64@TB-ALL/FP32 3.1TFLOPS6.2TFLOPS 4.1TFLOPS8.1TFLOPS
TB-56Core/AVX2/AVX512           3.2GHz2.8GHz2.3GHz
TB-36Core/AVX2/AVX512 3.7GHz3.3GHz2.7GHz 3.5GHz3.1GHz2.6GHz
TB-28Core/AVX2/AVX512 3.7GHz3.3GHz2.8GHz 3.5GHz3.3GHz2.8GHz
TB-16Core/AVX2/AVX512 3.7GHz3.3GHz3.2GHz 3.5GHz3.3GHz3.2GHz
キャッシュ L2 / L3 1MB × 36-Core49.5MB 1MB × 56-Core77MB
メモリ 12ch DDR4-2666 ECC Reg 12ch DDR4-2666 ECC Reg
UPI-Link 3ch × 20.8GB/s Duplex 3ch × 20.8GB/s Duplex
PCI-Express 96 Lane (48 Lane x2) 96 Lane (48 Lane x2)


 TDPとFLOPSだけを比較するとPlatinum8180が凄く良く見えます、IntelのTDPは定格時なのでTB-ALL時はもう少し違うと思います。あと、Platinum8180の定格時とGold 6154のTB-ALL時のFLOPSが概ね同じくらいです。

 と言うかスリッパが無ければW-3175Xは存在しなかったと思われ、逆に言えばEPYCが頑張ればXEONも頑張るんじゃないかとも。


プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて二十数台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です(以降、Bull/nano/Ryzenと数台仮組レベルで組んでいます)。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR