Skylake-SP は モデルにより AVX-512 FMA Unit 数が異なる

->デュアルソケット・ザ・ワールドの目次は こちら へ。
-----------------------------------------------

 Skylake-SP の特徴として XEON Phi と同様(厳密には違うが)のAVX-512演算ユニットを搭載してGPGPU並みの並列演算の高速化を図った事ですが、その AVX-512 FMA 演算ユニット数がモデルにより異なる事が判りました。

 未だ全てのモデルを調べていませんが、傾向として下記の通りです。

 XEON Bronze コア辺り基の AVX-512 FMA Unit (TDP 85W)
 XEON Silver コア辺り基 (TDP 70~85W)
 XEON Gold 5xxx コア辺り基 但し例外的に5122基 (TDP 85~105W)
 XEON Gold 6xxx コア辺り基 (TDP 115~200W)
 XEON Platinum コア辺り基 (TDP 125~205W)

 コア数やクロックも関係しているとは思いますがAVX512 FMAユニット数でTDPに大きな違いが有る様に見えます、傾向として1基のモデルは80W程度、2基のモデルは概ね150W以上。

 恐らく・・・ですが、Bronze と Sliver の AVX-512 は互換性の為だけ(なぜなら1基しかないならAVX2と演算速度が同等以下だから)の物で、AVX512が使い物に成るのは Gold と Platinum だけ、という事になりそうです。なぜ同等以下かと言えばAVX2用にはFMAが2基ありますし、そもそもAVX-512のクロックはAVX2より低い設定で拘束されているからです。

 筆者はデュアルソケット=XEONユーザなので普段はCore i系のCPUに興味が無いのですが、Core i9 の場合はユニット数どうなんでしょうね?と興味がわきました。公式スペックが非公開ですから当たり外れが有って1基の固体と2基の固体が有るのかも?・・・ TDPが高いからといって安直に2基だと判断すると間違っている可能性が有ります、なぜならCore iは通常は同等スペックでもXEONよりTDPが結構高い傾向だからです。加えてAVX512用に増やした様なメモリ6チャネルから4チャネルに削減されていますのでAVX-512を連続で計算する際の帯域が4チャネルでは不足する可能性が有る為です(未だ計算していませんので確かな事は言えませんが、ご興味の有る方は4チャネルで帯域が充分なのか計算してみて下さい)。ちなみにEPYCは8チャネルです。
 
 FMAは同時に掛算と足算を行いますので1回の演算で2FLOPSと考えます。

 例えば18コア品では・・・
  512Bit × FMA2FLOPS × FMA2基 = 2,048Bit/Cycle = 256Byte/Cycle
  256Byte × 18Core × 2.7GHz@TB-ALL-AVX512 = 12,441GB/sec
  つまり上の計算に間違いが無ければ最大で12TB/sの帯域が求められます。

 DDR4-2666 の1枚辺り帯域は 21GB/s ですから 6チャネルで 126GB/s です・・・全然足りません。ホントか???
 
 6チャネルでも全然足りませんね、、、EPYCはAVX2は実装していますがAVX512は見送りました、ですがAVX2でも両方とも帯域が飽和するので8チャネル有る方が有利で帯域的に見ればEPYCの方が8/6=30%早い事に・・・これはあれですね「AVX512なんて飾りですよ、エライ人にはそれが判らんのです」という感じでしょうか・・・もちろん、L2に収まる(つまり同じ引数の演算を2度以上繰り返す)なら事情が異なると思います、L2の帯域が飽和するか?は、また計算してみないと・・・
 
 
スポンサーサイト

EPYC の不可解なラインナップ

->デュアルソケット・ザ・ワールドの目次は こちら へ。
-----------------------------------------------

CPUTURBOFREQ2017E4.png

並べてみて不可解な謎が3箇所あります。

謎1:
 TDP 155W/170W は、どういう意味か?
 上のグラフで155Wのモデルは実際は155W/170Wです。
 当初は劣化品が170Wで良品が155Wなのかと思っていましたが、そうではなく、
 メモリのクロックが2400の時に155Wで、2667の時は170Wという意味の様です。
 8チャネルあるので、そのクロックで消費電力や発熱が異なるのは理解できます。
 つまり謎は解けたのですが・・・
 では何故、より高いスペックの180W製品では2400を選択出来ないのか?謎です。

謎2:
 EPYC 7281 16C/32T TC-ALL 2.7GHz TC-MAX 2.7GHz 155W/170W
 EPYC 7301 16C/32T TC-ALL 2.7GHz TC-MAX 2.7GHz 155W/170W
 この2モデルは何が違うのかよく判りませんでしたがL3容量が倍違う様です。
 これは謎というより判り辛い違いというだけでした。他に定格が0.1GHz違います。

謎3:
 これが最大の謎です。
 EPYC 7501 32C/64T TC-ALL 2.6GHz TC-MAX 3.0GHz 155W/170W
 EPYC 7551 32C/64T TC-ALL 2.55GHz TC-MAX 3.0GHz 180W
 どう見ても型番とスペックが逆転しています。価格も7551の方が高いのです。
 これは間違いじゃないですかね?
 スペックと型番と値段が逆転している理由が「発表を間違えた」以外に考え辛いです。

全体的にIntelと比べて特性にバラつきが非常に少なく大きな違いはコア数とTDPの”設定”だけと言っても過言ではない印象です。

180WのタイプはTurboを長時間維持出来る品で、逆に155/170WのタイプはTurboが短時間しか維持できないのかもしれませんが冷却次第、冷却に費やすコスト次第ですかね?

グラフの2.8GHzに赤線を引いているのはAMDの歴代デュアルソケットのハイエンドが定格2.8GHzですから、今回SP3でも後発のハイエンドが定格2.8GHzではないかと推測しています。

Dual Socket A
 AMD Athlon MP 2800+ (2133MHz)
 K7 1C/1T/2S

Dual Socket 940
 AMD Opteron 290 2800MHz
 K8 2C/2T/2S

Dual Socket F
 AMD Opteron 2439 SE 2800MHz
 K10 6C/6T/2S

Dual Socket G34
 AMD Opteron 6386 SE 2800MHz / TC-ALL 3200MHz / TC-MAX 3500MHz
 Piledriver 8M/16C/2S

Dual Socket SP3
 AMD EPYC xxxx ????HMz
 Zen 32C/64T/2S

 

Skylake-SP のラインナップがカオス

->デュアルソケット・ザ・ワールドの目次は こちら へ。
-----------------------------------------------

Skylake-SPのラインナップ、GOLDとかSILVERとか少し馬鹿っぽくなった雰囲気が有りますが、E5/E7からB/S/G/Tの四種に増え更に型番末尾にF/T/M/無印とバリエーションが増えたたおかげで携帯電話料金プランの如く意図的に判り辛くしているのではないか?と思える程のカオス状態になっていて、どれを選択するのが妥当なのか誰にも判断出来ない状況と思われます。増やし過ぎでしょこれ・・・

こちらのグラフはSkylake-SPの中から高クロック多コア品を5種選んでターボクロックをグラフ化した物です。
CPUTURBOFREQ2017S4.png


こちらのグラフはSkylake-SPとEPYCから高クロック多コア品を3種づつ選別してターボクロックをグラフ化した物です。
CPUTURBOFREQ20175.png


Skylake-SPはAVX2を使う場合とAVX512を使う場合でクロックが異なり更に両方使わない場合もクロックが異なるので1コア辺り3種類のクロックが同時に存在します。

EPYCは16コア品のクロックが24コアや32コア品と比べて低いので、追々Threadripper並みの高クロック版が出るのではないかと期待しています。IntelはSkylake-SPでは16コアの高クロック版を出さない様で、定格3GHzオーバー品は12コアの次が18コアです。
Skylake-SPの高クロック版は 4 - 6 - 8 - 12 - 18 コアですから、謎です・・・
これが仮にメッシュ構造に起因するものならば10コアや16コア品の高クロック版が有って良いと思うのですが何故?E5v4と被るから?

 
 

AMD Vega と 政府基準のスパコン

->デュアルソケット・ザ・ワールドの目次は こちら へ。
-----------------------------------------------

AMD Vega が先週発売されました。

演算性能としては PascalハイエンドのP100を超え、半精度で 26 TFLOPS ( GTX 1080 ti が 22 TFLOPS ) の様です。

こちらの資料によりますと 50 TFLOPS 以上は政府基準スパコンですから、Vega の2枚挿しで CFX を組むと 26+26=52 TFLOPS となりますので、スパコン?かもしれず先日発表のH11DSiに2枚挿しする予定の筆者は、遂にスパコンを個人所有するに至るのか!?もしれません。

といいますか、GTX 1080 ti で 3Way以上のSLIを組んでいる人は既に政府基準スパコンの所有者なのかもしれません。

件の基準では精度が謳われていませんので半精度は認めないという事ならアレですが、実際のところどうなんでしょうね?

日本政府にお願いしたいと思うのは、2番じゃダメなんですか?とか言ってないで PEZY みたいな所にガンガン投資して常時TOPを狙い続けて欲しいものです。そもそもの国の借金と言われているモノは日銀が国債を引き受けるだけで解消(実際、今既に少しずつ隠れて実施中)する事が判っている訳で、そもそも増税とか消費税とかが不要(というかデフレの主原因)で、デフレスパイラルを抜け出す唯一の手段が①減税(消費税廃止)+②公共投資(PEZYみたいな所に投資、財源は国債)+③日銀による国債引受(既に隠れて渋々実施中)という3点セットだと回答が出ている訳ですから、早々に実施して欲しい訳で、そういった発言や行動をする政治家に投票すべきです。根源的というか専門用語では「基礎的財政収支の健全化」が間違いだった事を認めたくない(認めるとプライドが維持できないので意地になって認めようとしないメンタルの人達と、その人達を意図的に煽ってる人達の2種類の人々)が未だに間違いを認めず方針を変えようとしない事と、そのバックに隠れている人々(たぶんFRBオーナー達、もしかしたら国際的な共産主義勢力も同調しているのかも?)の圧力ですかね。というか「基礎的財政収支の健全化」というミスリードを受けていなければ日本は世界1の経済大国化していたという試算があるので、それは国際社会が許さないので、また別のミスリードをされていたのかもしれませんね。

 
 

SuperMicro X11DPI / X11DRi Skylake-EP マザー

->デュアルソケット・ザ・ワールドの目次は こちら へ。
-----------------------------------------------

22号機は下の写真のモデル ( 恐らく SuperMicr X11DRI ) を予定しています(未発売ですから入手出来るか不明ですが)。

私が入手した情報によりますと、SuperMicroでは既に少なくとも下記の6種の基本モデルのラインナップが量産体制にある様です。

X11DPI / X11DPL / X11DPT /X11DPU
X11DRI / X11DRU

型番末尾がUのX11DPUとX11DRUは専用ラックマウントケースとライザカードの組み合わせで2UブレードサーバにGPGPUを2枚~4枚接続するタイプ、X11DPLはPCIe x8スロットを多数装備したモデル、X11DPIは下の写真からPCIeスロットを省いた1Uブレード向けの廉価版、写真の現物はシルク印刷の通り X11DRi であると思われます。

x11dpi_mf_PR.jpg

こちらの画像は今年(2017)2月の記事で既にご紹介しましたドイツ語のサイト様から拝借したものをPhotoshopで遠近補正など行った物ですが、あれから三ヶ月経過して未だ正式発表が有りません。

説明書きには X11DPI (-T) (-N) で記載されていますが、スロット#4 と #5 の間にシルク印刷で X11DRi-T Rev 1.01 と刻印されていますので、NIC違いなどの数パターンの品が既に量産品の品質まで到達していて在庫もある程度有り、コア数や性能でガチバトルに成りそうなAMD EPYC(Naples/Zen) に被せるように発売時期を見計らっているのではないでしょうか?もしくは3D-Xpoint絡みでNVDIMM対応にマーケティング的な横槍が入り右往左往している最中かもしれません。

この世代のデュアルソケットは、CPUそのものが既に XEON Phi 並みの多コア品でありながら、それを2個搭載する前提のマザーボードですから、GPGPU不要論さえ出てきそうな演算性能に成っているはずで、それに合わせて帯域拡充の為に両社ともインターコネクトを刷新しています。

AMD EPYC (Naples/Zen) では、インターコネクトであるインフィニティファブリックとPCI-Expressの物理層を共有化し論理層で更に高速なI/Fに仕上げていますのでEPYCとVegaは物理層がPCI-Expressの接続であっても実際にはインフィニティファブリックで接続されるNUMA構成になると思われます。

対するIntelは少なくともコンシューマ向けにはAMDのGPUをCPUに内蔵するらしいので内部的にインフィニティファブリックで接続する可能性もあり、その上で更にIBMの様にnVLinkをも取り込むのか?この板の様にx16スロットを多数搭載して何を接続する前提なのか興味津々ですね。もしくは、伝統に習いとりあえず E-ATX / SSI-EEB で設計してみました的なマザーボードかもしれませんが、筆者にとっては有難いレイアウトの設計です(普段通りに組める為)。
プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて20台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR