Skylake-SP は モデルにより AVX-512 FMA Unit 数が異なる

->デュアルソケット・ザ・ワールドの目次は こちら へ。
-----------------------------------------------

 Skylake-SP の特徴として XEON Phi と同様(厳密には違うが)のAVX-512演算ユニットを搭載してGPGPU並みの並列演算の高速化を図った事ですが、その AVX-512 FMA 演算ユニット数がモデルにより異なる事が判りました。

 未だ全てのモデルを調べていませんが、傾向として下記の通りです。

 XEON Bronze コア辺り基の AVX-512 FMA Unit (TDP 85W)
 XEON Silver コア辺り基 (TDP 70~85W)
 XEON Gold 5xxx コア辺り基 但し例外的に5122基 (TDP 85~105W)
 XEON Gold 6xxx コア辺り基 (TDP 115~200W)
 XEON Platinum コア辺り基 (TDP 125~205W)

 コア数やクロックも関係しているとは思いますがAVX512 FMAユニット数でTDPに大きな違いが有る様に見えます、傾向として1基のモデルは80W程度、2基のモデルは概ね150W以上。

 恐らく・・・ですが、Bronze と Sliver の AVX-512 は互換性の為だけ(なぜなら1基しかないならAVX2と演算速度が同等以下だから)の物で、AVX512が使い物に成るのは Gold と Platinum だけ、という事になりそうです。なぜ同等以下かと言えばAVX2用にはFMAが2基ありますし、そもそもAVX-512のクロックはAVX2より低い設定で拘束されているからです。

 筆者はデュアルソケット=XEONユーザなので普段はCore i系のCPUに興味が無いのですが、Core i9 の場合はユニット数どうなんでしょうね?と興味がわきました。公式スペックが非公開ですから当たり外れが有って1基の固体と2基の固体が有るのかも?・・・ TDPが高いからといって安直に2基だと判断すると間違っている可能性が有ります、なぜならCore iは通常は同等スペックでもXEONよりTDPが結構高い傾向だからです。加えてAVX512用に増やした様なメモリ6チャネルから4チャネルに削減されていますのでAVX-512を連続で計算する際の帯域が4チャネルでは不足する可能性が有る為です(未だ計算していませんので確かな事は言えませんが、ご興味の有る方は4チャネルで帯域が充分なのか計算してみて下さい)。ちなみにEPYCは8チャネルです。
 
 FMAは同時に掛算と足算を行いますので1回の演算で2FLOPSと考えます。

 例えば18コア品では・・・
  512Bit × FMA2FLOPS × FMA2基 = 2,048Bit/Cycle = 256Byte/Cycle
  256Byte × 18Core × 2.7GHz@TB-ALL-AVX512 = 12,441GB/sec
  つまり上の計算に間違いが無ければ最大で12TB/sの帯域が求められます。

 DDR4-2666 の1枚辺り帯域は 21GB/s ですから 6チャネルで 126GB/s です・・・全然足りません。ホントか???
 
 6チャネルでも全然足りませんね、、、EPYCはAVX2は実装していますがAVX512は見送りました、ですがAVX2でも両方とも帯域が飽和するので8チャネル有る方が有利で帯域的に見ればEPYCの方が8/6=30%早い事に・・・これはあれですね「AVX512なんて飾りですよ、エライ人にはそれが判らんのです」という感じでしょうか・・・もちろん、L2に収まる(つまり同じ引数の演算を2度以上繰り返す)なら事情が異なると思います、L2の帯域が飽和するか?は、また計算してみないと・・・
 
 
関連記事
スポンサーサイト

コメントの投稿

非公開コメント

プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて20台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR