AVX512は失敗作ではないか?

AVX-512 の効果は非常に限定的と言われていますが、やはり失敗作ではないか?

 下の表は最新の拡張命令に最適化し円周率計算のギネス記録を出した事で有名なy-cruncherのスコア(小さい方が高速)ですが、表を見て判る通り SSE4 -> AVX -> AVX2 までは倍々で順当に高速化している様子が判りますが、AVX-512では全く高速化していないばかりか、桁数が1億桁以下(赤枠)では速度が低下している事が判ります。2億桁を超えた辺り(緑枠)から少しづつ効果が表れている様にも見えますが、これ(緑枠)は、メモリが4チャネルから6チャネルに増えて帯域が1.5倍に成った効果であってAVX-512とは無縁の高速化と思われ、実際、帯域に比例した1.5倍速が250億桁のスコアと合致しています。
AVX512FAILD.png
情報ソース

 AVX2よりもAVX-512の方が遅い論拠は、単純にAVX-512ではクロックが低く設定されている為で、AVX2 とクロックが等速になっても、それは等速になるだけで高速にはならず、理論的にもボトルネックを計算するとメモリ帯域で律速しているのは確かです。
 
 実際には遅くなる物を新機能として宣伝する為に苦しい(非常に限定的で非現実的な)アピールを、理解出来ない人が見ると感情的に凄いと感じてしまう様な洗脳的マーケティングで売り込んでくる様な気がしてなりません。正直にAVX-512は遅いので使わないで下さいと言って互換性目的で残すだけにして欲しいと思う訳です。
 
 これらの対策としてIntelはAMDからGCNアーキテクチャを熟知しているRaja Koduri氏をヘッドハンティングし、AMDが目指したFUSIONと同じ物を見ようとしているのではないでしょうか?
 
 
 
スポンサーサイト

Yahoo買収と技術的特異点

->デュアルソケット・ザ・ワールドの目次は こちら へ。
-----------------------------------------------

ヤフオクが無くなるかもしれないと考えると寂しい筆者ですが、Yahoo本体の買収で今後もシステムが変わらない事を祈るばかりです。

筆者はAmazonにも嵌っていますが、Amazonは日本に税金を全く納めず米国に利益を全て送金しているらしいので、どうしても必要な場合を除いて店舗で買う事にしています。

技術的特異点(シンギュラリティ)は人類の進化を加速すると言われていますが、その加速に乗れない多く(99.99999%)の人々は淘汰ではなく搾取される側として家畜化してゆく事から逃れられないと推測しています。仮に楽園追放の様な世界になった場合には筆者はディンゴに似た選択をすると思いますが、マトリクスのネオや攻殻の草薙の様な存在にはたぶん成れません。

「顔に書いてある」という言葉が有りますが、心理学と脳科学を学ぶと、脳の思考と運動神経が連動していて考えている事が顔を制御する神経にも伝わる為、意図せずとも考えている事が本当に『顔に書いてある』事が判ってきます。顔と同様に、皆さんが考えている事は端末で入力する文章の端々にも現れ、タイピング速度や利用する単語などからAIが思考を汲み取り貴方・貴女の考えている事は全て把握されてしまう様になります。

例えばWindows10のキーロガーを伴う広告機能やプロパガンダ機能はAIで常に加速的に強化され続けてゆき、気付かない様に皆さんの財布を掴んで離さない状況になります。このAIを利用するのはMSの経営層や大株主であってWindows利用者ではありません。Windows利用者はAIを利用している気分にさせてもらう(つまり餌を与えてもらう)代わりに乳を搾られ卵を奪われ最後に肉を食べられます。Android(Google)も同じです。

これからの人々は幼少期からAIによるプロパガンダ漬にされて無自覚に趣向と思考と思想を誘導され進路選択を自分で望んでしている気分にさせられ、金の使い道も自分で望んでいると無自覚に誘導される様になります。

本当に世知辛い世の中です。
先進国に住む知能の高い人々から先に侵されて行くであろうと思うと皮肉ですね・・・

 
 

XeonScalable と EPYC / Threadripper

->デュアルソケット・ザ・ワールドの目次は こちら へ。
-----------------------------------------------

XEON GOLD 6154 にWS用途で対抗出来そうなAMDのラインナップは今のところ Ryzen Threadripper 1950X しかなく、EPYC ブランドでは未だ低クロック品しか登場していません。 いつもの事ではありますが・・・

XEON GOLD 6154  200W 18C/36T 3.0GHz/TB3.7GHz/TB-ALL3.7GHz(AVX低速)
Threadripper 1950X 180W 16C/32T 3.4GHz/PB4.0GHz/PB-ALL 不明 (AVX等速)
EPYC 7351     170W 16C/32T 2.4GHz/PB2.9GHz/PB-ALL2.9GHz(AVX等速)
EPYC 7601     180W 32C/64T 2.2GHz/PB3.2GHz/PB-ALL2.7GHz(AVX等速)

ですが、Threadripper はシングルソケットにしか対応していないので、デュアルソケット専門の筆者には縁が無いのです。
i9 7980XE はAVX-512のFMAユニット数が1かもしれません(現時点では未公開)。

Threadripperのハイエンドは16コアかつメモリ4チャネルでEPYCの半分しかなく、かつEPYCの16コア品と比較してもTDPが一緒にも関わらずクロックが非常に高い為、EPYCがダイ4個のMCMであるのに対しThreadripperはダイが2個なのだろうと適当に予想していましたが殻割りの結果を見るとEPYCと基本的には同じ物をベースにコアやメモリチャネルなどを半分Disableしているだけと判ります。つまり技術的には Threadripper と同等仕様のEPYCの製造が普通に出来る事を示している訳ですが現時点のEPYCラインナップには未だ高クロック品が無いという事です。なぜこうなっているかは謎ですがメモリコントローラが未だ改善の余地ありなのかもしれません(つまり8チャネルと4チャネルでTDPに大きな差が出る=コアクロックに影響する程にメモコンが電力喰い)。

XEON Scalable (Skylake-SP) は、 LCC / HCC / XCC の3タイプのダイが有りますが、XCCはMP向けの低クロック多コアのサーバ専用品と私は捉えていますので必然的に HCC のハイエンドがWS用途のダイだと思います。その為にネーミングがMCCではなくHCCであって、鯖用がXCCになっているのでは?と。加えて上述の通りDDR4のメモコンが電力喰いの為にIntelは8チャネルではなく6チャネルでバランスをとった可能性もありそうです・・・


CoreMA以降、歴代XEONの10年史からWS向けCPUを振り返ってみますと・・・

Prestonia   1C/ 2T 85W 3.0GHz 2003/Q1  6GF64 SSE2 / SMT
Nocona    1C/ 2T 103W 3.6GHz 2003/Q1  7GF64 SSE3 / 64Bit
Paxville    2C/ 4T 135W 2.8GHz 2005/Q4 11GF64
Woodcrest.   2C/ 2T 80W 3.0GHz 2006/Q2 24GF64*
Harpertown  4C/ 4T 150W 3.4GHz 2008/Q3 54GF64 SSE4.1
Nehalem-EP  4C/ 8T 130W 3.3GHz 2009/Q3 50GF64 NUMA / SMT
Westmare-EP  6C/12T 130W 3.4GHz 2011/Q1 82GF64
SandyBridge-EP 8C/16T 150W 3.1GHz 2012/Q2 198GF64 AVX
IvyBridge-EP  10C/20T 130W 3.0GHz 2013/Q3 240GF64
Haswell-EP   10C/20T 160W 3.1GHz 2014/Q3 496GF64 AVX2 / FMA3
Broadwell-EP  12C/24T 160W 3.0GHz 2016/Q1 576GF64
Skylake-SP   18C/36T 200W 3.0GHz 2017/Q3 1.27TF64 AVX512
※GF64 = GFLOPS@FP64

この様にIvyBridge-EPまでは順調に世代毎/1年毎に3GHz超のWSで使えるモデルが2コアづつ増えていましたが、2013年から2017年までの4年間はAVX2が追加された事くらいしか伸びが無く、、、しかし2017年のSkylake-SPで突如、増加ペースが復活(つまり1年で2コア増=4年×2コア=8コアがIvy世代から比較して増)した事になり、これはIntelが4年間出来る事をしていなかった=AMDに4年間対抗する必要が全く無かった、という事になり、やはりAMDの果たす役割は大きいです。この4年間はOpteronの新しいモデルが登場しなかった期間と合致しています。2014年のWarsawはAbuDhabiのリネーム品でワットパフォーマンス最適化モデルです。

参考までにK8以降、歴代Opteronの10年史からWS向けのリスト
Hammer  1C/ 1T 89W 2.2GHz 2003/Q4  4GF64 SSE2 / NUMA / 64Bit
Troy    1C/ 1T 93W 3.0GHz 2005/Q3  6GF64 SSE3
Italy    2C/ 2T 95W 2.8GHz 2007/Q1 11GF64*
Shanghai   4C/ 4T 115W 2.9GHz 2009/Q1 46GF64 SSE4a
Istanbul   6C/ 6T 137W 2.8GHz 2009/Q3 67GF64
Valencia  4M/ 8T 95W 3.0GHz 2011/Q4 96GF64 AVX / XOP / FMA4
AbuDhabi  8M/16T 140W 2.8GHz 2012/Q4 179GF64 FMA3
 --空白の5年--
SnowyOwl 16C/32T 180W 3.4GHz 2017/Q3 870GF64 AVX2 / SMT
Naples  32C/64T 180W 2.2GHz 2017/Q3 1.13TF64
※GF64 = GFLOPS@FP64

EPYCが電力喰いと言われる誤解の元になったのではないかと思うSupermicro H11DSU-iN(筆者の推測で書いていますのでハズレかもしれませんが御了承下さい)、EPYCは確かに電力喰いですが同世代のXEONよりTDPは20W低いのですし前世代のXEONと同程度の発熱ですから、あまり大袈裟に考え過ぎるのはどうかと・・・但し、それとは別にレギュレータの性能問題があります。
無題
この板の中央右側にCPU用の白い8pin電源コネクタらしきものが4個付いていますので、これを見たショップ店員が電力喰いだと勘違いしたのではないでしょうか?というあっけないオチの様な気がしているのですが、この白い8ピンコネクタは、このマザーボードではCPU用ではなくバックプレーン用の5V/12V専用コネクタです(マニュアルにそう書いてある)。

そもそもCPU用の8pinは規格上480Wまで耐えられる構造ですが、EPYCはTDP180Wなので 8pin 12V が4本必要になる事は無いと思うのです。

マニュアルによると、電源は、その上にある黒い細長い2個のコネクタで、これが専用リタンダント電源に直結され、白い8Pinコネクタは専用リタンダント電源からマザーボードに供給された5Vと12Vをバックプレーン(つまりSAS等のストレージ電源)専用に供給する為に用意されている特殊なコネクタです。誤解する様な設計はよくないですね・・・同様にGPU用の8pinらしき黒いコネクタが3個ありますが、こちらもマニュアルによると入力ではなくGPUへ接続する為の出力の様です。こちらのXEONマザーも同様の形状と構造なので、この手の品は共通なのかもしれません。

 
  

テーマ : 自作パソコン
ジャンル : コンピュータ

3D-Xpoint の迷走

->デュアルソケット・ザ・ワールドの目次は こちら へ。
-----------------------------------------------

商品ラインナップのおかげで期待を裏切られた自作erが多数を占めると思われる3D-Xpointですが、簡単に言えば大人の事情でしょうね。たぶんローエンドCPUやZenとの組み合わせで爆速快適静音PCを狙っていた様な人も居ると思うのですが、そういった人達の期待を全部根底から奪っていった様な製品ラインナップになっていますから・・・

普通にSSDを作ってもNANDとの差別化は難しいので、3D-Xpointが本領を発揮できるのはNVDIMMやNV-HBMとしてメインメモリと同じバスに組み込むしかないと思うのです。しかし知っている人なら書き込み耐性などの点から高速大容量のM.2やSATA-SSDとして登場するだけでも既存のモバイルにも組みこめるし等々

しかし、汎用規格で3D-XpointのNVDIMMを作ってしまうと、AMD ZEN や ARM鯖にも使われてしまいIntelの優位性が失われてしまう為、Intelプラットフォームでしか使う事の出来ない独自規格で3D-Xpointを売り出そうとしているのではないかと思うのです。技術的に可能か?ではなくIntelだけが勝利するにはどうすべきか?だけを考えて3D-Xpointの用途制限をしているのでしょうね。でなければ現状の製品ラインナップは有り得ませんから。

普通にSATAやM.2で使えるSSDとして売り出せばNANDのSSDが価格崩壊してHDD並みに安くなるかもと期待していたのですが、しばらく御預けで、来年あたりから独自規格のNVDIMMとしてXEONもしくはCore i7以上との組み合わせの場合だけ有効化される制限付き製品として売り出されるのではないかと・・・

人工知能へのアプローチは、受精卵シュミレートから!?

先程、突然思い付いたのでメモしておきます。
 ->デュアルソケット・ザ・ワールドの目次は こちら へ。

タイトル通りなんですが・・・

人工知能というと、今迄それっぽい物は有ったと思うのですが、どれもこれも中途半端と云わざるを得ない物ばかりだったと思うのです。

学者の間でも、計算機言語で人間と同等の人工知能を作るのは無理だと言われてきました。

けれども、受精卵、つまり細胞1個と母体環境をシュミレート出来れば、それが細胞分裂し、やがては脳や各種臓器が構築され、最終的に赤ん坊に成長し・・・が出来るハズです。

愛情を持って育てなければ悲惨な人生を送る人工知能に成りそうですが、幸福な人生を送る人工知能とは何であるか?自分で書いておきながら深い問ですね。

プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて20台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR