AMD の Naples に見る 1.4GHz と 2.8GHz

久しぶりに Dual Socket の全く新しいモノが登場しそうでワクワクしている筆者です。

古くは Tiger-MPXTyan) に始まり、HDAMAFlextronics) や S2915Tyan) などヒット&ロングランしたAMDデュアル板の様に、Zenでも名機が登場してくれる事を切望していますし、その可能性を秘めていると思うのです。ちなみに、この記事は15号機(S2915)で書いています。

Zenの特徴の1つとして、分岐予測以前に両枝をパイプライン上で同時に投機実行する事ではないかと思います。AMDは、これを投機実行ではなく人工知能的学習機能を備えた分岐予測だと宣伝していますが、実は力仕事でやってるのではと思うのです。まぁ、実際はSMTの事もあり、もう少し複雑だと思いますが・・・

しかし、残念な事は、Windows7が動かないかもしれない事です。MSは今後登場するCPUはWin10でのみ対応する発言をしていたので・・・

噂では AMDのZen世代Opteron初物は2017年4~6月(たぶん自作市場で入手出来るのは数ヶ月遅れ)に登場して、デュアルソケット対応品は Naples もしくは Diesel という名称で 8コア×4ダイ=32コア/64スレッドの MCM(Multi Chip Module) 又は MCP(Multi Chip Package)らしく、メモリ8チャネル(つまり、ダイ辺りデュアルチャネルのNUMA構成になるのでしょう)。これがHyperTransport接続なのか、もっと密結合をするのかに付いての情報は未だ得ていませんが、PCIe3.0はCPUに統合されておりGPUを最大6枚フル帯域で直結出来る様です。2CPUで64コア/128スレッド、E-ATX/SSI-EEB規格のマザーでPCIeが6本有る板をSuperMicrが出すと思いますが確証はありません(面積的にE-ATA/SSI-EEBだとPCIeスロットは4~5本かもしれません)。伝統的に初物はTyanからですがMiTAC傘下でAMDとの蜜月は変容していると思われます。鯖専用の色が濃い場合はオンボードサウンドが無いかもしれず、できればSoundを2chでも良いのでオンボードにして欲しいです。例えばこちらの画像マイナビ記事)にSuperMicroと書かれているZenのデュアルソケット・ブレードサーバらしきものが掲載されています。

伝統的に、AMDの複数ソケット対応CPUは1.4GHzで登場し、2.8GHzがハイエンドです。もちろん例外もありますが、1.4GHzで始まり2.8GHzで終わるのには何らかの理由が有ると思うのです。TB/TCやコア数削減版は4GHzを超えるかもしれませんが、低クロック高IPCが私は好きですしAMDにこそ、それを実現して欲しいと思うのです。

Zen 世代の Naples も初物は 1.4GHz (TB/TC 2.8GHz)の様ですから伝統を踏襲していると言えそうです。そして恐らく来年か再来年辺りに 2.8GHz(TB/TC 3.5GHz) が登場して後にコア数増量版もしくはアーキテクチャ改良版が登場するのではないかと思います・・・

どんな板が登場するか?楽しみですね。
 
 
スポンサーサイト

演算速度を決定付けるもの

明けましておめでとうございます。

2017年最初の記事は、私の思いつきのメモ的なもので、すみません。

演算速度を決定付けるものとして、

1)帯域(バンド幅/Bandwidth)
2)遅延(レイテンシ/Latency)
3)同期(シンクロ/Synchronize)
4)優先順(プライオリティ/Priority)
5)手順(アルゴリズム/Algorithm)
6)大人の事情

などが有ると思います。

これらを総称し、もしくは決定付けるものが設計思想(アーキテクチャ/Architecture)だと言って良いと思います。

周波数(クロック/Clock) やビット数やコア数など、CPUのカタログスペックは主に帯域を決定する要素として私は捉えています。

アルゴリズムは、設計段階で抽象的な大枠が決まり、言語やコンパイラの性能に大きく影響を受け、最終的には機械語からマイクロコードに翻訳され、その結果が具体的アルゴリズムと言えるのではないでしょうか。

大人の事情とは、例えば歩留まり改善とか、電気代削減などですね。
 
結局、大雑把に極論するとクーロンの法則に従って演算速度が決定する。なぜなら電磁気学のパラダイムでコンピュータが設計されているから。というのが年始の私の思いつきメモです(笑

と言う事で、今年も宜しくお願い致します。
m(_ _)m
 
 

時間=距離

 
時間=距離

この事は、夜空に浮かぶ星や銀河までの距離を「光年」という単位で表現している事からも判る通り、遠くの星ほど光(電磁波)が到達するまでに時間が掛る事を示していて、逆に言えば、時間を短縮するには距離を短縮する必要が有ります。

身近な具体例としては、例えば1mの定義は光が真空中を1/299792458秒間で伝わる長さとして定義されています。
(しかし厳密には不確定性原理によって、距離さえも確定出来ない=時間も確定出来ない)

この様に、身近な1mという距離でさえも、時間によって定義されているので、半導体で使われるμmやnm(ナノメートル)といった極小の空間を表す単位ですら時間によって定義されています。

究極的に言えば、より高速な演算は、より微細な空間でのみ実現され、その他の選択筋は無い事になります。
演算のみでなく記憶や情報も同様です。

最終到達点は不確定性原理による距離=時間を特定出来ない程の微細空間では物理法則として演算が出来なくなってしまう事態が起きるので、その一歩手前の空間に記憶や情報と演算の機能を凝縮する事だと思います。

つまり上記の物理法則から理論的な性能上限が導き出され、逆に言えば、無限に高性能化する事は不可能だという事が判りました。別の表現をするなら、無限の性能はゼロ空間でのみ実現され、しかしゼロ空間に到達する手前で不確定性原理によって性能そのものが否定される為、無限の性能は実現不可能という事になります。

回路図やソフトウエア的なアルゴリズムの変更は、理論的な性能上限に近付ける為の改善は出来ても、理論的な性能上限そのものを打ち破る事は出来ません。

これらの事に、改めて気付きました。
というか、実は先程ようやく本当の意味で気付き、理解できました。

これを打ち破るには、時間=距離(正確には、時間×光速=距離、但し光速は定数なので時間の単位を光速とする事で時間=距離となる。その具体例が冒頭で示した光年という単位)のパラダイムとは異なる理論、異なる世界が必要です。

 

演算性能トレンドライン

SuperPIandYcruncher速度推移01

※縦軸は対数に成っています。


証券取引などでよく使われるトレンドラインを薄い色の線で引いてみました。

一言で言えば、現在は横這いトレンドと言えそうです・・・

逆に言えば、トレンドに変化が無かった場合、今年は両方とも演算速度0秒!に到達していた事に成り、理論的に無理があります。と言いますか、もしかして0秒に到達する可能性は有るのでしょうか?理論的な限界点って何処なんでしょうね?

シングルスレッドが横這いトレンドに転じたのが2005年~2009年頃、

マルチスレッド&SIMDが横這いトレンドに転じたのが2013年~2014年頃、

この横這いトレンドを突き抜ける可能性が有るモノは AMD Zen くらいでしょうか?
AVX-512を搭載したSkylake-EPはSuperPIでトレンドを破れるとは思えませんがy-cruncherの次期バージョンでAVX-512に対応出来れば突き破る可能性がありそうですね。

下はGPGPUの推移をグラフ化したものです。概ね継続して速度改善が為されていると言えそうすが、今年(2016)速度改善したGPUが登場しなければ横這いトレンドへ移行するかもしれません。

GPUPI速度推移00

ところでAPUの場合、GPGPU的な演算を組み込んだy-cruncherの様な物が出来るかもしれませんね。
 

SuperPI 20年の推移

追記:ハイエンド品の絶対値推移を掲載。

 筆者が所有する4号機~20号機に搭載されたXEONやOpteronなどを実測した結果を元にしていますが、モバイル系CPUの値に付いてはネット上から拾ってきた情報を適宜流用させて頂きました。デスクトップ向けCPUの値は含んでいません。

Super-PI速度推移05-2


 下のグラフは1GHzあたりの演算速度です。

 例えば近年の Intel は1GHzあたり概ね37秒ですから、これをクロックで割り算するとSuperPI 104万桁の速度が求められます。具体的な例として5GHzであれば 37秒 ÷ 5GHz = 7.4秒 です(当然ですが誤差や他の要因でピッタリ7.4秒には成らない事が多いと思います)。

Super-PI速度推移04-2

 グラフから判る通り、アーキテクチャでは2004年、絶対性能(ハイエンド品の定格動作)では2006年にIntelがAMDを追い抜きました。逆に言えば、それまではAMDの方が早かった事に成ります。にも関わらずPentium4の方が売れていた理由は当時の消費者がクロックが高い事が絶対性能で優位と信じていた為と思われます。

 SuperPIは概ねキャッシュベンチですが(テンポラリファイルが作成される為、ファイルI/Oも若干関係しているかもしれません)、当然、キャッシュの限界速度まで使い切るx87演算性能も同時に備えていなければキャッシュベンチには成りません。加えて104万桁演算で利用される8MBを効率よくキャッシュに収容出来るかどうか?も大きく関係しています。従って8MB以上のキャッシュを演算機と同じダイ上に搭載しているCPUに有利ですし、そのキャッシュ速度に概ね律速します。

 IntelのCPUは2009年に発売されたNehalem-EPで8MBのLLCをシングルダイ上に搭載して以降(XEON-MPではNetburst世代のPotomac以降は8MB共有キャッシュを搭載したCPUが有りますが、これらを除く)、長期(概ね8年間)に渡り全く変化が無い(つまり同じ構造のキャッシュを使い続けている、これ以上は向上の余地が無い)事が残念です。長期停滞にもかかわらず他社とは倍近い差が開いたまま誰もIntelに追い付けないのも残念・・・NEC(Renesas)がV30以降もx86の開発を継続していたら・・・と考えると、これまた残念です。V30以降もx86を製造していたら、そもそもRenesasは誕生しなかったかもしれません(たらればですが)。

 余談ですが Intel と AMD は両社ともフェアチャイルド・セミコンダクターからのスピンアウトで、創業者どうしの出自が同じ会社、Intel創業者の方が7~8年ほど先輩にあたります。

 AMDはシングルダイ上に8MBのキャッシュを初めて搭載したのが2011年発売のBulldozerですから、K10まではキャッシュ容量面で不利でした。これは微細化でIntelに遅れていた事が主な要因です。逆にBulldozerで搭載した8MBキャッシュは、高クロック指向のBulldozer向けにクロック耐性を高める為ではないかと思いますが、CPUクロックが3GHz程度ではメインメモリよりもキャッシュの方が遅いという衝撃的に遅いキャッシュを搭載している為、Bulldozerはクロックあたりの速度が遅くて当然です。昨年登場したExcavatorでクロック辺りの速度が急に伸びてK10を抜いた(こちらのサイトを参照しました)様ですが、恐らくBulldozer(Steamroller)の構造を元に低クロック向けに設定変更した際にキャッシュのレイテンシサイクルを減らしたのではないか?それが主な原因ではないかと思いますが真相を知りたいです。L2は2MBの様ですが、L3に関する詳細が不明です。もっとも、メインメモリより遅いL3を捨てた事でSuperPIの速度が向上した可能性すら有りますからL3は無いのかもしれません。他にもL1の倍増など各種のキャッシュ構造の見直しや分岐予測の改善もされている様ですが、そういった細かな改良はSuperPIには殆ど影響しないと思います。デュアルソケット対応の4000番台以上のOpteronはPiledriverで世代交代が停止している為、Steamroller以降は筆者の視界の外でしたが、K10を超えて進化しているならSocketG34のOpteronにもExcavatorのラインナップを追加して欲しいものです。仮に2016年後半に登場すると言われているZenがExcavatorの1.4倍速に成るとすればGHzあたり48秒、3GHzで16秒、4GHzで12秒ですが、もしZenが8MB以上の高速キャッシュを搭載しているなら話は別です。SkylakeにSuperPIで追い付く為にはExcavatorの1.7倍速程度が必要ですが、高速キャッシュを8MB以上搭載しているならばIPCが1.4倍速でもSkylakeに追い付く可能性が有ります。しかし絶対性能は当然ながらクロック耐性次第です。

 ATOMの結果をグラフに追加で描画して驚愕しました。一昨年Avotonデュアルマザーを記事に書きました時に薄々気付いてはいましたが、ここまでスコアが伸びていたとは驚きです。AMDがExcavatorの設定を突如軌道修正して省電力と低クロックに最適化した理由も Silvermont の脅威に押されて対応した側面が有るのではないかという気がしてなりません(猫系APUと同じ味付けにしたのかも?)、両社ともARMに押された側面もあるかもしれません。InOrder型で512KBしかキャッシュを搭載していなかった初期のATOMに比べ、OutOfOrderかつ2MBのキャッシュを搭載したSilvermont以降のATOMは全く異なる性質のCPUです。SilvermontはK10のカタログスペックに近いですし、実際にグラフ上もK10と拮抗していますが、もちろん消費電力は後発のSilvermontの方が低いです。もっと言えばSilvermontはATOM系アーキテクチャの系統ではなく、実はCoreDuo(Yonah)をシュリンクしただけじゃないか?と思う様なスコアですがアーキテクチャに関するブロック図を見ると全くの別物です。この様にATOMブランドから乖離した性能の為か、製品名にもPentiumやCeleronを冠した物が登場し始めている様で、アーキテクチャと商品ブランド名が混沌として良く判らない物になっています。とういうか実際にCoreDuoを微細化すればATOMっぽい製品が出来そうだと思いますが、どうなんでしょう・・・

 VIA は昨年(2015年3Q)出荷開始した28nm版で演算機自体を高速化した様ですが、SuperPIに影響を与える様な個所ではないと思いますので、共有キャッシュ容量が 2M -> 4M に増量した事が高速化した主な原因かもしれません(共有キャッシュである事はCoreinfoで確認)。 逆に L1キャッシュは 64K -> 32K に半減した様です。キャッシュを増量しても未だ8MBの半分の4MBしか搭載していない事が104万桁が他社製に比べて遅い原因だと思いますが、それに加えてメインメモリもシングルチャネルでメモリ帯域を細くして省電力化している為、これも影響していると思います。後ほど4MBの共有キャッシュに収まる52万桁で測定して検証してみようと思います。

 参考までにy-cruncherの推移です。

y-cruncher速度推移02

 こちらはSSE3以降のSIMDを使った多コアCPU向けにチューニングされている並列演算ベンチです(SSE3を搭載していないCPUでも バージョン v0.5.5.9180 x86版 を利用して同一アルゴリズムで計算できます)。桁数が2桁多い為キャッシュベンチというよりもメモリ帯域ベンチに近いと思います。

 こちらも2011年以降伸び悩んでいますが、唯一、2014年に登場したHaswell-EPのみがAVX2とFMA3を使う事で5秒の壁を破りました。次に壁を破るのはSkylake-EPで有効化されるAVX-512と6ch-DDR4の組み合わせか?或いは新アーキテクチャのAMD Zenか・・・
   
プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて20台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR