CPUが倍精度1TFLOPSを超えるのはいつか?

まず、AVX-512がXEON-PhiではなくXEONやAMD-Zenに導入されるタイミングで恐らく倍精度1TFLOPS超えを同時に実現してくると思うのです。恐らく今年の年末から来年までの間に達成されるのではないでしょうか?

Broadwell-EPか、Skylake-EPか、いづれにしろ2015年内も有り得るほどの近々の話題ではないかと思われます。もう既にES品は出回っているのかもしれません。

AVX-512は恐らく64Bitの倍精度積和算限定であれば8個同時×2積和算演算機=16同時演算@1クロックになると思うのです。

すると、
 1コア辺り3GHzとすると48GFLOPSですから、1TFLOPSを超えるには21コア
 1コア辺り2.8GHzとすると44GFLOPSですから、1TFLOPSを超えるには23コア
 1コア辺り2.6GHzとすると41.6GFLOPSですから、1TFLOPSを超えるには24コア
になるかと思います。

現状のHaswell-EPが最大18コアでAVX-TurboBoostが最大3.3GHzですから、上記のスペックは充分有り得る話だと思うのです。ちなみに倍精度演算のピーク性能は恐らくこの世代でもHyperThreadを無効にしないと出せないと思うので物理コア数がカギとなるでしょう。

数年前から、XEONと同じソケットで動作するXEON-Phiが登場すると言われているのは、この1TFLOPSを超える予定のCPUの事を言ってるのではないかと思うのです。

最近、Intelが新しいシリコンインターポーザやHBM用らしきソリューションを比較的安価に展開し始めたのは、AVX-512をCPUに搭載した場合のピーク性能を引き出すためのメモリ帯域を持ったDRAMモジュールをサードパーティーが量産出来る様に準備しているのではないか?という気がしてなりません。

インテルは、過去に、メモリ帯域を拡大しようとして、RAMBUSで失敗(AMDはDDRを選択しIntelも後追いで追従)し、FB-DIMMで失敗(AMDはNUMAを選択しIntelも後追いで追従)し、と2度ほど大きな失敗をして2度ともAMDの手法をそっくり真似る事を繰り返していますので、今回は慎重かつスピーディーにHMB搭載DIMMモジュールの様な物を量産出来る体制へ向けての足場固めから少しづつやっているのかもしれません。その場合、もしかしたらAMDが追従できないような政治的な仕掛け(独自特許で独占する様な仕掛け)も周到に準備しているのではないかという気がするのです。

対するAMDですが、来年(2016年)は Zen というコードネームの新しいアーキテクチャでx86-64を投入するらしいので、既にα版くらいのES品がTyanあたりの一部の技術者には渡されているかもしれません。もう演算機を2コアで共有する構造はしないと言っていますし、これもAVX-512を導入するなら1TFLOPSを超える可能性が有りますね。もしくはGCNを統合してFUSION構想を完成させた形のベクトル演算命令がx86-64の拡張命令として採用されるのかもしれず、これならいきなり倍精度2TFLOPSを超えてくるかもしれませんね。来年登場のZenは32C/64TらしいのでAVX-512で積和算同時なら2GHzで1TFLOPSに到達します。そしてAMDは、どうやってメモリ帯域問題を解決してゆくのか・・・

色々と楽しみですね。
 
 
関連記事
スポンサーサイト

コメントの投稿

非公開コメント

No title

はじめまして
いつもではないですけど、たまに記事を読ませてもらってます

しかし、CPUで倍精度1Tとか凄い時代になったもんです
ハイエンドGPUが最近やっと到達したばかりだというのに、時代の進歩はすごいですね

それと、メモリについてですけど、HBMはAMDとhynixの共同開発かつ標準規格なので、Intelが独自特許独占は出来ないと思いますよ
AMDなら立場上は出来そうですけど、普及の妨げにしかならないからしないからしないでしょう

それと、2/20にZenの32コア64スレッドのOpteronを2016年に投入するらしいことを発表しましたね

PhiやZenとかのメニーコアで1T超えが今後は流行るんでしょうかね

Re: No title

rabbitさん、はじめまして。

> いつもではないですけど、たまに記事を読ませてもらってます

どうもです、適当に書いてますから気が向いた時にでも

> しかし、CPUで倍精度1Tとか凄い時代になったもんです
> ハイエンドGPUが最近やっと到達したばかりだというのに、時代の進歩はすごいですね

ですね、
今後のトレンドは多コア化と低クロック化(並列度が低い場合のみ局所的にTurboBoostを効かせて既存プログラムに対する性能は温存する)だと思います

> それと、メモリについてですけど、HBMはAMDとhynixの共同開発かつ標準規格

おぉ、標準規格だというのはJEDEC関連の記事で見た気がしますが、AMDとhynixの共同開発というのは知りませんでした。情報有難う御座います。

> PhiやZenとかのメニーコアで1T超えが今後は流行るんでしょうかね

逆に言うと、それ以外に判り易いアピールポイントが無くなってきたのかも?

No title

純粋なCPUではなくAPUとしてですけど、
Hawaii以降のAMDのGPUは単精度の半分で倍精度演算ができるので、PS4が単精度1.8Tだから、倍精度に対応するなら0.9Tになって1Tまでほんの少しになります
ちょっとクロックを上げるか、PS4は350mm2位なので400mm2位のAPUを作れば倍精度1T行けそうですね

Re: No title

> ちょっとクロックを上げるか、PS4は350mm2位なので400mm2位のAPUを作れば倍精度1T行けそうですね

そうですね~
逆に、PS4で1TFLOPSにしておけば宣伝文句として使えただろうになぜやらなかったのか気に成ります。

もう既に達成可能なのでしょうから、あとは投入時期と、どういった形で投入するか(AVX-512なのか?それとも独自の拡張命令なのか・・・)という事だと思うのです。

No title

そういえば、2017年にはハイエンドGPUを統合したハイエンドAPUを投入するらしいです
HPC向けらしいので、PC向けに出ることはないと思いますけど、出たとしたら相当すごいものになりそうです

14nmでのハイエンドGPUと言ったら、28nmのFIJIこと390xの倍くらいということですからね
まあ、CPUコア積むために、ハイエンドよりは多少劣る程度になるでしょうけど
それでも、390x並の性能は備えてるでしょうか
CPUコアもbulldozer系よりはるかに小さそうなZenを積むので、8コアや16コアくらいはあるかもしれません

Zen32コアが1TFlopsとすると16コアだと0.5Tというところでしょうか
GPUは390xが単精度が8T位らしいので、倍精度は4Tとして、合わせたら4.5TFlops位になります

dGPUじゃなくAPUとして5T近い倍精度性能を出せる可能性があります

ハイエンドAPUで4.5TFlopsとか、下手なdGPUじゃ太刀打ち出来ないくらいの高性能ですね
そんなのが後2年で出てくると言うんですから、非常に楽しみなところです

Re: No title

> そういえば、2017年にはハイエンドGPUを統合したハイエンドAPUを投入するらしいです

たぶん、AMDはFUSION構想の具体的な実装をOpenCLからHSAにシフトし始めているのではないかと思います。
どちらにしても、そのGPUはGPUというよりもアクセラレータというかベクトル演算機の位置づけだと思うのです。GPUとしての機能があれば、どちらかと言えばそっちが付随的な。

> HPC向けらしいので、PC向けに出ることはないと思いますけど、出たとしたら相当すごいものになりそうです

個人で手の届くOpteronだったら買いたいですね。

> 14nmでのハイエンドGPUと言ったら、28nmのFIJIこと390xの倍くらいということですからね

楽しみですね。

> CPUコアもbulldozer系よりはるかに小さそうなZenを積むので、8コアや16コアくらいはあるかもしれません

Zen
楽しみです。どんなコアなんでしょうね

> GPUは390xが単精度が8T位らしいので、倍精度は4Tとして、合わせたら4.5TFlops位になります

AMDのアーキテクトが確か言っていたと思うのですがTFLOPS級になるとメモリの帯域もそれに合わせて向上させる必要があるので、技術的にはそっちの方が問題みたいです。

その意味でPS4の構造は興味深いです。前哨戦かもしれません。

> ハイエンドAPUで4.5TFlopsとか、下手なdGPUじゃ太刀打ち出来ないくらいの高性能ですね
> そんなのが後2年で出てくると言うんですから、非常に楽しみなところです

ですね。

そうなると、CUDAの存在価値が一気に薄れてくるので、nVidiaの動向も注目してゆきたいです。
HSAはARM陣営も参画してる様なのでTegraを拡張するのかもしれませんが、VIAが今年出すと言われてるx86-64とくっついたら、Intelの合わせて三つ巴になって面白そうなんですよね。

No title

度々すいません

気にされているメモリ帯域ですが、その解消のためにAMDはhynixと組んでTB/s級の帯域も可能なHBMを開発しました

また、今日発表された次世代OpenGL(Vulkan)とOpenCL2.1の中間言語での連携は、仮想メモリやhUMAに対応したAPUに最適な環境といえそうで、
ハイエンドAPU+HBM+Vulkan+OpenCL2.1の組合せは、AMDのIntelやNvidiaを打ち破る秘密兵器になりそうです

ちなみに、x86とGPGPUの両方を仮想メモリで連携できるAPUだからこそ可能な環境なので、どれかが抜けるNvidiaやIntelはちょっと追随できそうにありません

Re: No title

> 気にされているメモリ帯域ですが、その解消のためにAMDはhynixと組んでTB/s級の帯域も可能なHBMを開発しました

その様ですね。
HBMはオンボードやシリコンインタポーザ前提なのか?それともDIMM形式での実装が可能なのか?どうなんでしょうね?

> ハイエンドAPU+HBM+Vulkan+OpenCL2.1の組合せは、AMDのIntelやNvidiaを打ち破る秘密兵器になりそうです

いよいよFUSION構想の最終段階でしょうかね。

> ちなみに、x86とGPGPUの両方を仮想メモリで連携できるAPUだからこそ可能な環境なので、どれかが抜けるNvidiaやIntelはちょっと追随できそうにありません

Intelは遅れてでもIrisを拡張するか、AVX-512で巻き返すかすると思うのです。製造プロセス技術でリードしてる強みは大きいと思うのですよね。
nVidiaはARMだけなのかVIAと組んでx86-64を取り込むのか?に興味深々です。VIAと組む路線は無いのかなぁ?

↓は4年前に書いた記事ですが、この戦い決着がつくのでしょうかね?
http://dualsocketworld.blog134.fc2.com/blog-entry-161.html

No title

>Intelは遅れてでもIrisを拡張するか、AVX-512で巻き返すかすると思うのです。
IntelのGPUは実用の性能はイマイチですし、そもそもDX12のドライバをまともに作れるのかが問題でしょう
>製造プロセス技術でリードしてる強みは大きいと思うのですよね。
そのハンデを補えるのがAPU+Radeonの組合せでしょうか
Vulkan+OpenCL2.1の組合せは、APU内部のCPUとiGPUの連携と、iGPUとdGPUの連携を同時にこなせるため、CPU+iGPU+dGPUのシステムレベルでのヘテロジニアスプロセッシングが可能ということになります
これは、iGPU+dGPUが両方Radeonであるからできる事で、Intelの場合構造が全く異なるGeforceとの連携になるため、AMDよりも遥かに難易度が上がります
>nVidiaはARMだけなのかVIAと組んでx86-64を取り込むのか?に興味深々です。VIAと組む路線は無いのかなぁ?
今のVIAは下手すりゃARMより低性能なので期待薄かと

Re: No title

> CPU+iGPU+dGPUのシステムレベルでのヘテロジニアスプロセッシングが可能ということになります

えぇ、私はこれを10年待ちましたw
ATi買収から正確には9年弱ですが、当時の衝撃は記憶に鮮明です。

> Intelの場合構造が全く異なるGeforceとの連携になるため

Intelの場合、ヘテロジニアスな方向へ向かうとすればXEON PhiもしくはIrisの拡張だと思います。
既に開発環境としてはC++ソースに数行追記してリコンパイルするだけの状態ですから連携を開発者があまり考慮しなくてよい状態ではあります、それ故に効率は悪そうですが。

> 今のVIAは下手すりゃARMより低性能なので期待薄かと

VIAのnanoは、なかなか高性能ですよ。
http://dualsocketworld.blog134.fc2.com/blog-entry-279.html

それに、今年、VIAは新たなx86-64を出すらしいので、もう少し性能UPするかもしれません。
プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて20台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR