兆芯の謎

兆芯のx86ラインナップから推測出来る事は、

 ZX-A ≒ VIA nano X2 ( Isaiah/CNQ 40nm ) SSE4.1
 ZX-C ≒ VIA QuadCore-E ( IsaiahII/CNR 28nm ) AVX2

と思われますが、判らないのはKX-5000 シリーズ と KH-20000 シリーズです。
VIA Isaiah II をベースにチップセットを統合したSoCだと思っていたのですが、拡張命令がAVX2からAVXに先祖帰りしているので、もしかしたら兆芯オリジナルコア!?という変な期待感が・・・
この両シリーズは恐らく同じダイでKXとKHの違いはグラフィックとECCをそれぞれ有効/無効にしている事ではないかと思いますが確証は有りません。

IsaiahII は筆者の計測結果からFMAではない128bit演算機を2基 ( FADD と FMUL ) 搭載していると思われますので AVX2 をエミュレートしても互換性のみでSSE4からの速度向上は無く、かつFMA3エミュレートには対応していない為にHaswell以降との互換性が中途半端になりますからAVXにあえて先祖帰りさせたのかもしれません。が、単純なチップセット統合だけではない(AVX以外にもキャッシュ容量が増量しているなど)違いが有ります。キャッシュが8MB有りますからSuperPIはそこそこ高速に動作するハズで、今年登場する予定の16nm 3GHz 8コア品は結構遊べるコアに成る可能性があり、これをデュアルBGAで搭載した16コア品が有ればSoCなので必然的にNUMAになるはずで、手に入れてみたいです。
 
 
 
スポンサーサイト

中華帝国

『眠れる獅子』と云われ筆者が子供の頃は人民服を着た労働者が自転車で通勤ラッシュと公園の広場で太極拳といった牧歌的というか二胡・馬頭琴的光景が記憶にありましたが、米国や日本が大規模に投資と貿易を続けた結果、眠れる獅子というより眠れる吸血鬼が血を吸って目覚める如くの様相で、獅子より頭が良さそうです。昔の自転車は電動バイクや車に変わりバスの様な公共交通も整備されています。

日銀はアベノミクスで日本円を大量に発行しましたが、その行き先は日本の庶民ではなくユニクロの様に大陸に大規模工場を抱える日系企業の特定の数社だけの株に的を絞って外資ファンドから株を買ったというのが実態の様で、実質的に 【 アベノミクス = 外資ファンドの利益 】 という等式になり、国内のデフレには全く効果が無く、吸血鬼に血を吸わせただけだった様です。それを意図した確信犯だったのでしょうか!?

筆者は、昨年と一昨年、仕事の関係で上海と周辺都市を訪れ、いくつかの電子部品工場を視察してきました。

子供の頃から中華料理には親しんできましたので東南アジア諸国とくらべると料理が美味しかったという余談はおいておくとして、電子部品工場の生産現場は事前に聞いていたより荒れているというか社会主義的なノルマさえこなせば良い、どうやってノルマの範囲でサボるかばかり考えているという雰囲気が漂う低質な光景と、それとは対照的にモチベーションが高い少数の技術者と管理層の人々という構図が、どこの現場にもありました。

今は未だ世界の工場ですが、数年のうちに世界の頭脳と言える地位を獲得しそうな可能性を垣間見て鳥肌です。

例えば一例として上海に拠点を置く兆芯はVIA系x86-64サプライヤですが、VIAが今まで手をつけられなかったエンタープライズサーバ方面への本格的な進出を目論んでいる様で、ECC に対応した8コア品 KH-20000 を昨年末にローンチしています。このCPUはノースを統合して HFCBGA という独自形状のBGAを採用していますので、概ね対抗馬としては Intel Avoton (2013年 22nm 8Core 2.4GHz 4M-L2 20W) と性能的に拮抗しそうで、Intel Denverton (2017年 14nm 16Core 2.1GHz 16M-L2 32W) には及びませんが、この市場を大陸を中心として食ってゆく目論見だと思われ、近々 Denverton 対抗品(とは明言していませんがスペック的にはそうなっている)を出す計画が有ります。大陸を中心としていると言う根拠は英語ページがローンチから半年以上経過しても用意されていない為です。国策企業かもしれません。というか、上海周辺の工業地域は全面的に国策企業です。でなければ世界の工場たり得ませんから・・・

日本は昔、護送船団方式により成長しましたが、大陸は今、たぶんそれをしています。今の日本は政策に対してマスコミが足を引っ張り経済成長を阻害していますが大陸には政策の足を引っ張るマスコミが無く、逆にマスコミを政府がコントロール、加えて米国の圧力にも屈せず対抗するのでプラザ合意やBIS規制やプライマリーバランス黒字化の様な日本の成長を阻害し景気を悪くしてきた政策を誰かに強要される必要が無いのですから、日本の様に経済成長が終わる要因が今のところ無いのです。

たぶん、日米欧が何も変えなければ、早ければ数年のうちに中華帝国が完全復活し、眠れる獅子は目覚めるでしょうね。集金ペイ続投がその第1章です。

日本が今すべきは政府による大規模な公共投資や技術投資や各種優遇政策を国債で実施し、その国債を日銀が買い取る事で、逆に言えば大陸はそれによって今も成長を続けています。これは経済大国のみが実施可能な政策で、たぶん、米国・日本・ドイツ・英国あたりも実施可能です。事実、日本も過去にそれをして成長していた時期が有りましたがマスコミが叩いて潰してしまいました。

PEZYを叩いて潰したのは誰なんでしょうね・・・
こういった企業こそ国策的にじゃんじゃんじゃぶじゃぶ国が投資してゆくのが日本の成長になる訳で、スパコンなのに数億規模の助成金の誤差で東京地検特捜部が動くのが変な話で桁が4~5桁違います。むしろ数兆規模を無駄に注ぎ込むくらいして技術投資すべきで、例えばIntelの年間技術投資は数兆円規模、AMDの年間技術投資も数千億規模ですから、そのくらいの規模感で普通に考えれば数億が僅か0.1%以下の誤差でしかない事が容易に判ります。そんな誤差程度の金額でスパコントップに成った企業の社長を特捜部が吊るし上げる事がどれほど愚行なのかという事です。鼻毛カッターが付属していないという理由で特捜部が鯖メーカの社長を吊るし上げた様な笑い話を真剣にやってしまったアホな事件です。

託児所や保育所や介護施設の制度も倹約し過ぎですね。政策として大量の助成金を投じるべきで、その財源は国債でまかなえば良く、その為に増税とか言い出すからデフレがいつまで経っても終わらない訳です。
 
 
 
 

デバイスの帯域は限界に到達しつつあるのか!?

 3年前に書いたデバイスの帯域に関する記事を見ていて、ふと思いました。

 SandyBridge世代以降、デバイスの帯域が全く向上していない!

DEVICEBANDWIDTHTT_20150628035057912.png

 逆に言えば、それまでは2~4年で倍になるペースで帯域が向上している事が上のグラフから判りますが、Gen4世代のPCIeは昨年末に制定されたばかりです・・・

下表も3年前の記事からの再掲載ですが、当時から更新する必要が無いのです・・・
DEVICEBANDWIDTH_20150707073842d18.png

SandyBridge世代以降はシングルスレッド性能が頭打ちになりましたが、同様にデバイスの帯域も頭打ち状態になっていた様です。

ツイストペアによるシリアル信号通信にも、そろそろ物理的(電磁気学的)な限界が見えたという事でしょうかね!?

スピン注入メモリ STT-RAM の可能性

 筆者が子供の頃には学校で (すくなくとも大学に行くまでは) 素粒子に付いて教わる機会が有りませんで、当時は独学で勉強しましたが、今はどうなのでしょう? 遅くとも中学校くらいで概要くらいは教えるべきだと思います、でなければ素粒子関連の技術と霊感商法の区別が出来ない一般人を大量生産してしまうからです。

 1985年に開催されたつくば万博を観に行った際、素粒子(或いは素粒子より更に小さい物)を子供の私でも理解出来る様に展示してあるだろうと勝手に期待していたので、会場で物質の最小単位が原子であるという説明を受けた時には希望に満ちた夢の世界に居たのに、突然崖の上から突き落とされたくらいに残念な思いをし、科学万博というイベントに限界を感じた事を今でも覚えています。

 本題に入りますが、スピン注入メモリの速度はDRAM以上SRAM未満と解釈しています。しかも不揮発です。経年劣化的な寿命は現時点ではDRAMより少し劣る程度で半永久と考えて良いと思います。Bit化けは同様に磁気反転で記憶するHDDのBit化け頻度と同程度ではないでしょうか?その様に推測しています。

 電子部品としては1Gbitのチップが製品化されつつある様で、256Mbit品は既にDDR3互換のチップが流通していて小容量DRAMの置き換えとしてSSDのキャッシュメモリ等に利用されていると思います。DRAMの様なリフレッシュ動作は不要なので省電力低発熱で、かつ不揮発な為にキャッシュ用途に適しているからです。

 1Gbitチップが8枚あれば1GBですから、下の写真の様に片面16枚+ECC用2枚、両面で36枚搭載したDIMMを作れば4GBのDIMMが作れます。写真は普通のDRAMを使った DDR3 ECC Registerd DIMM の1例ですから、写真自体はSTT-RAMではありませんが、STT-RAMの1GbitチップはDDR3/DDR4の互換チップですから写真と同じレイアウトが可能と思われ、DDR4互換の4GB DIMMの製品が(どこかの企業が政治的に潰さなければ)まもなく登場すると思われます。この写真の例ではチップ枚数は片面が主DRAM16枚+ECC用DRAM2枚+レジスタ1枚=片面19枚、両面で38枚です。仮にチップ1枚の卸価格が千円なら4GBのDIMMは3万8千円+数百円が原価ですね。
ECCREGISTERDDIMM.jpg

 磁気メモリを考えるには永久磁石の原理を知っておく必要が有りますが、永久磁石がなぜ磁石なのか?と言えば、私の理解では、
 1:素粒子にはスピンと呼ばれる特性が有り、常に一定方向に自転している。
 2:電子は荷電粒子なので上記の自転により電子単体で電磁石化している。
 3:永久磁石は何らかの方法で電子の自転の向きを一定方向に揃えた結晶。

 逆に言えば、(永久磁石ではない)普通の物質は電子のスピンの向きがバラバラで磁気が中和された状態に成っている。と理解していますが、ではなぜ物質中でスピンの向きが一定方向に”固定”されるのか?に付いては全く理解出来ていませんが微小質量でも光速で回転する為にジャイロ効果的なものが強烈なのかもしれません。しかし、それならどんな物質でも永久磁石化が出来そうですし、コイルの鉄芯などが磁化した後に元に戻ったりする現象の説明になりません。そもそも、なぜ電子は超電導物質の様に永久機関さながらにスピンし続け磁力線を放出し続けているのか?が理解出来ていませんので、その辺りの知識を深める必要が有りそうです。

 とは言え、この永久磁石の特性と、魚釣り等で利用される偏光メガネ(偏向メガネではない)の様に電子のスピンの向きを揃えるフィルタを組み合わせた素粒子レベルでの磁気メモリがスピン注入メモリ STT-RAM (もしくは ST-MRAM / STT-MRAM ) です。素材はレアメタルではなくスズとマンガンの様などこにでもある物が利用出来る様ですから、安価で大量に作れそうな気配が有ります。

 フィルタを通過してスピンの方向が一定の電子は、同様に一定の向きに固定された永久磁石内部で磁気的に大きく影響を受けて抵抗値が変化するという性質が容易に想像出来ると思いますが、その抵抗値を1個のトランジスタ(もしくはFET)で増幅した物を 1bit として読出しに使うのが STT-RAM の様で、構造的にDRAMと同じくらい微細化出来るだろう事が想像できると思います。逆に記憶する際には、電圧を上げて一定方向のスピンを持つ電子を強引に通過させて永久磁石部分に磁気反転を起させる=スピン注入動作という事の様です。フィルタの構造(スピン注入する際の電圧にフィルタが負けて劣化するケースや、エレクトロマイグレーションが起きる可能性など)により寿命が決まるのかもしれません。HDDはヘッドの物理移動と磁性体円盤の回転が直交したタイミングで特定bit(連続してセクタ全体)へのアクセスを行いますが、STT-RAMでは古典物理的には移動する物が無く、強いて言えば電子だけが移動するのですから速度面には圧倒的な差が有り、逆に集積密度はHDDと同等以上に高められる事が容易に想像出来ると思います。

 3D XPoint に比べても速度では STT-RAM の方が2桁以上早いのですから、残るは集積面での工場現場の熟練度です。1Gbitチップが登場し、積層してHBM化してCPUの隣に配置すれば、DRAM と NAND-SSD や 3D-XPoint が不要の産廃と化す可能性が有ります。

 AMD は Zen 世代のCPUをSoC化しています (どういう訳かコンシューマ向けのマザーにはチップセットが載っていますが、21号機のマザーボードの様にチップセットが無くても動くはずです) から、Zen と STT-RAM が有ればハイエンドPCがラズパイ並の名刺サイズに収まる可能性も有り得ます。但しハイエンドPC並の性能を出すには携帯端末では電力面で不利が有りますから携帯するには2GHz以下になるんでしょうね。
 
 
 

メモリアクセスレイテンシ と 投機実行

例えば、こちらのツール(若干古いですが)を使うと概ねの実効レイテンシを簡易的に計測出来ます。

下記は一例として筆者の17号機(SandyBridge-EP)で上記ツールを使って計測したレイテンシ(レジスタは計測値ではありませんが通常1サイクルだと思いますので・・・)です。

 レジスタ : 1 clock ( 0.3ns )
 SRAM-L1 : 3.5 clock ( 1.2ns )
 SRAM-L2 : 11 clock ( 4ns )
 SRAM-L3 : 45 clock ( 17ns )
 DRAM  : 215 clock ( 80ns )

余談ですが、最近購入したi386用マザー で使える 30pin SIMM が 60ns ~ 80ns ですから、レイテンシの点でDRAMは30年以上停滞している事が判ります、Sandraでも同様の値を計測出来ます(が重たいツールのインストールや宣伝などが付属してきます)。Sandraでは「ベンチマーク」 → 「メモリーコントローラ」 → 「メモリーのレイテンシ」 → 「グローバルデータメモリ:完全なランダムアクセスパターン」を選択して計測すると上記のツールと概ね同じ値に成りました。

本題に戻って、一例として、下記の様なCPUID取得ルーチンを考えてみます。

 命令1 : レジスタEAXに定数を代入する
 命令2 : レジスタEAXに従ったCPUIDを取得する
 命令3 : レジスタEAXをメモリ上の値と比較する
 命令4 : 上記の結果が同じなら分岐
 命令5 : レジスタEAXと定数の論理積を計算する

たぶん、上記は1~2クロックで投機実行が終わるのではないかと思いますが、命令3の比較に使われるメモリ上の値を取込むまでの間は命令3以降の結果を確定出来ません。

具体的には、

 命令4の分岐予測に失敗する可能性
 命令5の論理積演算結果を破棄する可能性

が投機実行の時点では生じてしまいます。

運よくL1やL2にデータが有れば(パイプライン上で並列に取得出来れば)事実上レイテンシは無視出来るので即時結果を確定出来ますが、L3なら数十クロック、DRAMまで取りに行く場合は200クロックくらい待たされ、2クロック程度の簡単な処理の処理時間がレイテンシに依存して数百倍も掛る事になります。

レイテンシを待つ間にも命令6以降を並列して投機実行出来るかもしれませんが、命令4の分岐予測に失敗していた場合は、それらの投機実行結果も全て破棄して最初からやり直さなければなりません、その判断にもレイテンシの200クロックくらい待たされる事に成りますね。とは言え、最近は分岐の両方を同時に投機実行する様ですから、破棄してやり直す確率は低いのかもしれませんが結果を確定できない点はどうにもなりません。

DRAMのスペックが向上しているのはバースト転送速度が向上している = シーケンシャルアクセスが向上しているだけで、ランダムアクセス(レイテンシ)は向上していない様です。

これはもう主メモリやRAMと言うより、DRAM改めDSAM(Dynamic Sequential Access Memory)と捉えるか、外部記憶デバイス として捉えるべきなのかもしれません。L2までが主メモリ(RAM)で、DSAM(DRAM)はスワップストレージ、L3はスワップストレージ用キャッシュくらいの感覚で、スワップ読み込みで待たされている間は別のスレッドを処理する事に成りHyperThreadが・・・と、まるでOSのカーネル的な処理をCPU内部でという所につながってくるのですね。

人に例えるなら、

 SRAM = 暗算で即答
 DRAM = コーヒー飲みながら辞書を持ち出しネット検索して回答
 スワップ = 神保町まで古書を買いに行き読破研究してから回答

くらいの差でしょうか・・・
 
 
プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて二十数台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です(以降、Bull/nano/Ryzenと数台仮組レベルで組んでいます)。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR