ボトルネックを探せ@17号機 Asus Z9PE-D8 WS

ボトルネックを探せシリーズ第四弾

今回は17号機のダイヤグラムを将来的な構成で(CPU以外は現状を、GPUは現在GTX780tiを2基搭載を)書いてみました。今迄で一番巨大です。(4K2Kより縦方向に若干大きいです)
No17_Diagram10.png
※物理配置的にはGPUをもう一枚挿せますし、ARC-1882iをPCIe x8スロットへ移動すれば3スロット仕様GPUの2枚挿しも可能です。

DSC01634.jpg


ノースブリッジが完全にCPUに内臓された為、構造上のボトルネックは最大限回避されていて、今後しばらくはこれ以上望めそうも無い所に達していると思いますが、CPU間のQuickPathがメモリ帯域に満たない為、リモートノードのメモリへのアクセスがボトルネックに成る可能性があります。つまり次期ソケットではQPIを3~4本に増やしたXEON E7系が登場するかもしれませんしQPIがQDR(Quad-Data-Rate)に成るかもしれません。

他に強いて言えば、Z9PE-D8 WSのPCIeスロット1~4の信号線に挿入されているx8⇔x16切り替えバッファ(スイッチ)が悪影響を及ぼす可能性が有るかも?という程度です。

CPU間を結ぶQPIがマニュアルによりますと2本接続と書いてありましたので片側32GB/sの全二重ですから合計64GB/sです。これが何を意味するかと云いますと、合計32GBのメインメモリ全域にアクセスするのに理論上は1秒掛からないという事です。後ほど帯域を実測してみますがクアッドチャネルではバス幅が256Bitですから相応の命令セットで測定しないとピーク性能は出せないかもしれません。

実測してみました@XEON E5-2603
SandyMEM2.png
この様にCPUが異なるとは言え理論値の概ね1/10しか出ませんでしたorz
但しPentium4時代の測定ツールで32Bitのシングルスレッドです。

Sandra2012 SP5c でキャッシュと主メモリの帯域測定をしてみました。
SandyMEMCache2.png
計測方法でこんなにも違うんですね。
測定中にCPUとメモリの負荷をモニタリングしていましたら、どうやらSandra2012は全コアを使ってメモリに負荷を掛けている様です。4GBブロックで33GB/sしか出ないのは計測に使ったメモリの配置が片側ノードに偏った結果かもしれません。

CrystalMarkは32Bitですし古い物ですからSSE4とかAVXなんかは使っていないと思いますが、こんな感じの微妙な結果です。
SandyMEMCM.png
測定中にCPUとメモリの負荷をモニタリングしていましたら、どうやらCrystalMarkはメモリ帯域の測定を4スレッド固定で行っている様で、4スレッドを全て1つのNUMAノードに限定すると計測結果が半分程度に成る事と、NUMAノードを限定しない場合は計測値が測定の都度乱れる事から推測しますと、4スレッドで各スレッドが個々にメモリをアロケートし、その合算帯域をスコアにしていると思われ、かつ、NUMAを無視したプログラミングに成っていて、ローカルメモリとリモートメモリを意図せずランダムにアクセスした結果としてスコアが乱れると思われます。
また、恐らくコアとスレッドを固定していない為、キャッシュ帯域の計測が不正確で計測の都度スコアが大きく乱れます。

IntelのCPU向けにはパフォーマンスモニターの機能を拡張するツールが提供されていますので、後ほどこのツールを使って更に検証を続けてみます。
スポンサーサイト

Asus Z9PE-D8 WS で Quadro 4000 が SLI 出来ない件

この記事に書いてある事はQuadro 4000の微妙な扱いも含めnVidiaによるQuadro SLIの認証方針が変化しつつある事に起因するのかもしれません、詳しくはQuadro SLI の謎として別記事に書いています。

記事掲載当初のASUS Japan からの回答
「今現在、ASUSのマザー、システムなどはQuadro SLIをサポートしておりません
何故なら、特殊なBIOS codeが必要です。」


若干、違和感のある日本語が何となくASUS本社のある台湾っぽい印象で少し好印象に伝わってきましたw

本題ですが、つまり、BIOS修正でQuadro SLIに対応出来るけど、ライセンス上それが出来ないと言う事でした。
以前試したSLI-Patchの様な形で個人的に対応するしかないと暗にヒントをくれたのかもしれません。

けど、それって天下のASUS様がWorkstation用を謳うSLI対応マザーにしては???ですよね。

古いマザーですがASUS A8N SLI SEが偶然目の前にありましたので試したところQuadro 4000でSLI出来ました。

(中古PCケースをオークションで落札した際に偶然中に入っていたマザーが、こんな時に役立ちました)

つまり、最新DP-XEONのWorkstation用マザーではQuadroでのSLIを全面禁止しているけれども、少し古い普及価格帯のマザーでなら最新ハイエンドQuadroでのSLIを許可しているって事でしょうか?
※Quadro4000はnVidiaのHPではハイエンドカテゴリに入っています

少々いじわるな書き方かもしれませんが、
何のためのQuadro SLIなのか、さっぱり判りませんね。

筆者が過去に組んだPCのうち、下記の2台では Quadro SLI が何ら問題なく出来ます。この2台は本来のWorkstation用マザーなので何ら不思議ではありませんし、むしろ当然の事として筆者はこれらと同様の対応を期待した訳です。
11号機SuperMicro H8DCi
   (HomePage上の記載:High Performance Economical Workstation)
15号機Tyan S2915A2NRF-E
   (HomePage上の記載:Built for high-end workstation)

ここに掲載していない代理店経由の回答等を含めSLIの可否を総合的に表現しますと・・・
1:nVidia製チップセット搭載マザーにはSLIの制限が無く、基本的にどれでもSLI可
2:nVidia製チップセットを搭載していないマザーはGeForce/Quadro個別にライセンスが必要
3:Quadro SLIは過去にマザー単体でライセンスした事が無くシステム全体で認証試験してきた
※:上記はSLIの基本的な決り事(基本的に同一GPUである事や、ブリッジの取り付けなど)が正しくされている事が前提

これらを踏まえた上で、筆者はあえて述べたい。
「Workstation用マザーを謳う以上、ASUSがnVidiaに政治的に働きかけてQuadro SLI認証を取得して欲しいし、それが出来て初めてマザーボードのパッケージにWorkstation用を謳う事が出来ると思う。逆に、Quadroでの利用を否定し、GeForceでの利用にフォーカスした製品であるなら(実際そうですが)、型番末尾の“WS”やパッケージに記載されたWorkstationの文字を削除し、代わりにハイエンドゲーミングマザーの称号を与えて4GamerなどでEVGA SR-2/SR-Xと対決しているのが相応しい」

nVidia MAXIMUS に付いても同様です。


以下、ASUS への問い合わせに至った経緯です



こちらが、本題のマザーです。

Asus Z9PE-D8 WS
DSC01634.jpg

このマザーで予定している主な用途は、
1:GPGPUベンチマークの開発&テスト。特にCUDA関連
2:Adobe CS5.5 を使ったハイビジョン動画編集(主に自分で撮影した動画)
の2点です。

このマザーはSLIが組める事を正式にうたう数少ないXEONマザーです。
DSC01741.jpg
※赤矢印参照
この様に、WorkstationとしてSLIやGPGPUで使う為のマザーとして売られています。

メーカーが 2~4Way-SLI までサポートする事を宣伝文句にしていますし、SLIブリッジも3種類同梱されています。

現時点でSandy世代のDP-XEONでSLI出来るマザーは、このマザーとEVGA SR-Xのみで、かつSR-Xはこの記事を掲載した時点では未だ入手出来ませんので、事実上はこの製品のみです。

ですが、実態は・・・

まず最初に試して起動失敗した構成(CPUを付けて起動するとPOSTCODE 62で停止)
DSC01728.jpg
PCIe #1:Tesla C1060
PCIe #2://////////
PCIe #3:Tesla C1060
PCIe #4://////////
PCIe #5:Quadro 4000
PCIe #6:Areca ARC-1882i
PCIe #7:Quadro 4000
この構成は手持ちのグラボのうちWorkstation用かつGPGPUとしてCUDAが利用出来るグラボをマザーの最大レーン数で使える様に(つまり最大のパフォーマンスが出るであろうと想定して)考えてみた配置です。Tesla C2070もありましたが総合的(消費電力や排熱などのバランス的)に考えて断念しました。
この構成で起動しない理由は、恐らくTesla C1060にディスプレイ表示機能が無い事が原因でPOSTの途中で止まったのではないかと思います。つまりグラボの優先順位がPCIe #1から順になっている様で、BIOSでは順番を変更する項目が有りません。従いまして、この順番は固定なのだと思います。

そこで、上記の構成でオンボードのGPUをENABLE(つまり使える様)にしてオンボードGPUをプライマリに設定し起動してみましたらOSのインストールまで出来ました、ですが、ドライバを導入してもQuadro4000が両方機能しません。なぜかディスクトップで右クリックしてnVidiaのプロパティを見るとハイブリッドSLI関連の情報が出てきます。不思議な事にTeslaのみ演算デバイスとして使えますが、Quadro4000は画面表示のみならず演算デバイスとしても機能しません。

構成を下記の様に変更しましたらオンボードGPUを利用しなくとも正常起動しOSを入れドライバも正常に適用出来ました。ですが、7スロット越しのSLIブリッジが存在しない(最長は6スロット越えの12cm品、このマザーに同梱されていたのも12cm品でした)為、物理的にSLIが出来ません(SLIブリッジを自作すれば出来るかも?)
DSC01733.jpg
PCIe #1:Quadro 4000
PCIe #2:Areca ARC-1882i
PCIe #3:Tesla C1060
PCIe #4://////////
PCIe #5:Tesla C1060
PCIe #6://////////
PCIe #7:Quadro 4000
この状態なら、4枚のGPUは全て演算デバイスとして機能しましたし、ディスプレイの表示も問題なく出来ましたが、SLIが出来ませんし、PCIe #1 が x8モードです。

そこで、試しにブリッジが届く配置に変えてTeslaを外してみましたが、SLIは有効に出来ませんでした。
DSC01736.jpg
PCIe #1:Quadro 4000
PCIe #2:  || SLIブリッジ
PCIe #3:Quadro 4000
PCIe #4:
PCIe #5:
PCIe #6:
PCIe #7:Areca ARC-1882i
nvidiacp.jpg
nvidiacp2.png
この様にSLIを選択する事が出来ません。
※ちなみに、このQuadro4000は15号機では普通にSLI出来ます。

この後、他に5パターンほど試してみましたが、どれもSLIが出来ませんでした。
写真のブリッジケーブルの他に、マザー同梱の12cm品も試しましたが駄目でした。
BIOSも新しいのが出ていたので更新してみましたが駄目でした。
TESLA関連らしきジャンパが有るので、それも切り替えてみましたが駄目でした。

試したパターン1:
PCIe #1:Quadro 4000
PCIe #2:  || SLIブリッジ
PCIe #3:Quadro 4000
PCIe #4:
PCIe #5:
PCIe #6:
PCIe #7:Areca ARC-1882i

試したパターン2:
PCIe #1:Quadro 4000
PCIe #2:  ||
PCIe #3:  マザー同梱12cm SLIブリッジ
PCIe #4:  ||
PCIe #5:Quadro 4000
PCIe #6:
PCIe #7:Areca ARC-1882i

試したパターン3:
PCIe #1:
PCIe #2:Areca ARC-1882i
PCIe #3:
PCIe #4:
PCIe #5:Quadro 4000
PCIe #6:  || SLIブリッジ
PCIe #7:Quadro 4000

上記のパターンでBIOSを0311から0405に更新して同様にパターン4~6として試しました。

ドライバは、下記の3種類を試しています。
Quadro/Teslaドライバ 267.79
Quadro/Teslaドライバ 276.52
Quadro/Teslaドライバ 296.35

このマザーはSLIが出来る事を宣伝文句にしていますし、同時にWorkstation用をうたう訳ですから、QuadroシリーズでSLIを組む事が前提の設計であろうと当然の様に考えると思うのですが…


では、GeForceではどうでしょうか?

試しに15号機に使っているGTX580を抜き取り、挿してみました。
DSC01743.jpg
※GeForceはQuadroやTeslaと違い裏面が剥き出しなのでCPUクーラー(特にファン固定用のテンショナ)に接触しない様に細心の注意が必要でした。

こちらは問題なく一発で普通にSLI出来ました。
gtx580cp.jpg

えェ~~~なぜ???
製品の箱にWorkstationって書いてあるじゃないですか!
それなのに、どうしてQuadroではSLI出来なくて、GeForceではSLI出来るんですか???
実はWorkstation用として作ったのではなくEVGA SR-Xに対抗してゲーム用に作ったんですか?


というかゲーム色の濃いEVGA SR-Xの方はSR-2に引き続きnVidia製ブリッジを間に挟んで7スロット全てx16信号にするみたいな事をどこかで読んだ(不確かな記憶)ので、ブリッジを経由する関係で無条件にQuadroのSLIにも対応する事に成るんじゃないでしょうかね?

今後、BIOSやドライバの更新でQuadroのSLIにも対応してくれるのか?
Kepler世代のハイエンドGPU(GK110)ではどうなるのか?

Asusは、やってくれる子なのか? それともコレで終わっちゃうのか?

17号機のその後

開封時点でつまづいた17号機ですが、今はこんな状態です。
DSC01728.jpg

マザーがE-ATXではなくSSI-EEBなので固定穴の位置が3箇所異なり、ケースを加工して固定しました。

あとはCPUとメモリを挿すだけで起動試験が出来るところまで組みました。
但し、マザー上のUSB3.0コネクタがグラボに隠れてギリギリ使えないのをどうしようか?と・・・USB3.0の凸コネクタ側を加工してグラボに干渉しない様に取り付け出来ないか試行錯誤・・・する前に、この構成でPOSTしOSが入るのか?少々不安もあります。
 
とにかく起動確認が出来るまで改造は出来ませんね。

追記:(15日)
CPUとメモリを挿して起動してみましたら、POSTCODE 62 で停止しましたorz
というかPOSTCODEを表示するLEDがマザーに搭載されているのは非常に有り難いですね。これでマニュアルにPOSTCODEの意味が網羅されていれば文句無しなんですが => 製品付属のマニュアルには記載がありませんでしたが、更新版(AsusのHPからDLできる最新のマニュアル)にはQ-Codeという名前で記載されていて、コードの個々の説明が簡素に記載されていました。

原因は概ね察しがつきます。
恐らく PCIe #1 に挿したTesla C1060がグラボでありながらディスプレイ表示機能が無い為だと思います。

そこで、オンボードVGAのピンヘッダからDsub15ピンを取り出しオンボードVGAをイネーブルしてみましたら、上記の構成でも起動し、OSインストールまで出来ました。
但し問題発生です。 
Quadro4000とオンボードVGAが競合もしくはハイブリッドSLI関連のエラーになり、オンボードVGAしか利用出来ません。

で、こんな構成にしてオンボードVGAをDisableしてみましたら全て正常動作しました。
DSC01733.jpg
PCIe #1:Quadro 4000
PCIe #2:ARC-1882i
PCIe #3:Tesla C1060
PCIe #4:///
PCIe #5:Tesla C1060
PCIe #6:///
PCIe #7:Quadro 4000

つまり Quadro 4000 を PCIe #1 に移動した訳です。
但し、この構成だと PCIe #1 が x8 リンクに成ってしまい、更にSLIブリッジを自作しないといけないというデメリットが有る訳で…当初の構成なら全てフルリンクですが、仕方ないですね。BIOS弄ってどうにかならないか探ってみようと思います。

ちなみに、ドライバがあたるまでは爆音ですが、ドライバがあたって温度管理が機能しはじめると低負荷ならエアコンよりは静かに成ります。

ASUS Z9PE-D8 WS

筆者にとって2台目のASUSデュアルマザーです。(1台目はコレ

Asus Z9PE-D8 WS
DSC01634.jpg
照明が駄目で暗い感じになってしまいました。光物パーツが多いと素人には明るい撮影が難しいです・・・

4Way/3Way用SLIブリッジが付属している点が特徴で、DP-XEONでSLI正式対応板はEVGAのSR-Xとこの板しかありません。

とwktkしながら何気に裏を見ましたら
DSC01637.jpg
CPU1側のMOS-FETの露出に違和感を感じて、???と赤線で囲った部分を眺めていましたら、これって、たぶんCPU1側のMOS-FET放熱板が上下逆に取り付けられていて、このままではMOS-FETが冷却できませんよね?・・・

つまり、
DSC01637-2.jpg

ASUSやってくれちゃってます・・・

早速、交換依頼を出しましたが、ロット全てがこうだったら回収騒ぎですよね?
他の個体はどうなんだろう?

悪い事は重なりまして、いつもなら2個同時に買う訳ですが、今回は流通量の関係で1個のみ先行購入したという事情もあり、自分で他の個体を確かめられないんです。

それとも、これで正常なの???
 
ネジだったら自分で上下逆にするとか出来そうだけど・・・と思って現物を再確認したらネジ止めでしたので自分で治せそうです・・・がそれやっちゃっても保障効くんですかね?自分で上下逆に戻しても保障効くなら返送の手間を考えると自分でやっちゃうんですが・・・ 

いやしかし、普通は気付きませんよね?
怖い怖い、この時を思い出しました。

Google先生に聞いてみましたら、騎神館Netさんが公開されている画像では、思った通り放熱板が筆者の入手した個体とは上下逆でMOS-FETが放熱板で覆われていました。(あれ、でもこの画像ってvr-zone.comが薄く写ってますが・・・)

筆者がハズレを引いただけかもしれませんね。

余談ですが、PCIeスロット裏側のピン数から実際の信号本数がすぐわかりますね。スロットの色だけだとなんとなく確信が持てないのですが、こうやって物理的に結線されていると安心です。積層セラミックのカップリングが何個入ってるかまで見ればもう確実ですが、TyanやSuperMicroの板と違ってASUSは信号本数の切り替えが出来るのもあるみたいですから、一概に言い切れない面もありそうで・・・マニュアル詳しく読んでみます=>マニュアル読んでみましたら、Slot5~7は信号本数が固定ですが、Slot1~4は挿したカードによって自動判断してSlot1とSlot3がx16又はx8で、Slot2とSlot4がx8又は信号無しに切り替わる様です。筆者的にはSlot1とSlot4がx16だとグラボ2枚を隣接せずに配置出来て更にSlot7にARC-1882を挿せれば良かったのですが・・・

ところで・・・
ようやく筆者もSandy世代と思っていましたが・・・
1:為替で損(一晩で700Kほど)した為、自戒(自粛とも)
2:Keplerのフルスペックが出てこない
3:Ivyが間近
などから、板だけ手にしたまましばらく様子見になりそうです。
 
プロフィール

DualSocketTheWorld

Author:DualSocketTheWorld
自作を始めて20台目くらいになりますが、最初からデュアルソケット限定(始めた当時はデュアルスロット)で自作しており、近年になってAMD K6を試したくなりSocket7でK6-2+のシングル構成で組んだのがシングル初です。

シングルマザー(含:シングルソケットマルチコア)や4ソケット以上の自作は基本的にしませんし、メーカー製PCの改造も基本的にはしません(ノートPCのSSD化くらいはしますが・・・)

基本路線はワークステーションと呼ばれる分野での自作で、OSもWindows系であればProfesionalが主な対象に成ります。

ゲーマーの様なOverClockは行わず、WS路線としてハイエンドCPUとハイエンドGPUの組み合わせで定格或いはDownClockで発熱を抑えつつ、その時のアーキテクチャに置いて爆速かつ静音を目指し、30年以上の長期に渡り稼動状態をキープする事を目指します。

※基本的にリンクフリーです。どこでも自由にどうぞ。

※画像は時々変ります。

※お決まりの文章ですが、改造は個人の責任で行ってください。ここに記載された情報は間違いを含んでいる可能性が有り、それを元に製作や改造などをして失敗しても筆者は一切責任持てませんので悪しからず。

筆者略歴:
小学生時代にゴミ捨て場で拾ったジャンクテレビ数台を分解して部品を取り出し真空管アンプを自作、中学生時代にPC8801mkⅡsrでZ80アセンブラを始める。社会人になって初のプログラムは弾道計算、後に医療系・金融系プログラマ~SEを経て100~200人規模プロジェクトのジェネラルマネジャを数年経験、独立して起業。現在は不動産所得で半引退生活。
(人物特定を避ける目的で一部経歴を変更しています)

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
アクセスカウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR