デル eカタログサイト | デル製品 販売支援サイト
情報ガイドステーションメニュー
 |  NEC社 ベクトル型スーパーコンピューター「SX-Aurora TSUBASA」
      PowerEdgeサーバー 評価レポート
      ~ PowerEdgeサーバーのマルチベクタークーリング2.0の実力はいかに!? ~

   
       
   
       





1.ベクトルエンジンとは?

(ア)製品の特長:
NECが30年以上に渡り開発してきた、ベクトル型スーパーコンピューターを継承する「SX-Aurora TSUBASA」。 その中核コンポーネントが「ベクトルエンジン」です。 世界トップクラスとなる、単一コア演算性能と単一コアメモリ帯域を有するベクトルプロセッサをPCI Express規格サイズのカードに搭載し、1枚で2.45テラフロップスの演算性能と1.53テラバイト/秒のメモリ帯域の高性能を実現しています。 汎用言語(C/C++/Fortran)での開発が可能で、専用言語によるソースコードの書き換えなど特別な前処理は不要です。コンパイラの自動並列化機能で使いやすさと高性能を両立します。 PCIeカード型にダウンサイジングしたことにより、従来の大型機器だけでなく、タワーサーバ、ラックサーバーにも搭載でき、多様な計算ニーズ・構成ニーズに幅広く対応することを可能としています。


(イ)活用事例:
これまで「SX-Aurora TSUBASA」として、大学・研究機関の計算センターはじめ、大手企業の研究機関など、100を超える多くの企業・団体に導入され、出荷累計20,0000枚以上に上ります。 流体解析、計算化学、電磁場解析、構造解析などの分野の研究開発でのシミュレーションはもとより、 Python向けのNumPy互換ライブラリや機械学習フレームワークFrovedisにより商品レコメンデーションや需要予測、株式予測といったAI開発でも多種多様な目的で利用可能です。


(ウ) カード型SX-Aurora Tsubasaの外観:




2.NEC共創コミュニティへ参加

NECにて2020年5月に、「NEC 共創コミュニティ for SX-Aurora TSUBASA」が開始されました。 現在、多くのパートナー様がご参加されており、その中で初めてハードウェアメーカーとしてデル・テクノロジーズは2021年2月にこのパートナープログラムへ加入しました。 この共創コミュニティには様々なパートナープログラムが用意されており、その中のひとつである“Vector Engine パートナー検証プログラム”を利用させて頂き、 評価用のプログラムの提供を受け、指定されたプログラムの基本動作およびSX-Aurora TSUBASAの動作温度を評価しました。

「パートナー一覧:https://jpn.nec.com/hpc/sxauroratsubasa/co_creation_partner/co_creation_sx-aurora_partner.html




3.評価環境

今回、動作検証に使用したサーバーはPowerEdge R7525ラックサーバーです。 PowerEdge R7525は、第2世代または第3世代のAMD EPYC プロセッサーを搭載した次世代PowerEdgeサーバーです。 今回の検証では、Red Hat Enterprise 8.2 を利用し、第2世代 AMD EPYC(通称:Roma)のCPUを使用しています。 そして、このR7525では、ダブルワイド(DW)のアクセラレータカードを最大3枚まで搭載可能なため、SX-Aurora TSUBASAをフル搭載(3枚)して評価を行いました。 やはり気になるのは、大きな電力を必要とするダブルワイドのアクセラレータカードを最大枚数搭載して、サーバーの温度管理機能が正常に動作するのかどうかということです。 このあたりをポイントに評価していくことになりそうです。

「SX-Aurora TSUBASA 検証済みLinuxカーネル一覧:http://www.support.nec.co.jp/View.aspx?id=3140106285
※後に、第3世代Intel Xeon スケーラブルプロセッサー(通称:Ice Lake)を搭載したPowerEdge R750も検証を実施しました。
詳細構成は「Vector Engine動作確認済サーバー 一覧」をご覧ください。

<評価環境>
 サーバー モデル名  PowerEdge R7525 ラック サーバー
 プロセッサー  2 x AMD EPYC 7H12 2.60GHz, 64C/128T, 256M キャッシュ (280W) DDR4-3200
 メモリ  16 x 32GB RDIMM, 3200MT/s, デュアル ランク
 RAIDコントローラー  PERC H745 コントローラー
 ストレージ  BOSS-S2 コントローラー カード + 2 M.2 480GB (RAID 1)
 2 x 1.92TB SSD SAS Read Intensive 12Gbps 512e 2.5インチ PM5-R ホットブラグ対応 ドライブ
 2 x 2.4TB 10K RPM SAS 12Gbps 512e 2.5インチ ホットプラグ対応 ドライブ
 オプション  R7525 Motherboard with LOM V2
 Broadcom 57414 Dual port 10/25GbE SFP28, OCP NIC 3.0
 QLogic FastLinQ 41162 Dual port 10GbE BASE-T Adapter
 iDRAC9 Datacenter
 Quick Sync 2 (At-the-box mgmt)
 GPU 電源ケーブル インストール キット R7525
 VEカード  3 x NEC Vector Engine Type 20B-P

評価環境を準備するにあたり、2つの忘れてはならないポイントがあります。 一つ目は、サーバーの温度管理機能を設定可能にする「iDRAC9 Datacenter」ライセンスです。 このライセンスが無いと、吸気排気温度のしきい値設定やPCIeカード毎の風量(単位:LFM)を設定することができませんので、お忘れなく。 二つ目は、SX-Aurora TSUBASAには補助電源ケーブルが必要になりますので、PowerEdgeサーバーのオプションで用意されている 「GPU電源ケーブル インストール キット」を用意して補助電源ケーブル本数を確認してください。 マザーボード側から12Vの電源を供給するためのケーブルです。これも必ず必要になります。

「iDRAC9の概要:https://www.delltechnologies.com/ja-jp/solutions/openmanage/idrac.htm




4.マルチベクタークーリングのお話し

マルチベクタークーリングというのは特定の機能名ではなく、PowerEdgeサーバーに実装された熱設計イノベーションの総称になります。 次世代PowerEdgeサーバーの「マルチベクタークーリング2.0」は、 従来から新たなハードウェア設計による機能強化、 システムボードのレイアウト改善、先進的な温度制御機能から構成されます。 ハードウェア設計では、より高速な冷却ファンやCPUのヒートシンクの改善、それに加えて象徴的なものとしてはパワーサプライのレイアウト変更です。 従来、パワーサプライはどちらかの片方に寄せて2個(冗長化のため)搭載されていました。この新しいレイアウトでは、CPUヒートシンクを冷やした後の熱い空気がパワーサプライに衝突するリスクが減るため、 パワーサプライの冷却効果も改善されています。さらに、エアフロー全体の効率化によりPCIeカードの冷却改善にも貢献しており、PCIe Gen4アダプターの高密な度実装が可能になっています。



<iDRAC9 Datacenterで設定可能な温度管理に関連する項目>
  1. 最大排気温度制限(40℃/45℃/50℃/55℃/60℃/65℃/70℃)※デフォルト値:70℃
  2. 温度上昇制限(15℃/20℃/25℃/30℃/35℃/40℃/45℃/制限なし) ※デフォルト値:制限なし
  3. 最大PCIe吸気温度制限(45℃/55℃) ※デフォルト値:55℃
※画像はクリックで拡大できます

  1. サード パーティー製 PCIeカードの風量(単位:LFM)
 「iDRAC9 マルチベクタークーリングの設定画面」  ※マルチベクタークーリングのブログ記事:マルチベクタークーリング 君は本当にPowerEdgeサーバーの排気温度を下げられるのか!?




5.マルチベクタークーリングの設定を変えて影響範囲を確認

このVector Engineで動作するアプリケーションはCPUに負荷を与えない優れたエンジンのために、評価プログラムの単体テストではCPUの負荷率は0%のままでCPUの温度がまったく上がりませんでした。 完璧にVector Engineによってアプリケーションが動作している証拠ですね。これには驚きました。 しかし、CPU温度が上昇しないためシステム管理機能が冷却の必要がないと判断したためなのか 冷却ファンの回転数がほとんど上がらずに、Vector Engine内のコア(処理するプロセッサー)の温度が上昇(テスト1)してしまい、PCIeカードへ十分な冷却が行われませんでした。 これは失敗したテストになりました⤵

そこで、先ほどのマルチベクタークーリング機能の出番になります。先ほどの通り、温度に関する設定はいくつかあるのですが、テスト1の結果によりPCIeカードへの冷却が必要と分かっていますので、 PCIeカード毎の風量を段階的に設定(テスト2) してみました。それが、以下の結果です。冷却ファンの回転数も上がり、しっかりとVector EngineのPCIeカードが冷やされることが確認できました。成功です⤴

今まで、冷却ファンの性能について正直あまり気にしてこなかったのですが、この効果は驚きの結果です。 さらに、CPU負荷率を100%にした後(テスト3)、同様に評価プログラムを動作させても十分に冷却できていることが確認できました。 PCIe吸気温度が上がっていますが、まったく問題なしです。十分な冷却機能を発揮しました。

設定項目 設定値 アイドル状態 VE評価プログラム実行時(15分間の事前評価)
テスト1 テスト2 テスト3
 CPU負荷率  0%または100% 0% 0% 0% 100%
 PCIeカードの風量設定
 (LFMモード)
 デフォルト自動、または、
 最大ターゲットLFMまで設定可
デフォルト自動 デフォルト自動 最大ターゲット
LFMを設定
800
温度計測コンポーネント 温度計測項目 アイドル状態 テスト1 テスト2 テスト3
 iDRAC9  CPU1 温度
 CPU2 温度
 PCIe Slot2 吸気温度(VE0)
 PCIe Slot5 吸気温度(VE1)
 PCIe Slot7 吸気温度(VE2)
 ファン1~6PWM(最大%)
48 ℃
52 ℃
40 ℃
32 ℃
41 ℃
42%
50 ℃
54 ℃
39 ℃
32 ℃
40 ℃
43%
42 ℃
45 ℃
40 ℃
32 ℃
41 ℃
100%
 74 ℃
76 ℃
47 ℃
38 ℃
47 ℃
100%
 Vector Engine 0  Chip Core最高温度
 HBM 最高温度
41.250 ℃
38 ℃
 88.625 ℃
77 ℃
 69.250 ℃
60 ℃
 73.750 ℃
65 ℃
 Vector Engine 1  Chip Core最高温度
 HBM 最高温度
43.375 ℃
39 ℃
 90.625 ℃
73 ℃
 74.500 ℃
62 ℃
 77.500 ℃
65 ℃
 Vector Engine 2  Chip Core最高温度
 HBM 最高温度
42.250 ℃
38 ℃
 88.875 ℃
79 ℃
 73.500 ℃
62 ℃
 76.000 ℃
64 ℃




6.動作検証の手順

  1. (ア) PowerEdge R7525 ラック サーバーへSX-Aurora TSUBASA をインストール(補助電源ケーブル使用)
  2. (イ) iDRAC9 Datacenter ライセンスを確認
  3. (ウ) ライフサイクルコントローラを使用してRed Hat Enterprise Linux 8.2をインストール
  4. (エ) SX-Aurora TSUBASAの動作確認が取れているRHEL 8.2のカーネルにアップデート
  5. (オ) SX-Aurora TSUBASAのソフトウェアをインストール
  6. (カ) VE管理コントローラー (VMC)のファームウェアをアップデート
  7. (キ) NEC MPI (Message Passing Interface)の設定
 ※SX-Aurora TSUBASAの設定の詳細手順は、セットアップガイド、 および、インストーレーションガイドをご確認ください。




7.動作検証の結果

動作試験はVector Engineの評価プログラムを連続して1時間動作させた後、SX-Aurora TSUBASAのコアプロセッサーの温度を計測して判定します。 評価プログラム実行中は、10秒毎に温度が一番高いコアプロセッサーと一番低いコアプロセッサーを表示し続けますので温度上昇の経過も見ることができました。 推奨温度は、1時間プログラムが動作した状況でコアプロセッサーの一番高い温度を指定の評価軸に合わせて判定します。 その結果、32℃の周辺温度でも動作可能という判断を頂き、現在(2021年9月時点)、「Vector Engine動作確認済サーバー 一覧」の ページにPowerEdge R7525およびR750(新たに評価試験を実施済み)が掲載されるようになりました。

 システムベンダ  サーバーモデル  サーバーPCIeスペック  VEタイプ  VE数  テストサーバー
 コンフィグレーション  テスト構成時の
推奨温度
 Dell
 Technologies
 Japan Inc.
 PowerEdge R7525
 Rack Server
 Gen4
 (VEはGen3で動作)
 20B-P  3  3x Vector Engine Type 20B-P
 2x AMD EPYC 7H12
 16x 32GB DDR4-3200
 2x SSD SAS 1.92TB
 GPU Power Cable Install Kit
 iDRAC9, Datacenter
 32℃
 Dell
 Technologies
 Japan Inc.
 PowerEdge R750
 Rack Server
 Gen4
 (VEはGen3で動作)
 20B-P  2  2x Vector Engine Type 20B-P
 2x Intel Xeon Platinum 8358P
 16x 32GB DDR4-3200
 6x SSD SAS 1.6TB
 GPU Power Cable Install Kit
 iDRAC9, Datacenter
 32℃
 ※Vector Engine動作確認済サーバー 一覧:https://jpn.nec.com/hpc/sxauroratsubasa/specification/VHselection.html

「評価プログラムの実行画面(例)」


「1時間動作した後にSX-Aurora TSUBASAのステータスを確認した画面(例)」




8.評価結果のコメント(NEC様より)

SX-Aurora TSUBASA / Vector Engineの性能を充分に発揮するためには、サーバーの冷却性能が高いことが最も重要になります。

デル・テクノロジーズ様のPowerEdge R7525 ラックサーバーにおける今回の評価結果では、これまで評価を実施した複数のサーバーと比較しても同等以上の非常に高い冷却性能を発揮しており、 Vector Engineのコアプロセッサー温度も十分低い値に抑えられています。従って、デル・テクノロジーズ様のPowerEdge R7525 ラックサーバーを利用することで、 Vector Engineの性能を最大限に引き出すことができると言えます。

改めまして、今回評価いただいたデル・テクノロジーズ様に感謝申し上げます。


日本電気株式会社 AIプラットフォーム事業部 Aurora拡販グループ
デル・テクノロジーズ株式会社 パートナーセールスエンジニアリング本部 パートナーSE2部


2021/11/01


   
       
   
       

 

タグ: , , , , , , , ,