情報ガイドステーションメニュー
| NEC社 ベクトル型スーパーコンピューター「SX-Aurora TSUBASA」 | |
PowerEdgeサーバー 評価レポート | |
~ PowerEdgeサーバーのマルチベクタークーリング2.0の実力はいかに!? ~ |
1.ベクトルエンジンとは?
(ア)製品の特長:
NECが30年以上に渡り開発してきた、ベクトル型スーパーコンピューターを継承する「SX-Aurora TSUBASA」。 その中核コンポーネントが「ベクトルエンジン」です。
世界トップクラスとなる、単一コア演算性能と単一コアメモリ帯域を有するベクトルプロセッサをPCI Express規格サイズのカードに搭載し、1枚で2.45テラフロップスの演算性能と1.53テラバイト/秒のメモリ帯域の高性能を実現しています。
汎用言語(C/C++/Fortran)での開発が可能で、専用言語によるソースコードの書き換えなど特別な前処理は不要です。コンパイラの自動並列化機能で使いやすさと高性能を両立します。
PCIeカード型にダウンサイジングしたことにより、従来の大型機器だけでなく、タワーサーバ、ラックサーバーにも搭載でき、多様な計算ニーズ・構成ニーズに幅広く対応することを可能としています。
(イ)活用事例:
これまで「SX-Aurora TSUBASA」として、大学・研究機関の計算センターはじめ、大手企業の研究機関など、100を超える多くの企業・団体に導入され、出荷累計20,0000枚以上に上ります。
流体解析、計算化学、電磁場解析、構造解析などの分野の研究開発でのシミュレーションはもとより、
Python向けのNumPy互換ライブラリや機械学習フレームワークFrovedisにより商品レコメンデーションや需要予測、株式予測といったAI開発でも多種多様な目的で利用可能です。
(ウ) カード型SX-Aurora Tsubasaの外観:
2.NEC共創コミュニティへ参加
NECにて2020年5月に、「NEC 共創コミュニティ for SX-Aurora TSUBASA」が開始されました。
現在、多くのパートナー様がご参加されており、その中で初めてハードウェアメーカーとしてデル・テクノロジーズは2021年2月にこのパートナープログラムへ加入しました。
この共創コミュニティには様々なパートナープログラムが用意されており、その中のひとつである“Vector Engine パートナー検証プログラム”を利用させて頂き、
評価用のプログラムの提供を受け、指定されたプログラムの基本動作およびSX-Aurora TSUBASAの動作温度を評価しました。
「パートナー一覧:https://jpn.nec.com/hpc/sxauroratsubasa/co_creation_partner/co_creation_sx-aurora_partner.html」 3.評価環境
今回、動作検証に使用したサーバーはPowerEdge R7525ラックサーバーです。
PowerEdge R7525は、第2世代または第3世代のAMD EPYC プロセッサーを搭載した次世代PowerEdgeサーバーです。
今回の検証では、Red Hat Enterprise 8.2 を利用し、第2世代 AMD EPYC(通称:Roma)のCPUを使用しています。
そして、このR7525では、ダブルワイド(DW)のアクセラレータカードを最大3枚まで搭載可能なため、SX-Aurora TSUBASAをフル搭載(3枚)して評価を行いました。
やはり気になるのは、大きな電力を必要とするダブルワイドのアクセラレータカードを最大枚数搭載して、サーバーの温度管理機能が正常に動作するのかどうかということです。
このあたりをポイントに評価していくことになりそうです。
「SX-Aurora TSUBASA 検証済みLinuxカーネル一覧:http://www.support.nec.co.jp/View.aspx?id=3140106285」 ※後に、第3世代Intel Xeon スケーラブルプロセッサー(通称:Ice Lake)を搭載したPowerEdge R750も検証を実施しました。 詳細構成は「Vector Engine動作確認済サーバー 一覧」をご覧ください。 <評価環境>
評価環境を準備するにあたり、2つの忘れてはならないポイントがあります。 一つ目は、サーバーの温度管理機能を設定可能にする「iDRAC9 Datacenter」ライセンスです。 このライセンスが無いと、吸気排気温度のしきい値設定やPCIeカード毎の風量(単位:LFM)を設定することができませんので、お忘れなく。 二つ目は、SX-Aurora TSUBASAには補助電源ケーブルが必要になりますので、PowerEdgeサーバーのオプションで用意されている 「GPU電源ケーブル インストール キット」を用意して補助電源ケーブル本数を確認してください。 マザーボード側から12Vの電源を供給するためのケーブルです。これも必ず必要になります。 「iDRAC9の概要:https://www.delltechnologies.com/ja-jp/solutions/openmanage/idrac.htm」 4.マルチベクタークーリングのお話し
マルチベクタークーリングというのは特定の機能名ではなく、PowerEdgeサーバーに実装された熱設計イノベーションの総称になります。
次世代PowerEdgeサーバーの「マルチベクタークーリング2.0」は、
従来から新たなハードウェア設計による機能強化、 システムボードのレイアウト改善、先進的な温度制御機能から構成されます。
ハードウェア設計では、より高速な冷却ファンやCPUのヒートシンクの改善、それに加えて象徴的なものとしてはパワーサプライのレイアウト変更です。
従来、パワーサプライはどちらかの片方に寄せて2個(冗長化のため)搭載されていました。この新しいレイアウトでは、CPUヒートシンクを冷やした後の熱い空気がパワーサプライに衝突するリスクが減るため、
パワーサプライの冷却効果も改善されています。さらに、エアフロー全体の効率化によりPCIeカードの冷却改善にも貢献しており、PCIe Gen4アダプターの高密な度実装が可能になっています。
<iDRAC9 Datacenterで設定可能な温度管理に関連する項目>
5.マルチベクタークーリングの設定を変えて影響範囲を確認
このVector Engineで動作するアプリケーションはCPUに負荷を与えない優れたエンジンのために、評価プログラムの単体テストではCPUの負荷率は0%のままでCPUの温度がまったく上がりませんでした。
完璧にVector Engineによってアプリケーションが動作している証拠ですね。これには驚きました。 しかし、CPU温度が上昇しないためシステム管理機能が冷却の必要がないと判断したためなのか
冷却ファンの回転数がほとんど上がらずに、Vector Engine内のコア(処理するプロセッサー)の温度が上昇(テスト1)してしまい、PCIeカードへ十分な冷却が行われませんでした。
これは失敗したテストになりました⤵
そこで、先ほどのマルチベクタークーリング機能の出番になります。先ほどの通り、温度に関する設定はいくつかあるのですが、テスト1の結果によりPCIeカードへの冷却が必要と分かっていますので、 PCIeカード毎の風量を段階的に設定(テスト2) してみました。それが、以下の結果です。冷却ファンの回転数も上がり、しっかりとVector EngineのPCIeカードが冷やされることが確認できました。成功です⤴ 今まで、冷却ファンの性能について正直あまり気にしてこなかったのですが、この効果は驚きの結果です。 さらに、CPU負荷率を100%にした後(テスト3)、同様に評価プログラムを動作させても十分に冷却できていることが確認できました。 PCIe吸気温度が上がっていますが、まったく問題なしです。十分な冷却機能を発揮しました。
6.動作検証の手順
7.動作検証の結果
動作試験はVector Engineの評価プログラムを連続して1時間動作させた後、SX-Aurora TSUBASAのコアプロセッサーの温度を計測して判定します。
評価プログラム実行中は、10秒毎に温度が一番高いコアプロセッサーと一番低いコアプロセッサーを表示し続けますので温度上昇の経過も見ることができました。
推奨温度は、1時間プログラムが動作した状況でコアプロセッサーの一番高い温度を指定の評価軸に合わせて判定します。
その結果、32℃の周辺温度でも動作可能という判断を頂き、現在(2021年9月時点)、「Vector Engine動作確認済サーバー 一覧」の
ページにPowerEdge R7525およびR750(新たに評価試験を実施済み)が掲載されるようになりました。
「評価プログラムの実行画面(例)」 「1時間動作した後にSX-Aurora TSUBASAのステータスを確認した画面(例)」 8.評価結果のコメント(NEC様より)
SX-Aurora TSUBASA / Vector Engineの性能を充分に発揮するためには、サーバーの冷却性能が高いことが最も重要になります。
デル・テクノロジーズ様のPowerEdge R7525 ラックサーバーにおける今回の評価結果では、これまで評価を実施した複数のサーバーと比較しても同等以上の非常に高い冷却性能を発揮しており、 Vector Engineのコアプロセッサー温度も十分低い値に抑えられています。従って、デル・テクノロジーズ様のPowerEdge R7525 ラックサーバーを利用することで、 Vector Engineの性能を最大限に引き出すことができると言えます。 改めまして、今回評価いただいたデル・テクノロジーズ様に感謝申し上げます。 日本電気株式会社 AIプラットフォーム事業部 Aurora拡販グループ デル・テクノロジーズ株式会社 パートナーセールスエンジニアリング本部 パートナーSE2部 2021/11/01 |
タグ: AI, Aurora, FPGA, GPU, HPC, iDRAC, PowerEdge, TSUBASA, システム管理