情報ガイドステーションメニュー
| AI環境でGPUリソースを有効活用 | |
ベアメタルサーバもBitfusionで高速化! |
こんにちは。デル・テクノロジーズでAI関連ソリューションを担当している山口です。 これまでの4回にわたりBitfusionを紹介してきましたが、利用方法のイメージはもっていただけたのではないでしょうか。 今回は個人的に昨年のGA当初からとても期待していたベアメタルサーバでBitfusionの導入についてご紹介いたします。 <過去の記事はこちら> 第1回:AI環境でGPUリソースを有効活用 BitfusionでGPUをプール化(概要編) 第2回:AI環境でGPUリソースを有効活用 Bitfusionの利用環境と方法 第3回:AI環境でGPUリソースを有効活用 BitfusionでGPUのメモリ分割 第4回:AI環境でGPUリソースを有効活用 他ソフトウェアと連携してBitfusionをもっと便利に
Bitfusion Client導入パターン
Bitfusionは2020年7月にVMware社として最初のバージョンである2.0がリリースされ、2020年11月に2.5.0がリリースされました。現在は2020年12月にリリースされた2.5.1が最新版になります。 バージョン2.0.xでは下の図のように、Bitfusion Server(GPUサーバ)とBitfusion Clientは同一vCenterで管理されている必要がありましたが、バージョン2.5以降はベアメタルのLinuxサーバやBitfusionサーバとは別のvCenterで管理されているvSphere環境のLinuxでもBitfusionを利用できるようになりました。 Ver. 2.0まではvCenterの画面からBitfusion Clientのソフト(rpmもしくはdeb)をインストールした仮想マシンを右クリックし、enableを選択するだけのとても簡単な設定でBitfusionを有効化することができました。 ベアメタルや他のBitfusionサーバとは別のvCenterインスタンスのLinuxクライアントでBitfusionを利用する場合には少しだけ設定が必要なので紹介いたします。
ベアメタル/他のvSphere環境での有効化
事前に各OS(CentOS/RHEL, Ubuntu)に合わせたBitfusion Clientを入手し、インストールしてください。 Bitfusionサーバを管理するvCenterホーム画面の左ペインで“Bitfusion”を選択し、右ペインで“Tokens”→ “NEW TOKEN”を選択します。 Create TokenウィンドウのDescriptionに任意のToken名を入力し、CREATEボタンを選択します。 作成したTOKENが一覧に表示されるため、該当のTokenを選択し、DOWNLOADボタンを選択してTokenをtarファイルとしてダウンロードます。 ダウンロードしたToken(tarファイル)をSFTPなどでBitfusion ClientのLinuxサーバへTokenを配置し、tarファイルを解凍します。
$ tar xvf ycNSoPB.tar
client.yaml ca.crt servers.conf Client.yamlは認証情報やToken情報が書かれていて、ca.crtは証明書、servers.confはBitfusionサーバのアドレスが書かれています。 各ファイルをディレクトリにコピーします。
$ cp ca.crt /etc/bitfusion/tls/
$ cp client.yaml ~/.bitfusion/ $ cp servers.conf ~/bitfusion/ Bitfusionを利用するユーザをbitfusionグループへ追加します。 ※Current User以外を追加する場合は $USERを適宜ユーザ名に変更してください。
$ sudo usermod -aG bitfusion $USER
ユーザがグループに適切に追加された確認する場合は、ターミナル(sshなど)で再ログインし、groupsコマンドを実行しbitfusionグループが追加されていることを確認してください。
$ groups
user01 adm cdrom sudo dip plugdev lpadmin sambashare bitfusion Bitfusionのコマンドを利用してGPU一覧を表示することができ、Bitfusionが正常に動作していることを確認できます。
$ bitfusion list_gpus
– server 0 (leader) [10.6.38.161:56001]: running 2 tasks |- GPU 0: free memory 1 MiB / 15109 MiB ベアメタルサーバやBitfusionサーバと異なるvSphere環境でBitfusionを利用する場合にはすこしだけ手順が追加になりますが、難しい操作はなくLinuxの基本的なコマンドが使えればBitfusionを簡単に導入することができるのがご理解いただけたと思います。 ベアメタルサーバでもBitfusionがサポートされ、データセンター内でこれまで以上にGPUリソースを柔軟に利用できるようになりました。いままでGPUのなかったベアメタルサーバのAI / ML環境でもAIモデルの学習時間の短縮化が期待できるのではないでしょうか。 今後もBitfusionの進化に期待しています! デル・テクノロジーズ 製品本部 シニアシステムエンジニア 山口 泰亜 2021/03/23 関連記事はこちら情報ガイドステーション ソリューションページNVIDIA GPUとコンテナでAI環境作ってみた DockerでJupyterlab使ってコード実行してみた GPUのために設計されたサーバー 「PowerEdge C4140」 の実績と実力! AI環境でGPUリソースを有効活用 BitfusionでGPUをプール化(概要編) AI環境でGPUリソースを有効活用 Bitfusionの利用環境と方法 AI環境でGPUリソースを有効活用 BitfusionでGPUのメモリ分割 AI環境でGPUリソースを有効活用 他ソフトウェアと連携してBitfusionをもっと便利に AI環境でGPUリソースを有効活用 ベアメタルサーバもBitfusionで高速化! HPC and AI Innovation Labのご紹介 サンディエゴスーパーコンピューターセンターの新スパコン 「Expanse」 にDellEMCのAMDサーバーが採用! |