デル eカタログサイト | デル・テクノロジーズ製品 販売支援サイト
情報ガイドステーションメニュー
 |  AI環境でGPUリソースを有効活用
  ベアメタルサーバもBitfusionで高速化!

   
       
   
       






こんにちは。デル・テクノロジーズでAI関連ソリューションを担当している山口です。
これまでの4回にわたりBitfusionを紹介してきましたが、利用方法のイメージはもっていただけたのではないでしょうか。
今回は個人的に昨年のGA当初からとても期待していたベアメタルサーバでBitfusionの導入についてご紹介いたします。

<過去の記事はこちら>
第1回:AI環境でGPUリソースを有効活用 BitfusionでGPUをプール化(概要編)
第2回:AI環境でGPUリソースを有効活用 Bitfusionの利用環境と方法
第3回:AI環境でGPUリソースを有効活用 BitfusionでGPUのメモリ分割
第4回:AI環境でGPUリソースを有効活用 他ソフトウェアと連携してBitfusionをもっと便利に




Bitfusion Client導入パターン

Bitfusionは2020年7月にVMware社として最初のバージョンである2.0がリリースされ、2020年11月に2.5.0がリリースされました。現在は2020年12月にリリースされた2.5.1が最新版になります。
バージョン2.0.xでは下の図のように、Bitfusion Server(GPUサーバ)とBitfusion Clientは同一vCenterで管理されている必要がありましたが、バージョン2.5以降はベアメタルのLinuxサーバやBitfusionサーバとは別のvCenterで管理されているvSphere環境のLinuxでもBitfusionを利用できるようになりました。



Ver. 2.0まではvCenterの画面からBitfusion Clientのソフト(rpmもしくはdeb)をインストールした仮想マシンを右クリックし、enableを選択するだけのとても簡単な設定でBitfusionを有効化することができました。



ベアメタルや他のBitfusionサーバとは別のvCenterインスタンスのLinuxクライアントでBitfusionを利用する場合には少しだけ設定が必要なので紹介いたします。




ベアメタル/他のvSphere環境での有効化

事前に各OS(CentOS/RHEL, Ubuntu)に合わせたBitfusion Clientを入手し、インストールしてください。

Bitfusionサーバを管理するvCenterホーム画面の左ペインで“Bitfusion”を選択し、右ペインで“Tokens”→ “NEW TOKEN”を選択します。



Create TokenウィンドウのDescriptionに任意のToken名を入力し、CREATEボタンを選択します。



作成したTOKENが一覧に表示されるため、該当のTokenを選択し、DOWNLOADボタンを選択してTokenをtarファイルとしてダウンロードます。



ダウンロードしたToken(tarファイル)をSFTPなどでBitfusion ClientのLinuxサーバへTokenを配置し、tarファイルを解凍します。

$ tar xvf ycNSoPB.tar
client.yaml
ca.crt
servers.conf


Client.yamlは認証情報やToken情報が書かれていて、ca.crtは証明書、servers.confはBitfusionサーバのアドレスが書かれています。

各ファイルをディレクトリにコピーします。

$ cp ca.crt /etc/bitfusion/tls/
$ cp client.yaml ~/.bitfusion/
$ cp servers.conf ~/bitfusion/


Bitfusionを利用するユーザをbitfusionグループへ追加します。
※Current User以外を追加する場合は $USERを適宜ユーザ名に変更してください。

$ sudo usermod -aG bitfusion $USER  


ユーザがグループに適切に追加された確認する場合は、ターミナル(sshなど)で再ログインし、groupsコマンドを実行しbitfusionグループが追加されていることを確認してください。

$ groups
user01 adm cdrom sudo dip plugdev lpadmin sambashare bitfusion


Bitfusionのコマンドを利用してGPU一覧を表示することができ、Bitfusionが正常に動作していることを確認できます。

$ bitfusion list_gpus
– server 0 (leader) [10.6.38.161:56001]: running 2 tasks
|- GPU 0: free memory 1 MiB / 15109 MiB


ベアメタルサーバやBitfusionサーバと異なるvSphere環境でBitfusionを利用する場合にはすこしだけ手順が追加になりますが、難しい操作はなくLinuxの基本的なコマンドが使えればBitfusionを簡単に導入することができるのがご理解いただけたと思います。

ベアメタルサーバでもBitfusionがサポートされ、データセンター内でこれまで以上にGPUリソースを柔軟に利用できるようになりました。いままでGPUのなかったベアメタルサーバのAI / ML環境でもAIモデルの学習時間の短縮化が期待できるのではないでしょうか。

今後もBitfusionの進化に期待しています!



デル・テクノロジーズ
製品本部
シニアシステムエンジニア
山口 泰亜
2021/03/23


関連記事はこちら

情報ガイドステーション ソリューションページ
NVIDIA GPUとコンテナでAI環境作ってみた
DockerでJupyterlab使ってコード実行してみた
GPUのために設計されたサーバー 「PowerEdge C4140」 の実績と実力!
AI環境でGPUリソースを有効活用 BitfusionでGPUをプール化(概要編)
AI環境でGPUリソースを有効活用 Bitfusionの利用環境と方法
AI環境でGPUリソースを有効活用 BitfusionでGPUのメモリ分割
AI環境でGPUリソースを有効活用 他ソフトウェアと連携してBitfusionをもっと便利に
AI環境でGPUリソースを有効活用 ベアメタルサーバもBitfusionで高速化!
HPC and AI Innovation Labのご紹介
サンディエゴスーパーコンピューターセンターの新スパコン 「Expanse」 にDellEMCのAMDサーバーが採用!


   
       
   
       

 

タグ: , , ,