AWS 深層学習 AMI の使用 - Amazon Elastic Compute Cloud

AWS 深層学習 AMI の使用

以下の手順は、以下の AWS Deep Learning AMI のいずれかを開始するのに役立ちます。

  • Deep Learning AMI (Amazon Linux 2)

  • Deep Learning AMI (Ubuntu 20.04)

詳細については、AWS Deep Learning AMI ユーザーガイドを参照してください。

注記

p3dn.24xlarge および p4d.24xlarge インスタンスタイプのみがサポートされています。

ステップ 1: EFA 対応のセキュリティグループを準備する

EFA には、セキュリティグループ自体とのインバウンドおよびアウトバウンドのトラフィックをすべて許可するセキュリティグループが必要です。以下の手順では、セキュリティグループを作成します。このセキュリティグループでは、セキュリティグループ自体とのすべてのインバウンドおよびアウトバウンドのトラフィックと、SSH 接続用の任意の IPv4 アドレスからのインバウンド SSH トラフィックを許可します。

重要

このセキュリティグループは、テストのみを目的としています。本番環境では、コンピュータの IP アドレスやローカルネットワークの IP アドレスの範囲など、接続元の IP アドレスからのトラフィックのみを許可するインバウンド SSH ルールを作成することをお勧めします。

その他のシナリオについては、さまざまなユースケースのセキュリティグループのルールを参照してください。

EFA 対応のセキュリティグループを作成するには
  1. Amazon EC2 コンソール (https://console.aws.amazon.com/ec2/) を開きます。

  2. ナビゲーションペインで [Security Groups] (セキュリティグループ) を選択して、[Create security group] (セキュリティグループの作成) を選択します。

  3. [Create security group] (セキュリティグループの作成) ウィンドウで、以下を行います。

    1. [セキュリティグループ名] に、EFA-enabled security group のような、分かりやすいセキュリティグループ名を入力します。

    2. (オプション) [説明] に、セキュリティグループの簡単な説明を入力します。

    3. [VPC] で、EFA 対応のインスタンスを起動する VPC を選択します。

    4. [Create Security Group] を選択します。

  4. 作成したセキュリティグループを選択し、[Details] (詳細) タブで [Security group ID] (セキュリティグループ ID) をコピーします。

  5. セキュリティグループが選択された状態で、[Actions] (アクション)、[Edit inbound rules] (インバウンドルールの編集) の順に選択し、次の手順を実行します。

    1. [Add rule] を選択します。

    2. [Type] で、[All traffic] を選択します。

    3. [Source type] (送信元タイプ) で、[Custom] (カスタム) を選択し、コピーしたセキュリティグループ ID をフィールドに貼り付けます。

    4. [ルールを追加] を選択します。

    5. タイプ]SSH] を選択します。

    6. [Source type] (ソースタイプ) で、[Anywhere-IPv4] を選択します。

    7. [Save Rules] (ルールの保存) を選択します。

  6. セキュリティグループが選択された状態で、[Actions] (アクション)、[Edit outbound rules] (アウトバウンドルールの編集) の順に選択し、次の手順を実行します。

    1. [Add rule] を選択します。

    2. [Type] で、[All traffic] を選択します。

    3. [Destination type] (送信先タイプ) で、[Custom] (カスタム) を選択し、コピーしたセキュリティグループ ID をフィールドに貼り付けます。

    4. [Save Rules] (ルールの保存) を選択します。

ステップ 2: 一時インスタンスを作成する

EFA ソフトウェアコンポーネントのインストールおよび設定に使用する一時インスタンスを起動します。このインスタンスを使用して、EFA 対応のインスタンスを起動する EFA 対応の AMI を作成します。

一時インスタンスを起動するには
  1. Amazon EC2 コンソール (https://console.aws.amazon.com/ec2/) を開きます。

  2. ナビゲーションペインで、[Instances] (インスタンス) を選択し、[Launch Instances] (インスタンスの起動) を選択して、新しいインスタンス起動ウィザードを開きます。

  3. (オプション) [Name and tags] (名前とタグ) セクションで、EFA-instance などのインスタンス名を指定します。指定した名前は、リソースタグとしてインスタンスに割り当てられます (Name=EFA-instance)。

  4. [Application and OS Images] (アプリケーションと OS イメージ) セクションで、サポートされている AWS Deep Learning AMI バージョン 25.0 以降を選択します。

  5. [Instance type] (インスタンスタイプ) セクションで、p3dn.24xlarge または p4d.24xlarge のいずれかを選択します。

  6. [Key pair] (キーペア) セクションで、インスタンスに使用するキーペアを選択します。

  7. [Network settings] (ネットワーク設定) セクションで、[Edit] (編集) を選択し、次の操作を行います。

    1. [サブネット] で、インスタンスを起動するサブネットを選択します。サブネットを選択しない場合、EFA のインスタンスを有効にすることはできません。

    2. [Firewall (security groups)] (ファイアウォール (セキュリティグループ)) の場合、[Select existing security group] (既存のセキュリティグループの選択) を選択し、前のステップで作成したセキュリティグループを選択します。

    3. [Advanced network configuration] (高度なネットワーク設定) セクションを展開し、[Elastic Fabric Adapter][Enable] (有効) を選択します。

  8. [Storage] (ストレージ) セクションで、必要に応じてボリュームを設定します。

    注記

    Nvidia CUDA ツールキットには、追加の 10 ~ 20 GiB のストレージをプロビジョニングする必要があります。十分な量のストレージをプロビジョニングしないと、Nvidia ドライバーと CUDA ツールキットをインストールしようとしたときに、insufficient disk space エラーが発生します。

  9. 右側の [Summary] (サマリー) パネルで、[Launch instance] (インスタンスの起動) を選択します。

ステップ 3: EFA と NCCL の設定をテストする

テストを実行し、EFA と NCCL に一時インスタンスが適切に設定されていることを確認します。

EFA と NCCL 設定をテストするには
  1. テストを実行するホストを指定するホストファイルを作成します。以下のコマンドは、インスタンス自体へのリファレンスを含む my-hosts と呼ばれるホストファイルを作成します。

    IMDSv2
    [ec2-user ~]$ TOKEN=`curl -X PUT "http://169.254.169.254/latest/api/token" -H "X-aws-ec2-metadata-token-ttl-seconds: 21600"` \ && curl -H "X-aws-ec2-metadata-token: $TOKEN" –v http://169.254.169.254/latest/meta-data/local-ipv4 >> my-hosts
    IMDSv1
    [ec2-user ~]$ curl http://169.254.169.254/latest/meta-data/local-ipv4 >> my-hosts
  2. テストを実行し、ホストファイル (--hostfile) と使用する GPU の数 (-n) を指定します。以下のコマンドは、インスタンス自体の 8 つの GPU で all_reduce_perf テストを実行し、以下の環境変数を指定します。

    • FI_EFA_USE_DEVICE_RDMA=1 — (p4d.24xlarge のみ) 片側転送および両側転送にデバイスの RDMA 機能を使用します。

    • NCCL_DEBUG=INFO – 詳細なデバッグ出力を有効にします。また、テストの開始時に NCCL バージョンのみをプリントするために VERSION を指定したり、エラーメッセージのみを受信するために WARN を指定したりすることもできます。

    NCCL テスト引数に関する詳細は、公式の nccl-tests リポジトリのNCCL Tests READMEを参照してください。

    • p3dn.24xlarge

      $ /opt/amazon/openmpi/bin/mpirun \ -x LD_LIBRARY_PATH=/opt/nccl/build/lib:/usr/local/cuda/lib64:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:$LD_LIBRARY_PATH \ -x NCCL_DEBUG=INFO \ --hostfile my-hosts -n 8 -N 8 \ --mca pml ^cm --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \ $HOME/nccl-tests/build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100
    • p4d.24xlarge

      $ /opt/amazon/openmpi/bin/mpirun \ -x FI_EFA_USE_DEVICE_RDMA=1 \ -x LD_LIBRARY_PATH=/opt/nccl/build/lib:/usr/local/cuda/lib64:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:$LD_LIBRARY_PATH \ -x NCCL_DEBUG=INFO \ --hostfile my-hosts -n 8 -N 8 \ --mca pml ^cm --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \ $HOME/nccl-tests/build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100
  3. NCCL_DEBUG ログが出力されるときに、EFA が NCCL の基盤となるプロバイダーとしてアクティブであることを確認できます。

    ip-192-168-2-54:14:14 [0] NCCL INFO NET/OFI Selected Provider is efa*

    p4d.24xlarge インスタンスの使用時に、次の追加情報が表示されます。

    ip-192-168-2-54:14:14 [0] NCCL INFO NET/OFI Running on P4d platform, Setting NCCL_TOPO_FILE environment variable to /home/ec2-user/install/plugin/share/aws-ofi-nccl/xml/p4d-24xl-topo.xml

ステップ 4: 機械学習アプリケーションをインストールする

機械学習アプリケーションを一時インスタンスにインストールします。インストール手順は、それぞれの機械学習アプリケーションによって異なります。Linux インスタンスへのソフトウェアのインストールの詳細については、Linux インスタンスでのソフトウェアの管理を参照してください。

注記

インストール手順については、機械学習アプリケーションのドキュメントを参照してください。

ステップ 5: EFA および NCCL 対応 AMI を作成する

必要なソフトウェアコンポーネントのインストール後、EFA 対応のインスタンスの起動に再利用できる AMI を作成します。

一時インスタンスから AMI を作成するには
  1. Amazon EC2 コンソール (https://console.aws.amazon.com/ec2/) を開きます。

  2. ナビゲーションペインで、[インスタンス] を選択します。

  3. 作成した一時インスタンスを選択し、[アクション]、[イメージ]、[イメージの作成] の順に選択します。

  4. [イメージの作成] で、次を行います。

    1. [イメージ名] に、の分かりやすい AMI 名を入力します。

    2. (オプション) [イメージの説明] に、AMI の簡単な説明を入力します。

    3. [イメージを作成] を選択します。

  5. ナビゲーションペインで [AMIs] を選択します。

  6. リストで作成した AMI を探します。ステータスが pending から available に変わるまで待ってから、次のステップに進みます。

ステップ 6: 一時インスタンスを終了する

この時点で、起動した一時インスタンスは不要になります。インスタンスを終了して、料金の発生を停止できます。

一時インスタンスを終了するには
  1. Amazon EC2 コンソール (https://console.aws.amazon.com/ec2/) を開きます。

  2. ナビゲーションペインで、[インスタンス] を選択します。

  3. 作成した一時インスタンスを選択し、[アクション]、[インスタンスの状態]、[インスタンスの終了] の順に選択します。

  4. 確認を求めるメッセージが表示されたら、[終了] を選択します。

ステップ 7: クラスタープレイスメントグループで EFA および NCCL 対応のインスタンスを作成する

前に作成した EFA 対応の AMI と EFA 対応のセキュリティグループを使用して、EFA および NCCL 対応のインスタンスをクラスタープレイスメントグループ内で起動します。

注記
  • EFA 対応のインスタンスをクラスターのプレイスメントグループに起動することは絶対的な要件ではありません。ただし、EFA 対応のインスタンスは、1 つのアベイラビリティーゾーン内の低レイテンシーグループに起動されるため、クラスタープレイスメントグループで実行することをお勧めします。

  • クラスターのインスタンスをスケールするときにキャパシティを使用できるようにするには、クラスタープレイスメントグループのキャパシティ予約を作成します。詳細については、クラスタープレイスメントグループでのキャパシティ予約 を参照してください。

New console
一時インスタンスを起動するには
  1. Amazon EC2 コンソール (https://console.aws.amazon.com/ec2/) を開きます。

  2. ナビゲーションペインで、[Instances] (インスタンス) を選択し、[Launch Instances] (インスタンスの起動) を選択して、新しいインスタンス起動ウィザードを開きます。

  3. (オプション) [Name and tags] (名前とタグ) セクションで、EFA-instance などのインスタンス名を指定します。指定した名前は、リソースタグとしてインスタンスに割り当てられます (Name=EFA-instance)。

  4. [Application and OS Images] (アプリケーションと OS イメージ) セクションで、[My AMIs] (マイ AMI) をクリックし、前のステップで作成した AMI を選択します。

  5. [Instance type] (インスタンスタイプ) セクションで、p3dn.24xlarge または p4d.24xlarge のいずれかを選択します。

  6. [Key pair] (キーペア) セクションで、インスタンスに使用するキーペアを選択します。

  7. [Network settings] (ネットワーク設定) セクションで、[Edit] (編集) を選択し、次の操作を行います。

    1. [サブネット] で、インスタンスを起動するサブネットを選択します。サブネットを選択しない場合、EFA のインスタンスを有効にすることはできません。

    2. [Firewall (security groups)] (ファイアウォール (セキュリティグループ)) の場合、[Select existing security group] (既存のセキュリティグループの選択) を選択し、前のステップで作成したセキュリティグループを選択します。

    3. [Advanced network configuration] (高度なネットワーク設定) セクションを展開し、[Elastic Fabric Adapter][Enable] (有効) を選択します。

  8. (オプション) [Storage] (ストレージ) セクションで、必要に応じてボリュームを設定します。

  9. [Advanced details] (高度な詳細) セクションの [Placement group name] (プレイスメントグループ名) で、インスタンスを起動するクラスタープレイスメントグループを選択します。新しいクラスタープレイスメントグループを作成する必要がある場合は、[Create new placement group] (新しいプレイスメントグループの作成) を選択します。

  10. 右側の [Summary] (サマリー) パネルで、[Number of instances] (インスタンス数) に、起動する EFA 対応のインスタンスの数を入力し、[Launch Instance] (インスタンスの起動) を選択します。

Old console
EFA および NCCL 対応のインスタンスをクラスタープレイスメントグループに起動するには
  1. Amazon EC2 コンソール (https://console.aws.amazon.com/ec2/) を開きます。

  2. [インスタンスの作成] を選択します。

  3. [AMI の選択] ページで、[マイ AMI] を選択し、前に作成した AMI を見つけて、[選択] をクリックします。

  4. [インスタンスタイプの選択] ページで [p3dn.24xlarge] を選択し、[次へ: インスタンスの詳細の設定] を選択します。

  5. [インスタンスの詳細設定] ページで、以下を行います。

    1. [インスタンス数] に、起動する EFA および NCCL 対応のインスタンスの数を入力します。

    2. [ネットワーク] および [サブネット] で、インスタンスを起動する VPC およびサブネットを選択します。

    3. [プレイスメントグループ] で、[インスタンスをプレイスメントグループに追加します] チェックボックスをオンにします。

    4. [プレイスメントグループ名] で、[新しいプレイスメントグループに追加する] チェックボックスをオンにし、分かりやすいプレイスメントグループ名を入力します。次に、[プレイスメントグループ戦略] で [クラスター] を選択します。

    5. [EFA] で、[有効化] を選択します。

    6. [ネットワークインターフェイス] セクションの [eth0] で、[新しいネットワークインターフェイス] を選択します。必要に応じて、プライマリ IPv4 アドレスと 1 つ以上のセカンダリ IPv4 アドレスを指定できます。関連付けられている IPv6 CIDR ブロックを持つサブネットにインスタンスを起動する場合は、必要に応じて、プライマリ IPv6 アドレスと 1 つ以上のセカンダリ IPv6 アドレスを指定できます。

    7. [次の手順: ストレージの追加] を選択します。

  6. [ストレージの追加] ページで、AMI が指定するボリューム (ルートデバイスボリュームなど) に加えて、インスタンスにアタッチするボリュームを指定します。次に、[次の手順: タグの追加] を選択します。

  7. [Add Tags] ページで、ユーザーフレンドリーな名前などを使ってインスタンスのタグを指定し、[Next: Configure Security Group] を選択します。

  8. [セキュリティグループの設定] ページの [セキュリティグループの割り当て] で、[既存のセキュリティグループの選択] を選択し、前に作成したセキュリティグループを選択します。

  9. [Review and Launch] を選択します。

  10. [インスタンス作成の確認] ページで設定を確認し、[起動] を選択してキーペアを選択し、インスタンスを起動します。

ステップ 8: パスワードレス SSH を有効にする

クラスター内のすべてのインスタンスでアプリケーションを実行できるようにするには、リーダーノードからメンバーノードへのパスワードなしの SSH アクセスを有効にする必要があります。リーダーノードは、アプリケーションを実行するインスタンスです。クラスター内の残りのインスタンスはメンバーノードです。

クラスター内のインスタンス間でパスワードなしの SSH を有効にするには
  1. クラスター内の 1 つのインスタンスをリーダーノードとして選択し、それに接続します。

  2. リーダーノード上で strictHostKeyChecking を無効にし ForwardAgent を有効にします。任意のテキストエディタを使用して ~/.ssh/config ファイルを開き、以下を追加します。

    Host * ForwardAgent yes Host * StrictHostKeyChecking no
  3. RSA キーペアを生成します。

    $ ssh-keygen -t rsa -N "" -f ~/.ssh/id_rsa

    キーペアは、$HOME/.ssh/ ディレクトリで作成されます。

  4. リーダーノードのプライベートキーの許可を変更します。

    $ chmod 600 ~/.ssh/id_rsa chmod 600 ~/.ssh/config
  5. 任意のテキストエディタで ~/.ssh/id_rsa.pub を開き、キーをコピーします。

  6. クラスター内の各メンバーノードについて、次の操作を行います。

    1. インスタンスに接続します。

    2. 任意のテキストエディタで ~/.ssh/authorized_keys を開き、前にコピーしたパブリックキーを追加します。

  7. パスワードレス SSH が正常に機能していることをテストするには、リーダーノードに接続して、次のコマンドを実行します。

    $ ssh member_node_private_ip

    キーまたはパスワードの入力を求められずに、メンバーノードに接続できるはずです。