Amazon EKS で AI/ML の使用を開始するためのリソース

EKS での機械学習の使用を開始するには、まずこれらの規範的なパターンから選択して、EKS クラスターと ML ソフトウェアおよびハードウェアが ML ワークロードの実行を開始できるように準備します。

ワークショップ

Amazon EKS での生成 AI ワークショップ

Amazon EKS で大規模言語モデル (LLM) アプリケーションと推論を開始する方法について説明します。本稼働グレードの LLM ワークロードをデプロイおよび管理する方法を説明します。実践的なラボを通じて、Amazon EKS を AWS サービスやオープンソースツールとともに活用して、堅牢な LLM ソリューションを作成する方法について説明します。ワークショップ環境には、必要なインフラストラクチャとツールがすべて用意されているため、学習と実装に集中できます。

Neuron を使用した Amazon EKS での生成 AI

Amazon EKS で大規模言語モデル (LLM) アプリケーションと推論を開始する方法について説明します。本稼働グレードの LLM ワークロードのデプロイと管理、ベクトルデータベースを使用した高度な RAG パターンの実装、オープンソースフレームワークを使用したデータ駆動型 LLM アプリケーションの構築方法について説明します。実践的なラボを通じて、Amazon EKS を AWS サービスやオープンソースツールとともに活用して、堅牢な LLM ソリューションを作成する方法について説明します。ワークショップ環境には、必要なインフラストラクチャとツールがすべて用意されているため、学習と実装に集中できます。

ベストプラクティス

Amazon EKS ベストプラクティスガイドの AI/ML に焦点を当てたトピックでは、Amazon EKS の AI/ML ワークロードを最適化するために、以下の領域にわたって詳細な推奨事項を提供します。

AI/ML コンピューティングと自動スケーリング

このセクションでは、GPU リソース管理、ノードの耐障害性、アプリケーションのスケーリングに焦点を当て、Amazon EKS で AI/ML コンピューティングと自動スケーリングを最適化するためのベストプラクティスの概要を説明します。よく知られているラベルとノードアフィニティを使用してワークロードのスケジュール設定、ML キャパシティブロックまたはオンデマンドキャパシティ予約の使用、および EKS Node Monitoring Agent などのツールを使用したノードヘルスチェックの実装などの戦略を提供します。

AI/ML ネットワーク

このセクションでは、Amazon EKS で AI/ML ネットワークを最適化してパフォーマンスとスケーラビリティを向上させるためのベストプラクティスについて説明します。これには、分散トレーニング用のネットワーク帯域幅が高いインスタンスや Elastic Fabric Adapter (EFA) の選択、MPI や NCCL などのツールのインストール、IP アドレスを増やしてポッドの起動時間を短縮するためのプレフィックス委任の有効化などの戦略が含まれます。

AI/ML セキュリティ

このセクションでは、データストレージの保護と Amazon EKS での AI/ML ワークロードのコンプライアンスの確保に焦点を当てます。これには、Amazon S3 と AWS Key Management Service (KMS) を使用したサーバー側の暗号化 (SSE-KMS)、リージョン KMS キーと S3 バケットキーを使用したバケットの設定によるコスト削減、EKS ポッドへの復号化などの KMS アクションに対する IAM アクセス許可の付与、AWS CloudTrail ログによる監査などのプラクティスが含まれます。

AI/ML ストレージ

このセクションでは、Amazon EKS の AI/ML ワークロードのストレージを最適化するためのベストプラクティスについて説明します。これには、CSI ドライバーを使用して S3、FSx for Lustre、EFS などのサービスを永続ボリュームとしてマウントするモデルをデプロイする方法、ワークロードのニーズに基づいてストレージを選択する方法 (Scratch-SSD や Persistent-SSD などのオプションを使用した分散トレーニング用の FSx for Lustre など)、データ圧縮やストライピングなどの機能を有効にする方法が含まれます。

AI/ML のオブザーバビリティ

このセクションでは、Amazon EKS の AI/ML ワークロードの GPU 使用率をモニタリングおよび最適化して効率を向上させ、コストを削減することに重点を置いています。これには、CloudWatch Container Insights や Prometheus や Grafana と統合された NVIDIA の DCGM-Exporter などのツールを使用して GPU 使用率が高いことをターゲットにする戦略や、AI/ML ワークロードの分析におすすめのメトリクスが含まれます。

AI/ML パフォーマンス

このセクションでは、コンテナイメージ管理とスタートアップ最適化を通じて、Amazon EKS の AI/ML ワークロードのアプリケーションのスケーリングとパフォーマンスを向上させることに重点を置いています。これには、マルチステージビルドで小さな軽量ベースイメージまたは AWS 深層学習コンテナを使用する、EBS スナップショットを介してイメージをプリロードする、DaemonSets または Deployments を使用してランタイムキャッシュにプルするなどのプラクティスが含まれます。

リファレンスアーキテクチャ

リファレンスアーキテクチャ、サンプルコード、ユーティリティに関するこれらの GitHub リポジトリを調べて、Amazon EKS やその他の AWS サービスで AI/ML ワークロードの分散トレーニングと推論を実装します。

Awsome Distributed Training

このリポジトリには、AWS で大規模モデルをトレーニングするためのベストプラクティス、リファレンスアーキテクチャ、モデルトレーニングの例、ユーティリティのコレクションが用意されています。EKS クラスター用の CloudFormation テンプレート、カスタム AMI とコンテナビルド、PyTorch (DDP/FSDP、MegatronLM、NeMo) や JAX などのフレームワークのテストケース、EFA Prometheus エクスポーターや Nvidia Nsight Systems などの検証、オブザーバビリティ、パフォーマンスのモニタリングツールなど、Amazon EKS での分散トレーニングをサポートします。

AWSome 推論

このリポジトリは、Amazon EKS と高速 EC2 インスタンスに焦点を当て、AWS で推論ソリューションを最適化するためのリファレンスアーキテクチャとテストケースを提供します。これには、VPC および EKS クラスターのインフラストラクチャ設定、NVIDIA NIM、TensorRT-LLM、Triton Inference Server、RayService などのフレームワークのプロジェクト、Llama3-8B や Llama 3.1 405B などのモデルの例が含まれています。K8s LeaderWorkerSet、EKS オートスケーリング、マルチインスタンス GPU (MIG)、ASR、推論、TTS 用のオーディオボットなどの実際のユースケースを使用したマルチノードデプロイを提供します。

チュートリアル

EKS での機械学習プラットフォームとフレームワークのセットアップに関心がある場合はこのセクションに記載されているチュートリアルを詳しくご覧ください。これらのチュートリアルではGPU プロセッサを最大限に活用するためのパターンから、モデリングツールの選択、専門的な業界向けのフレームワークの構築まで、あらゆる事項について説明します。

EKS で生成 AI プラットフォームを構築する

EKS で専門的な生成 AI フレームワークを実行する

ML ワークロードのモニタリング

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

特定のノードで Pod がスケジュールされないようにする

バージョニング