Bantu tingkatkan halaman ini
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Sumber daya untuk memulai AI/ML di Amazon EKS
Untuk terjun ke Machine Learning di EKS, mulailah dengan memilih dari pola preskriptif ini untuk dengan cepat mendapatkan cluster EKS dan perangkat lunak dan perangkat lunak dan perangkat keras yang siap untuk mulai menjalankan beban kerja ML.
Lokakarya
AI Generatif di Amazon EKS Workshop
Pelajari cara memulai aplikasi dan inferensi Large Language Model (LLM) di Amazon EKS. Temukan cara menerapkan dan mengelola beban kerja LLM tingkat produksi. Melalui lab langsung, Anda akan menjelajahi cara memanfaatkan Amazon EKS bersama dengan AWS layanan dan alat sumber terbuka untuk menciptakan solusi LLM yang tangguh. Lingkungan lokakarya menyediakan semua infrastruktur dan alat yang diperlukan, memungkinkan Anda untuk fokus pada pembelajaran dan implementasi.
AI generatif di Amazon EKS menggunakan Neuron
Pelajari cara memulai aplikasi dan inferensi Large Language Model (LLM) di Amazon EKS. Temukan cara menerapkan dan mengelola beban kerja LLM tingkat produksi, menerapkan pola RAG tingkat lanjut dengan database vektor, dan membangun aplikasi LLM yang didukung data menggunakan kerangka kerja sumber terbuka. Melalui lab langsung, Anda akan menjelajahi cara memanfaatkan Amazon EKS bersama dengan AWS layanan dan alat sumber terbuka untuk menciptakan solusi LLM yang tangguh. Lingkungan lokakarya menyediakan semua infrastruktur dan alat yang diperlukan, memungkinkan Anda untuk fokus pada pembelajaran dan implementasi.
Praktik Terbaik
Topik AI/ML terfokus dalam panduan Praktik Terbaik Amazon EKS memberikan rekomendasi terperinci di seluruh area berikut untuk mengoptimalkan AI/ML beban kerja Anda di Amazon EKS.
AI/ML Compute dan Autoscaling
Bagian ini menguraikan praktik terbaik untuk mengoptimalkan AI/ML komputasi dan penskalaan otomatis di Amazon EKS, dengan fokus pada manajemen sumber daya GPU, ketahanan node, dan penskalaan aplikasi. Ini menyediakan strategi seperti penjadwalan beban kerja dengan label terkenal dan afinitas simpul, menggunakan Blok Kapasitas ML atau Reservasi Kapasitas Sesuai Permintaan, dan menerapkan pemeriksaan kesehatan simpul dengan alat seperti Agen Pemantauan Node EKS.
Jaringan AI/ML
Bagian ini menguraikan praktik terbaik untuk mengoptimalkan AI/ML jaringan di Amazon EKS untuk meningkatkan kinerja dan skalabilitas, termasuk strategi seperti memilih instans dengan bandwidth jaringan yang lebih tinggi atau Elastic Fabric Adapter (EFA) untuk pelatihan terdistribusi, menginstal alat seperti MPI dan NCCL, dan memungkinkan delegasi awalan untuk meningkatkan alamat IP dan meningkatkan waktu peluncuran pod.
Keamanan AI/ML
Bagian ini berfokus pada pengamanan penyimpanan data dan memastikan kepatuhan terhadap AI/ML beban kerja di Amazon EKS, termasuk praktik seperti menggunakan Amazon S3 AWS dengan Key Management Service (KMS) untuk enkripsi sisi server (SSE-KMS), mengonfigurasi bucket dengan kunci KMS regional dan Kunci Bucket S3 untuk mengurangi biaya, memberikan izin IAM untuk tindakan KMS seperti dekripsi ke pod EKS, dan audit dengan log. AWS CloudTrail
Penyimpanan AI/ML
Bagian ini memberikan praktik terbaik untuk mengoptimalkan penyimpanan dalam AI/ML beban kerja di Amazon EKS, termasuk praktik seperti menerapkan model menggunakan driver CSI untuk memasang layanan seperti S3, untuk FSx Lustre, atau EFS sebagai Volume Persistent, memilih penyimpanan berdasarkan kebutuhan beban kerja (misalnya, untuk Lustre FSx untuk pelatihan terdistribusi dengan opsi seperti Scratch-SSD atau Persistent-SSD), dan mengaktifkan fitur seperti kompresi data dan striping.
Observabilitas AI/ML
Bagian ini berfokus pada pemantauan dan pengoptimalan pemanfaatan GPU untuk AI/ML beban kerja di Amazon EKS guna meningkatkan efisiensi dan mengurangi biaya, termasuk strategi seperti menargetkan penggunaan GPU tinggi dengan alat CloudWatch seperti Wawasan Kontainer dan Eksportir DCGM NVIDIA yang terintegrasi dengan Prometheus dan Grafana, dan metrik yang kami sarankan Anda menganalisis beban kerja Anda. AI/ML
Kinerja AI/ML
Bagian ini berfokus pada peningkatan penskalaan aplikasi dan kinerja untuk beban AI/ML kerja di Amazon EKS melalui manajemen gambar kontainer dan pengoptimalan startup, termasuk praktik seperti menggunakan gambar dasar kecil yang ringan atau AWS Deep Learning Containers dengan build multi-tahap, pramuat gambar melalui snapshot EBS atau pra-penarikan ke cache runtime menggunakan atau Deployment. DaemonSets
Arsitektur Referensi
Jelajahi GitHub repositori ini untuk arsitektur referensi, kode sampel, dan utilitas untuk menerapkan pelatihan terdistribusi dan inferensi untuk beban kerja AI/ML di Amazon EKS dan layanan lainnya. AWS
AWSome Pelatihan Terdistribusi
Repositori ini menawarkan kumpulan praktik terbaik, arsitektur referensi, contoh pelatihan model, dan utilitas untuk melatih model besar. AWS Ini mendukung pelatihan terdistribusi dengan Amazon EKS, termasuk CloudFormation template untuk kluster EKS, AMI kustom dan build kontainer, kasus uji untuk kerangka kerja seperti PyTorch (DDP/FSDP, MegatronLM, NeMo) dan JAX, dan alat untuk validasi, observabilitas, dan pemantauan kinerja seperti eksportir EFA Prometheus dan Nvidia Nsight Systems.
AWSome Inferensi
Repositori ini menyediakan arsitektur referensi dan kasus pengujian untuk mengoptimalkan solusi inferensi AWS, dengan fokus pada Amazon EKS dan instans yang dipercepat. EC2 Ini mencakup pengaturan infrastruktur untuk cluster VPC dan EKS, proyek untuk kerangka kerja seperti NVIDIA, TensorRT-LLM, Triton Inference Server NIMs, dan, dengan contoh untuk model seperti Llama3-8B dan Llama 3.1 405B. RayService Menampilkan penerapan multi-node menggunakan K8s LeaderWorkerSet, autoscaling EKS, Multi-Instance GPUs (MIG), dan kasus penggunaan kehidupan nyata seperti bot audio untuk ASR, inferensi, dan TTS.
Tutorial
Jika Anda tertarik untuk menyiapkan platform dan kerangka kerja Machine Learning di EKS, jelajahi tutorial yang dijelaskan di bagian ini. Tutorial ini mencakup segala sesuatu mulai dari pola untuk memanfaatkan prosesor GPU sebaik-baiknya hingga memilih alat pemodelan hingga membangun kerangka kerja untuk industri khusus.
Bangun platform AI generatif di EKS
Jalankan kerangka kerja AI generatif khusus di EKS
Maksimalkan kinerja GPU NVIDIA untuk ML di EKS
-
Terapkan berbagi GPU untuk menggunakan NVIDIA secara efisien GPUs untuk kluster EKS Anda:
Berbagi GPU di Amazon EKS dengan pengiris waktu NVIDIA dan instans yang dipercepat EC2
-
Gunakan layanan mikro Multi-Instance GPUs (MIGs) dan NIM untuk menjalankan lebih banyak pod per GPU di kluster EKS Anda: