Menjalankan beban kerja inferensi online real-time di Amazon EKS

Bagian ini dirancang untuk membantu Anda menerapkan dan mengoperasikan beban kerja inferensi online real-time di Amazon Elastic Kubernetes Service (EKS). Anda akan menemukan panduan tentang membangun cluster yang dioptimalkan dengan node yang dipercepat GPU, mengintegrasikan AWS layanan untuk penyimpanan dan penskalaan otomatis, menerapkan model sampel untuk validasi, dan pertimbangan arsitektur utama seperti memisahkan tugas CPU dan GPU, memilih jenis yang sesuai dan instance, dan memastikan paparan latensi rendah dari titik akhir inferensi. AMIs

Topik

Panduan Pengaturan Kluster Praktik Terbaik untuk Inferensi Waktu Nyata di Amazon EKS

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

AI/ML di EKS

Buat cluster