Menjalankan beban kerja inferensi online real-time di Amazon EKS - Amazon EKS

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menjalankan beban kerja inferensi online real-time di Amazon EKS

Bagian ini dirancang untuk membantu Anda menerapkan dan mengoperasikan beban kerja inferensi online real-time di Amazon Elastic Kubernetes Service (EKS). Anda akan menemukan panduan tentang membangun cluster yang dioptimalkan dengan node yang dipercepat GPU, mengintegrasikan AWS layanan untuk penyimpanan dan penskalaan otomatis, menerapkan model sampel untuk validasi, dan pertimbangan arsitektur utama seperti memisahkan tugas CPU dan GPU, memilih jenis yang sesuai dan instance, dan memastikan paparan latensi rendah dari titik akhir inferensi. AMIs