Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Fitur yang didukung
Amazon SageMaker AI menawarkan empat opsi berikut untuk menerapkan model untuk inferensi.
-
Inferensi real-time untuk beban kerja inferensi dengan persyaratan real-time, interaktif, latensi rendah.
-
Transformasi Batch untuk inferensi offline dengan kumpulan data besar.
-
Inferensi asinkron untuk inferensi dengan input besar near-real-time yang membutuhkan waktu pra-pemrosesan yang lebih lama.
-
Inferensi tanpa server untuk beban kerja inferensi yang memiliki periode idle antara lonjakan lalu lintas.
Tabel berikut merangkum fitur platform inti yang didukung oleh setiap opsi inferensi. Itu tidak menampilkan fitur yang dapat disediakan oleh kerangka kerja, wadah Docker khusus, atau melalui rantai layanan yang berbeda. AWS
Fitur | Inferensi waktu nyata | Transformasi Batch | Inferensi asinkron | Inferensi tanpa server | Kontainer Docker |
---|---|---|---|---|---|
Dukungan penskalaan otomatis | ✓ | N/A | ✓ | ✓ | N/A |
Dukungan GPU | ✓ 1 | ✓ 1 | ✓ 1 | 1P, pra-dibangun, BYOC | |
Model tunggal | ✓ | ✓ | ✓ | ✓ | N/A |
Titik akhir multi-model | ✓ | K-NN,, Pelajar Linier XGBoost, RCF, Apache,, scikit-belajar TensorFlow 2 MXNet PyTorch | |||
Titik akhir multi-wadah | ✓ | 1P, pra-dibangun, Perpanjang pra-dibangun, BYOC | |||
Pipa inferensi serial | ✓ | ✓ | 1P, pra-dibangun, Perpanjang pra-dibangun, BYOC | ||
Rekomendasi Inferensi | ✓ | 1P, pra-dibangun, Perpanjang pra-dibangun, BYOC | |||
Dukungan tautan pribadi | ✓ | ✓ | ✓ | N/A | |
Dukungan penangkapan data/Model monitor | ✓ | ✓ | N/A | ||
DLCs didukung |
1P, pra-dibangun, Perpanjang pra-dibangun, BYOC | 1P, pra-dibangun, Perpanjang pra-dibangun, BYOC | 1P, pra-dibangun, Perpanjang pra-dibangun, BYOC | 1P, pra-dibangun, Perpanjang pra-dibangun, BYOC | N/A |
Protokol didukung | HTTP (S) | HTTP (S) | HTTP (S) | HTTP (S) | N/A |
Ukuran muatan | < 6 MB | ≤ 100 MB | ≤ 1 GB | ≤ 4 MB | |
Pengkodean chunked HTTP | Tergantung kerangka kerja, 1P tidak didukung | N/A | Tergantung kerangka kerja, 1P tidak didukung | Tergantung kerangka kerja, 1P tidak didukung | N/A |
Batas waktu permintaan | < 60 detik | Hari | < 1 jam | < 60 detik | N/A |
Pagar pembatas penyebaran: penerapan biru/hijau | ✓ | N/A | ✓ | N/A | |
Pagar pembatas penyebaran: penerapan bergulir | ✓ | N/A | ✓ | N/A | |
Pengujian bayangan | ✓ | N/A | |||
Skala ke nol | N/A | ✓ | ✓ | N/A | |
Dukungan paket model pasar | ✓ | ✓ | N/A | ||
Dukungan cloud pribadi virtual | ✓ | ✓ | ✓ | N/A | |
Beberapa varian produksi mendukung | ✓ | N/A | |||
Isolasi jaringan | ✓ | ✓ | N/A | ||
Dukungan penyajian paralel model | ✓ 3 | ✓ | ✓ 3 | ✓ 3 | |
Enkripsi volume | ✓ | ✓ | ✓ | ✓ | N/A |
Pelanggan AWS KMS | ✓ | ✓ | ✓ | ✓ | N/A |
d contoh dukungan | ✓ | ✓ | ✓ | N/A | |
dukungan inf1 | ✓ | ✓ |
Dengan SageMaker AI, Anda dapat menerapkan satu model, atau beberapa model di belakang titik akhir inferensi tunggal untuk inferensi waktu nyata. Tabel berikut merangkum fitur-fitur inti yang didukung oleh berbagai opsi hosting yang datang dengan inferensi real-time.
Fitur | Titik akhir model tunggal | Titik akhir multi-model | Pipa inferensi serial | Titik akhir multi-kontainer |
---|---|---|---|---|
Dukungan penskalaan otomatis | ✓ | ✓ | ✓ | ✓ |
Dukungan GPU | ✓ 1 | ✓ | ✓ | |
Model tunggal | ✓ | ✓ | ✓ | ✓ |
Titik akhir multi-model | ✓ | ✓ | N/A | |
Titik akhir multi-kontainer | ✓ | N/A | ||
Pipa inferensi serial | ✓ | ✓ | N/A | |
Rekomendasi Inferensi | ✓ | |||
Dukungan tautan pribadi | ✓ | ✓ | ✓ | ✓ |
Dukungan penangkapan data/Model monitor | ✓ | N/A | N/A | N/A |
DLCs didukung | 1P, pra-dibangun, Perpanjang pra-dibangun, BYOC | K-NN,, Pelajar Linier XGBoost, RCF, Apache,, scikit-belajar TensorFlow 2 MXNet PyTorch | 1P, pra-dibangun, Perpanjang pra-dibangun, BYOC | 1P, pra-dibangun, Perpanjang pra-dibangun, BYOC |
Protokol didukung | HTTP (S) | HTTP (S) | HTTP (S) | HTTP (S) |
Ukuran muatan | < 6 MB | < 6 MB | < 6 MB | < 6 MB |
Batas waktu permintaan | < 60 detik | < 60 detik | < 60 detik | < 60 detik |
Pagar pembatas penyebaran: penerapan biru/hijau | ✓ | ✓ | ✓ | ✓ |
Pagar pembatas penyebaran: penerapan bergulir | ✓ | ✓ | ✓ | ✓ |
Pengujian bayangan | ✓ | |||
Dukungan paket model pasar | ✓ | |||
Dukungan cloud pribadi virtual | ✓ | ✓ | ✓ | ✓ |
Beberapa varian produksi mendukung | ✓ | ✓ | ✓ | |
Isolasi jaringan | ✓ | ✓ | ✓ | ✓ |
Dukungan penyajian paralel model | ✓ 3 | ✓ 3 | ||
Enkripsi volume | ✓ | ✓ | ✓ | ✓ |
Pelanggan AWS KMS | ✓ | ✓ | ✓ | ✓ |
d contoh dukungan | ✓ | ✓ | ✓ | ✓ |
dukungan inf1 | ✓ |
1 Ketersediaan jenis EC2 instans Amazon tergantung pada AWS Wilayah. Untuk ketersediaan instans khusus untuk AWS, lihat Harga Amazon SageMaker AI
2 Untuk menggunakan kerangka kerja atau algoritme lain, gunakan toolkit Inference SageMaker AI untuk membangun wadah yang mendukung titik akhir multi-model.
3 Dengan SageMaker AI, Anda dapat menerapkan model besar (hingga 500 GB) untuk inferensi. Anda dapat mengonfigurasi pemeriksaan kesehatan kontainer dan mengunduh kuota batas waktu, hingga 60 menit. Ini akan memungkinkan Anda memiliki lebih banyak waktu untuk mengunduh dan memuat model dan sumber daya terkait Anda. Untuk informasi selengkapnya, lihat SageMaker Parameter titik akhir AI untuk inferensi model besar. Anda dapat menggunakan wadah Inferensi model besar