Fitur yang didukung

Amazon SageMaker AI menawarkan empat opsi berikut untuk menerapkan model untuk inferensi.

Inferensi real-time untuk beban kerja inferensi dengan persyaratan real-time, interaktif, latensi rendah.
Transformasi Batch untuk inferensi offline dengan kumpulan data besar.
Inferensi asinkron untuk inferensi dengan input besar near-real-time yang membutuhkan waktu pra-pemrosesan yang lebih lama.
Inferensi tanpa server untuk beban kerja inferensi yang memiliki periode idle antara lonjakan lalu lintas.

Tabel berikut merangkum fitur platform inti yang didukung oleh setiap opsi inferensi. Itu tidak menampilkan fitur yang dapat disediakan oleh kerangka kerja, wadah Docker khusus, atau melalui rantai layanan yang berbeda. AWS

Fitur	Inferensi waktu nyata	Transformasi Batch	Inferensi asinkron	Inferensi tanpa server	Kontainer Docker
Dukungan penskalaan otomatis	✓	N/A	✓	✓	N/A
Dukungan GPU	✓ ¹	✓ ¹	✓ ¹		1P, pra-dibangun, BYOC
Model tunggal	✓	✓	✓	✓	N/A
Titik akhir multi-model	✓				^{K-NN,, Pelajar Linier XGBoost, RCF, Apache,, scikit-belajar TensorFlow 2 MXNet PyTorch}
Titik akhir multi-wadah	✓				1P, pra-dibangun, Perpanjang pra-dibangun, BYOC
Pipa inferensi serial	✓	✓			1P, pra-dibangun, Perpanjang pra-dibangun, BYOC
Rekomendasi Inferensi	✓				1P, pra-dibangun, Perpanjang pra-dibangun, BYOC
Dukungan tautan pribadi	✓	✓	✓		N/A
Dukungan penangkapan data/Model monitor	✓	✓			N/A
DLCs didukung	1P, pra-dibangun, Perpanjang pra-dibangun, BYOC	1P, pra-dibangun, Perpanjang pra-dibangun, BYOC	1P, pra-dibangun, Perpanjang pra-dibangun, BYOC	1P, pra-dibangun, Perpanjang pra-dibangun, BYOC	N/A
Protokol didukung	HTTP (S)	HTTP (S)	HTTP (S)	HTTP (S)	N/A
Ukuran muatan	< 6 MB	≤ 100 MB	≤ 1 GB	≤ 4 MB
Pengkodean chunked HTTP	Tergantung kerangka kerja, 1P tidak didukung	N/A	Tergantung kerangka kerja, 1P tidak didukung	Tergantung kerangka kerja, 1P tidak didukung	N/A
Batas waktu permintaan	< 60 detik	Hari	< 1 jam	< 60 detik	N/A
Pagar pembatas penyebaran: penerapan biru/hijau	✓	N/A	✓		N/A
Pagar pembatas penyebaran: penerapan bergulir	✓	N/A	✓		N/A
Pengujian bayangan	✓				N/A
Skala ke nol		N/A	✓	✓	N/A
Dukungan paket model pasar	✓	✓			N/A
Dukungan cloud pribadi virtual	✓	✓	✓		N/A
Beberapa varian produksi mendukung	✓				N/A
Isolasi jaringan	✓		✓		N/A
Dukungan penyajian paralel model	✓ ³	✓	✓ ³		✓ ³
Enkripsi volume	✓	✓	✓	✓	N/A
Pelanggan AWS KMS	✓	✓	✓	✓	N/A
d contoh dukungan	✓	✓	✓		N/A
dukungan inf1	✓				✓

Dengan SageMaker AI, Anda dapat menerapkan satu model, atau beberapa model di belakang titik akhir inferensi tunggal untuk inferensi waktu nyata. Tabel berikut merangkum fitur-fitur inti yang didukung oleh berbagai opsi hosting yang datang dengan inferensi real-time.

Fitur	Titik akhir model tunggal	Titik akhir multi-model	Pipa inferensi serial	Titik akhir multi-kontainer
Dukungan penskalaan otomatis	✓	✓	✓	✓
Dukungan GPU	✓ ¹	✓	✓
Model tunggal	✓	✓	✓	✓
Titik akhir multi-model		✓	✓	N/A
Titik akhir multi-kontainer	✓			N/A
Pipa inferensi serial	✓	✓	N/A
Rekomendasi Inferensi	✓
Dukungan tautan pribadi	✓	✓	✓	✓
Dukungan penangkapan data/Model monitor	✓	N/A	N/A	N/A
DLCs didukung	1P, pra-dibangun, Perpanjang pra-dibangun, BYOC	^{K-NN,, Pelajar Linier XGBoost, RCF, Apache,, scikit-belajar TensorFlow 2 MXNet PyTorch}	1P, pra-dibangun, Perpanjang pra-dibangun, BYOC	1P, pra-dibangun, Perpanjang pra-dibangun, BYOC
Protokol didukung	HTTP (S)	HTTP (S)	HTTP (S)	HTTP (S)
Ukuran muatan	< 6 MB	< 6 MB	< 6 MB	< 6 MB
Batas waktu permintaan	< 60 detik	< 60 detik	< 60 detik	< 60 detik
Pagar pembatas penyebaran: penerapan biru/hijau	✓	✓	✓	✓
Pagar pembatas penyebaran: penerapan bergulir	✓	✓	✓	✓
Pengujian bayangan	✓
Dukungan paket model pasar	✓
Dukungan cloud pribadi virtual	✓	✓	✓	✓
Beberapa varian produksi mendukung	✓		✓	✓
Isolasi jaringan	✓	✓	✓	✓
Dukungan penyajian paralel model	✓ ³		✓ ³
Enkripsi volume	✓	✓	✓	✓
Pelanggan AWS KMS	✓	✓	✓	✓
d contoh dukungan	✓	✓	✓	✓
dukungan inf1	✓

¹ Ketersediaan jenis EC2 instans Amazon tergantung pada AWS Wilayah. Untuk ketersediaan instans khusus untuk AWS, lihat Harga Amazon SageMaker AI.

² Untuk menggunakan kerangka kerja atau algoritme lain, gunakan toolkit Inference SageMaker AI untuk membangun wadah yang mendukung titik akhir multi-model.

³ Dengan SageMaker AI, Anda dapat menerapkan model besar (hingga 500 GB) untuk inferensi. Anda dapat mengonfigurasi pemeriksaan kesehatan kontainer dan mengunduh kuota batas waktu, hingga 60 menit. Ini akan memungkinkan Anda memiliki lebih banyak waktu untuk mengunduh dan memuat model dan sumber daya terkait Anda. Untuk informasi selengkapnya, lihat SageMaker Parameter titik akhir AI untuk inferensi model besar. Anda dapat menggunakan wadah Inferensi model besar yang kompatibel dengan SageMaker AI. Anda juga dapat menggunakan pustaka paralelisasi model pihak ketiga, seperti Triton dengan dan. FasterTransformer DeepSpeed Anda harus memastikan bahwa mereka kompatibel dengan SageMaker AI.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Memperbarui kontainer untuk NVIDIA Container Toolkit

Sumber daya