Menyebarkan model untuk inferensi

Mode fokus

Menyebarkan model untuk inferensi - Amazon SageMaker AI

Dengan Amazon SageMaker AI, Anda dapat mulai mendapatkan prediksi, atau kesimpulan, dari model pembelajaran mesin terlatih Anda. SageMaker AI menyediakan berbagai pilihan infrastruktur ML dan opsi penerapan model untuk membantu memenuhi semua kebutuhan inferensi ML Anda. Dengan SageMaker AI Inference, Anda dapat menskalakan penerapan model Anda, mengelola model secara lebih efektif dalam produksi, dan mengurangi beban operasional. SageMaker AI memberi Anda berbagai opsi inferensi, seperti titik akhir waktu nyata untuk mendapatkan inferensi latensi rendah, titik akhir tanpa server untuk infrastruktur dan auto-scaling yang dikelola sepenuhnya, dan titik akhir asinkron untuk kumpulan permintaan. Dengan memanfaatkan opsi inferensi yang sesuai untuk kasus penggunaan Anda, Anda dapat memastikan penerapan dan inferensi yang efisien dan model.

Memilih fitur

Ada beberapa kasus penggunaan untuk menerapkan model ML dengan SageMaker AI. Bagian ini menjelaskan kasus penggunaan tersebut, serta fitur SageMaker AI yang kami rekomendasikan untuk setiap kasus penggunaan.

Kasus penggunaan

Berikut ini adalah kasus penggunaan utama untuk menerapkan model ML dengan SageMaker AI.

Kasus penggunaan 1: Menerapkan model pembelajaran mesin di lingkungan kode rendah atau tanpa kode. Untuk pemula atau mereka yang baru mengenal SageMaker AI, Anda dapat menerapkan model pra-terlatih menggunakan Amazon SageMaker JumpStart melalui antarmuka Amazon SageMaker Studio, tanpa perlu konfigurasi yang rumit.
Kasus penggunaan 2: Gunakan kode untuk menerapkan model pembelajaran mesin dengan lebih banyak fleksibilitas dan kontrol. Praktisi ML berpengalaman dapat menerapkan model mereka sendiri dengan pengaturan khusus untuk kebutuhan aplikasi mereka menggunakan ModelBuilder kelas di AI SageMaker Python SDK, yang menyediakan kontrol halus atas berbagai pengaturan, seperti jenis instance, isolasi jaringan, dan alokasi sumber daya.
Kasus penggunaan 3: Terapkan model pembelajaran mesin dalam skala besar. Untuk pengguna dan organisasi tingkat lanjut yang ingin mengelola model dalam skala produksi, gunakan AWS SDK for Python (Boto3) dan AWS CloudFormation bersama dengan Infrastructure as Code (IAc) dan alat CI/CD yang Anda inginkan untuk menyediakan sumber daya dan mengotomatiskan manajemen sumber daya.

Fitur yang direkomendasikan

Tabel berikut menjelaskan pertimbangan utama dan pengorbanan untuk fitur SageMaker AI yang sesuai dengan setiap kasus penggunaan.

	Kasus penggunaan 1	Kasus penggunaan 2	Kasus penggunaan 3
SageMaker Fitur AI	Gunakan JumpStart di Studio untuk mempercepat penerapan model dasar Anda.	Menyebarkan model menggunakan ModelBuilder dari SageMaker Python SDK.	Menyebarkan dan mengelola model dalam skala besar dengan AWS CloudFormation.
Deskripsi	Gunakan UI Studio untuk menerapkan model pra-terlatih dari katalog ke titik akhir inferensi yang telah dikonfigurasi sebelumnya. Opsi ini sangat ideal untuk ilmuwan data warga, atau bagi siapa saja yang ingin menerapkan model tanpa mengonfigurasi pengaturan yang rumit.	Gunakan `ModelBuilder` kelas dari Amazon SageMaker AI Python SDK untuk menerapkan model Anda sendiri dan mengonfigurasi pengaturan penerapan. Opsi ini sangat ideal untuk ilmuwan data berpengalaman, atau bagi siapa saja yang memiliki model sendiri untuk digunakan dan memerlukan kontrol halus.	Gunakan AWS CloudFormation dan Infrastruktur sebagai Kode (IAc) untuk kontrol dan otomatisasi terprogram untuk menerapkan dan mengelola SageMaker model AI. Opsi ini sangat ideal untuk pengguna tingkat lanjut yang membutuhkan penerapan yang konsisten dan berulang.
Dioptimalkan untuk	Penerapan model open source populer yang cepat dan efisien	Menyebarkan model Anda sendiri	Manajemen model yang sedang berlangsung dalam produksi
Pertimbangan	Kurangnya kustomisasi untuk pengaturan kontainer dan kebutuhan aplikasi tertentu	Tidak ada UI, mengharuskan Anda merasa nyaman mengembangkan dan memelihara kode Python	Membutuhkan manajemen infrastruktur dan sumber daya organisasi, dan juga membutuhkan keakraban dengan AWS SDK for Python (Boto3) atau dengan AWS CloudFormation templat.
Lingkungan yang direkomendasikan	Domain SageMaker AI	Lingkungan pengembangan Python yang dikonfigurasi dengan AWS kredensi Anda dan SDK SageMaker Python yang diinstal, atau AI IDE seperti SageMaker SageMaker JupyterLab	Lingkungan pengembangan lokal AWS CLI, dan Infrastruktur sebagai Kode (IAc) dan alat CI/CD

Opsi tambahan

SageMaker AI menyediakan opsi berbeda untuk kasus penggunaan inferensi Anda, memberi Anda pilihan atas luas dan kedalaman teknis penerapan Anda:

Menerapkan model ke titik akhir. Saat menerapkan model Anda, pertimbangkan opsi berikut:
- Inferensi waktu nyata. Inferensi waktu nyata sangat ideal untuk beban kerja inferensi di mana Anda memiliki persyaratan interaktif dan latensi rendah.
- Terapkan model dengan Inferensi Tanpa SageMaker Server Amazon. Gunakan Inferensi Tanpa Server untuk menerapkan model tanpa mengonfigurasi atau mengelola infrastruktur yang mendasarinya. Opsi ini sangat ideal untuk beban kerja yang memiliki periode idle antara lonjakan lalu lintas dan dapat mentolerir awal yang dingin.
- Inferensi asinkron. mengantri permintaan yang masuk dan memprosesnya secara asinkron. Opsi ini ideal untuk permintaan dengan ukuran muatan besar (hingga 1GB), waktu pemrosesan yang lama (hingga Inferensi Asinkron satu jam), dan persyaratan latensi mendekati waktu nyata
Optimalisasi biaya. Untuk mengoptimalkan biaya inferensi Anda, pertimbangkan opsi berikut:
- Optimalisasi kinerja model dengan SageMaker Neo. Gunakan SageMaker Neo untuk mengoptimalkan dan menjalankan model pembelajaran mesin Anda dengan kinerja dan efisiensi yang lebih baik, membantu Anda meminimalkan biaya komputasi dengan mengoptimalkan model secara otomatis untuk berjalan di lingkungan seperti chip AWS Inferentia.
- Penskalaan otomatis model Amazon SageMaker AI. Gunakan penskalaan otomatis untuk menyesuaikan sumber daya komputasi secara dinamis untuk titik akhir Anda berdasarkan pola lalu lintas masuk, yang membantu Anda mengoptimalkan biaya dengan hanya membayar sumber daya yang Anda gunakan pada waktu tertentu.