Menyebarkan model untuk inferensi - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyebarkan model untuk inferensi

Dengan Amazon SageMaker, Anda dapat mulai mendapatkan prediksi, atau kesimpulan, dari model pembelajaran mesin terlatih Anda. SageMaker menyediakan berbagai pilihan infrastruktur dan opsi penerapan model ML untuk membantu memenuhi semua kebutuhan inferensi ML Anda. Dengan SageMaker Inference, Anda dapat menskalakan penerapan model, mengelola model secara lebih efektif dalam produksi, dan mengurangi beban operasional. SageMaker memberi Anda berbagai opsi inferensi, seperti titik akhir waktu nyata untuk mendapatkan inferensi latensi rendah, titik akhir tanpa server untuk infrastruktur dan auto-scaling yang dikelola sepenuhnya, dan titik akhir asinkron untuk kumpulan permintaan. Dengan memanfaatkan opsi inferensi yang sesuai untuk kasus penggunaan Anda, Anda dapat memastikan penerapan dan inferensi yang efisien dan model.

Memilih fitur

Ada beberapa kasus penggunaan untuk menerapkan model ML dengan SageMaker. Bagian ini menjelaskan kasus penggunaan tersebut, serta SageMaker fitur yang kami rekomendasikan untuk setiap kasus penggunaan.

Kasus penggunaan

Berikut ini adalah kasus penggunaan utama untuk menerapkan model ML dengan SageMaker.

  • Kasus penggunaan 1: Menerapkan model pembelajaran mesin di lingkungan kode rendah atau tanpa kode. Untuk pemula atau yang baru SageMaker, Anda dapat menerapkan model pra-terlatih menggunakan Amazon SageMaker JumpStart melalui antarmuka Amazon SageMaker Studio, tanpa perlu konfigurasi yang rumit.

  • Kasus penggunaan 2: Gunakan kode untuk menerapkan model pembelajaran mesin dengan lebih banyak fleksibilitas dan kontrol. Praktisi ML berpengalaman dapat menerapkan model mereka sendiri dengan pengaturan khusus untuk kebutuhan aplikasi mereka menggunakan ModelBuilder kelas di SageMaker PythonSDK, yang memberikan kontrol halus atas berbagai pengaturan, seperti jenis instance, isolasi jaringan, dan alokasi sumber daya.

  • Kasus penggunaan 3: Terapkan model pembelajaran mesin dalam skala besar. Untuk pengguna dan organisasi tingkat lanjut yang ingin mengelola model dalam skala produksi, gunakan AWS SDK for Python (Boto3) dan AWS CloudFormation bersama dengan Infrastructure as Code (IAc) dan alat CI/CD yang Anda inginkan untuk menyediakan sumber daya dan mengotomatiskan manajemen sumber daya.

Tabel berikut menjelaskan pertimbangan utama dan pengorbanan untuk SageMaker fitur yang sesuai dengan setiap kasus penggunaan.

Kasus penggunaan 1 Kasus penggunaan 2 Kasus penggunaan 3
SageMaker fitur Gunakan JumpStart di Studio untuk mempercepat penerapan model dasar Anda. Menyebarkan model menggunakan ModelBuilder dari SageMaker Python SDK. Menyebarkan dan mengelola model dalam skala besar dengan AWS CloudFormation.
Deskripsi Gunakan UI Studio untuk menerapkan model pra-terlatih dari katalog ke titik akhir inferensi yang telah dikonfigurasi sebelumnya. Opsi ini sangat ideal untuk ilmuwan data warga, atau bagi siapa saja yang ingin menerapkan model tanpa mengonfigurasi pengaturan yang rumit. Gunakan ModelBuilder kelas dari Amazon SageMaker Python SDK untuk menerapkan model Anda sendiri dan mengonfigurasi pengaturan penerapan. Opsi ini sangat ideal untuk ilmuwan data berpengalaman, atau bagi siapa saja yang memiliki model sendiri untuk digunakan dan memerlukan kontrol halus. Gunakan AWS CloudFormation dan Infrastruktur sebagai Kode (IAc) untuk kontrol dan otomatisasi terprogram untuk menerapkan dan mengelola model. SageMaker Opsi ini sangat ideal untuk pengguna tingkat lanjut yang membutuhkan penerapan yang konsisten dan berulang.
Dioptimalkan untuk Penerapan model open source populer yang cepat dan efisien Menyebarkan model Anda sendiri Manajemen model yang sedang berlangsung dalam produksi
Pertimbangan Kurangnya kustomisasi untuk pengaturan kontainer dan kebutuhan aplikasi tertentu Tidak ada UI, mengharuskan Anda merasa nyaman mengembangkan dan memelihara kode Python Membutuhkan manajemen infrastruktur dan sumber daya organisasi, dan juga membutuhkan keakraban dengan AWS SDK for Python (Boto3) atau dengan AWS CloudFormation templat.
Lingkungan yang direkomendasikan Sebuah SageMaker domain Lingkungan pengembangan Python yang dikonfigurasi dengan AWS kredensi Anda dan SageMaker Python SDK yang diinstal, atau sejenisnya SageMaker IDE SageMaker JupyterLab Lingkungan pengembangan lokal AWS CLI, dan Infrastruktur sebagai Kode (IAc) dan alat CI/CD

Opsi tambahan

SageMaker menyediakan opsi berbeda untuk kasus penggunaan inferensi Anda, memberi Anda pilihan atas luas dan kedalaman teknis penerapan Anda:

  • Menerapkan model ke titik akhir. Saat menerapkan model Anda, pertimbangkan opsi berikut:

    • Inferensi waktu nyata. Inferensi waktu nyata sangat ideal untuk beban kerja inferensi di mana Anda memiliki persyaratan interaktif dan latensi rendah.

    • Terapkan model dengan Inferensi Tanpa SageMaker Server Amazon. Gunakan Inferensi Tanpa Server untuk menerapkan model tanpa mengonfigurasi atau mengelola infrastruktur yang mendasarinya. Opsi ini sangat ideal untuk beban kerja yang memiliki periode idle antara lonjakan lalu lintas dan dapat mentolerir awal yang dingin.

    • Inferensi asinkron. mengantri permintaan yang masuk dan memprosesnya secara asinkron. Opsi ini ideal untuk permintaan dengan ukuran muatan besar (hingga 1GB), waktu pemrosesan yang lama (hingga toAsynchronous Inferensi satu jam), dan persyaratan latensi mendekati waktu nyata

  • Optimalisasi biaya. Untuk mengoptimalkan biaya inferensi Anda, pertimbangkan opsi berikut:

    • Optimalisasi kinerja model dengan SageMaker Neo. Gunakan SageMaker Neo untuk mengoptimalkan dan menjalankan model pembelajaran mesin Anda dengan kinerja dan efisiensi yang lebih baik, membantu Anda meminimalkan biaya komputasi dengan mengoptimalkan model secara otomatis untuk berjalan di lingkungan seperti chip AWS Inferentia.

    • Penskalaan otomatis model Amazon SageMaker . Gunakan penskalaan otomatis untuk menyesuaikan sumber daya komputasi secara dinamis untuk titik akhir Anda berdasarkan pola lalu lintas masuk, yang membantu Anda mengoptimalkan biaya dengan hanya membayar sumber daya yang Anda gunakan pada waktu tertentu.