Ikhtisar pembelajaran mesin dengan Amazon SageMaker - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ikhtisar pembelajaran mesin dengan Amazon SageMaker

Bagian ini menjelaskan alur kerja machine learning (ML) yang khas dan menjelaskan cara menyelesaikan tugas-tugas tersebut dengan Amazon. SageMaker

Dalam pembelajaran mesin, Anda mengajarkan komputer untuk membuat prediksi atau kesimpulan. Pertama, Anda menggunakan algoritma dan contoh data untuk melatih model. Kemudian, Anda mengintegrasikan model Anda ke dalam aplikasi Anda untuk menghasilkan kesimpulan secara real time dan dalam skala besar.

Diagram berikut menunjukkan alur kerja khas untuk membuat model ML. Ini mencakup tiga tahap dalam aliran melingkar yang kita bahas secara lebih rinci melanjutkan diagram:

  • Hasilkan contoh data

  • Latih model

  • Menyebarkan model

Tiga tahap pembuatan model ML, termasuk menghasilkan data contoh, melatih model, dan menerapkan model.

Diagram menunjukkan bagaimana melakukan tugas-tugas berikut dalam skenario yang paling umum:

  1. Menghasilkan contoh data — Untuk melatih model, Anda memerlukan contoh data. Jenis data yang Anda butuhkan tergantung pada masalah bisnis yang Anda inginkan untuk dipecahkan oleh model tersebut. Ini berkaitan dengan kesimpulan yang Anda ingin model untuk menghasilkan. Misalnya, jika Anda ingin membuat model yang memprediksi angka dari gambar input digit tulisan tangan. Untuk melatih model ini, Anda memerlukan contoh gambar angka tulisan tangan.

    Ilmuwan data sering mencurahkan waktu untuk mengeksplorasi dan memproses data contoh sebelum menggunakannya untuk pelatihan model. Untuk memproses data sebelumnya, Anda biasanya melakukan hal berikut:

    1. Ambil data — Anda mungkin memiliki repositori data contoh internal, atau Anda mungkin menggunakan kumpulan data yang tersedia untuk umum. Biasanya, Anda menarik dataset atau dataset ke dalam satu repositori.

    2. Bersihkan data — Untuk meningkatkan pelatihan model, periksa data dan bersihkan, sesuai kebutuhan. Misalnya, jika data Anda memiliki country name atribut dengan nilai United States danUS, Anda dapat mengedit data agar konsisten.

    3. Mempersiapkan atau mengubah data — Untuk meningkatkan kinerja, Anda dapat melakukan transformasi data tambahan. Misalnya, Anda dapat memilih untuk menggabungkan atribut untuk model yang memprediksi kondisi yang memerlukan de-icing pesawat terbang. Alih-alih menggunakan atribut suhu dan kelembaban secara terpisah, Anda dapat menggabungkan atribut tersebut menjadi atribut baru untuk mendapatkan model yang lebih baik.

    Di SageMaker, Anda dapat memproses data contoh menggunakan SageMaker API dengan SageMaker Python SDK di lingkungan pengembangan terintegrasi (IDE). Dengan SDK for Python (Boto3), Anda dapat mengambil, menjelajahi, dan menyiapkan data Anda untuk pelatihan model. Untuk informasi tentang persiapan data, pemrosesan, dan transformasi data Anda, lihat Rekomendasi untuk memilih alat persiapan data yang tepat di SageMakerGunakan pekerjaan pemrosesan untuk menjalankan beban kerja transformasi data, danBuat, simpan, dan bagikan fitur dengan Feature Store.

  2. Melatih model — Pelatihan model mencakup pelatihan dan evaluasi model, sebagai berikut:

  3. Menyebarkan model — Anda secara tradisional merekayasa ulang model sebelum Anda mengintegrasikannya dengan aplikasi Anda dan menerapkannya. Dengan layanan SageMaker hosting, Anda dapat menerapkan model Anda secara independen, yang memisahkannya dari kode aplikasi Anda. Untuk informasi selengkapnya, lihat Menyebarkan model untuk inferensi.

Pembelajaran mesin adalah siklus yang berkelanjutan. Setelah menerapkan model, Anda memantau kesimpulan, mengumpulkan lebih banyak data berkualitas tinggi, dan mengevaluasi model untuk mengidentifikasi penyimpangan. Anda kemudian meningkatkan akurasi kesimpulan Anda dengan memperbarui data pelatihan Anda untuk memasukkan data berkualitas tinggi yang baru dikumpulkan. Saat lebih banyak contoh data tersedia, Anda terus melatih ulang model Anda untuk meningkatkan akurasi.