Mode pelatihan dan dukungan algoritma - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mode pelatihan dan dukungan algoritma

Autopilot mendukung berbagai mode pelatihan dan algoritma untuk mengatasi masalah pembelajaran mesin, melaporkan metrik kualitas dan objektif, dan menggunakan validasi silang secara otomatis, bila diperlukan.

Mode pelatihan

SageMaker Autopilot dapat secara otomatis memilih metode pelatihan berdasarkan ukuran dataset, atau Anda dapat memilihnya secara manual. Pilihannya adalah sebagai berikut:

  • Ensembling — Autopilot menggunakan AutoGluonperpustakaan untuk melatih beberapa model dasar. Untuk menemukan kombinasi terbaik untuk kumpulan data Anda, mode ansambel menjalankan 10 uji coba dengan pengaturan model dan parameter meta yang berbeda. Kemudian Autopilot menggabungkan model-model ini menggunakan metode ansambel susun untuk membuat model prediktif yang optimal. Untuk daftar algoritma yang didukung Autopilot dalam mode ensembling untuk data tabular, lihat bagian dukungan Algoritma berikut.

  • Optimasi Hyperparameter (HPO) — Autopilot menemukan versi terbaik dari model dengan menyetel hyperparameters menggunakan optimasi Bayesian atau optimasi multi-fidelity saat menjalankan pekerjaan pelatihan pada dataset Anda. Mode HPO memilih algoritme yang paling relevan dengan kumpulan data Anda dan memilih rentang hiperparameter terbaik untuk menyetel model Anda. Untuk menyetel model Anda, mode HPO menjalankan hingga 100 uji coba (default) untuk menemukan pengaturan hiperparameter optimal dalam rentang yang dipilih. Jika ukuran dataset Anda kurang dari 100 MB, Autopilot menggunakan optimasi Bayesian. Autopilot memilih optimasi multi-fidelity jika dataset Anda lebih besar dari 100 MB.

    Dalam optimasi multi-fidelity, metrik terus dipancarkan dari wadah pelatihan. Uji coba yang berkinerja buruk terhadap metrik objektif yang dipilih dihentikan lebih awal. Uji coba yang berkinerja baik dialokasikan lebih banyak sumber daya.

    Untuk daftar algoritma yang didukung Autopilot dalam mode HPO, lihat bagian dukungan Algoritma berikut.

  • Otomatis — Autopilot secara otomatis memilih mode ensembling atau mode HPO berdasarkan ukuran dataset Anda. Jika dataset Anda lebih besar dari 100 MB, Autopilot memilih HPO. Jika tidak, ia memilih mode ansambel. Autopilot dapat gagal membaca ukuran kumpulan data Anda dalam kasus berikut.

    • Jika Anda mengaktifkan mode Virtual Private Cloud (VPC), untuk pekerjaan AutoML tetapi bucket S3 yang berisi kumpulan data hanya mengizinkan akses dari VPC.

    • Input S3 DataType dari dataset Anda adalah a. ManifestFile

    • Masukan S3Uri berisi lebih dari 1000 item.

    Jika Autopilot tidak dapat membaca ukuran dataset Anda, default memilih mode HPO.

catatan

Untuk runtime dan kinerja yang optimal, gunakan mode pelatihan ansambel untuk kumpulan data yang lebih kecil dari 100 MB.

Dukungan algoritma

Dalam mode HPO, Autopilot mendukung jenis algoritma pembelajaran mesin berikut:

  • Linear learner — Algoritma pembelajaran yang diawasi yang dapat memecahkan masalah klasifikasi atau regresi.

  • XGBoost — Algoritma pembelajaran yang diawasi yang mencoba memprediksi variabel target secara akurat dengan menggabungkan ansambel perkiraan dari serangkaian model yang lebih sederhana dan lebih lemah.

  • Algoritma pembelajaran mendalam — Perceptron multilayer (MLP) dan jaringan saraf tiruan feedforward. Algoritma ini dapat menangani data yang tidak dapat dipisahkan secara linier.

catatan

Anda tidak perlu menentukan algoritma yang akan digunakan untuk masalah pembelajaran mesin Anda. Autopilot secara otomatis memilih algoritma yang sesuai untuk dilatih.

Dalam mode ansambel, Autopilot mendukung jenis algoritma pembelajaran mesin berikut:

  • LightGBM - Kerangka kerja yang dioptimalkan yang menggunakan algoritma berbasis pohon dengan peningkatan gradien. Algoritma ini menggunakan pohon yang tumbuh dalam lebar, bukan kedalaman, dan sangat dioptimalkan untuk kecepatan.

  • CatBoost— Kerangka kerja yang menggunakan algoritme berbasis pohon dengan peningkatan gradien. Dioptimalkan untuk menangani variabel kategoris.

  • XGBoost — Kerangka kerja yang menggunakan algoritme berbasis pohon dengan peningkatan gradien yang tumbuh secara mendalam, bukan luasnya.

  • Random Forest — Algoritma berbasis pohon yang menggunakan beberapa pohon keputusan pada sub-sampel acak data dengan penggantian. Pohon-pohon dibagi menjadi simpul optimal di setiap tingkat. Keputusan setiap pohon dirata-ratakan bersama untuk mencegah overfitting dan meningkatkan prediksi.

  • Extra Trees — Algoritma berbasis pohon yang menggunakan beberapa pohon keputusan pada seluruh kumpulan data. Pohon-pohon dibelah secara acak di setiap tingkat. Keputusan setiap pohon dirata-ratakan untuk mencegah overfitting dan untuk meningkatkan prediksi. Pohon tambahan menambahkan tingkat pengacakan dibandingkan dengan algoritma hutan acak.

  • Model Linear — Kerangka kerja yang menggunakan persamaan linier untuk memodelkan hubungan antara dua variabel dalam data yang diamati.

  • Obor jaringan saraf — Model jaringan saraf yang diimplementasikan menggunakan Pytorch.

  • Neural network fast.ai — Model jaringan saraf yang diimplementasikan menggunakan fast.ai.