Konfigurasi bangunan model lanjutan - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konfigurasi bangunan model lanjutan

Amazon SageMaker Canvas mendukung berbagai pengaturan lanjutan yang dapat Anda konfigurasikan saat membuat model. Halaman berikut mencantumkan semua pengaturan lanjutan bersama dengan informasi tambahan tentang opsi dan konfigurasinya.

catatan

Pengaturan lanjutan berikut saat ini hanya didukung untuk jenis model peramalan numerik, kategoris, dan deret waktu.

Pengaturan model prediksi numerik dan kategoris tingkat lanjut

Canvas mendukung pengaturan lanjutan berikut untuk jenis model prediksi numerik dan kategoris.

Metrik tujuan

Metrik objektif adalah metrik yang Anda ingin Canvas optimalkan saat membangun model Anda. Jika Anda tidak memilih metrik, Canvas memilih satu untuk Anda secara default. Untuk deskripsi metrik yang tersedia, lihat. Referensi metrik

Metode Pelatihan

Canvas dapat secara otomatis memilih metode pelatihan berdasarkan ukuran dataset, atau Anda dapat memilihnya secara manual. Metode pelatihan berikut tersedia untuk Anda pilih:

  • Ensembling — SageMaker memanfaatkan AutoGluon perpustakaan untuk melatih beberapa model dasar. Untuk menemukan kombinasi terbaik untuk kumpulan data Anda, mode ansambel menjalankan 5-10 uji coba dengan pengaturan model dan parameter meta yang berbeda. Kemudian, model-model ini digabungkan menggunakan metode ansambel susun untuk membuat model prediktif yang optimal. Untuk daftar algoritma yang didukung oleh mode ensemble untuk data tabular, lihat bagian berikut. Algoritme

  • Optimasi Hyperparameter (HPO) — SageMaker menemukan versi terbaik dari sebuah model dengan menyetel hyperparameters menggunakan optimasi Bayesian atau optimasi multi-fidelity saat menjalankan pekerjaan pelatihan pada dataset Anda. Mode HPO memilih algoritme yang paling relevan dengan kumpulan data Anda dan memilih rentang hiperparameter terbaik untuk menyetel model Anda. Untuk menyetel model Anda, mode HPO menjalankan hingga 100 uji coba (default) untuk menemukan pengaturan hiperparameter optimal dalam rentang yang dipilih. Jika ukuran dataset Anda kurang dari 100 MB, SageMaker gunakan optimasi Bayesian. SageMaker memilih optimasi multi-fidelity jika dataset Anda lebih besar dari 100 MB.

    Untuk daftar algoritma yang didukung oleh mode HPO untuk data tabular, lihat bagian berikut. Algoritme

  • Otomatis — SageMaker secara otomatis memilih mode ensembling atau mode HPO berdasarkan ukuran dataset Anda. Jika dataset Anda lebih besar dari 100 MB, SageMaker pilih mode HPO. Jika tidak, ia memilih mode ansambel.

Algoritme

Dalam mode Ensembling, Canvas mendukung algoritma pembelajaran mesin berikut:

  • LightGBM - Kerangka kerja yang dioptimalkan yang menggunakan algoritma berbasis pohon dengan peningkatan gradien. Algoritma ini menggunakan pohon yang tumbuh dalam lebar, bukan kedalaman, dan sangat dioptimalkan untuk kecepatan.

  • CatBoost— Kerangka kerja yang menggunakan algoritme berbasis pohon dengan peningkatan gradien. Dioptimalkan untuk menangani variabel kategoris.

  • XGBoost — Kerangka kerja yang menggunakan algoritme berbasis pohon dengan peningkatan gradien yang tumbuh secara mendalam, bukan luasnya.

  • Random Forest — Algoritma berbasis pohon yang menggunakan beberapa pohon keputusan pada sub-sampel acak data dengan penggantian. Pohon-pohon dibagi menjadi simpul optimal di setiap tingkat. Keputusan setiap pohon dirata-ratakan bersama untuk mencegah overfitting dan meningkatkan prediksi.

  • Extra Trees — Algoritma berbasis pohon yang menggunakan beberapa pohon keputusan pada seluruh kumpulan data. Pohon-pohon dibelah secara acak di setiap tingkat. Keputusan setiap pohon dirata-ratakan untuk mencegah overfitting dan untuk meningkatkan prediksi. Pohon tambahan menambahkan tingkat pengacakan dibandingkan dengan algoritma hutan acak.

  • Model Linear — Kerangka kerja yang menggunakan persamaan linier untuk memodelkan hubungan antara dua variabel dalam data yang diamati.

  • Obor jaringan saraf — Model jaringan saraf yang diimplementasikan menggunakan Pytorch.

  • Neural network fast.ai — Model jaringan saraf yang diimplementasikan menggunakan fast.ai.

Dalam mode HPO, Canvas mendukung algoritma pembelajaran mesin berikut:

  • XGBoost — Algoritma pembelajaran yang diawasi yang mencoba memprediksi variabel target secara akurat dengan menggabungkan ansambel perkiraan dari serangkaian model yang lebih sederhana dan lebih lemah.

  • Algoritma pembelajaran mendalam — Perceptron multilayer (MLP) dan jaringan saraf tiruan feedforward. Algoritma ini dapat menangani data yang tidak dapat dipisahkan secara linier.

Pembagian data

Anda memiliki opsi untuk menentukan bagaimana Anda ingin membagi kumpulan data Anda antara set pelatihan (bagian dari kumpulan data Anda yang digunakan untuk membangun model) dan kumpulan validasi, (bagian dari kumpulan data Anda yang digunakan untuk memverifikasi akurasi model). Misalnya, rasio split umum adalah pelatihan 80% dan validasi 20%, di mana 80% data Anda digunakan untuk membangun model sementara 20% disimpan untuk mengukur kinerja model. Jika Anda tidak menentukan rasio kustom, maka Canvas membagi dataset Anda secara otomatis.

Kandidat maks

catatan

Fitur ini hanya tersedia dalam mode pelatihan HPO.

Anda dapat menentukan jumlah maksimum kandidat model yang dihasilkan Canvas saat membangun model Anda. Kami merekomendasikan Anda untuk menggunakan jumlah kandidat default, yaitu 100, untuk membangun model yang paling akurat. Jumlah maksimum yang dapat Anda tentukan adalah 250. Mengurangi jumlah kandidat model dapat memengaruhi akurasi model Anda.

Waktu aktif tugas

Anda dapat menentukan runtime pekerjaan maksimum, atau jumlah waktu maksimum yang dihabiskan Canvas untuk membangun model Anda. Setelah batas waktu, Canvas berhenti membangun dan memilih kandidat model terbaik.

Waktu maksimum yang dapat Anda tentukan adalah 720 jam. Kami sangat menyarankan agar Anda mempertahankan runtime pekerjaan maksimum lebih dari 30 menit untuk memastikan bahwa Canvas memiliki cukup waktu untuk menghasilkan kandidat model dan menyelesaikan pembuatan model Anda.

Pengaturan model peramalan deret waktu lanjutan

Untuk model peramalan deret waktu, Canvas mendukung metrik Objective, yang tercantum di bagian sebelumnya.

Model peramalan deret waktu juga mendukung pengaturan lanjutan berikut:

Pemilihan algoritme

Saat Anda membuat model peramalan deret waktu, Canvas menggunakan ansambel (atau kombinasi) algoritme statistik dan pembelajaran mesin untuk memberikan perkiraan deret waktu yang sangat akurat. Secara default, Canvas memilih kombinasi optimal dari semua algoritme yang tersedia berdasarkan deret waktu dalam kumpulan data Anda. Namun, Anda memiliki opsi untuk menentukan satu atau lebih algoritme yang akan digunakan untuk model peramalan Anda. Dalam hal ini, Canvas menentukan campuran terbaik hanya dengan menggunakan algoritme yang Anda pilih. Jika Anda tidak yakin tentang algoritma mana yang harus dipilih untuk melatih model Anda, kami sarankan Anda memilih semua algoritme yang tersedia.

catatan

Pemilihan algoritma hanya didukung untuk build standar. Jika Anda tidak memilih algoritme apa pun di pengaturan lanjutan, maka secara default SageMaker menjalankan pembuatan cepat dan melatih kandidat model menggunakan algoritme pembelajaran berbasis pohon tunggal. Untuk informasi selengkapnya tentang perbedaan antara build cepat dan build standar, lihat. Membangun model kustom

Canvas mendukung algoritma peramalan deret waktu berikut:

  • Autoregressive Integrated Moving Average (ARIMA) — Model deret waktu stokastik sederhana yang menggunakan analisis statistik untuk menafsirkan data dan membuat prediksi masa depan. Algoritma ini berguna untuk dataset sederhana dengan kurang dari 100 deret waktu.

  • Convolutional Neural Network - Quantile Regression (CNN-QR) - Algoritma pembelajaran eksklusif yang diawasi yang melatih satu model global dari kumpulan besar deret waktu dan menggunakan dekoder kuantil untuk membuat prediksi. CNN-QR bekerja paling baik dengan kumpulan data besar yang berisi ratusan deret waktu.

  • DeepAR+ — Algoritma pembelajaran yang diawasi dan diawasi untuk memperkirakan deret waktu skalar menggunakan jaringan saraf berulang (RNN) untuk melatih satu model bersama selama semua deret waktu. DeepAR+bekerja paling baik dengan kumpulan data besar yang berisi ratusan rangkaian waktu fitur.

  • Non-Parametric Time Series (NPTS) — Peramal dasar probabilistik yang dapat diskalakan yang memprediksi distribusi nilai future dari deret waktu tertentu dengan mengambil sampel dari pengamatan sebelumnya. NPTS berguna saat bekerja dengan deret waktu yang jarang atau intermiten (misalnya, memperkirakan permintaan untuk item individual di mana deret waktu memiliki banyak hitungan 0 atau rendah).

  • Exponential Smoothing (ETS) — Metode peramalan yang menghasilkan perkiraan yang merupakan rata-rata tertimbang dari pengamatan masa lalu di mana bobot pengamatan lama menurun secara eksponensial. Algoritma ini berguna untuk kumpulan data sederhana dengan kurang dari 100 deret waktu dan kumpulan data dengan pola musiman.

  • Nabi — Model regresi aditif yang bekerja paling baik dengan deret waktu yang memiliki efek musiman yang kuat dan beberapa musim data historis. Algoritma ini berguna untuk kumpulan data dengan tren pertumbuhan non-linier yang mendekati batas.

Kuantil Forecast

Untuk peramalan deret waktu, SageMaker latih 6 kandidat model dengan deret waktu target Anda. Kemudian, SageMaker gabungkan model-model ini menggunakan metode ansambel susun untuk membuat model peramalan optimal untuk metrik objektif tertentu. Setiap model peramalan menghasilkan perkiraan probabilistik dengan menghasilkan perkiraan pada kuantil antara P1 dan P99. Kuantil ini digunakan untuk menjelaskan ketidakpastian perkiraan. Secara default, perkiraan dihasilkan untuk 0.1 (p10), 0.5 (p50), dan 0.9 (p90). Anda dapat memilih untuk menentukan hingga lima kuantil Anda sendiri dari 0,01 (p1) hingga 0,99 (p99), dengan kenaikan 0,01 atau lebih tinggi.