Membuat eksperimen Autopilot Regresi atau Klasifikasi untuk data tabular menggunakan UI Studio Classic - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat eksperimen Autopilot Regresi atau Klasifikasi untuk data tabular menggunakan UI Studio Classic

Anda dapat menggunakan Amazon SageMaker Studio Classic UI untuk membuat eksperimen Autopilot untuk masalah klasifikasi atau regresi pada data tabular. UI membantu Anda menentukan nama eksperimen, menyediakan lokasi untuk data input dan output, dan menentukan data target mana yang akan diprediksi. Secara opsional, Anda juga dapat menentukan jenis masalah yang ingin Anda selesaikan (regresi, klasifikasi, klasifikasi multiclass), pilih strategi pemodelan Anda (ansambel bertumpuk atau optimasi hiperparameter), pilih daftar algoritma yang digunakan oleh pekerjaan Autopilot untuk melatih data, dan banyak lagi.

UI memiliki deskripsi, sakelar sakelar, menu tarik-turun, tombol radio, dan lainnya untuk membantu Anda menavigasi pembuatan kandidat model Anda. Setelah eksperimen berjalan, Anda dapat membandingkan uji coba dan mempelajari detail langkah pra-pemrosesan, algoritme, dan rentang hiperparameter dari setiap model. Secara opsional, Anda dapat mengunduh laporan penjelasan dan kinerjanya. Gunakan buku catatan yang disediakan untuk melihat hasil eksplorasi data otomatis atau definisi model kandidat.

Atau, Anda dapat menggunakan Autopilot AutoML API di. Membuat tugas regresi atau klasifikasi untuk data tabular menggunakan AutoML API

Untuk membuat eksperimen Autopilot menggunakan Studio Classic UI
  1. Masuk di https://console.aws.amazon.com/sagemaker/, pilih Studio dari panel navigasi kiri, pilih Domain dan profil pengguna Anda, lalu Buka Studio.

  2. Di Studio, pilih ikon Studio Classic di panel navigasi kiri atas. Ini membuka aplikasi Studio Classic.

  3. Jalankan atau buka aplikasi Studio Classic dari ruang pilihan Anda, atau Buat ruang Studio Classic. . Pada tab Beranda, pilih kartu AutoML. Ini membuka tab AutoML baru.

  4. Pilih Buat eksperimen AutoML. Ini membuka tab Buat eksperimen baru.

  5. Di bagian Eksperimen dan detail data, masukkan informasi berikut:

    1. Nama eksperimen — Harus unik untuk akun Anda saat ini Wilayah AWS dan berisi maksimal 63 karakter alfanumerik. Dapat menyertakan tanda hubung (-) tetapi bukan spasi.

    2. Input data — Menyediakan lokasi bucket Amazon Simple Storage Service (Amazon S3) untuk data masukan Anda. Bucket S3 ini harus ada di ember Anda saat ini Wilayah AWS. URL harus dalam s3:// format di mana Amazon SageMaker memiliki izin menulis. File harus dalam format CSV atau Parket dan berisi setidaknya 500 baris. Pilih Jelajahi untuk menggulir jalur yang tersedia dan Pratinjau untuk melihat sampel data masukan Anda.

    3. Apakah input S3 Anda file manifes? — File manifes menyertakan metadata dengan data masukan Anda. Metadata menentukan lokasi data Anda di Amazon S3. Ini juga menentukan bagaimana data diformat dan atribut mana dari kumpulan data yang akan digunakan saat melatih model Anda. Anda dapat menggunakan file manifes sebagai alternatif untuk pra-pemrosesan saat data berlabel sedang dialirkan dalam mode. Pipe

    4. Pisahkan data secara otomatis? Autopilot dapat membagi data Anda menjadi 80-20% split untuk data pelatihan dan validasi. Jika Anda lebih suka pemisahan khusus, Anda dapat memilih Tentukan rasio pemisahan. Untuk menggunakan kumpulan data kustom untuk validasi, pilih Menyediakan kumpulan validasi.

    5. Lokasi data keluaran (bucket S3) - Nama lokasi bucket S3 tempat Anda ingin menyimpan data keluaran. URL untuk bucket ini harus dalam format Amazon S3 di mana Amazon SageMaker memiliki izin menulis. Bucket S3 harus dalam arus Wilayah AWS. Autopilot juga dapat membuat ini untuk Anda di lokasi yang sama dengan data input Anda.

  6. Pilih Berikutnya: Target dan fitur. Tab Target dan fitur terbuka.

  7. Di bagian Target dan fitur:

    • Pilih kolom untuk ditetapkan sebagai target untuk prediksi model.

    • Secara opsional, Anda dapat meneruskan nama kolom bobot sampel di bagian Bobot sampel untuk meminta baris kumpulan data Anda diberi bobot selama pelatihan dan evaluasi. Untuk informasi selengkapnya tentang metrik objektif yang tersedia, lihatMetrik tertimbang autopilot.

      catatan

      Support untuk bobot sampel hanya tersedia dalam mode ensembling.

    • Anda juga dapat memilih fitur untuk pelatihan dan mengubah tipe datanya. Tipe data berikut tersedia:Text,Numerical,Categorical,Datetime,Sequence, danAuto. Semua fitur dipilih secara default.

  8. Pilih Berikutnya: Metode pelatihan. Tab Metode pelatihan terbuka.

  9. Di bagian Metode pelatihan, pilih opsi pelatihan Anda: Ensembling, Hyperparameter optimization (HPO), atau Auto untuk membiarkan Autopilot memilih metode pelatihan secara otomatis berdasarkan ukuran dataset. Setiap mode pelatihan menjalankan serangkaian algoritme yang telah ditentukan sebelumnya pada kumpulan data Anda untuk melatih kandidat model. Secara default, Autopilot pra-memilih semua algoritma yang tersedia untuk mode pelatihan yang diberikan. Anda dapat menjalankan eksperimen pelatihan Autopilot dengan semua algoritme atau memilih subset Anda sendiri.

    Untuk informasi lebih lanjut tentang mode pelatihan dan algoritme yang tersedia, lihat bagian Mode pelatihan Autopilot di halaman Mode pelatihan dan algoritme.

  10. Pilih Berikutnya: Deployment dan pengaturan lanjutan untuk membuka tab Deployment dan advanced settings. Pengaturan mencakup nama titik akhir tampilan otomatis, jenis masalah pembelajaran mesin, dan pilihan tambahan untuk menjalankan eksperimen Anda.

    1. Pengaturan penyebaran — Autopilot dapat secara otomatis membuat titik akhir dan menerapkan model Anda untuk Anda.

      Untuk menerapkan otomatis ke titik akhir yang dibuat secara otomatis, atau untuk memberikan nama titik akhir untuk penerapan khusus, setel sakelar ke Ya di bawah Penerapan otomatis? Jika Anda mengimpor data dari Amazon SageMaker Data Wrangler, Anda memiliki opsi tambahan untuk menerapkan model terbaik secara otomatis dengan atau tanpa transformasi dari Data Wrangler.

      catatan

      Jika alur Data Wrangler berisi operasi multi-baris sepertigroupby,, atau joinconcatenate, Anda tidak dapat menerapkan otomatis dengan transformasi ini. Untuk informasi selengkapnya, lihat Melatih Model Secara Otomatis pada Alur Data Anda.

    2. Pengaturan lanjutan (opsional) - Autopilot menyediakan kontrol tambahan untuk mengatur parameter eksperimental secara manual seperti menentukan jenis masalah Anda, batasan waktu pada pekerjaan dan uji coba Autopilot Anda, keamanan, dan pengaturan enkripsi.

      catatan

      Autopilot mendukung pengaturan nilai default untuk menyederhanakan konfigurasi eksperimen Autopilot menggunakan Studio Classic UI. Administrator dapat menggunakan konfigurasi siklus hidup Studio Classic (LCC) untuk mengatur infrastruktur, jaringan, dan nilai keamanan dalam file konfigurasi dan mengisi pengaturan lanjutan pekerjaan. AutoML

      Untuk mempelajari tentang bagaimana administrator dapat mengotomatiskan kustomisasi eksperimen Autopilot, lihat. Konfigurasikan parameter default eksperimen Autopilot (untuk administrator)

      1. Jenis masalah pembelajaran mesin — Autopilot dapat secara otomatis menyimpulkan jenis masalah pembelajaran yang diawasi dari kumpulan data Anda. Jika Anda lebih suka memilihnya secara manual, Anda dapat menggunakan menu tarik-turun Pilih jenis masalah pembelajaran mesin. Perhatikan bahwa defaultnya ke Auto. Dalam beberapa kasus, SageMaker tidak dapat menyimpulkan secara akurat. Ketika itu terjadi, Anda harus memberikan nilai agar pekerjaan berhasil. Secara khusus, Anda dapat memilih dari jenis berikut:

        • Klasifikasi biner — Klasifikasi biner memberikan data input ke salah satu dari dua kelas yang telah ditentukan dan saling eksklusif, berdasarkan atributnya, seperti diagnosis medis berdasarkan hasil tes diagnostik yang menentukan apakah seseorang memiliki penyakit.

        • Regresi menetapkan hubungan antara variabel input (juga dikenal sebagai variabel independen atau fitur) dan variabel target (juga dikenal sebagai variabel dependen). Hubungan ini ditangkap melalui fungsi matematika atau model yang memetakan variabel input ke output kontinu. Ini biasanya digunakan untuk tugas-tugas seperti memprediksi harga rumah berdasarkan fitur seperti luas persegi dan jumlah kamar mandi, tren pasar saham, atau memperkirakan angka penjualan.

        • Klasifikasi multiclass — Klasifikasi multiclass memberikan data input ke salah satu dari beberapa kelas berdasarkan atributnya, seperti prediksi topik yang paling relevan dengan dokumen teks, seperti politik, keuangan, atau filsafat.

      2. Runtime — Anda dapat menentukan batas waktu maksimum. Setelah mencapai batas waktu, uji coba dan pekerjaan yang melebihi batasan waktu secara otomatis berhenti.

      3. Akses - Anda dapat memilih peran yang diasumsikan Amazon SageMaker Studio Classic untuk mendapatkan akses sementara Layanan AWS (khususnya, SageMaker dan Amazon S3) atas nama Anda. Jika tidak ada peran yang didefinisikan secara eksplisit, Studio Classic secara otomatis menggunakan peran SageMaker eksekusi default yang dilampirkan ke profil pengguna Anda.

      4. Enkripsi — Untuk meningkatkan keamanan data Anda saat istirahat dan melindunginya dari akses yang tidak sah, Anda dapat menentukan kunci enkripsi untuk mengenkripsi data di bucket Amazon S3 dan di volume Amazon Elastic Block Store (Amazon EBS) yang dilampirkan ke domain Studio Classic Anda.

      5. Keamanan — Anda dapat memilih cloud pribadi virtual (Amazon VPC) tempat SageMaker pekerjaan Anda berjalan. Pastikan Amazon VPC memiliki akses ke bucket Amazon S3 input dan output Anda.

      6. Proyek — Tentukan nama SageMaker proyek untuk dikaitkan dengan eksperimen Autopilot ini dan keluaran model. Saat Anda menentukan proyek, Autopilot menandai proyek tersebut ke eksperimen. Ini memungkinkan Anda mengetahui keluaran model mana yang terkait dengan proyek ini.

      7. Tag — Tag adalah array pasangan kunci-nilai. Gunakan tag untuk mengkategorikan sumber daya Anda Layanan AWS, seperti tujuan, pemilik, atau lingkungannya.

    3. Pilih Berikutnya: Tinjau dan buat untuk mendapatkan ringkasan eksperimen Autopilot Anda sebelum Anda membuatnya.

  11. Pilih Buat eksperimen. Pembuatan eksperimen memulai pekerjaan Autopilot di. SageMaker Autopilot memberikan status eksperimen, informasi tentang proses eksplorasi data dan kandidat model di notebook, daftar model yang dihasilkan dan laporannya, dan profil pekerjaan yang digunakan untuk membuatnya.

    Untuk informasi tentang buku catatan yang dihasilkan oleh pekerjaan Autopilot, lihat. Notebook Amazon SageMaker Autopilot dihasilkan untuk mengelola tugas AutoML Untuk informasi tentang detail setiap kandidat model dan laporannya, lihatModel yang dihasilkan oleh Amazon SageMaker Autopilot .

catatan

Untuk menghindari biaya yang tidak perlu: Jika Anda menerapkan model yang tidak lagi diperlukan, hapus titik akhir dan sumber daya yang dibuat selama penerapan tersebut. Informasi tentang instans harga menurut Wilayah tersedia di Amazon SageMaker Pricing.