Pratinjau Model Anda - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pratinjau Model Anda

catatan

Fungsionalitas berikut hanya tersedia untuk model khusus yang dibuat dengan kumpulan data tabular. Model prediksi teks multi-kategori juga dikecualikan.

SageMaker Canvas memberi Anda alat untuk melihat pratinjau model Anda dan memvalidasi data sebelum Anda mulai membangun. Fungsionalitas berikut termasuk melihat pratinjau keakuratan model Anda, memvalidasi kumpulan data Anda untuk mencegah masalah saat membangun model, dan mengubah ukuran sampel acak untuk model Anda.

Pratinjau Model

Dengan Amazon SageMaker Canvas, Anda bisa mendapatkan wawasan dari data sebelum membuat model dengan memilih model Pratinjau. Misalnya, Anda dapat melihat bagaimana data di setiap kolom didistribusikan. Untuk model yang dibuat menggunakan data kategoris, Anda juga dapat memilih model Pratinjau untuk menghasilkan prediksi akurasi Estimasi tentang seberapa baik model dapat menganalisis data Anda. Keakuratan build Cepat atau build Standar menunjukkan seberapa baik kinerja model pada data nyata dan umumnya lebih tinggi daripada akurasi Estimasi.

Amazon SageMaker Canvas secara otomatis menangani nilai yang hilang dalam kumpulan data Anda saat membuat model. Ini menyimpulkan nilai yang hilang dengan menggunakan nilai yang berdekatan yang ada dalam dataset.

Screenshot dari tab Build untuk model di Canvas.

Memvalidasi data

Sebelum membuat model, SageMaker Canvas memeriksa kumpulan data Anda untuk masalah yang mungkin menyebabkan build Anda gagal. Jika SageMaker Canvas menemukan masalah, maka Canvas memperingatkan Anda di halaman Build sebelum Anda mencoba membuat model.

Anda dapat memilih Validasi data untuk melihat daftar masalah dengan kumpulan data Anda. Anda kemudian dapat menggunakan fitur persiapan data SageMaker Canvas, atau alat Anda sendiri, untuk memperbaiki kumpulan data Anda sebelum memulai pembuatan. Jika Anda tidak memperbaiki masalah dengan kumpulan data Anda, build Anda gagal.

Jika Anda membuat perubahan pada kumpulan data untuk memperbaiki masalah, Anda memiliki opsi untuk memvalidasi ulang kumpulan data Anda sebelum mencoba membangun. Kami menyarankan Anda memvalidasi ulang dataset Anda sebelum membangun.

Tabel berikut menunjukkan masalah yang diperiksa SageMaker Canvas dalam kumpulan data Anda dan cara mengatasinya.

Isu Resolusi

Jenis model yang salah untuk data Anda

Coba jenis model lain atau gunakan kumpulan data yang berbeda.

Nilai yang hilang di kolom target Anda

Ganti nilai yang hilang, jatuhkan baris dengan nilai yang hilang, atau gunakan kumpulan data yang berbeda.

Terlalu banyak label unik di kolom target Anda

Verifikasi bahwa Anda telah menggunakan kolom yang benar untuk kolom target Anda, atau gunakan kumpulan data yang berbeda.

Terlalu banyak nilai non-numerik di kolom target Anda

Pilih kolom target yang berbeda, pilih jenis model lain, atau gunakan kumpulan data yang berbeda.

Satu atau beberapa nama kolom berisi garis bawah ganda

Ganti nama kolom untuk menghapus garis bawah ganda, dan coba lagi.

Tak satu pun dari baris dalam dataset Anda yang lengkap

Ganti nilai yang hilang, atau gunakan kumpulan data yang berbeda.

Terlalu banyak label unik untuk jumlah baris dalam data Anda

Periksa apakah Anda menggunakan kolom target kanan, menambah jumlah baris dalam kumpulan data Anda, mengkonsolidasikan label serupa, atau menggunakan kumpulan data yang berbeda.

Sampel acak

SageMaker Canvas menggunakan metode pengambilan sampel acak untuk mengambil sampel kumpulan data Anda. Metode sampel acak berarti bahwa setiap baris memiliki kesempatan yang sama untuk dipilih untuk sampel. Anda dapat memilih kolom di pratinjau untuk mendapatkan statistik ringkasan untuk sampel acak, seperti mean dan mode.

Secara default, SageMaker Canvas menggunakan ukuran sampel acak 20.000 baris dari kumpulan data Anda untuk kumpulan data dengan lebih dari 20.000 baris. Untuk kumpulan data yang lebih kecil dari 20.000 baris, ukuran sampel default adalah jumlah baris dalam kumpulan data Anda. Anda dapat menambah atau mengurangi ukuran sampel dengan memilih Sampel acak di tab Build aplikasi SageMaker Canvas. Anda dapat menggunakan slider untuk memilih ukuran sampel yang Anda inginkan, dan kemudian memilih Perbarui untuk mengubah ukuran sampel. Ukuran sampel maksimum yang dapat Anda pilih untuk kumpulan data adalah 40.000 baris, dan ukuran sampel minimum adalah 500 baris. Jika Anda memilih ukuran sampel yang besar, pratinjau kumpulan data dan statistik ringkasan mungkin memerlukan beberapa saat untuk dimuat ulang.

Halaman Build menampilkan pratinjau 100 baris dari kumpulan data Anda. Jika ukuran sampel adalah ukuran yang sama dengan dataset Anda, maka pratinjau menggunakan 100 baris pertama dari dataset Anda. Jika tidak, pratinjau menggunakan 100 baris pertama dari sampel acak.