Gunakan kumpulan data sampel - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Gunakan kumpulan data sampel

SageMaker Canvas menyediakan kumpulan data sampel yang menangani kasus penggunaan unik sehingga Anda dapat mulai membangun, melatih, dan memvalidasi model dengan cepat tanpa menulis kode apa pun. Kasus penggunaan yang terkait dengan kumpulan data ini menyoroti kemampuan SageMaker Canvas, dan Anda dapat memanfaatkan kumpulan data ini untuk memulai pembuatan model. Anda dapat menemukan kumpulan data sampel di halaman Datasets aplikasi Canvas Anda. SageMaker

Contoh kumpulan data

Kumpulan data berikut adalah sampel yang disediakan SageMaker Canvas secara default. Kumpulan data ini mencakup kasus penggunaan seperti memprediksi harga rumah, default pinjaman, dan penerimaan kembali untuk pasien diabetes; memperkirakan penjualan; memprediksi kegagalan mesin untuk merampingkan pemeliharaan prediktif di unit manufaktur; dan menghasilkan prediksi rantai pasokan untuk transportasi dan logistik. Kumpulan data disimpan di sample_dataset folder di bucket Amazon S3 default SageMaker yang dibuat untuk akun Anda di Wilayah.

  • canvas-sample-diabetic-readmission.csv: Dataset ini berisi data historis termasuk lebih dari lima belas fitur dengan hasil pasien dan rumah sakit. Anda dapat menggunakan dataset ini untuk memprediksi apakah pasien diabetes berisiko tinggi kemungkinan akan diterima kembali ke rumah sakit dalam waktu 30 hari setelah keluar, setelah 30 hari, atau tidak sama sekali. Gunakan kolom yang diterima merah sebagai kolom target, dan gunakan tipe model prediksi kategori 3+ dengan kumpulan data ini. Untuk mempelajari lebih lanjut tentang cara membuat model dengan kumpulan data ini, lihat halaman lokakarya SageMaker Canvas. Dataset ini diperoleh dari UCIMachine Learning Repository.

  • canvas-sample-housing.csv: Dataset ini berisi data tentang karakteristik yang terkait dengan harga perumahan tertentu. Anda dapat menggunakan dataset ini untuk memprediksi harga rumah. Gunakan kolom median_house_value sebagai kolom target, dan gunakan tipe model prediksi numerik dengan kumpulan data ini. Untuk mempelajari lebih lanjut tentang membuat model dengan kumpulan data ini, lihat halaman lokakarya SageMaker Canvas. Ini adalah dataset perumahan California yang diperoleh dari StatLib repositori.

  • canvas-sample-loans.csv: Dataset ini berisi data pinjaman lengkap untuk semua pinjaman yang dikeluarkan dari 2007-2011, termasuk status pinjaman saat ini dan informasi pembayaran terbaru. Anda dapat menggunakan dataset ini untuk memprediksi apakah pelanggan akan membayar kembali pinjaman. Gunakan kolom loan_status sebagai kolom target, dan gunakan tipe model prediksi kategori 3+ dengan kumpulan data ini. Untuk mempelajari lebih lanjut tentang cara membuat model dengan kumpulan data ini, lihat halaman lokakarya SageMaker Canvas. Data ini menggunakan LendingClub data yang diperoleh dari Kaggle.

  • canvas-sample-maintenance.csv: Dataset ini berisi data tentang karakteristik yang terkait dengan tipe kegagalan pemeliharaan tertentu. Anda dapat menggunakan kumpulan data ini untuk memprediksi kegagalan mana yang akan terjadi di masa depan. Gunakan kolom Jenis Kegagalan sebagai kolom target, dan gunakan tipe model prediksi kategori 3+ dengan kumpulan data ini. Untuk mempelajari lebih lanjut tentang cara membuat model dengan kumpulan data ini, lihat halaman lokakarya SageMaker Canvas. Dataset ini diperoleh dari UCIMachine Learning Repository.

  • canvas-sample-shipping-logs.csv: Dataset ini berisi data pengiriman lengkap untuk semua produk yang dikirim, termasuk perkiraan waktu pengiriman prioritas, operator, dan asal. Anda dapat menggunakan kumpulan data ini untuk memprediksi perkiraan waktu kedatangan pengiriman dalam jumlah hari. Gunakan ActualShippingDayskolom sebagai kolom target, dan gunakan tipe model prediksi numerik dengan kumpulan data ini. Untuk mempelajari lebih lanjut tentang cara membuat model dengan data ini, lihat halaman lokakarya SageMaker Canvas. Ini adalah kumpulan data sintetis yang dibuat oleh Amazon.

  • canvas-sample-sales-forecasting.csv: Dataset ini berisi data penjualan deret waktu historis untuk toko ritel. Anda dapat menggunakan dataset ini untuk memperkirakan penjualan untuk toko ritel tertentu. Gunakan kolom penjualan sebagai kolom target, dan gunakan jenis model peramalan deret waktu dengan kumpulan data ini. Untuk mempelajari lebih lanjut tentang cara membuat model dengan kumpulan data ini, lihat halaman lokakarya SageMaker Canvas. Ini adalah kumpulan data sintetis yang dibuat oleh Amazon.

Impor ulang kumpulan data sampel yang dihapus

Jika Anda tidak lagi ingin menggunakan kumpulan data sampel, Anda dapat menghapusnya dari halaman Datasets aplikasi Canvas Anda. SageMaker Namun, kumpulan data ini masih disimpan di bucket Amazon S3 yang Anda tentukan sebagai lokasi penyimpanan Canvas, sehingga Anda selalu dapat mengaksesnya nanti.

Jika Anda menggunakan bucket Amazon S3 default, nama bucket mengikuti polanya. sagemaker-{region}-{account ID} Anda dapat menemukan kumpulan data sampel di jalur direktori. Canvas/sample_dataset

Jika Anda menghapus kumpulan data sampel dari aplikasi SageMaker Canvas Anda dan ingin mengakses kumpulan data sampel lagi, gunakan prosedur berikut.

  1. Arahkan ke halaman Datasets di aplikasi SageMaker Canvas Anda.

  2. Pilih Impor data.

  3. Dari daftar bucket Amazon S3, pilih bucket yang merupakan lokasi penyimpanan Canvas Anda. Jika menggunakan bucket Amazon S3 default yang SageMaker dibuat, bucket tersebut mengikuti pola penamaan. sagemaker-{region}-{account ID}

  4. Pilih folder Canvas.

  5. Pilih folder sample_dataset, yang berisi semua kumpulan data sampel untuk Canvas. SageMaker

  6. Pilih kumpulan data yang ingin Anda impor, lalu pilih Impor data.