Memperbarui kumpulan data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memperbarui kumpulan data

Setelah mengimpor dataset awal ke Amazon SageMaker Canvas, Anda mungkin memiliki data tambahan yang ingin ditambahkan ke kumpulan data Anda. Misalnya, Anda mungkin mendapatkan data inventaris di akhir setiap minggu yang ingin Anda tambahkan ke kumpulan data Anda. Alih-alih mengimpor data Anda beberapa kali, Anda dapat memperbarui kumpulan data yang ada dan menambah atau menghapus file darinya.

catatan

Anda hanya dapat memperbarui kumpulan data yang telah Anda impor melalui unggahan lokal atau Amazon S3.

Anda dapat memperbarui dataset Anda baik secara manual atau otomatis. Dengan pembaruan otomatis, Anda menentukan lokasi di mana Canvas memeriksa file pada frekuensi yang Anda tentukan. Jika Anda mengimpor file baru selama pembaruan, skema file harus sama persis dengan kumpulan data yang ada.

Setiap kali Anda memperbarui dataset Anda, Canvas membuat versi baru dari dataset Anda. Anda hanya dapat menggunakan versi terbaru dari dataset Anda untuk membuat model atau menghasilkan prediksi. Untuk informasi selengkapnya tentang melihat riwayat versi kumpulan data Anda, lihatLihat detail dataset Anda.

Anda juga dapat menggunakan pembaruan kumpulan data dengan prediksi batch otomatis, yang memulai pekerjaan prediksi batch setiap kali Anda memperbarui kumpulan data Anda. Untuk informasi selengkapnya, lihat Buat prediksi batch.

Bagian berikut menjelaskan cara melakukan pembaruan manual dan otomatis pada kumpulan data Anda.

Perbarui kumpulan data secara manual

Untuk melakukan pembaruan manual, lakukan hal berikut:

  1. Buka aplikasi SageMaker Canvas.

  2. Di panel navigasi kiri, pilih Datasets.

  3. Dari daftar kumpulan data, pilih kumpulan data yang ingin Anda perbarui.

  4. Pilih menu tarik-turun Perbarui kumpulan data dan pilih Pembaruan manual. Anda dibawa ke alur kerja data impor.

  5. Dari menu tarik-turun sumber data, pilih Unggahan lokal atau Amazon S3.

  6. Halaman ini menunjukkan pratinjau data Anda. Dari sini, Anda dapat menambah atau menghapus file dari kumpulan data. Jika Anda mengimpor data tabular, skema file baru (nama kolom dan tipe data) harus cocok dengan skema file yang ada. Selain itu, file baru Anda tidak boleh melebihi ukuran set data maksimum atau ukuran file. Untuk informasi selengkapnya tentang batasan ini, lihat Mengimpor kumpulan data.

    catatan

    Jika Anda menambahkan file dengan nama yang sama dengan file yang ada di kumpulan data Anda, file baru akan menimpa versi lama file tersebut.

  7. Saat Anda siap menyimpan perubahan, pilih Perbarui kumpulan data.

Anda sekarang harus memiliki versi baru dari dataset Anda.

Pada halaman Datasets, Anda dapat memilih tab Riwayat versi untuk melihat semua versi kumpulan data Anda dan riwayat pembaruan manual dan otomatis yang telah Anda buat.

Konfigurasikan pembaruan otomatis untuk kumpulan data

Pembaruan otomatis adalah ketika Anda mengatur konfigurasi untuk Canvas untuk memperbarui dataset Anda pada frekuensi tertentu. Kami menyarankan Anda menggunakan opsi ini jika Anda secara teratur menerima file data baru yang ingin Anda tambahkan ke kumpulan data Anda.

Saat mengatur konfigurasi pembaruan otomatis, Anda menentukan lokasi Amazon S3 tempat Anda mengunggah file dan frekuensi di mana Canvas memeriksa lokasi dan mengimpor file. Setiap instance Canvas memperbarui dataset Anda disebut sebagai pekerjaan. Untuk setiap pekerjaan, Canvas mengimpor semua file di lokasi Amazon S3. Jika Anda memiliki file baru dengan nama yang sama dengan file yang ada di dataset Anda, Canvas menimpa file lama dengan file baru.

Untuk pembaruan dataset otomatis, Canvas tidak melakukan validasi skema. Jika skema file yang diimpor selama pembaruan otomatis tidak cocok dengan skema file yang ada atau melebihi batasan ukuran (lihat Mengimpor kumpulan data untuk tabel batasan ukuran file), maka Anda mendapatkan kesalahan saat pekerjaan Anda berjalan.

catatan

Anda hanya dapat mengatur maksimum 20 konfigurasi otomatis di aplikasi Canvas Anda. Selain itu, Canvas hanya melakukan pembaruan otomatis saat Anda masuk ke aplikasi Canvas Anda. Jika Anda keluar dari aplikasi Canvas Anda, pembaruan otomatis berhenti sampai Anda masuk kembali.

Untuk mengonfigurasi pembaruan otomatis untuk kumpulan data Anda, lakukan hal berikut:

  1. Buka aplikasi SageMaker Canvas.

  2. Di panel navigasi kiri, pilih Datasets.

  3. Dari daftar kumpulan data, pilih kumpulan data yang ingin Anda perbarui.

  4. Pilih menu tarik-turun Perbarui kumpulan data dan pilih Pembaruan otomatis. Anda akan dibawa ke tab Pembaruan otomatis untuk kumpulan data.

  5. Aktifkan sakelar Aktifkan pembaruan otomatis.

  6. Untuk Tentukan sumber data, masukkan jalur Amazon S3 ke folder tempat Anda berencana untuk mengunggah file secara teratur.

  7. Untuk Pilih frekuensi, pilih Per Jam, Mingguan, atau Harian.

  8. Untuk Tentukan waktu mulai, gunakan kalender dan pemilih waktu untuk memilih kapan Anda ingin pekerjaan pembaruan otomatis pertama dimulai.

  9. Saat Anda siap membuat konfigurasi pembaruan otomatis, pilih Simpan.

Canvas memulai pekerjaan pertama irama pembaruan otomatis Anda pada waktu mulai yang ditentukan.

Untuk informasi selengkapnya tentang melihat riwayat pekerjaan pembaruan otomatis atau membuat perubahan pada konfigurasi pembaruan otomatis melalui halaman Otomasi di aplikasi Canvas, lihatKelola otomatisasi.

Bagian berikut menjelaskan cara melihat, memperbarui, dan menghapus konfigurasi pembaruan otomatis Anda melalui halaman Datasets di aplikasi Canvas.

Melihat pekerjaan pembaruan kumpulan data otomatis Anda

Untuk melihat riwayat pekerjaan untuk pembaruan kumpulan data otomatis Anda, pada halaman detail kumpulan data Anda, pilih tab Pembaruan otomatis.

Setiap pembaruan otomatis ke kumpulan data ditampilkan sebagai pekerjaan di tab Pembaruan otomatis di bawah bagian Riwayat pekerjaan. Untuk setiap pekerjaan, Anda dapat melihat yang berikut:

  • Job created — Stempel waktu ketika Canvas mulai memperbarui dataset.

  • File — Jumlah file dalam dataset.

  • Sel (Kolom x Baris) - Jumlah kolom dan baris dalam kumpulan data.

  • Status - Status kumpulan data setelah pembaruan. Jika pekerjaan itu berhasil, statusnya Siap. Jika pekerjaan gagal karena alasan apa pun, statusnya Gagal, dan Anda dapat mengarahkan kursor ke status untuk detail selengkapnya.

Edit konfigurasi pembaruan kumpulan data otomatis Anda

Anda mungkin ingin membuat perubahan pada konfigurasi pembaruan otomatis untuk kumpulan data, seperti mengubah frekuensi pembaruan. Anda mungkin juga ingin menonaktifkan konfigurasi pembaruan otomatis untuk menjeda pembaruan pada kumpulan data Anda.

Untuk membuat perubahan pada konfigurasi pembaruan otomatis untuk kumpulan data, buka tab Pembaruan otomatis pada kumpulan data Anda dan pilih Edit untuk membuat perubahan pada konfigurasi.

Untuk menjeda pembaruan kumpulan data Anda, matikan konfigurasi otomatis Anda. Anda dapat menonaktifkan pembaruan otomatis dengan membuka tab Pembaruan otomatis pada kumpulan data Anda dan mematikan tombol Aktifkan pembaruan otomatis. Anda dapat mengaktifkan kembali sakelar ini kapan saja untuk melanjutkan jadwal pembaruan.

Hapus konfigurasi pembaruan kumpulan data otomatis Anda

Untuk mempelajari cara menghapus konfigurasi Anda, lihatHapus konfigurasi otomatis.