Buat kumpulan data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Buat kumpulan data

Bagian berikut menjelaskan cara membuat kumpulan data di Amazon SageMaker Canvas. Untuk model khusus, Anda dapat membuat kumpulan data untuk data tabel dan gambar. Untuk eady-to-use model R, Anda dapat menggunakan kumpulan data tabel dan gambar serta kumpulan data dokumen. Pilih alur kerja Anda berdasarkan informasi berikut:

catatan

Untuk informasi tentang cara mengimpor kumpulan data dokumen untuk eady-to-use model R yang menerima data dokumen, lihat Impor data dokumen alur kerja dalam dokumentasi eady-to-use model R.

Dataset dapat terdiri dari beberapa file. Misalnya, Anda mungkin memiliki beberapa file data inventaris dalam format CSV. Anda dapat mengunggah file-file ini bersama-sama sebagai kumpulan data selama skema (atau nama kolom dan tipe data) file cocok.

Canvas juga mendukung pengelolaan beberapa versi dataset Anda. Saat Anda membuat kumpulan data, versi pertama diberi label sebagai. V1 Anda dapat membuat versi baru dari dataset Anda dengan memperbarui dataset Anda. Anda dapat melakukan pembaruan manual, atau Anda dapat mengatur jadwal otomatis untuk memperbarui kumpulan data Anda dengan data baru. Untuk informasi selengkapnya, lihat Memperbarui kumpulan data.

Saat Anda mengimpor data ke Canvas, pastikan data tersebut memenuhi persyaratan dalam tabel berikut. Keterbatasan khusus untuk jenis model yang Anda bangun.

Kuota 2 kategori, 3+ kategori, numerik, dan model deret waktu Model prediksi teks Model prediksi gambar * Data dokumen untuk model R eady-to-use

Tipe file yang didukung

CSV dan Parket (unggahan lokal, Amazon S3, atau database)

JSON (database)

CSV dan Parket (unggahan lokal, Amazon S3, atau database)

JSON (database)

JPG, PNG

PDF, JPG, PNG, TIFF

Ukuran maksimum file

5 GB (untuk semua file dalam dataset)

5 MB (untuk semua file dalam dataset)

30 MB per gambar

5 MB per dokumen

Jumlah maksimum file dalam kumpulan data tabular

50

50

N/A

N/A

Jumlah maksimum file dalam kumpulan data tabular untuk satu unggahan manual

20

20

N/A

N/A

Jumlah kolom maksimum

1000

1000

N/A

N/A

Jumlah maksimum entri (baris, gambar, atau dokumen) untuk build Cepat

50.000 baris

7500 baris

5000 gambar

N/A

Jumlah maksimum entri (baris, gambar, atau dokumen) untuk build Standar

N/A

150.000 baris

180.000 gambar

N/A

Jumlah minimum entri (baris) untuk build Cepat

2 kategori: 500 baris

3+ kategori, numerik, deret waktu: N/A

N/A

N/A

N/A

Jumlah minimum entri (baris, gambar, atau dokumen) untuk build Standar

250 baris

50 baris

50 gambar

N/A

Jumlah minimum entri (baris atau gambar) per label

N/A

25 baris

25 baris

N/A

Jumlah minimum label

2 kategori: 2

3+ kategori: 3

Numerik, deret waktu: N/A

2

2

N/A

Ukuran sampel minimum untuk pengambilan sampel acak

500

N/A

N/A

N/A

Ukuran sampel maksimum untuk pengambilan sampel acak

40.000

N/A

N/A

N/A

Jumlah label maksimum

2 kategori: 2

3+ kategori, numerik, deret waktu: N/A

1000

1000

N/A

*Data dokumen saat ini hanya didukung untuk eady-to-use model R yang menerima data dokumen. Anda tidak dapat membuat model kustom dengan data dokumen.

Perhatikan juga batasan berikut:

  • Untuk data tabular, Canvas melarang memilih file apa pun dengan ekstensi selain .csv, .parquet, .parq, dan.pqt untuk unggahan lokal dan impor Amazon S3. File CSV dapat menggunakan pembatas umum atau kustom apa pun, dan file tersebut tidak boleh memiliki karakter baris baru kecuali saat menunjukkan baris baru.

  • Untuk data tabular menggunakan file Parket, perhatikan hal berikut:

  • Untuk data gambar, jika Anda memiliki gambar yang tidak berlabel, Anda harus memberi label sebelum membuat model Anda. Untuk informasi tentang cara menetapkan label ke gambar dalam aplikasi Canvas, lihatMengedit kumpulan data gambar.

  • Jika Anda mengatur pembaruan kumpulan data otomatis atau konfigurasi prediksi batch otomatis, Anda hanya dapat membuat total 20 konfigurasi di aplikasi Canvas Anda. Untuk informasi selengkapnya, lihat Kelola otomatisasi.

Setelah mengimpor kumpulan data, Anda dapat melihat kumpulan data Anda di halaman Datasets kapan saja.

Impor data tabular

Dengan kumpulan data tabular, Anda dapat membuat model prediksi kategoris, numerik, deret waktu, dan prediksi teks. Tinjau tabel batasan di bagian Impor kumpulan data sebelumnya untuk memastikan bahwa data Anda memenuhi persyaratan untuk data tabular (perhatikan bahwa batas ukuran sampel hanya berlaku saat melihat pratinjau data Anda sebelum membuat model Anda).

Gunakan prosedur berikut untuk mengimpor dataset tabular ke Canvas:

  1. Buka aplikasi SageMaker Canvas Anda.

  2. Di panel navigasi kiri, pilih Datasets.

  3. Pilih Impor data.

  4. Dari menu dropdown, pilih Tabular.

  5. Di kotak dialog popup, di bidang Nama dataset, masukkan nama untuk kumpulan data dan pilih Buat.

  6. Pada halaman Create tabular dataset, buka menu tarik-turun Sumber Data.

  7. Pilih sumber data Anda:

    • Untuk mengunggah file dari komputer Anda, pilih Unggah lokal.

    • Untuk mengimpor data dari sumber lain, seperti bucket Amazon S3 atau database Snowflake, cari sumber data Anda di bilah sumber data Penelusuran. Kemudian, pilih ubin untuk sumber data yang Anda inginkan.

      catatan

      Anda hanya dapat mengimpor data dari ubin yang memiliki koneksi aktif. Jika Anda ingin terhubung ke sumber data yang tidak tersedia untuk Anda, hubungi administrator Anda. Jika Anda seorang administrator, lihatConnect ke sumber data.

    Tangkapan layar berikut menunjukkan Sumber Data menu tarik-turun.

    Tangkapan layar yang menampilkan menu tarik-turun Sumber Data dan pencarian sumber data di bilah pencarian.
  8. (Opsional) Jika Anda menyambung ke database Amazon Redshift atau Snowflake untuk pertama kalinya, kotak dialog akan muncul untuk membuat sambungan. Isi kotak dialog dengan kredensialmu dan pilih Buat koneksi. Jika Anda sudah memiliki koneksi, pilih koneksi Anda.

  9. Dari sumber data Anda, pilih file yang akan diimpor. Untuk mengunggah dan mengimpor lokal dari Amazon S3, Anda dapat memilih file. Hanya untuk Amazon S3, Anda juga memiliki opsi untuk langsung memasukkan URI S3 atau ARN bucket Anda di bidang titik akhir Input S3 dan kemudian memilih file yang akan diimpor. Untuk sumber database, Anda dapat tabel drag-and-drop data dari panel navigasi kiri.

  10. (Opsional) Untuk sumber data tabular yang mendukung kueri SQL (seperti Amazon Redshift, Amazon Athena, atau Snowflake), Anda dapat memilih Edit di SQL untuk membuat kueri SQL dan menggabungkan tabel sebelum mengimpornya. Untuk informasi selengkapnya, lihat Bergabunglah dengan data yang telah Anda impor ke SageMaker Canvas.

    Tangkapan layar berikut menunjukkan tampilan Edit SQL untuk sumber data Amazon Athena.

    Tangkapan layar yang menampilkan kueri SQL dalam tampilan Edit SQL untuk data Amazon Athena.
  11. Pilih Pratinjau kumpulan data untuk melihat pratinjau data Anda sebelum mengimpornya.

  12. Dalam pengaturan Impor, masukkan nama Dataset atau gunakan nama dataset default.

  13. (Opsional) Untuk data yang Anda impor dari Amazon S3, Anda akan ditampilkan Pengaturan lanjutan dan dapat mengisi kolom berikut:

    1. Aktifkan opsi Gunakan baris pertama sebagai header jika Anda ingin menggunakan baris pertama kumpulan data Anda sebagai nama kolom. Jika Anda memilih beberapa file, ini berlaku untuk setiap file.

    2. Jika Anda mengimpor file CSV, untuk dropdown File encoding (CSV), pilih pengkodean file kumpulan data Anda. UTF-8adalah default.

    3. Untuk dropdown Delimiter, pilih pembatas yang memisahkan setiap sel dalam data Anda. Pembatas default adalah. , Anda juga dapat menentukan pembatas kustom.

    4. Pilih Deteksi multi-baris jika Anda ingin Canvas mengurai seluruh kumpulan data Anda secara manual untuk sel multi-baris. Secara default, opsi ini tidak dipilih dan Canvas menentukan apakah akan menggunakan dukungan multi-baris atau tidak dengan mengambil sampel data Anda. Namun, Canvas mungkin tidak mendeteksi sel multi-baris dalam sampel. Jika Anda memiliki sel multi-baris, kami sarankan Anda memilih opsi Deteksi multi-baris untuk memaksa Canvas memeriksa seluruh kumpulan data Anda untuk sel multi-baris.

  14. Saat Anda siap mengimpor data, pilih Buat kumpulan data.

Saat dataset Anda mengimpor ke Canvas, Anda dapat melihat kumpulan data Anda terdaftar di halaman Datasets. Dari halaman ini, Anda bisaLihat detail dataset Anda.

Ketika Status kumpulan data Anda ditampilkan sebagaiReady, Canvas berhasil mengimpor data Anda dan Anda dapat melanjutkan dengan membangun model.

Jika Anda memiliki koneksi ke sumber data, seperti database Amazon Redshift atau konektor SaaS, Anda dapat kembali ke koneksi itu. Untuk Amazon Redshift dan Snowflake, Anda dapat menambahkan koneksi lain dengan membuat kumpulan data lain, kembali ke halaman Impor data, dan memilih ubin Sumber Data untuk koneksi tersebut. Dari menu tarik-turun, Anda dapat membuka koneksi sebelumnya atau memilih Tambahkan koneksi.

catatan

Untuk platform SaaS, Anda hanya dapat memiliki satu koneksi per sumber data.

Impor data gambar

Dengan kumpulan data gambar, Anda dapat membuat model kustom prediksi gambar label tunggal, yang memprediksi label untuk gambar. Tinjau batasan di bagian Impor kumpulan data sebelumnya untuk memastikan bahwa kumpulan data gambar Anda memenuhi persyaratan untuk data gambar.

catatan

Anda hanya dapat mengimpor kumpulan data gambar dari unggahan file lokal atau bucket Amazon S3. Selain itu, untuk kumpulan data gambar, Anda harus memiliki setidaknya 25 gambar per label.

Gunakan prosedur berikut untuk mengimpor dataset gambar ke Canvas:

  1. Buka aplikasi SageMaker Canvas Anda.

  2. Di panel navigasi kiri, pilih Datasets.

  3. Pilih Impor data.

  4. Dari menu dropdown, pilih Gambar.

  5. Di kotak dialog popup, di bidang Nama dataset, masukkan nama untuk kumpulan data dan pilih Buat.

  6. Pada halaman Impor, buka menu tarik-turun Sumber Data.

  7. Pilih sumber data Anda. Untuk mengunggah file dari komputer Anda, pilih Unggah lokal. Untuk mengimpor file dari Amazon S3, pilih Amazon S3.

  8. Dari komputer atau bucket Amazon S3 Anda, pilih gambar atau folder gambar yang ingin Anda unggah.

  9. Saat Anda siap mengimpor data, pilih Impor data.

Saat dataset Anda mengimpor ke Canvas, Anda dapat melihat kumpulan data Anda terdaftar di halaman Datasets. Dari halaman ini, Anda bisaLihat detail dataset Anda.

Ketika Status kumpulan data Anda ditampilkan sebagaiReady, Canvas berhasil mengimpor data Anda dan Anda dapat melanjutkan dengan membangun model.

Saat membuat model, Anda dapat mengedit kumpulan data gambar, dan Anda dapat menetapkan atau menetapkan ulang label, menambahkan gambar, atau menghapus gambar dari kumpulan data Anda. Untuk informasi selengkapnya tentang cara mengedit kumpulan data gambar Anda, lihatMengedit kumpulan data gambar.

Impor data dokumen

eady-to-use Model R untuk analisis pengeluaran, analisis dokumen identitas, analisis dokumen, dan kueri dokumen mendukung data dokumen. Anda tidak dapat membuat model kustom dengan data dokumen.

Dengan kumpulan data dokumen, Anda dapat menghasilkan prediksi untuk analisis pengeluaran, analisis dokumen identitas, analisis dokumen, dan model R kueri dokumen. eady-to-use Tinjau tabel batasan di Buat kumpulan data bagian untuk memastikan bahwa kumpulan data dokumen Anda memenuhi persyaratan untuk data dokumen.

catatan

Anda hanya dapat mengimpor kumpulan data dokumen dari unggahan file lokal atau bucket Amazon S3.

Gunakan prosedur berikut untuk mengimpor dataset dokumen ke Canvas:

  1. Buka aplikasi SageMaker Canvas Anda.

  2. Di panel navigasi kiri, pilih Datasets.

  3. Pilih Impor data.

  4. Dari menu dropdown, pilih Document.

  5. Di kotak dialog popup, di bidang Nama dataset, masukkan nama untuk kumpulan data dan pilih Buat.

  6. Pada halaman Impor, buka menu tarik-turun Sumber Data.

  7. Pilih sumber data Anda. Untuk mengunggah file dari komputer Anda, pilih Unggah lokal. Untuk mengimpor file dari Amazon S3, pilih Amazon S3.

  8. Dari komputer atau bucket Amazon S3 Anda, pilih file dokumen yang ingin Anda unggah.

  9. Saat Anda siap mengimpor data, pilih Impor data.

Saat dataset Anda mengimpor ke Canvas, Anda dapat melihat kumpulan data Anda terdaftar di halaman Datasets. Dari halaman ini, Anda bisaLihat detail dataset Anda.

Ketika Status kumpulan data Anda ditampilkan sebagaiReady, Canvas telah berhasil mengimpor data Anda.

Pada halaman Datasets, Anda dapat memilih dataset Anda untuk melihat pratinjau, yang menunjukkan hingga 100 dokumen pertama dari dataset Anda.

Lihat detail dataset Anda

Untuk setiap kumpulan data, Anda dapat melihat semua file dalam kumpulan data, riwayat versi kumpulan data, dan konfigurasi pembaruan otomatis apa pun untuk kumpulan data. Dari halaman Datasets, Anda juga dapat memulai tindakan seperti atau. Memperbarui kumpulan data Bangun model khusus

Untuk melihat detail kumpulan data, lakukan hal berikut:

  1. Buka aplikasi SageMaker Canvas.

  2. Di panel navigasi kiri, pilih Datasets.

  3. Dari daftar kumpulan data, pilih kumpulan data Anda.

Pada tab Data, Anda dapat melihat pratinjau data Anda. Jika Anda memilih detail Dataset, Anda dapat melihat semua file yang merupakan bagian dari kumpulan data Anda. Pilih file untuk melihat hanya data dari file itu di pratinjau. Untuk kumpulan data gambar, pratinjau hanya menampilkan 100 gambar pertama dari kumpulan data Anda.

Pada tab Riwayat versi, Anda dapat melihat daftar semua versi kumpulan data Anda. Versi baru dibuat setiap kali Anda memperbarui dataset. Untuk mempelajari lebih lanjut tentang memperbarui kumpulan data, lihatMemperbarui kumpulan data. Tangkapan layar berikut menunjukkan tab Riwayat versi di aplikasi Canvas.

Tangkapan layar tab Riwayat versi untuk kumpulan data, dengan daftar versi kumpulan data.

Pada tab Pembaruan otomatis, Anda dapat mengaktifkan pembaruan otomatis untuk kumpulan data dan mengatur konfigurasi untuk memperbarui kumpulan data Anda pada jadwal reguler. Untuk mempelajari selengkapnya tentang menyiapkan pembaruan otomatis untuk kumpulan data, lihatKonfigurasikan pembaruan otomatis untuk kumpulan data. Tangkapan layar berikut menunjukkan tab Pembaruan otomatis dengan pembaruan otomatis diaktifkan dan daftar pekerjaan pembaruan otomatis yang telah dilakukan pada kumpulan data.

Tangkapan layar tab Pembaruan otomatis untuk kumpulan data yang menunjukkan pembaruan otomatis diaktifkan dan daftar pekerjaan pembaruan otomatis.