Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Impor data
Amazon SageMaker Canvas mendukung mengimpor data tabel, gambar, dan dokumen. Anda dapat mengimpor kumpulan data dari mesin lokal Anda, layanan Amazon seperti Amazon S3 dan Amazon Redshift, dan sumber data eksternal. Saat mengimpor kumpulan data dari Amazon S3, Anda dapat membawa kumpulan data dalam berbagai ukuran. Gunakan kumpulan data yang Anda impor untuk membuat model dan membuat prediksi untuk kumpulan data lainnya.
Setiap kasus penggunaan yang dapat Anda buat model kustom menerima berbagai jenis input. Misalnya, jika Anda ingin membangun model klasifikasi gambar label tunggal, maka Anda harus mengimpor data gambar. Untuk informasi selengkapnya tentang berbagai jenis model dan data yang mereka terima, lihatCara kerja model khusus. Anda dapat mengimpor data dan membuat model kustom di SageMaker Canvas untuk tipe data berikut:
-
Tabular (CSV, Parket, atau tabel)
Kategoris — Gunakan data kategoris untuk membuat model prediksi kategoris khusus untuk prediksi kategori 2 dan 3+.
Numerik — Gunakan data numerik untuk membuat model prediksi numerik kustom.
Teks — Gunakan data teks untuk membuat model prediksi teks multi-kategori kustom.
Timeseries — Gunakan data timeseries untuk membuat model peramalan deret waktu kustom.
Gambar (JPGatauPNG) - Gunakan data gambar untuk membuat model prediksi gambar label tunggal kustom.
Document (PDFJPG,PNG,,TIFF) — Data dokumen hanya didukung untuk Ready-to-use model SageMaker Canvas. Untuk mempelajari lebih lanjut tentang Ready-to-use model yang dapat membuat prediksi untuk data dokumen, lihatReady-to-use model.
Anda dapat mengimpor data ke Canvas dari sumber data berikut:
File lokal di komputer Anda
Bucket Amazon S3
Cluster yang disediakan Amazon Redshift (bukan Amazon Redshift Tanpa Server)
AWS Glue Data Catalog melalui Amazon Athena
-
Amazon Aurora
-
Amazon Relational Database Service (AmazonRDS)
-
Awan Data Salesforce
Kepingan salju
-
Databricks, SQLServer MariaDB, dan database populer lainnya melalui konektor JDBC
Lebih dari 40 platform SaaS eksternal, seperti SAP OData
Untuk daftar lengkap sumber data dari mana Anda dapat mengimpor, lihat tabel berikut:
Sumber | Tipe | Jenis data yang didukung |
---|---|---|
Unggahan file lokal |
Lokal: |
Tabular, Gambar, Dokumen |
Amazon Aurora |
Amazon internal |
Tabular |
Bucket Amazon S3 |
Amazon internal |
Tabular, Gambar, Dokumen |
Amazon RDS |
Amazon internal |
Tabular |
Cluster yang disediakan Amazon Redshift (bukan Redshift Tanpa Server) |
Amazon internal |
Tabular |
AWS Glue Data Catalog (melalui Amazon Athena) |
Amazon internal |
Tabular |
Eksternal |
Tabular |
|
Kepingan salju |
Eksternal |
Tabular |
Eksternal |
Tabular |
|
SQLServer |
Eksternal |
Tabular |
Saya SQL |
Eksternal |
Tabular |
Postgre SQL |
Eksternal |
Tabular |
MariaDB |
Eksternal |
Tabular |
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
|
Platform SaaS eksternal |
Tabular |
Untuk petunjuk tentang cara mengimpor data dan informasi mengenai persyaratan data input, seperti ukuran file maksimum untuk gambar, lihatBuat kumpulan data.
Canvas juga menyediakan beberapa kumpulan data sampel dalam aplikasi Anda untuk membantu Anda memulai. Untuk mempelajari lebih lanjut tentang kumpulan data sampel SageMaker yang disediakan yang dapat Anda coba, lihat Menggunakan kumpulan data sampel.
Setelah Anda mengimpor dataset ke Canvas, Anda dapat memperbarui dataset kapan saja. Anda dapat melakukan pembaruan manual atau Anda dapat mengatur jadwal untuk pembaruan dataset otomatis. Untuk informasi selengkapnya, lihat Memperbarui kumpulan data.
Untuk informasi selengkapnya yang spesifik untuk setiap jenis kumpulan data, lihat bagian berikut:
Tabular
Untuk mengimpor data dari sumber data eksternal (seperti database Snowflake atau platform SaaS), Anda harus mengautentikasi dan terhubung ke sumber data dalam aplikasi Canvas. Untuk informasi selengkapnya, lihat Connect ke sumber data.
Jika Anda ingin mengimpor kumpulan data yang lebih besar dari 5 GB dari Amazon S3 ke Canvas, Anda dapat mencapai pengambilan sampel yang lebih cepat dengan menggunakan Amazon Athena untuk menanyakan dan mengambil sampel data dari Amazon S3.
Setelah membuat kumpulan data di Canvas, Anda dapat menyiapkan dan mengubah data Anda menggunakan fungsionalitas persiapan data Data Wrangler. Anda dapat menggunakan Data Wrangler untuk menangani nilai yang hilang, mengubah fitur Anda, menggabungkan beberapa kumpulan data menjadi satu kumpulan data, dan banyak lagi. Untuk informasi selengkapnya, lihat Persiapan data.
Tip
Selama data Anda disusun ke dalam tabel, Anda dapat menggabungkan kumpulan data dari berbagai sumber, seperti Amazon Redshift, Amazon Athena, atau Snowflake.
Gambar
Untuk informasi tentang cara mengedit kumpulan data gambar dan melakukan tugas seperti menetapkan atau menetapkan ulang label, menambahkan gambar, atau menghapus gambar, lihat. Mengedit kumpulan data gambar