Impor data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Impor data

Amazon SageMaker Canvas mendukung mengimpor data tabel, gambar, dan dokumen. Anda dapat mengimpor kumpulan data dari mesin lokal Anda, layanan Amazon seperti Amazon S3 dan Amazon Redshift, dan sumber data eksternal. Saat mengimpor kumpulan data dari Amazon S3, Anda dapat membawa kumpulan data dalam berbagai ukuran. Gunakan kumpulan data yang Anda impor untuk membuat model dan membuat prediksi untuk kumpulan data lainnya.

Setiap kasus penggunaan yang dapat Anda buat model kustom menerima berbagai jenis input. Misalnya, jika Anda ingin membangun model klasifikasi gambar label tunggal, maka Anda harus mengimpor data gambar. Untuk informasi selengkapnya tentang berbagai jenis model dan data yang mereka terima, lihatCara kerja model khusus. Anda dapat mengimpor data dan membuat model kustom di SageMaker Canvas untuk tipe data berikut:

  • Tabular (CSV, Parket, atau tabel)

    • Kategoris — Gunakan data kategoris untuk membuat model prediksi kategoris khusus untuk prediksi kategori 2 dan 3+.

    • Numerik — Gunakan data numerik untuk membuat model prediksi numerik kustom.

    • Teks — Gunakan data teks untuk membuat model prediksi teks multi-kategori kustom.

    • Timeseries — Gunakan data timeseries untuk membuat model peramalan deret waktu kustom.

  • Gambar (JPGatauPNG) - Gunakan data gambar untuk membuat model prediksi gambar label tunggal kustom.

  • Document (PDFJPG,PNG,,TIFF) — Data dokumen hanya didukung untuk Ready-to-use model SageMaker Canvas. Untuk mempelajari lebih lanjut tentang Ready-to-use model yang dapat membuat prediksi untuk data dokumen, lihatReady-to-use model.

Anda dapat mengimpor data ke Canvas dari sumber data berikut:

  • File lokal di komputer Anda

  • Bucket Amazon S3

  • Cluster yang disediakan Amazon Redshift (bukan Amazon Redshift Tanpa Server)

  • AWS Glue Data Catalog melalui Amazon Athena

  • Amazon Aurora

  • Amazon Relational Database Service (AmazonRDS)

  • Awan Data Salesforce

  • Kepingan salju

  • Databricks, SQLServer MariaDB, dan database populer lainnya melalui konektor JDBC

  • Lebih dari 40 platform SaaS eksternal, seperti SAP OData

Untuk daftar lengkap sumber data dari mana Anda dapat mengimpor, lihat tabel berikut:

Sumber Tipe Jenis data yang didukung

Unggahan file lokal

Lokal:

Tabular, Gambar, Dokumen

Amazon Aurora

Amazon internal

Tabular

Bucket Amazon S3

Amazon internal

Tabular, Gambar, Dokumen

Amazon RDS

Amazon internal

Tabular

Cluster yang disediakan Amazon Redshift (bukan Redshift Tanpa Server)

Amazon internal

Tabular

AWS Glue Data Catalog (melalui Amazon Athena)

Amazon internal

Tabular

Databricks

Eksternal

Tabular

Kepingan salju

Eksternal

Tabular

Awan Data Salesforce

Eksternal

Tabular

SQLServer

Eksternal

Tabular

Saya SQL

Eksternal

Tabular

Postgre SQL

Eksternal

Tabular

MariaDB

Eksternal

Tabular

Amplitudo

Platform SaaS eksternal

Tabular

CircleCI

Platform SaaS eksternal

Tabular

DocuSign Monitor

Platform SaaS eksternal

Tabular

Domo

Platform SaaS eksternal

Tabular

Datadog

Platform SaaS eksternal

Tabular

Dynatrace

Platform SaaS eksternal

Tabular

Iklan Facebook

Platform SaaS eksternal

Tabular

Wawasan Halaman Facebook

Platform SaaS eksternal

Tabular

Iklan Google

Platform SaaS eksternal

Tabular

Google Analytics 4

Platform SaaS eksternal

Tabular

Konsol Penelusuran Google

Platform SaaS eksternal

Tabular

GitHub

Platform SaaS eksternal

Tabular

GitLab

Platform SaaS eksternal

Tabular

Infor Nexus

Platform SaaS eksternal

Tabular

Iklan Instagram

Platform SaaS eksternal

Tabular

Awan Jira

Platform SaaS eksternal

Tabular

LinkedIn Iklan

Platform SaaS eksternal

Tabular

LinkedIn Iklan

Platform SaaS eksternal

Tabular

Mailchimp

Platform SaaS eksternal

Tabular

Marketo

Platform SaaS eksternal

Tabular

Tim Microsoft

Platform SaaS eksternal

Tabular

Mixpanel

Platform SaaS eksternal

Tabular

Okta

Platform SaaS eksternal

Tabular

Salesforce

Platform SaaS eksternal

Tabular

Cloud Pemasaran Salesforce

Platform SaaS eksternal

Tabular

Salesforce Pardot

Platform SaaS eksternal

Tabular

SAP OData

Platform SaaS eksternal

Tabular

SendGrid

Platform SaaS eksternal

Tabular

ServiceNow

Platform SaaS eksternal

Tabular

Tunggal

Platform SaaS eksternal

Tabular

Kendur

Platform SaaS eksternal

Tabular

Stripe

Platform SaaS eksternal

Tabular

Tren Mikro

Platform SaaS eksternal

Tabular

Jenis huruf

Platform SaaS eksternal

Tabular

Veeva

Platform SaaS eksternal

Tabular

Zendesk

Platform SaaS eksternal

Tabular

Obrolan Zendesk

Platform SaaS eksternal

Tabular

Jual Zendesk

Platform SaaS eksternal

Tabular

Sinar Matahari Zendesk

Platform SaaS eksternal

Tabular

Pertemuan Zoom

Platform SaaS eksternal

Tabular

Untuk petunjuk tentang cara mengimpor data dan informasi mengenai persyaratan data input, seperti ukuran file maksimum untuk gambar, lihatBuat kumpulan data.

Canvas juga menyediakan beberapa kumpulan data sampel dalam aplikasi Anda untuk membantu Anda memulai. Untuk mempelajari lebih lanjut tentang kumpulan data sampel SageMaker yang disediakan yang dapat Anda coba, lihat Menggunakan kumpulan data sampel.

Setelah Anda mengimpor dataset ke Canvas, Anda dapat memperbarui dataset kapan saja. Anda dapat melakukan pembaruan manual atau Anda dapat mengatur jadwal untuk pembaruan dataset otomatis. Untuk informasi selengkapnya, lihat Memperbarui kumpulan data.

Untuk informasi selengkapnya yang spesifik untuk setiap jenis kumpulan data, lihat bagian berikut:

Tabular

Untuk mengimpor data dari sumber data eksternal (seperti database Snowflake atau platform SaaS), Anda harus mengautentikasi dan terhubung ke sumber data dalam aplikasi Canvas. Untuk informasi selengkapnya, lihat Connect ke sumber data.

Jika Anda ingin mengimpor kumpulan data yang lebih besar dari 5 GB dari Amazon S3 ke Canvas, Anda dapat mencapai pengambilan sampel yang lebih cepat dengan menggunakan Amazon Athena untuk menanyakan dan mengambil sampel data dari Amazon S3.

Setelah membuat kumpulan data di Canvas, Anda dapat menyiapkan dan mengubah data Anda menggunakan fungsionalitas persiapan data Data Wrangler. Anda dapat menggunakan Data Wrangler untuk menangani nilai yang hilang, mengubah fitur Anda, menggabungkan beberapa kumpulan data menjadi satu kumpulan data, dan banyak lagi. Untuk informasi selengkapnya, lihat Persiapan data.

Tip

Selama data Anda disusun ke dalam tabel, Anda dapat menggabungkan kumpulan data dari berbagai sumber, seperti Amazon Redshift, Amazon Athena, atau Snowflake.

Gambar

Untuk informasi tentang cara mengedit kumpulan data gambar dan melakukan tugas seperti menetapkan atau menetapkan ulang label, menambahkan gambar, atau menghapus gambar, lihat. Mengedit kumpulan data gambar