Connect ke sumber data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Connect ke sumber data

Di Amazon SageMaker Canvas, Anda dapat mengimpor data dari lokasi di luar sistem file lokal Anda melalui AWS layanan, platform SaaS, atau database lain menggunakan konektor JDBC. Misalnya, Anda mungkin ingin mengimpor tabel dari gudang data di Amazon Redshift, atau mungkin ingin mengimpor data Google Analytics.

Ketika Anda pergi melalui alur kerja Impor untuk mengimpor data dalam aplikasi Canvas, Anda dapat memilih sumber data Anda dan kemudian memilih data yang ingin Anda impor. Untuk sumber data tertentu, seperti Snowflake dan Amazon Redshift, Anda harus menentukan kredensyal Anda dan menambahkan koneksi ke sumber data.

Tangkapan layar berikut menunjukkan toolbar sumber data di alur kerja Impor, dengan semua sumber data yang tersedia disorot. Anda hanya dapat mengimpor data dari sumber data yang tersedia untuk Anda. Hubungi administrator Anda jika sumber data yang Anda inginkan tidak tersedia.

Menu tarik-turun Sumber Data pada halaman Impor data di Canvas.

Bagian berikut memberikan informasi tentang membangun koneksi ke sumber data eksternal dan dan mengimpor data dari mereka. Tinjau bagian berikut terlebih dahulu untuk menentukan izin apa yang Anda perlukan untuk mengimpor data dari sumber data Anda.

Izin

Tinjau informasi berikut untuk memastikan bahwa Anda memiliki izin yang diperlukan untuk mengimpor data dari sumber data Anda:

  • Amazon S3: Anda dapat mengimpor data dari bucket Amazon S3 apa pun selama pengguna Anda memiliki izin untuk mengakses bucket. Untuk informasi selengkapnya tentang menggunakan AWS IAM untuk mengontrol akses ke bucket Amazon S3, lihat Identity and access management di Amazon S3 di Panduan Pengguna Amazon S3.

  • Amazon Athena: Jika Anda memiliki AmazonSageMakerFullAccesskebijakan dan kebijakan yang AmazonSageMakerCanvasFullAccessdilampirkan pada peran eksekusi pengguna, Anda dapat melakukan kueri AWS Glue Data Catalog dengan Amazon Athena. Jika Anda bagian dari workgroup Athena, pastikan bahwa pengguna Canvas memiliki izin untuk menjalankan kueri Athena pada data. Untuk informasi selengkapnya, lihat Menggunakan grup kerja untuk menjalankan kueri di Panduan Pengguna Amazon Athena.

  • Amazon DocumentDB: Anda dapat mengimpor data dari database Amazon DocumentDB selama Anda memiliki kredensyal (nama pengguna dan kata sandi) untuk terhubung ke database dan memiliki izin Kanvas dasar minimum yang dilampirkan ke peran eksekusi pengguna Anda. Untuk informasi selengkapnya tentang izin Canvas, lihat. Prasyarat untuk menyiapkan Amazon Canvas SageMaker

  • Amazon Redshift: Untuk memberi diri Anda izin yang diperlukan untuk mengimpor data dari Amazon Redshift, lihat Memberi Izin Pengguna untuk Mengimpor Data Amazon Redshift.

  • Amazon RDS: Jika Anda memiliki AmazonSageMakerCanvasFullAccesskebijakan yang dilampirkan ke peran eksekusi pengguna Anda, maka Anda akan dapat mengakses database Amazon RDS Anda dari Canvas.

  • Platform SaaS: Jika Anda memiliki AmazonSageMakerFullAccesskebijakan dan kebijakan yang AmazonSageMakerCanvasFullAccessmelekat pada peran eksekusi pengguna Anda, maka Anda memiliki izin yang diperlukan untuk mengimpor data dari platform SaaS. Lihat Gunakan konektor SaaS dengan Canvas untuk informasi lebih lanjut tentang menghubungkan ke konektor SaaS tertentu.

  • Konektor JDBC: Untuk sumber database seperti Databricks, MySQL atau MariaDB, Anda harus mengaktifkan otentikasi nama pengguna dan kata sandi pada database sumber sebelum mencoba terhubung dari Canvas. Jika Anda terhubung ke database Databricks, Anda harus memiliki URL JDBC yang berisi kredensi yang diperlukan.

Connect ke database yang disimpan di AWS

Anda mungkin ingin mengimpor data yang telah Anda simpan AWS. Anda dapat mengimpor data dari Amazon S3, menggunakan Amazon Athena untuk menanyakan database di AWS Glue Data Catalog, mengimpor data dari Amazon RDS, atau membuat sambungan ke database Amazon Redshift yang disediakan (bukan Redshift Tanpa Server).

Anda dapat membuat beberapa koneksi ke Amazon Redshift. Untuk Amazon Athena, Anda dapat mengakses database apa pun yang Anda miliki di situs Anda. AWS Glue Data Catalog Untuk Amazon S3, Anda dapat mengimpor data dari bucket selama Anda memiliki izin yang diperlukan.

Tinjau bagian berikut untuk informasi selengkapnya.

Connect ke data di Amazon S3, Amazon Athena, atau Amazon RDS

Untuk Amazon S3, Anda dapat mengimpor data dari bucket Amazon S3 selama Anda memiliki izin untuk mengakses bucket.

Untuk Amazon Athena, Anda dapat mengakses database AWS Glue Data Catalog selama Anda memiliki izin melalui workgroup Amazon Athena Anda.

Untuk Amazon RDS, jika Anda memiliki AmazonSageMakerCanvasFullAccesskebijakan yang dilampirkan ke peran pengguna, Anda dapat mengimpor data dari database Amazon RDS ke Canvas.

Untuk mengimpor data dari bucket Amazon S3, atau menjalankan kueri dan mengimpor tabel data dengan Amazon Athena, lihat. Buat set data Anda hanya dapat mengimpor data tabular dari Amazon Athena, dan Anda dapat mengimpor data tabel dan gambar dari Amazon S3.

Terhubung ke basis data Amazon DocumentDB

Amazon DocumentDB adalah layanan basis data dokumen yang dikelola sepenuhnya, tanpa server,. Anda dapat mengimpor data dokumen tidak terstruktur yang disimpan dalam SageMaker database Amazon DocumentDB ke Canvas sebagai kumpulan data tabular, dan kemudian Anda dapat membuat model pembelajaran mesin dengan data tersebut.

penting

SageMaker Domain Anda harus dikonfigurasi dalam mode VPC saja untuk menambahkan koneksi ke Amazon DocumentDB. Anda hanya dapat mengakses cluster Amazon DocumentDB di Amazon VPC yang sama dengan aplikasi Canvas Anda. Selain itu, Canvas hanya dapat terhubung ke cluster Amazon DocumentDB yang mendukung TLS. Untuk informasi selengkapnya tentang cara mengatur Canvas dalam mode VPC saja, lihat. Konfigurasikan Amazon SageMaker Canvas di VPC tanpa akses internet

Untuk mengimpor data dari database Amazon DocumentDB, Anda harus memiliki kredensyal untuk mengakses database Amazon DocumentDB dan menentukan nama pengguna dan kata sandi saat membuat koneksi database. Anda dapat mengonfigurasi izin yang lebih terperinci dan membatasi akses dengan memodifikasi izin pengguna Amazon DocumentDB. Untuk mempelajari lebih lanjut tentang kontrol akses di Amazon DocumentDB, lihat Akses Database Menggunakan Kontrol Akses Berbasis Peran di Panduan Pengembang Amazon DocumentDB.

Saat Anda mengimpor dari Amazon DocumentDB, Canvas mengonversi data tidak terstruktur menjadi kumpulan data tabular dengan memetakan bidang ke kolom dalam tabel. Tabel tambahan dibuat untuk setiap bidang kompleks (atau struktur bersarang) dalam data, di mana kolom sesuai dengan sub-bidang bidang kompleks. Untuk informasi lebih rinci tentang proses ini dan contoh konversi skema, lihat halaman Amazon DocumentDB JDBC Driver Schema Discovery. GitHub

Canvas hanya dapat membuat koneksi ke database tunggal di Amazon DocumentDB. Untuk mengimpor data dari basis data yang berbeda, Anda harus membuat koneksi baru.

Anda dapat mengimpor data dari Amazon DocumentDB ke Canvas dengan menggunakan metode berikut:

  • Buat set data. Anda dapat mengimpor data Amazon DocumentDB dan membuat kumpulan data tabular di Canvas. Jika Anda memilih metode ini, pastikan Anda mengikuti prosedur Impor data tabular.

  • Buat Aliran Data. Anda dapat membuat pipeline persiapan data di Canvas dan menambahkan database Amazon DocumentDB sebagai sumber data.

Untuk melanjutkan dengan mengimpor data Anda, ikuti prosedur untuk salah satu metode yang ditautkan dalam daftar sebelumnya.

Saat Anda mencapai langkah dalam alur kerja untuk memilih sumber data (Langkah 6 untuk membuat kumpulan data, atau Langkah 8 untuk membuat alur data), lakukan hal berikut:

  1. Untuk Sumber Data, buka menu dropdown dan pilih DocumentDB.

  2. Pilih Tambahkan koneksi.

  3. Di kotak dialog, tentukan kredensi Amazon DocumentDB Anda:

    1. Masukkan nama Koneksi. Ini adalah nama yang digunakan oleh Canvas untuk mengidentifikasi koneksi ini.

    2. Untuk Cluster, pilih cluster di Amazon DocumentDB yang menyimpan data Anda. Canvas secara otomatis mengisi menu dropdown dengan cluster Amazon DocumentDB di VPC yang sama dengan aplikasi Canvas Anda.

    3. Masukkan Nama Pengguna untuk klaster Amazon DocumentDB Anda.

    4. Masukkan Kata Sandi untuk klaster Amazon DocumentDB Anda.

    5. Masukkan nama Database yang ingin Anda hubungkan.

    6. Opsi Preferensi Baca menentukan jenis instance di klaster Anda Canvas yang membaca datanya. Pilih salah satu dari yang berikut ini:

      • Pilihan sekunder — Canvas default membaca dari instance sekunder cluster, tetapi jika instance sekunder tidak tersedia, maka Canvas membaca dari instance utama.

      • Sekunder — Canvas hanya membaca dari instance sekunder cluster, yang mencegah operasi baca mengganggu operasi baca dan tulis reguler cluster.

    7. Pilih Tambahkan koneksi. Gambar berikut menunjukkan kotak dialog dengan bidang sebelumnya untuk koneksi Amazon DocumentDB.

      Tangkapan layar dari kotak dialog Tambahkan koneksi DocumentDB baru di Canvas.

Anda sekarang harus memiliki koneksi Amazon DocumentDB, dan Anda dapat menggunakan data Amazon DocumentDB di Canvas untuk membuat kumpulan data atau aliran data.

Connect ke basis data Amazon Redshift

Anda dapat mengimpor data dari Amazon Redshift, gudang data tempat organisasi menyimpan datanya. Sebelum Anda dapat mengimpor data dari Amazon Redshift, peran AWS IAM yang Anda gunakan harus memiliki kebijakan AmazonRedshiftFullAccess terkelola yang dilampirkan. Untuk petunjuk tentang melampirkan kebijakan ini, lihatBerikan Izin Pengguna untuk Mengimpor Data Amazon Redshift.

Untuk mengimpor data dari Amazon Redshift, Anda melakukan hal berikut:

  1. Buat koneksi ke basis data Amazon Redshift.

  2. Pilih data yang Anda impor.

  3. Mengimpor data.

Anda dapat menggunakan editor Amazon Redshift untuk menyeret kumpulan data ke panel impor dan mengimpornya ke Canvas. SageMaker Untuk kontrol lebih lanjut atas nilai yang dikembalikan dalam kumpulan data, Anda dapat menggunakan yang berikut ini:

  • Kueri SQL

  • Gabungan

Dengan kueri SQL, Anda dapat menyesuaikan cara mengimpor nilai dalam kumpulan data. Misalnya, Anda dapat menentukan kolom yang dikembalikan dalam kumpulan data atau rentang nilai untuk kolom.

Anda dapat menggunakan gabungan untuk menggabungkan beberapa kumpulan data dari Amazon Redshift menjadi satu kumpulan data. Anda dapat menyeret kumpulan data dari Amazon Redshift ke panel yang memberi Anda kemampuan untuk bergabung dengan kumpulan data.

Anda dapat menggunakan editor SQL untuk mengedit kumpulan data yang telah Anda gabungkan dan mengonversi kumpulan data yang digabungkan menjadi satu node. Anda dapat menggabungkan kumpulan data lain ke node. Anda dapat mengimpor data yang telah Anda pilih ke SageMaker Canvas.

Gunakan prosedur berikut untuk mengimpor data dari Amazon Redshift.

  1. Dalam aplikasi SageMaker Canvas, buka halaman Datasets.

  2. Pilih Impor data, dan dari menu tarik-turun, pilih Tabular.

  3. Masukkan nama untuk dataset dan pilih Buat.

  4. Untuk Sumber Data, buka menu tarik-turun dan pilih Redshift.

  5. Pilih Tambahkan koneksi.

  6. Di kotak dialog, tentukan kredenal Amazon Redshift Anda:

    1. Untuk metode Otentikasi, pilih IAM.

    2. Masukkan pengidentifikasi Cluster untuk menentukan cluster mana yang ingin Anda sambungkan. Masukkan hanya pengidentifikasi klaster dan bukan titik akhir penuh cluster Amazon Redshift.

    3. Masukkan nama Database basis data yang ingin Anda hubungkan.

    4. Masukkan pengguna Database untuk mengidentifikasi pengguna yang ingin Anda gunakan untuk terhubung ke database.

    5. Untuk ARN, masukkan peran IAM ARN dari peran yang harus diasumsikan oleh cluster Amazon Redshift untuk memindahkan dan menulis data ke Amazon S3. Untuk informasi selengkapnya tentang peran ini, lihat Mengotorisasi Amazon Redshift untuk mengakses layanan AWS lain atas nama Anda di Panduan Manajemen Amazon Redshift.

    6. Masukkan nama Koneksi. Ini adalah nama yang digunakan oleh Canvas untuk mengidentifikasi koneksi ini.

  7. Dari tab yang memiliki nama koneksi Anda, seret file.csv yang Anda impor ke panel Drag and drop to import table.

  8. Opsional: Seret tabel tambahan ke panel impor. Anda dapat menggunakan GUI untuk bergabung dengan tabel. Untuk kekhususan lebih lanjut dalam bergabung Anda, pilih Edit di SQL.

  9. Opsional: Jika Anda menggunakan SQL untuk menanyakan data, Anda dapat memilih Konteks untuk menambahkan konteks ke koneksi dengan menentukan nilai berikut:

    • Gudang

    • Basis Data

    • Skema

  10. Pilih Impor data.

Citra berikut menunjukkan contoh bidang yang ditentukan untuk koneksi Amazon Redshift.

Tangkapan layar dari kotak dialog Tambahkan koneksi Redshift baru di Canvas.

Gambar berikut menunjukkan halaman yang digunakan untuk bergabung dengan kumpulan data di Amazon Redshift.

Screenshot dari halaman Impor di Canvas, menunjukkan dua kumpulan data yang digabungkan.

Gambar berikut menunjukkan kueri SQL yang digunakan untuk mengedit gabungan di Amazon Redshift.

Screenshot dari query SQL di editor Edit SQL pada halaman Impor di Canvas.

Connect ke data Anda dengan konektor JDBC

Dengan JDBC, Anda dapat terhubung ke database Anda dari sumber seperti Databricks, SQLServer, MySQL, PostgreSQL, MariaDB, Amazon RDS, dan Amazon Aurora.

Anda harus memastikan bahwa Anda memiliki kredensyal dan izin yang diperlukan untuk membuat koneksi dari Canvas.

  • Untuk Databricks, Anda harus memberikan URL JDBC. Pemformatan URL dapat bervariasi antara instance Databricks. Untuk informasi tentang menemukan URL dan menentukan parameter di dalamnya, lihat konfigurasi JDBC dan parameter koneksi dalam dokumentasi Databricks. Berikut ini adalah contoh bagaimana URL dapat diformat: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/3122619508517275/0909-200301-cut318;AuthMech=3;UID=token;PWD=personal-access-token

  • Untuk sumber database lainnya, Anda harus mengatur otentikasi nama pengguna dan kata sandi, lalu tentukan kredensyal tersebut saat menghubungkan ke database dari Canvas.

Selain itu, sumber data Anda harus dapat diakses melalui internet publik, atau jika aplikasi Canvas Anda berjalan dalam mode VPC saja, maka sumber data harus berjalan dalam VPC yang sama. Untuk informasi selengkapnya tentang mengonfigurasi database Amazon RDS di VPC, lihat VPC VPC Amazon VPC dan Amazon RDS di Panduan Pengguna Amazon RDS.

Setelah mengonfigurasi kredensyal sumber data, Anda dapat masuk ke aplikasi Canvas dan membuat koneksi ke sumber data. Tentukan kredensil Anda (atau, untuk Databricks, URL) saat membuat koneksi.

Connect ke sumber data dengan OAuth

Canvas mendukung penggunaan OAuth sebagai metode otentikasi untuk menghubungkan ke data Anda di Snowflake dan Salesforce Data Cloud. OAuth adalah platform otentikasi umum untuk memberikan akses ke sumber daya tanpa berbagi kata sandi.

catatan

Anda hanya dapat membuat satu koneksi OAuth untuk setiap sumber data.

Untuk mengotorisasi koneksi, Anda harus mengikuti pengaturan awal yang dijelaskan dalamSiapkan koneksi ke sumber data dengan OAuth.

Setelah menyiapkan kredensyal OAuth, Anda dapat melakukan hal berikut untuk menambahkan koneksi Snowflake atau Salesforce Data Cloud dengan OAuth:

  1. Masuk ke aplikasi Canvas.

  2. Buat set data tabular. Saat diminta untuk mengunggah data, pilih Snowflake atau Salesforce Data Cloud sebagai sumber data Anda.

  3. Buat koneksi baru ke sumber data Snowflake atau Salesforce Data Cloud Anda. Tentukan OAuth sebagai metode otentikasi dan masukkan detail koneksi Anda.

Anda sekarang harus dapat mengimpor data dari database Anda di Snowflake atau Salesforce Data Cloud.

Connect ke platform SaaS

Anda dapat mengimpor data dari Snowflake dan lebih dari 40 platform SaaS eksternal lainnya. Untuk daftar lengkap konektor, lihat tabel padaMengimpor data ke Canvas.

catatan

Anda hanya dapat mengimpor data tabular, seperti tabel data, dari platform SaaS.

Gunakan Snowflake dengan Canvas

Snowflake adalah layanan penyimpanan data dan analitik, dan Anda dapat mengimpor data Anda dari Snowflake ke Canvas. SageMaker Untuk informasi lebih lanjut tentang Snowflake, lihat dokumentasi Snowflake.

Anda dapat mengimpor data dari akun Snowflake Anda dengan melakukan hal berikut:

  1. Buat koneksi ke database Snowflake.

  2. Pilih data yang Anda impor dengan menyeret dan menjatuhkan tabel dari menu navigasi kiri ke editor.

  3. Mengimpor data.

Anda dapat menggunakan editor Snowflake untuk menyeret kumpulan data ke panel impor dan mengimpornya ke Canvas. SageMaker Untuk kontrol lebih lanjut atas nilai yang dikembalikan dalam kumpulan data, Anda dapat menggunakan yang berikut ini:

  • Kueri SQL

  • Gabungan

Dengan kueri SQL, Anda dapat menyesuaikan cara mengimpor nilai dalam kumpulan data. Misalnya, Anda dapat menentukan kolom yang dikembalikan dalam kumpulan data atau rentang nilai untuk kolom.

Anda dapat menggabungkan beberapa kumpulan data Snowflake ke dalam satu kumpulan data sebelum Anda mengimpor ke Canvas menggunakan SQL atau antarmuka Canvas. Anda dapat menyeret kumpulan data Anda dari Snowflake ke panel yang memberi Anda kemampuan untuk bergabung dengan kumpulan data, atau Anda dapat mengedit gabungan di SQL dan mengonversi SQL menjadi satu node. Anda dapat menggabungkan node lain ke node yang telah Anda konversi. Anda kemudian dapat menggabungkan kumpulan data yang telah Anda gabungkan menjadi satu node dan menggabungkan node ke dataset Snowflake yang berbeda. Terakhir, Anda dapat mengimpor data yang telah Anda pilih ke Canvas.

Gunakan prosedur berikut untuk mengimpor data dari Snowflake ke Amazon SageMaker Canvas.

  1. Dalam aplikasi SageMaker Canvas, buka halaman Datasets.

  2. Pilih Impor data, dan dari menu tarik-turun, pilih Tabular.

  3. Masukkan nama untuk dataset dan pilih Buat.

  4. Untuk Sumber Data, buka menu tarik-turun dan pilih Snowflake.

  5. Pilih Tambahkan koneksi.

  6. Dalam kotak dialog Tambahkan koneksi Snowflake baru, tentukan kredensyal Snowflake Anda. Untuk metode Otentikasi, Anda dapat memilih Dasar - kata sandi nama pengguna, ARN atau OAuth. OAuth memungkinkan Anda mengautentikasi tanpa memberikan kata sandi tetapi memerlukan pengaturan tambahan. Untuk informasi selengkapnya tentang pengaturan kredensional OAuth untuk Snowflake, lihat. Siapkan koneksi ke sumber data dengan OAuth

  7. Pilih Tambahkan koneksi.

  8. Dari tab yang memiliki nama koneksi Anda, seret file.csv yang Anda impor ke panel Drag and drop to import table.

  9. Opsional: Seret tabel tambahan ke panel impor. Anda dapat menggunakan antarmuka pengguna untuk bergabung dengan tabel. Untuk kekhususan lebih lanjut dalam bergabung Anda, pilih Edit di SQL.

  10. Opsional: Jika Anda menggunakan SQL untuk menanyakan data, Anda dapat memilih Konteks untuk menambahkan konteks ke koneksi dengan menentukan nilai berikut:

    • Gudang

    • Basis Data

    • Skema

    Menambahkan konteks ke koneksi membuatnya lebih mudah untuk menentukan kueri future.

  11. Pilih Impor data.

Citra berikut menunjukkan contoh bidang yang ditentukan untuk koneksi Snowflake.

Tangkapan layar dari kotak dialog Tambahkan koneksi Snowflake baru di Canvas.

Gambar berikut menunjukkan halaman yang digunakan untuk menambahkan konteks ke koneksi.

Screenshot dari halaman Impor di Canvas, menampilkan kotak dialog Konteks.

Gambar berikut menunjukkan halaman yang digunakan untuk bergabung dengan kumpulan data di Snowflake.

Screenshot dari halaman Impor di Canvas, menunjukkan kumpulan data yang digabungkan.

Gambar berikut menunjukkan kueri SQL yang digunakan untuk mengedit gabungan di Snowflake.

Screenshot dari query SQL di editor Edit SQL pada halaman Impor di Canvas.

Gunakan konektor SaaS dengan Canvas

catatan

Untuk platform SaaS selain Snowflake, Anda hanya dapat memiliki satu koneksi per sumber data.

Sebelum Anda dapat mengimpor data dari platform SaaS, administrator Anda harus mengautentikasi dan membuat koneksi ke sumber data. Untuk informasi selengkapnya tentang cara administrator membuat koneksi dengan platform SaaS, lihat Mengelola koneksi AppFlow Amazon di Panduan Pengguna AppFlow Amazon.

Jika Anda seorang administrator yang memulai Amazon AppFlow untuk pertama kalinya, lihat Memulai di Panduan AppFlow Pengguna Amazon.

Untuk mengimpor data dari platform SaaS, Anda dapat mengikuti Mengimpor data tabel prosedur standar, yang menunjukkan cara mengimpor kumpulan data tabular ke Canvas.