Impor - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Impor

Anda dapat menggunakan Amazon SageMaker Data Wrangler untuk mengimpor data dari sumber data berikut: Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, dan Snowflake. Dataset yang Anda impor dapat menyertakan hingga 1000 kolom.

Beberapa sumber data memungkinkan Anda menambahkan beberapa koneksi data:

  • Anda dapat terhubung ke beberapa cluster Amazon Redshift. Setiap cluster menjadi sumber data.

  • Anda dapat menanyakan database Athena apa pun di akun Anda untuk mengimpor data dari database tersebut.

Ketika Anda mengimpor dataset dari sumber data, itu akan muncul dalam aliran data Anda. Data Wrangler secara otomatis menyimpulkan tipe data setiap kolom dalam kumpulan data Anda. Untuk mengubah jenis ini, pilih langkah Jenis data dan pilih Edit tipe data.

Saat Anda mengimpor data dari Athena atau Amazon Redshift, data yang diimpor secara otomatis disimpan di bucket S3 SageMaker default untuk Wilayah tempat Anda AWS menggunakan Studio Classic. Selain itu, Athena menyimpan data yang Anda pratinjau di Data Wrangler di bucket ini. Untuk mempelajari selengkapnya, lihat Penyimpanan Data yang Diimpor.

penting

Bucket Amazon S3 default mungkin tidak memiliki setelan keamanan yang paling tidak permisif, seperti kebijakan bucket dan enkripsi sisi server (). SSE Kami sangat menyarankan Anda Menambahkan Kebijakan Bucket Untuk Membatasi Akses ke Kumpulan Data yang Diimpor ke Data Wrangler.

penting

Selain itu, jika Anda menggunakan kebijakan terkelola untuk SageMaker, kami sangat menyarankan Anda untuk mencakupnya ke kebijakan paling ketat yang memungkinkan Anda untuk melakukan kasus penggunaan Anda. Untuk informasi selengkapnya, lihat Berikan Izin IAM Peran untuk Menggunakan Data Wrangler.

Semua sumber data kecuali Amazon Simple Storage Service (Amazon S3) Simple Storage Service (Amazon S3) mengharuskan Anda menentukan kueri untuk SQL mengimpor data Anda. Untuk setiap kueri, Anda harus menentukan yang berikut:

  • Katalog data

  • Basis Data

  • Tabel

Anda dapat menentukan nama database atau katalog data di menu drop-down atau dalam kueri. Berikut ini adalah contoh query:

  • select * from example-data-catalog-name.example-database-name.example-table-name— Kueri tidak menggunakan apa pun yang ditentukan dalam menu tarik-turun antarmuka pengguna (UI) untuk dijalankan. Ini pertanyaan di example-table-name example-database-name dalamexample-data-catalog-name.

  • select * from example-database-name.example-table-name— Kueri menggunakan katalog data yang telah Anda tentukan di menu tarik-turun katalog Data untuk dijalankan. Ini query example-table-name dalam example-database-name dalam katalog data yang telah Anda tentukan.

  • select * from example-table-name— Kueri mengharuskan Anda untuk memilih bidang untuk katalog Data dan menu tarik-turun nama Database. Ini query example-table-name dalam katalog data dalam database dan katalog data yang telah Anda tentukan.

Hubungan antara Data Wrangler dan sumber data adalah koneksi. Anda menggunakan koneksi untuk mengimpor data dari sumber data Anda.

Ada beberapa jenis koneksi berikut:

  • Langsung

  • Dikatalogkan

Data Wrangler selalu memiliki akses ke data terbaru dalam koneksi langsung. Jika data dalam sumber data telah diperbarui, Anda dapat menggunakan koneksi untuk mengimpor data. Misalnya, jika seseorang menambahkan file ke salah satu bucket Amazon S3 Anda, Anda dapat mengimpor file tersebut.

Koneksi yang dikatalogkan adalah hasil dari transfer data. Data dalam koneksi yang dikatalogkan tidak selalu memiliki data terbaru. Misalnya, Anda dapat mengatur transfer data antara Salesforce dan Amazon S3. Jika ada pembaruan pada data Salesforce, Anda harus mentransfer data lagi. Anda dapat mengotomatiskan proses transfer data. Untuk informasi selengkapnya tentang transfer data, lihatImpor Data Dari Perangkat Lunak sebagai Platform Layanan (SaaS).

Impor data dari Amazon S3

Anda dapat menggunakan Amazon Simple Storage Service (Amazon S3) untuk menyimpan dan mengambil sejumlah data, kapan saja, dari mana saja di web. Anda dapat menyelesaikan tugas-tugas ini menggunakan AWS Management Console, yang merupakan antarmuka web yang sederhana dan intuitif, dan Amazon API S3. Jika Anda telah menyimpan kumpulan data secara lokal, kami sarankan Anda menambahkannya ke bucket S3 untuk diimpor ke Data Wrangler. Untuk mempelajari caranya, lihat Mengunggah objek ke bucket di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon.

Data Wrangler menggunakan S3 Select untuk memungkinkan Anda melihat pratinjau file Amazon S3 Anda di Data Wrangler. Anda dikenakan biaya standar untuk setiap pratinjau file. Untuk mempelajari lebih lanjut tentang harga, lihat tab Permintaan & pengambilan data pada harga Amazon S3.

penting

Jika Anda berencana untuk mengekspor aliran data dan meluncurkan pekerjaan Data Wrangler, memasukkan data ke dalam SageMaker feature store, atau membuat SageMaker pipeline, ketahuilah bahwa integrasi ini memerlukan data input Amazon S3 untuk ditempatkan di wilayah yang sama. AWS

penting

Jika Anda mengimpor CSV file, pastikan file tersebut memenuhi persyaratan berikut:

  • Catatan dalam kumpulan data Anda tidak boleh lebih dari satu baris.

  • Sebuah backslash,\, adalah satu-satunya karakter melarikan diri yang valid.

  • Dataset Anda harus menggunakan salah satu pembatas berikut:

    • Koma — ,

    • Usus besar — :

    • Titik koma — ;

    • Pipa — |

    • Tab — [TAB]

Untuk menghemat ruang, Anda dapat mengimpor CSV file terkompresi.

Data Wrangler memberi Anda kemampuan untuk mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk Amazon S3, ini menyediakan opsi pengambilan sampel berikut:

  • Tidak ada - Impor seluruh dataset.

  • K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.

  • Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.

  • Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Setelah mengimpor data, Anda juga dapat menggunakan transformator sampling untuk mengambil satu atau lebih sampel dari seluruh kumpulan data Anda. Untuk informasi lebih lanjut tentang transformator sampling, lihatPengambilan sampel.

Anda dapat menggunakan salah satu pengidentifikasi sumber daya berikut untuk mengimpor data Anda:

  • Amazon S3 URI yang menggunakan bucket Amazon S3 atau jalur akses Amazon S3

  • Alias jalur akses Amazon S3

  • Nama Sumber Daya Amazon (ARN) yang menggunakan jalur akses Amazon S3 atau bucket Amazon S3

Titik akses Amazon S3 diberi nama titik akhir jaringan yang dilampirkan ke bucket. Setiap titik akses memiliki izin dan kontrol jaringan yang berbeda yang dapat Anda konfigurasi. Untuk informasi selengkapnya tentang titik akses, lihat Mengelola akses data dengan jalur akses Amazon S3.

penting

Jika Anda menggunakan Amazon Resource Name (ARN) untuk mengimpor data Anda, itu harus untuk sumber daya yang terletak sama dengan Wilayah AWS yang Anda gunakan untuk mengakses Amazon SageMaker Studio Classic.

Anda dapat mengimpor satu file atau beberapa file sebagai kumpulan data. Anda dapat menggunakan operasi impor multifile ketika Anda memiliki kumpulan data yang dipartisi menjadi file terpisah. Dibutuhkan semua file dari direktori Amazon S3 dan mengimpornya sebagai kumpulan data tunggal. Untuk informasi tentang jenis file yang dapat Anda impor dan cara mengimpornya, lihat bagian berikut.

Single File Import

Anda dapat mengimpor file tunggal dalam format berikut:

  • Nilai Terpisah Koma () CSV

  • Parquet

  • Notasi Objek Javascript () JSON

  • Kolom Baris yang Dioptimalkan () ORC

  • Gambar - Data Wrangler menggunakan OpenCV untuk mengimpor gambar. Untuk informasi selengkapnya tentang format gambar yang didukung, lihat Membaca dan menulis file gambar.

Untuk file yang diformatJSON, Data Wrangler mendukung kedua JSON baris (.jsonl) dan dokumen (.json). JSON Ketika Anda melihat pratinjau data Anda, secara otomatis menampilkan JSON dalam format tabel. Untuk JSON dokumen bersarang yang lebih besar dari 5 MB, Data Wrangler menunjukkan skema untuk struktur dan array sebagai nilai dalam kumpulan data. Gunakan operator array Flatten structured dan Explode untuk menampilkan nilai bersarang dalam format tabel. Untuk informasi selengkapnya, silakan lihat Data Unnest JSON dan Meledak Array.

Saat memilih kumpulan data, Anda dapat mengganti namanya, menentukan jenis file, dan mengidentifikasi baris pertama sebagai header.

Anda dapat mengimpor kumpulan data yang telah dipartisi menjadi beberapa file di bucket Amazon S3 dalam satu langkah impor.

Untuk mengimpor dataset ke Data Wrangler dari satu file yang telah Anda simpan di Amazon S3:
  1. Jika saat ini Anda tidak berada di tab Impor, pilih Impor.

  2. Di bawah Tersedia, pilih Amazon S3.

  3. Dari Impor tabular, gambar, atau data deret waktu dari S3, lakukan salah satu hal berikut:

    • Pilih bucket Amazon S3 dari tampilan tabular dan navigasikan ke file yang Anda impor.

    • Untuk sumber S3, tentukan bucket Amazon S3 atau Amazon S3 dan pilih GoURI. Amazon S3 URIs dapat dalam salah satu format berikut:

      • s3://amzn-s3-demo-bucket/example-prefix/example-file

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/set data/example-file

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix/example-file

  4. Pilih kumpulan data untuk membuka panel Pengaturan impor.

  5. Jika CSV file Anda memiliki header, pilih kotak centang di sebelah Tambahkan header ke tabel.

  6. Gunakan tabel Pratinjau untuk melihat pratinjau kumpulan data Anda. Tabel ini menunjukkan hingga 100 baris.

  7. Di panel Detail, verifikasi atau ubah Nama dan Jenis File untuk kumpulan data Anda. Jika Anda menambahkan Nama yang berisi spasi, spasi ini akan diganti dengan garis bawah saat dataset Anda diimpor.

  8. Tentukan konfigurasi sampling yang ingin Anda gunakan.

  9. Pilih Impor.

Multifile Import

Berikut ini adalah persyaratan untuk mengimpor beberapa file:

  • File harus berada di folder yang sama dengan bucket Amazon S3 Anda.

  • File harus berbagi header yang sama atau tidak memiliki header.

Setiap file harus dalam salah satu format berikut:

  • CSV

  • Parquet

  • Kolom Baris yang Dioptimalkan () ORC

  • Gambar - Data Wrangler menggunakan OpenCV untuk mengimpor gambar. Untuk informasi selengkapnya tentang format gambar yang didukung, lihat Membaca dan menulis file gambar.

Gunakan prosedur berikut untuk mengimpor beberapa file.

Untuk mengimpor dataset ke Data Wrangler dari beberapa file yang telah disimpan di direktori Amazon S3
  1. Jika saat ini Anda tidak berada di tab Impor, pilih Impor.

  2. Di bawah Tersedia, pilih Amazon S3.

  3. Dari Impor tabular, gambar, atau data deret waktu dari S3, lakukan salah satu hal berikut:

    • Pilih bucket Amazon S3 dari tampilan tabular dan navigasikan ke folder yang berisi file yang Anda impor.

    • Untuk sumber S3, tentukan bucket Amazon S3 atau Amazon URI S3 dengan file Anda dan pilih Go. Berikut ini validURIs:

      • s3://amzn-s3-demo-bucket/example-prefix/example-prefix

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/example-prefix/

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix

  4. Pilih folder yang berisi file yang ingin Anda impor. Setiap file harus dalam salah satu format yang didukung. File Anda harus memiliki tipe data yang sama.

  5. Jika folder Anda berisi CSV file dengan header, pilih kotak centang di sebelah Baris pertama adalah header.

  6. Jika file Anda bersarang di dalam folder lain, pilih kotak centang di samping Sertakan direktori bersarang.

  7. (Opsional) Pilih Tambahkan kolom nama file tambahkan kolom ke kumpulan data yang menunjukkan nama file untuk setiap pengamatan.

  8. (Opsional) Secara default, Data Wrangler tidak menampilkan pratinjau folder. Anda dapat mengaktifkan pratinjau dengan memilih tombol mati Pratinjau biru. Pratinjau menunjukkan 10 baris pertama dari 10 file pertama di folder.

  9. Di panel Detail, verifikasi atau ubah Nama dan Jenis File untuk kumpulan data Anda. Jika Anda menambahkan Nama yang berisi spasi, spasi ini akan diganti dengan garis bawah saat dataset Anda diimpor.

  10. Tentukan konfigurasi sampling yang ingin Anda gunakan.

  11. Pilih Impor dataset.

Anda juga dapat menggunakan parameter untuk mengimpor subset file yang cocok dengan pola. Parameter membantu Anda memilih file yang Anda impor secara lebih selektif. Untuk mulai menggunakan parameter, edit sumber data dan terapkan ke jalur yang Anda gunakan untuk mengimpor data. Untuk informasi selengkapnya, lihat Menggunakan Kembali Alur Data untuk Kumpulan Data yang Berbeda.

Impor data dari Athena

Gunakan Amazon Athena untuk mengimpor data Anda dari Amazon Simple Storage Service (Amazon S3) ke Data Wrangler. Di Athena, Anda menulis SQL kueri standar untuk memilih data yang Anda impor dari Amazon S3. Untuk informasi lebih lanjut, lihat Apa itu Amazon Athena?

Anda dapat menggunakan AWS Management Console untuk mengatur Amazon Athena. Anda harus membuat setidaknya satu database di Athena sebelum Anda mulai menjalankan kueri. Untuk informasi lebih lanjut tentang memulai dengan Athena, lihat Memulai.

Athena terintegrasi langsung dengan Data Wrangler. Anda dapat menulis kueri Athena tanpa harus meninggalkan UI Data Wrangler.

Selain menulis kueri Athena sederhana di Data Wrangler, Anda juga dapat menggunakan:

  • Kelompok kerja Athena untuk manajemen hasil kueri. Untuk informasi selengkapnya tentang kelompok kerja, lihatMengelola hasil kueri.

  • Konfigurasi siklus hidup untuk menyetel periode retensi data. Untuk informasi selengkapnya tentang retensi data, lihatMengatur periode retensi data.

Pertanyaan Athena dalam Data Wrangler

catatan

Data Wrangler tidak mendukung kueri federasi.

Jika Anda menggunakan AWS Lake Formation Athena, pastikan izin Lake Formation Anda tidak mengganti IAM IAM izin untuk database. sagemaker_data_wrangler

Data Wrangler memberi Anda kemampuan untuk mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk Athena, ini menyediakan opsi pengambilan sampel berikut:

  • Tidak ada - Impor seluruh dataset.

  • K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.

  • Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.

  • Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Prosedur berikut menunjukkan cara mengimpor dataset dari Athena ke Data Wrangler.

Untuk mengimpor dataset ke Data Wrangler dari Athena
  1. Masuk ke SageMakerKonsol Amazon.

  2. Pilih Studio.

  3. Pilih Luncurkan aplikasi.

  4. Dari daftar dropdown, pilih Studio.

  5. Pilih ikon Beranda.

  6. Pilih Data.

  7. Pilih Data Wrangler.

  8. Pilih Impor data.

  9. Di bawah Tersedia, pilih Amazon Athena.

  10. Untuk Katalog Data, pilih katalog data.

  11. Gunakan daftar dropdown Database untuk memilih database yang ingin Anda kueri. Ketika Anda memilih database, Anda dapat melihat pratinjau semua tabel dalam database Anda menggunakan Tabel yang tercantum di bawah Detail.

  12. (Opsional) Pilih Konfigurasi lanjutan.

    1. Pilih Workgroup.

    2. Jika grup kerja Anda belum menerapkan lokasi keluaran Amazon S3 atau jika Anda tidak menggunakan grup kerja, tentukan nilai untuk lokasi hasil kueri Amazon S3.

    3. (Opsional) Untuk periode penyimpanan data, pilih kotak centang untuk mengatur periode penyimpanan data dan tentukan jumlah hari untuk menyimpan data sebelum dihapus.

    4. (Opsional) Secara default, Data Wrangler menyimpan koneksi. Anda dapat memilih untuk membatalkan pilihan kotak centang dan tidak menyimpan koneksi.

  13. Untuk Sampling, pilih metode pengambilan sampel. Pilih Tidak Ada untuk mematikan pengambilan sampel.

  14. Masukkan kueri Anda di editor kueri dan gunakan tombol Jalankan untuk menjalankan kueri. Setelah kueri berhasil, Anda dapat melihat pratinjau hasil Anda di bawah editor.

    catatan

    Data Salesforce menggunakan tipe. timestamptz Jika Anda menanyakan kolom stempel waktu yang telah Anda impor ke Athena dari Salesforce, transmisikan data di kolom ke jenisnya. timestamp Kueri berikut melemparkan kolom stempel waktu ke jenis yang benar.

    # cast column timestamptz_col as timestamp type, and name it as timestamp_col select cast(timestamptz_col as timestamp) as timestamp_col from table
  15. Untuk mengimpor hasil kueri Anda, pilih Impor.

Setelah Anda menyelesaikan prosedur sebelumnya, kumpulan data yang Anda kueri dan impor akan muncul di alur Data Wrangler.

Secara default, Data Wrangler menyimpan pengaturan koneksi sebagai koneksi baru. Saat Anda mengimpor data, kueri yang telah Anda tentukan akan muncul sebagai koneksi baru. Koneksi tersimpan menyimpan informasi tentang workgroup Athena dan bucket Amazon S3 yang Anda gunakan. Saat Anda menghubungkan ke sumber data lagi, Anda dapat memilih koneksi yang disimpan.

Mengelola hasil kueri

Data Wrangler mendukung penggunaan workgroup Athena untuk mengelola hasil kueri dalam akun. AWS Anda dapat menentukan lokasi keluaran Amazon S3 untuk setiap workgroup. Anda juga dapat menentukan apakah output kueri dapat masuk ke lokasi Amazon S3 yang berbeda. Untuk informasi selengkapnya, lihat Menggunakan Grup Kerja untuk Mengontrol Akses dan Biaya Kueri.

Workgroup Anda mungkin dikonfigurasi untuk menerapkan lokasi keluaran kueri Amazon S3. Anda tidak dapat mengubah lokasi keluaran hasil kueri untuk kelompok kerja tersebut.

Jika Anda tidak menggunakan grup kerja atau menentukan lokasi keluaran untuk kueri, Data Wrangler menggunakan bucket Amazon S3 default di AWS Wilayah yang sama tempat instans Studio Classic Anda berada untuk menyimpan hasil kueri Athena. Ini membuat tabel sementara dalam database ini untuk memindahkan output kueri ke bucket Amazon S3 ini. Ini menghapus tabel ini setelah data telah diimpor; Namun database,sagemaker_data_wrangler, tetap ada. Untuk mempelajari selengkapnya, lihat Penyimpanan Data yang Diimpor.

Untuk menggunakan grup kerja Athena, siapkan IAM kebijakan yang memberikan akses ke grup kerja. Jika Anda menggunakan aSageMaker-Execution-Role, sebaiknya tambahkan kebijakan ke peran tersebut. Untuk informasi selengkapnya tentang IAM kebijakan untuk grup kerja, lihat IAMkebijakan untuk mengakses grup kerja. Misalnya kebijakan grup kerja, lihat Kebijakan contoh Workgroup.

Mengatur periode retensi data

Data Wrangler secara otomatis menetapkan periode retensi data untuk hasil kueri. Hasilnya dihapus setelah lamanya periode retensi. Misalnya, periode retensi default adalah lima hari. Hasil kueri dihapus setelah lima hari. Konfigurasi ini dirancang untuk membantu Anda membersihkan data yang tidak lagi Anda gunakan. Membersihkan data Anda mencegah pengguna yang tidak sah mendapatkan akses. Ini juga membantu mengontrol biaya penyimpanan data Anda di Amazon S3.

Jika Anda tidak menetapkan periode retensi, konfigurasi siklus hidup Amazon S3 menentukan durasi penyimpanan objek. Kebijakan penyimpanan data yang telah Anda tentukan untuk konfigurasi siklus hidup menghapus hasil kueri yang lebih lama dari konfigurasi siklus hidup yang telah Anda tentukan. Untuk informasi selengkapnya, lihat Menyetel konfigurasi siklus hidup pada bucket.

Data Wrangler menggunakan konfigurasi siklus hidup Amazon S3 untuk mengelola retensi dan kedaluwarsa data. Anda harus memberikan izin peran IAM eksekusi Amazon SageMaker Studio Classic untuk mengelola konfigurasi siklus hidup bucket. Gunakan prosedur berikut untuk memberikan izin.

Untuk memberikan izin untuk mengelola konfigurasi siklus hidup lakukan hal berikut.

  1. Masuk ke AWS Management Console dan buka IAM konsol di https://console.aws.amazon.com/iam/.

  2. Pilih Peran.

  3. Di bilah pencarian, tentukan peran SageMaker eksekusi Amazon yang digunakan Amazon SageMaker Studio Classic.

  4. Pilih perannya.

  5. Pilih Tambahkan izin.

  6. Pilih Buat kebijakan sebaris.

  7. Untuk Layanan, tentukan S3 dan pilih.

  8. Di bawah bagian Baca, pilih GetLifecycleConfiguration.

  9. Di bawah bagian Tulis, pilih PutLifecycleConfiguration.

  10. Untuk Sumber daya, pilih Spesifik.

  11. Untuk Tindakan, pilih ikon panah di sebelah Manajemen izin.

  12. Pilih PutResourcePolicy.

  13. Untuk Sumber daya, pilih Spesifik.

  14. Pilih kotak centang di sebelah Apa saja di akun ini.

  15. Pilih Tinjau kebijakan.

  16. Untuk Nama, tentukan nama.

  17. Pilih Buat kebijakan.

Impor data dari Amazon Redshift

Amazon Redshift adalah layanan gudang data dengan skala petabyte yang terkelola penuh di cloud. Langkah pertama untuk membuat gudang data adalah meluncurkan satu set node, yang disebut cluster Amazon Redshift. Setelah menyediakan klaster, Anda dapat mengunggah kumpulan data dan kemudian melakukan kueri analisis data.

Anda dapat terhubung ke dan menanyakan satu atau beberapa klaster Amazon Redshift di Data Wrangler. Untuk menggunakan opsi impor ini, Anda harus membuat setidaknya satu cluster di Amazon Redshift. Untuk mempelajari caranya, lihat Memulai Amazon Redshift.

Anda dapat menampilkan hasil kueri Amazon Redshift Anda di salah satu lokasi berikut:

  • Bucket Amazon S3 default

  • Lokasi keluaran Amazon S3 yang Anda tentukan

Anda dapat mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk Amazon Redshift, ini menyediakan opsi pengambilan sampel berikut:

  • Tidak ada - Impor seluruh dataset.

  • K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.

  • Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.

  • Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Bucket Amazon S3 default berada di AWS Wilayah yang sama tempat instans Studio Classic Anda berada untuk menyimpan hasil kueri Amazon Redshift. Untuk informasi selengkapnya, lihat Penyimpanan Data yang Diimpor.

Untuk bucket Amazon S3 default atau bucket yang Anda tentukan, Anda memiliki opsi enkripsi berikut:

  • Enkripsi AWS sisi layanan default dengan kunci terkelola Amazon S3 (-S3) SSE

  • Kunci AWS Key Management Service (AWS KMS) yang Anda tentukan

AWS KMS Kunci adalah kunci enkripsi yang Anda buat dan kelola. Untuk informasi lebih lanjut tentang KMS kunci, lihat AWS Key Management Service.

Anda dapat menentukan AWS KMS kunci menggunakan kunci ARN atau AWS akun Anda. ARN

Jika Anda menggunakan kebijakan IAM terkelola,AmazonSageMakerFullAccess, untuk memberikan izin peran untuk menggunakan Data Wrangler di Studio Classic, nama Pengguna Database Anda harus memiliki awalan. sagemaker_access

Gunakan prosedur berikut untuk mempelajari cara menambahkan cluster baru.

catatan

Data Wrangler menggunakan API Data Amazon Redshift dengan kredenal sementara. Untuk mempelajari lebih lanjut tentang iniAPI, lihat Menggunakan Data Amazon Redshift API di Panduan Manajemen Pergeseran Merah Amazon.

Untuk terhubung ke cluster Amazon Redshift
  1. Masuk ke SageMakerKonsol Amazon.

  2. Pilih Studio.

  3. Pilih Luncurkan aplikasi.

  4. Dari daftar dropdown, pilih Studio.

  5. Pilih ikon Beranda.

  6. Pilih Data.

  7. Pilih Data Wrangler.

  8. Pilih Impor data.

  9. Di bawah Tersedia, pilih Amazon Athena.

  10. Pilih Amazon Redshift.

  11. Pilih Temporary credentials (IAM) untuk Type.

  12. Masukkan Nama Koneksi. Ini adalah nama yang digunakan oleh Data Wrangler untuk mengidentifikasi koneksi ini.

  13. Masukkan Cluster Identifier untuk menentukan cluster mana yang ingin Anda sambungkan. Catatan: Masukkan hanya pengidentifikasi klaster dan bukan titik akhir penuh klaster Amazon Redshift.

  14. Masukkan Nama Database dari database yang ingin Anda sambungkan.

  15. Masukkan Pengguna Database untuk mengidentifikasi pengguna yang ingin Anda gunakan untuk terhubung ke database.

  16. Untuk UNLOADIAMPeran, masukkan IAM peran peran ARN yang harus diasumsikan oleh cluster Amazon Redshift untuk memindahkan dan menulis data ke Amazon S3. Untuk informasi selengkapnya tentang peran ini, lihat Mengotorisasi Amazon Redshift untuk mengakses layanan AWS lain atas nama Anda di Panduan Manajemen Amazon Redshift.

  17. Pilih Hubungkan.

  18. (Opsional) Untuk lokasi keluaran Amazon S3, tentukan S3 URI untuk menyimpan hasil kueri.

  19. (Opsional) Untuk ID KMS kunci, tentukan ARN AWS KMS kunci atau alias. Gambar berikut menunjukkan di mana Anda dapat menemukan salah satu kunci di AWS Management Console.

    Lokasi AWS KMS aliasARN, nama alias, dan kunci ARN di konsol. AWS KMS

Gambar berikut menunjukkan semua bidang dari prosedur sebelumnya.

Panel koneksi Add Amazon Redshift.

Setelah koneksi Anda berhasil dibuat, itu muncul sebagai sumber data di bawah Impor Data. Pilih sumber data ini untuk menanyakan database Anda dan mengimpor data.

Untuk kueri dan impor data dari Amazon Redshift
  1. Pilih koneksi yang ingin Anda kueri dari Sumber Data.

  2. Pilih Skema. Untuk mempelajari selengkapnya tentang Skema Amazon Redshift, lihat Skema di Panduan Pengembang Database Amazon Redshift.

  3. (Opsional) Di bawah Konfigurasi lanjutan, tentukan metode Sampling yang ingin Anda gunakan.

  4. Masukkan kueri Anda di editor kueri dan pilih Jalankan untuk menjalankan kueri. Setelah kueri berhasil, Anda dapat melihat pratinjau hasil Anda di bawah editor.

  5. Pilih Impor dataset untuk mengimpor dataset yang telah ditanyakan.

  6. Masukkan nama Dataset. Jika Anda menambahkan nama Dataset yang berisi spasi, spasi ini akan diganti dengan garis bawah saat dataset Anda diimpor.

  7. Pilih Tambahkan.

Untuk mengedit kumpulan data, lakukan hal berikut.

  1. Arahkan ke alur Data Wrangler Anda.

  2. Pilih + di sebelah Sumber - Sampel.

  3. Ubah data yang Anda impor.

  4. Pilih Terapkan

Impor data dari Amazon EMR

Anda dapat menggunakan Amazon EMR sebagai sumber data untuk aliran Amazon SageMaker Data Wrangler Anda. Amazon EMR adalah platform cluster terkelola yang dapat Anda gunakan untuk memproses dan menganalisis data dalam jumlah besar. Untuk informasi selengkapnya tentang AmazonEMR, lihat Apa itu AmazonEMR? . Untuk mengimpor dataset dariEMR, Anda menghubungkannya dan menanyakannya.

penting

Anda harus memenuhi prasyarat berikut untuk terhubung ke cluster Amazon: EMR

Prasyarat
  • Konfigurasi jaringan
    • Anda memiliki Amazon VPC di Wilayah yang Anda gunakan untuk meluncurkan Amazon SageMaker Studio Classic dan AmazonEMR.

    • Baik Amazon EMR dan Amazon SageMaker Studio Classic harus diluncurkan dalam subnet pribadi. Mereka bisa berada di subnet yang sama atau di subnet yang berbeda.

    • Amazon SageMaker Studio Classic harus dalam mode VPC -only.

      Untuk informasi selengkapnya tentang membuatVPC, lihat Membuat VPC.

      Untuk informasi selengkapnya tentang membuatVPC, lihat Connect SageMaker Studio Classic Notebook dalam VPC ke Sumber Daya Eksternal.

    • EMRCluster Amazon yang Anda jalankan harus berada di Amazon VPC yang sama.

    • EMRCluster Amazon dan Amazon VPC harus berada di AWS akun yang sama.

    • EMRCluster Amazon Anda menjalankan Hive atau Presto.

      • Kluster sarang harus mengizinkan lalu lintas masuk dari grup keamanan Studio Classic di port 10000.

      • Cluster Presto harus mengizinkan lalu lintas masuk dari grup keamanan Studio Classic di port 8889.

        catatan

        Nomor port berbeda untuk EMR cluster Amazon yang menggunakan IAM peran. Arahkan ke akhir bagian prasyarat untuk informasi lebih lanjut.

  • SageMaker Studio Klasik
    • Amazon SageMaker Studio Classic harus menjalankan Jupyter Lab Versi 3. Untuk informasi tentang memperbarui Versi Lab Jupyter, lihat. Lihat dan perbarui JupyterLab versi aplikasi dari konsol

    • Amazon SageMaker Studio Classic memiliki IAM peran yang mengontrol akses pengguna. IAMPeran default yang Anda gunakan untuk menjalankan Amazon SageMaker Studio Classic tidak memiliki kebijakan yang dapat memberi Anda akses ke EMR kluster Amazon. Anda harus melampirkan kebijakan yang memberikan izin ke peran tersebut. IAM Untuk informasi selengkapnya, lihat Konfigurasikan daftar EMR klaster Amazon.

    • IAMPeran tersebut juga harus memiliki kebijakan berikutsecretsmanager:PutResourcePolicy.

    • Jika Anda menggunakan domain Studio Classic yang telah Anda buat, pastikan domain tersebut dalam mode VPC -only. AppNetworkAccessType Untuk informasi tentang memperbarui domain untuk menggunakan mode VPC -only, lihatMatikan dan Perbarui SageMaker Studio Classic.

  • EMRCluster Amazon
    • Anda harus menginstal Hive atau Presto di cluster Anda.

    • EMRRilis Amazon harus versi 5.5.0 atau yang lebih baru.

      catatan

      Amazon EMR mendukung penghentian otomatis. Penghentian otomatis menghentikan cluster idle agar tidak berjalan dan mencegah Anda mengeluarkan biaya. Berikut ini adalah rilis yang mendukung penghentian otomatis:

      • Untuk rilis 6.x, versi 6.1.0 atau yang lebih baru.

      • Untuk rilis 5.x, versi 5.30.0 atau yang lebih baru.

  • EMRCluster Amazon menggunakan peran IAM runtime

Amazon VPC adalah jaringan virtual yang secara logis terisolasi dari jaringan lain di AWS cloud. Amazon SageMaker Studio Classic dan EMR kluster Amazon Anda hanya ada di AmazonVPC.

Gunakan prosedur berikut untuk meluncurkan Amazon SageMaker Studio Classic di AmazonVPC.

Untuk meluncurkan Studio Classic dalam aVPC, lakukan hal berikut.

  1. Arahkan ke SageMaker konsol di https://console.aws.amazon.com/sagemaker/.

  2. Pilih Launch SageMaker Studio Classic.

  3. Pilih Pengaturan standar.

  4. Untuk peran eksekusi default, pilih IAM peran yang akan disiapkan Studio Classic.

  5. Pilih VPC tempat Anda meluncurkan EMR kluster Amazon.

  6. Untuk Subnet, pilih subnet pribadi.

  7. Untuk grup Keamanan, tentukan grup keamanan yang Anda gunakan untuk mengontrol di antara grup AndaVPC.

  8. Pilih VPCSaja.

  9. (Opsional) AWS menggunakan kunci enkripsi default. Anda dapat menentukan AWS Key Management Service kunci untuk mengenkripsi data Anda.

  10. Pilih Berikutnya.

  11. Di bawah Pengaturan Studio, pilih konfigurasi yang paling cocok untuk Anda.

  12. Pilih Berikutnya untuk melewati pengaturan SageMaker Canvas.

  13. Pilih Berikutnya untuk melewati RStudio pengaturan.

Jika Anda belum memiliki EMR cluster Amazon yang siap, Anda dapat menggunakan prosedur berikut untuk membuatnya. Untuk informasi selengkapnya tentang AmazonEMR, lihat Apa itu AmazonEMR?

Untuk membuat cluster, lakukan hal berikut.

  1. Arahkan ke AWS Management Console.

  2. Di bilah pencarian, tentukanAmazon EMR.

  3. Pilih Buat klaster.

  4. Untuk nama Cluster, tentukan nama cluster Anda.

  5. Untuk Rilis, pilih versi rilis cluster.

    catatan

    Amazon EMR mendukung penghentian otomatis untuk rilis berikut:

    • Untuk rilis 6.x, rilis 6.1.0 atau yang lebih baru

    • Untuk rilis 5.x, rilis 5.30.0 atau yang lebih baru

    Penghentian otomatis menghentikan cluster idle agar tidak berjalan dan mencegah Anda mengeluarkan biaya.

  6. (Opsional) Untuk Aplikasi, pilih Presto.

  7. Pilih aplikasi yang Anda jalankan di cluster.

  8. Di bawah Jaringan, untuk konfigurasi Perangkat Keras, tentukan pengaturan konfigurasi perangkat keras.

    penting

    Untuk Networking, pilih VPC yang menjalankan Amazon SageMaker Studio Classic dan pilih subnet pribadi.

  9. Di bawah Keamanan dan akses, tentukan pengaturan keamanan.

  10. Pilih Buat.

Untuk tutorial tentang membuat EMR klaster Amazon, lihat Memulai Amazon EMR. Untuk informasi tentang praktik terbaik untuk mengonfigurasi klaster, lihat Pertimbangan dan praktik terbaik.

catatan

Untuk praktik terbaik keamanan, Data Wrangler hanya dapat terhubung ke subnet VPCs pribadi. Anda tidak dapat terhubung ke master node kecuali Anda menggunakan AWS Systems Manager untuk EMR instans Amazon Anda. Untuk informasi selengkapnya, lihat Mengamankan akses ke EMR cluster menggunakan. AWS Systems Manager

Saat ini Anda dapat menggunakan metode berikut untuk mengakses EMR klaster Amazon:

  • Tidak ada otentikasi

  • Protokol Akses Direktori Ringan (LDAP)

  • IAM(Peran runtime)

Tidak menggunakan otentikasi atau penggunaan LDAP dapat mengharuskan Anda untuk membuat beberapa cluster dan profil EC2 instans Amazon. Jika Anda seorang administrator, Anda mungkin perlu menyediakan grup pengguna dengan tingkat akses yang berbeda ke data. Metode ini dapat menghasilkan overhead administratif yang membuatnya lebih sulit untuk mengelola pengguna Anda.

Sebaiknya gunakan peran IAM runtime yang memberi banyak pengguna kemampuan untuk terhubung ke EMR cluster Amazon yang sama. Peran runtime adalah IAM peran yang dapat Anda tetapkan ke pengguna yang terhubung ke klaster AmazonEMR. Anda dapat mengonfigurasi IAM peran runtime agar memiliki izin yang spesifik untuk setiap grup pengguna.

Gunakan bagian berikut untuk membuat EMR cluster Presto atau Hive Amazon dengan LDAP diaktifkan.

Presto
penting

Untuk digunakan AWS Glue sebagai metastore untuk tabel Presto, pilih Gunakan metadata tabel Presto untuk menyimpan hasil EMR kueri Amazon Anda dalam katalog AWS Glue data saat Anda meluncurkan klaster. EMR Menyimpan hasil kueri dalam katalog AWS Glue data dapat menyelamatkan Anda dari biaya yang dikenakan.

Untuk menanyakan kumpulan data besar di EMR kluster Amazon, Anda harus menambahkan properti berikut ke file konfigurasi Presto di kluster Amazon Anda: EMR

[{"classification":"presto-config","properties":{ "http-server.max-request-header-size":"5MB", "http-server.max-response-header-size":"5MB"}}]

Anda juga dapat mengubah pengaturan konfigurasi saat meluncurkan EMR klaster Amazon.

File konfigurasi untuk EMR klaster Amazon Anda terletak di bawah jalur berikut:/etc/presto/conf/config.properties.

Gunakan prosedur berikut untuk membuat cluster Presto dengan LDAP diaktifkan.

Untuk membuat cluster, lakukan hal berikut.

  1. Arahkan ke AWS Management Console.

  2. Di bilah pencarian, tentukanAmazon EMR.

  3. Pilih Buat klaster.

  4. Untuk nama Cluster, tentukan nama cluster Anda.

  5. Untuk Rilis, pilih versi rilis cluster.

    catatan

    Amazon EMR mendukung penghentian otomatis untuk rilis berikut:

    • Untuk rilis 6.x, rilis 6.1.0 atau yang lebih baru

    • Untuk rilis 5.x, rilis 5.30.0 atau yang lebih baru

    Penghentian otomatis menghentikan cluster idle agar tidak berjalan dan mencegah Anda mengeluarkan biaya.

  6. Pilih aplikasi yang Anda jalankan di cluster.

  7. Di bawah Jaringan, untuk konfigurasi Perangkat Keras, tentukan pengaturan konfigurasi perangkat keras.

    penting

    Untuk Networking, pilih VPC yang menjalankan Amazon SageMaker Studio Classic dan pilih subnet pribadi.

  8. Di bawah Keamanan dan akses, tentukan pengaturan keamanan.

  9. Pilih Buat.

Hive
penting

Untuk digunakan AWS Glue sebagai metastore untuk tabel Hive, pilih Gunakan metadata tabel Hive untuk menyimpan hasil EMR kueri Amazon Anda dalam katalog AWS Glue data saat Anda meluncurkan klaster. EMR Menyimpan hasil kueri dalam katalog AWS Glue data dapat menyelamatkan Anda dari biaya yang dikenakan.

Untuk dapat menanyakan kumpulan data besar di EMR kluster Amazon, tambahkan properti berikut ke file konfigurasi Hive di kluster Amazon Anda: EMR

[{"classification":"hive-site", "properties" :{"hive.resultset.use.unique.column.names":"false"}}]

Anda juga dapat mengubah pengaturan konfigurasi saat meluncurkan EMR klaster Amazon.

File konfigurasi untuk EMR klaster Amazon Anda terletak di bawah jalur berikut:/etc/hive/conf/hive-site.xml. Anda dapat menentukan properti berikut dan memulai ulang cluster:

<property> <name>hive.resultset.use.unique.column.names</name> <value>false</value> </property>

Gunakan prosedur berikut untuk membuat cluster Hive dengan LDAP diaktifkan.

Untuk membuat cluster Hive dengan LDAP diaktifkan, lakukan hal berikut.

  1. Arahkan ke AWS Management Console.

  2. Di bilah pencarian, tentukanAmazon EMR.

  3. Pilih Buat klaster.

  4. Pilih Pergi ke opsi lanjutan.

  5. Untuk Rilis, pilih versi EMR rilis Amazon.

  6. Opsi konfigurasi Hive dipilih secara default. Pastikan opsi Hive memiliki kotak centang di sebelahnya.

  7. (Opsional) Anda juga dapat memilih Presto sebagai opsi konfigurasi untuk mengaktifkan Hive dan Presto di cluster Anda.

  8. (Opsional) Pilih Gunakan untuk metadata tabel Hive untuk menyimpan hasil EMR kueri Amazon Anda dalam katalog data. AWS Glue Menyimpan hasil kueri dalam AWS Glue katalog dapat menyelamatkan Anda dari biaya yang dikenakan. Untuk informasi selengkapnya, lihat Menggunakan Katalog AWS Glue Data sebagai metastore untuk Hive.

    catatan

    Menyimpan hasil kueri dalam katalog data memerlukan Amazon EMR versi 5.8.0 atau yang lebih baru.

  9. Di bawah Enter konfigurasi, tentukan yang berikut iniJSON:

    [ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]
    catatan

    Sebagai praktik keamanan terbaik, sebaiknya aktifkan SSL HiveServer dengan menambahkan beberapa properti di situs sarang sebelumnya. JSON Untuk informasi selengkapnya, lihat Mengaktifkan SSL di HiveServer 2.

  10. Tentukan pengaturan cluster yang tersisa dan buat cluster.

Gunakan bagian berikut untuk menggunakan LDAP autentikasi untuk EMR klaster Amazon yang telah Anda buat.

LDAP for Presto

Menggunakan LDAP pada cluster yang menjalankan Presto memerlukan akses ke koordinator Presto melalui. HTTPS Lakukan hal berikut untuk menyediakan akses:

  • Aktifkan akses pada port 636

  • SSLAktifkan koordinator Presto

Gunakan template berikut untuk mengkonfigurasi Presto:

- Classification: presto-config ConfigurationProperties: http-server.authentication.type: 'PASSWORD' http-server.https.enabled: 'true' http-server.https.port: '8889' http-server.http.port: '8899' node-scheduler.include-coordinator: 'true' http-server.https.keystore.path: '/path/to/keystore/path/for/presto' http-server.https.keystore.key: 'keystore-key-password' discovery.uri: 'http://master-node-dns-name:8899' - Classification: presto-password-authenticator ConfigurationProperties: password-authenticator.name: 'ldap' ldap.url: !Sub 'ldaps://ldap-server-dns-name:636' ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org" internal-communication.authentication.ldap.user: "ldap-user-name" internal-communication.authentication.ldap.password: "ldap-password"

Untuk informasi tentang pengaturan LDAP di Presto, lihat sumber daya berikut:

catatan

Sebagai praktik terbaik keamanan, kami sarankan SSL untuk mengaktifkan Presto. Untuk informasi selengkapnya, lihat Komunikasi Internal yang Aman.

LDAP for Hive

LDAPUntuk menggunakan Hive untuk klaster yang telah Anda buat, gunakan prosedur berikut Mengkonfigurasi ulang grup instans di konsol.

Anda menentukan nama cluster yang Anda hubungkan.

[ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]

Gunakan prosedur berikut untuk mengimpor data dari cluster.

Untuk mengimpor data dari cluster, lakukan hal berikut.

  1. Buka alur Data Wrangler.

  2. Pilih Buat Koneksi.

  3. Pilih Amazon EMR.

  4. Lakukan salah satu dari berikut ini.

    • (Opsional) Untuk Rahasia ARN, tentukan Amazon Resource Number (ARN) database dalam cluster. Rahasia memberikan keamanan tambahan. Untuk informasi lebih lanjut tentang rahasia, lihat Apa itu AWS Secrets Manager? Untuk informasi tentang membuat rahasia untuk klaster Anda, lihatMembuat AWS Secrets Manager rahasia untuk cluster Anda.

      penting

      Anda harus menentukan rahasia jika Anda menggunakan peran IAM runtime untuk otentikasi.

    • Dari tabel dropdown, pilih cluster.

  5. Pilih Berikutnya.

  6. Untuk Pilih titik akhir untuk example-cluster-name cluster, pilih mesin query.

  7. (Opsional) Pilih Simpan koneksi.

  8. Pilih Berikutnya, pilih login dan pilih salah satu dari berikut ini:

    • Tidak ada otentikasi

    • LDAP

    • IAM

  9. Untuk Login ke example-cluster-name cluster, tentukan Username dan Password untuk cluster.

  10. Pilih Hubungkan.

  11. Di editor kueri tentukan SQL kueri.

  12. Pilih Jalankan.

  13. Pilih Impor.

Membuat AWS Secrets Manager rahasia untuk cluster Anda

Jika Anda menggunakan peran IAM runtime untuk mengakses EMR klaster Amazon, Anda harus menyimpan kredensyal yang Anda gunakan untuk mengakses Amazon EMR sebagai rahasia Secrets Manager. Anda menyimpan semua kredensi yang Anda gunakan untuk mengakses cluster dalam rahasia.

Anda harus menyimpan informasi berikut secara rahasia:

  • JDBCtitik akhir — jdbc:hive2://

  • DNSnama — DNS Nama EMR cluster Amazon Anda. Ini adalah titik akhir untuk node utama atau nama host.

  • Pelabuhan — 8446

Anda juga dapat menyimpan informasi tambahan berikut dalam rahasia:

  • IAMrole — IAM Peran yang Anda gunakan untuk mengakses klaster. Data Wrangler menggunakan peran SageMaker eksekusi Anda secara default.

  • Jalur Truststore - Secara default, Data Wrangler membuat jalur truststore untuk Anda. Anda juga dapat menggunakan jalur truststore Anda sendiri. Untuk informasi selengkapnya tentang jalur truststore, lihat Enkripsi dalam transit di 2. HiveServer

  • Kata sandi Truststore - Secara default, Data Wrangler membuat kata sandi truststore untuk Anda. Anda juga dapat menggunakan jalur truststore Anda sendiri. Untuk informasi selengkapnya tentang jalur truststore, lihat Enkripsi dalam transit di 2. HiveServer

Gunakan prosedur berikut untuk menyimpan kredensil dalam rahasia Secrets Manager.

Untuk menyimpan kredensil Anda sebagai rahasia, lakukan hal berikut.

  1. Arahkan ke AWS Management Console.

  2. Di bilah pencarian, tentukan Secrets Manager.

  3. Pilih AWS Secrets Manager.

  4. Pilih Simpan rahasia baru.

  5. Untuk Tipe rahasia, pilih Tipe rahasia lainnya.

  6. Di bawah pasangan kunci/nilai, pilih Plaintext.

  7. Untuk cluster yang menjalankan Hive, Anda dapat menggunakan template berikut untuk IAM otentikasi.

    {"jdbcURL": "" "iam_auth": {"endpoint": "jdbc:hive2://", #required "dns": "ip-xx-x-xxx-xxx.ec2.internal", #required "port": "10000", #required "cluster_id": "j-xxxxxxxxx", #required "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional "truststore_password": "changeit" #optional }}
    catatan

    Setelah mengimpor data, Anda menerapkan transformasi ke data tersebut. Anda kemudian mengekspor data yang telah Anda ubah ke lokasi tertentu. Jika Anda menggunakan notebook Jupyter untuk mengekspor data yang diubah ke Amazon S3, Anda harus menggunakan jalur truststore yang ditentukan dalam contoh sebelumnya.

Rahasia Secrets Manager menyimpan EMR cluster Amazon sebagai rahasia. JDBC URL Menggunakan rahasia lebih aman daripada langsung memasukkan kredensialmu.

Gunakan prosedur berikut untuk menyimpan JDBC URL sebagai rahasia.

Untuk menyimpan JDBC URL sebagai rahasia, lakukan hal berikut.

  1. Arahkan ke AWS Management Console.

  2. Di bilah pencarian, tentukan Secrets Manager.

  3. Pilih AWS Secrets Manager.

  4. Pilih Simpan rahasia baru.

  5. Untuk Tipe rahasia, pilih Tipe rahasia lainnya.

  6. Untuk pasangan kunci/nilai, tentukan jdbcURL sebagai kunci dan valid JDBC URL sebagai nilainya.

    Format valid JDBC URL tergantung pada apakah Anda menggunakan otentikasi dan apakah Anda menggunakan Hive atau Presto sebagai mesin kueri. Daftar berikut menunjukkan JBDC URL format yang valid untuk berbagai kemungkinan konfigurasi.

    • Sarang, tidak ada otentikasi - jdbc:hive2://emr-cluster-master-public-dns:10000/;

    • Sarang, LDAP otentikasi - jdbc:hive2://emr-cluster-master-public-dns-name:10000/;AuthMech=3;UID=david;PWD=welcome123;

    • Untuk Hive dengan SSL diaktifkan, JDBC URL formatnya tergantung pada apakah Anda menggunakan File Keystore Java untuk konfigurasi. TLS File Keystore Java membantu memverifikasi identitas node master EMR cluster Amazon. Untuk menggunakan File Keystore Java, buat di EMR cluster dan unggah ke Data Wrangler. Untuk menghasilkan file, gunakan perintah berikut di EMR cluster Amazon,keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks. Untuk informasi tentang menjalankan perintah di EMR klaster Amazon, lihat Mengamankan akses ke EMR kluster yang menggunakan. AWS Systems Manager Untuk mengunggah file, pilih panah ke atas pada navigasi sebelah kiri UI Data Wrangler.

      Berikut ini adalah JDBC URL format yang valid untuk Hive dengan SSL diaktifkan:

      • Tanpa File Keystore Java - jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;AllowSelfSignedCerts=1;

      • Dengan File Keystore Java - jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;SSLKeyStore=/home/sagemaker-user/data/Java-keystore-file-name;SSLKeyStorePwd=Java-keystore-file-passsword;

    • Presto, tidak ada otentikasi — jdbc:presto://emr-cluster-master-public-dns:8889/;

    • Untuk Presto dengan LDAP otentikasi dan SSL diaktifkan, JDBC URL formatnya tergantung pada apakah Anda menggunakan File Keystore Java untuk konfigurasi. TLS File Keystore Java membantu memverifikasi identitas node master EMR cluster Amazon. Untuk menggunakan File Keystore Java, buat di EMR cluster dan unggah ke Data Wrangler. Untuk mengunggah file, pilih panah ke atas pada navigasi sebelah kiri UI Data Wrangler. Untuk informasi tentang membuat File Keystore Java untuk Presto, lihat File Java Keystore untuk. TLS Untuk informasi tentang menjalankan perintah di EMR klaster Amazon, lihat Mengamankan akses ke EMR kluster yang menggunakan. AWS Systems Manager

      • Tanpa File Keystore Java - jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID=user-name;PWD=password;AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;

      • Dengan File Keystore Java - jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/Java-keystore-file-name;SSLTrustStorePwd=Java-keystore-file-passsword;UID=user-name;PWD=password;

Selama proses mengimpor data dari EMR klaster Amazon, Anda mungkin mengalami masalah. Untuk informasi tentang pemecahan masalah, lihat. Memecahkan masalah dengan Amazon EMR

Impor data dari Databricks () JDBC

Anda dapat menggunakan Databricks sebagai sumber data untuk aliran Amazon SageMaker Data Wrangler Anda. Untuk mengimpor dataset dari Databricks, gunakan fungsi impor JDBC (Java Database Connectivity) untuk mengakses database Databricks Anda. Setelah Anda mengakses database, tentukan SQL kueri untuk mendapatkan data dan mengimpornya.

Kami berasumsi bahwa Anda memiliki cluster Databricks yang sedang berjalan dan Anda telah mengonfigurasi JDBC driver Anda untuk itu. Untuk informasi selengkapnya, lihat halaman dokumentasi Databricks berikut:

Data Wrangler menyimpan Anda JDBC URL di. AWS Secrets Manager Anda harus memberikan izin peran IAM eksekusi Amazon SageMaker Studio Classic untuk menggunakan Secrets Manager. Gunakan prosedur berikut untuk memberikan izin.

Untuk memberikan izin kepada Secrets Manager, lakukan hal berikut.

  1. Masuk ke AWS Management Console dan buka IAM konsol di https://console.aws.amazon.com/iam/.

  2. Pilih Peran.

  3. Di bilah pencarian, tentukan peran SageMaker eksekusi Amazon yang digunakan Amazon SageMaker Studio Classic.

  4. Pilih perannya.

  5. Pilih Tambahkan izin.

  6. Pilih Buat kebijakan sebaris.

  7. Untuk Layanan, tentukan Secrets Manager dan pilih.

  8. Untuk Tindakan, pilih ikon panah di sebelah Manajemen izin.

  9. Pilih PutResourcePolicy.

  10. Untuk Sumber daya, pilih Spesifik.

  11. Pilih kotak centang di sebelah Apa saja di akun ini.

  12. Pilih Tinjau kebijakan.

  13. Untuk Nama, tentukan nama.

  14. Pilih Buat kebijakan.

Anda dapat menggunakan partisi untuk mengimpor data Anda lebih cepat. Partisi memberikan Data Wrangler kemampuan untuk memproses data secara paralel. Secara default, Data Wrangler menggunakan 2 partisi. Untuk sebagian besar kasus penggunaan, 2 partisi memberi Anda kecepatan pemrosesan data yang hampir optimal.

Jika Anda memilih untuk menentukan lebih dari 2 partisi, Anda juga dapat menentukan kolom untuk mempartisi data. Jenis nilai di kolom harus numerik atau tanggal.

Sebaiknya gunakan partisi hanya jika Anda memahami struktur data dan cara pengolahannya.

Anda dapat mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk database Databricks, ini menyediakan opsi pengambilan sampel berikut:

  • Tidak ada - Impor seluruh dataset.

  • K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.

  • Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.

  • Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Gunakan prosedur berikut untuk mengimpor data Anda dari database Databricks.

Untuk mengimpor data dari Databricks, lakukan hal berikut.

  1. Masuk ke SageMakerKonsol Amazon.

  2. Pilih Studio.

  3. Pilih Luncurkan aplikasi.

  4. Dari daftar dropdown, pilih Studio.

  5. Dari tab Impor data alur Data Wrangler Anda, pilih Databricks.

  6. Tentukan bidang berikut:

    • Nama Dataset — Nama yang ingin Anda gunakan untuk kumpulan data dalam alur Data Wrangler Anda.

    • Pengemudicom.simba.spark.jdbc.driver.

    • JDBCURL— Databricks database. URL URLPemformatan dapat bervariasi antara instance Databricks. Untuk informasi tentang menemukan URL dan menentukan parameter di dalamnya, lihat JDBCkonfigurasi dan parameter koneksi. Berikut ini adalah contoh bagaimana a URL dapat diformat: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default; =http; ssl=1; =sql/protocolv1/o/3122619508517275/0909-200301-cut318; =3; = transportMode httpPath AuthMech UIDtoken;PWD=personal-access-token.

      catatan

      Anda dapat menentukan rahasia ARN yang berisi JDBC URL alih-alih menentukan itu JDBC URL sendiri. Rahasianya harus berisi pasangan kunci-nilai dengan format berikut:. jdbcURL:JDBC-URL Untuk informasi selengkapnya, lihat Apa itu Secrets Manager? .

  7. Tentukan SQL SELECT pernyataan.

    catatan

    Data Wrangler tidak mendukung Common Table Expressions (CTE) atau tabel sementara dalam kueri.

  8. Untuk Sampling, pilih metode pengambilan sampel.

  9. Pilih Jalankan.

  10. (Opsional) Untuk PREVIEW, pilih roda gigi untuk membuka pengaturan Partisi.

    1. Tentukan jumlah partisi. Anda dapat mempartisi berdasarkan kolom jika Anda menentukan jumlah partisi:

      • Masukkan jumlah partisi - Tentukan nilai yang lebih besar dari 2.

      • (Opsional) Partisi demi kolom - Tentukan bidang berikut. Anda hanya dapat partisi dengan kolom jika Anda telah menentukan nilai untuk Masukkan jumlah partisi.

        • Pilih kolom - Pilih kolom yang Anda gunakan untuk partisi data. Tipe data kolom harus numerik atau tanggal.

        • Batas atas - Dari nilai di kolom yang telah Anda tentukan, batas atas adalah nilai yang Anda gunakan di partisi. Nilai yang Anda tentukan tidak mengubah data yang Anda impor. Itu hanya mempengaruhi kecepatan impor. Untuk kinerja terbaik, tentukan batas atas yang mendekati maksimum kolom.

        • Batas bawah - Dari nilai di kolom yang telah Anda tentukan, batas bawah adalah nilai yang Anda gunakan di partisi. Nilai yang Anda tentukan tidak mengubah data yang Anda impor. Itu hanya mempengaruhi kecepatan impor. Untuk performa terbaik, tentukan batas bawah yang mendekati minimum kolom.

  11. Pilih Impor.

Impor data dari Salesforce Data Cloud

Anda dapat menggunakan Salesforce Data Cloud sebagai sumber data di Amazon Data Wrangler untuk menyiapkan SageMaker data di Salesforce Data Cloud Anda untuk pembelajaran mesin.

Dengan Salesforce Data Cloud sebagai sumber data di Data Wrangler, Anda dapat dengan cepat terhubung ke data Salesforce Anda tanpa menulis satu baris kode pun. Anda dapat menggabungkan data Salesforce Anda dengan data dari sumber data lain di Data Wrangler.

Setelah Anda terhubung ke cloud data, Anda dapat melakukan hal berikut:

  • Visualisasikan data Anda dengan visualisasi bawaan

  • Memahami data dan mengidentifikasi potensi kesalahan dan nilai ekstrim

  • Transformasi data dengan lebih dari 300 transformasi bawaan

  • Ekspor data yang telah Anda ubah

Pengaturan administrator

penting

Sebelum memulai, pastikan pengguna Anda menjalankan Amazon SageMaker Studio Classic versi 1.3.0 atau yang lebih baru. Untuk informasi tentang memeriksa versi Studio Classic dan memperbaruinya, lihatSiapkan Data ML dengan Amazon SageMaker Data Wrangler.

Saat menyiapkan akses ke Salesforce Data Cloud, Anda harus menyelesaikan tugas-tugas berikut:

  • Mendapatkan Domain Salesforce Anda. URL Salesforce juga mengacu pada Domain URL sebagai milik organisasi Anda. URL

  • Mendapatkan OAuth kredensyal dari Salesforce.

  • Mendapatkan otorisasi URL dan token URL untuk Domain Salesforce Anda.

  • Membuat AWS Secrets Manager rahasia dengan OAuth konfigurasi.

  • Membuat konfigurasi siklus hidup yang digunakan Data Wrangler untuk membaca kredensil dari rahasia.

  • Memberikan izin Data Wrangler untuk membaca rahasianya.

Setelah Anda melakukan tugas sebelumnya, pengguna Anda dapat masuk ke Salesforce Data Cloud menggunakan. OAuth

catatan

Pengguna Anda mungkin mengalami masalah setelah Anda mengatur semuanya. Untuk informasi tentang pemecahan masalah, lihat. Pemecahan masalah dengan Salesforce

Gunakan prosedur berikut untuk mendapatkan DomainURL.

  1. Arahkan ke halaman login Salesforce.

  2. Untuk Pencarian cepat, tentukan Domain Saya.

  3. Salin nilai Domain Saya Saat Ini URL ke file teks.

  4. Tambahkan https:// ke awalURL.

Setelah Anda mendapatkan Domain SalesforceURL, Anda dapat menggunakan prosedur berikut untuk mendapatkan kredensyal login dari Salesforce dan memungkinkan Data Wrangler untuk mengakses data Salesforce Anda.

Untuk mendapatkan kredensi log in dari Salesforce dan memberikan akses ke Data Wrangler, lakukan hal berikut.

  1. Arahkan ke Domain Salesforce Anda URL dan masuk ke akun Anda.

  2. Pilih ikon roda gigi.

  3. Di bilah pencarian yang muncul, tentukan Manajer Aplikasi.

  4. Pilih Aplikasi Terhubung Baru.

  5. Tentukan bidang berikut:

    • Nama Aplikasi Terhubung — Anda dapat menentukan nama apa pun, tetapi sebaiknya pilih nama yang menyertakan Data Wrangler. Misalnya, Anda dapat menentukan Integrasi Wrangler Data Cloud Data Salesforce.

    • APInama — Gunakan nilai default.

    • Email Kontak - Tentukan alamat email Anda.

    • Di bawah APIjudul (Aktifkan OAuth Pengaturan), pilih kotak centang untuk mengaktifkan OAuth pengaturan.

    • Untuk Callback URL tentukan Amazon SageMaker Studio ClassicURL. Untuk mendapatkan URL for Studio Classic, akses dari AWS Management Console dan salin fileURL.

  6. Di bawah OAuthLingkup Terpilih, pindahkan yang berikut ini dari Cakupan yang Tersedia ke OAuth Lingkup Terpilih OAuth:

    • Mengelola data pengguna melalui APIs (api)

    • Lakukan permintaan kapan saja (refresh_token,offline_access)

    • Melakukan ANSI SQL kueri pada data Salesforce Data Cloud () cdp_query_api

    • Mengelola data profil Platform Data Pelanggan Salesforce () cdp_profile_api

  7. Pilih Simpan. Setelah Anda menyimpan perubahan Anda, Salesforce membuka halaman baru.

  8. Pilih Continue (Lanjutkan)

  9. Arahkan ke Kunci Konsumen dan Rahasia.

  10. Pilih Kelola Detail Konsumen. Salesforce mengarahkan Anda ke halaman baru di mana Anda mungkin harus melewati otentikasi dua faktor.

  11. penting

    Salin Kunci Konsumen dan Rahasia Konsumen ke editor teks. Anda memerlukan informasi ini untuk menghubungkan cloud data ke Data Wrangler.

  12. Arahkan kembali ke Kelola Aplikasi Terhubung.

  13. Arahkan ke Nama Aplikasi Terhubung dan nama aplikasi Anda.

  14. Pilih Kelola.

    1. Pilih Edit Kebijakan.

    2. Ubah Relaksasi IP ke Relaksasi pembatasan IP.

    3. Pilih Simpan.

Setelah Anda memberikan akses ke Salesforce Data Cloud, Anda perlu memberikan izin untuk pengguna Anda. Gunakan prosedur berikut untuk memberi mereka izin.

Untuk memberikan izin kepada pengguna Anda, lakukan hal berikut.

  1. Arahkan ke halaman beranda pengaturan.

  2. Di navigasi sebelah kiri, cari Pengguna dan pilih item menu Pengguna.

  3. Pilih hyperlink dengan nama pengguna Anda.

  4. Arahkan ke Izin Set Tugas.

  5. Pilih Edit Tugas.

  6. Tambahkan izin berikut:

    • Admin Platform Data Pelanggan

    • Spesialis Sadar Data Platform Data Pelanggan

  7. Pilih Simpan.

Setelah Anda mendapatkan informasi untuk Domain Salesforce Anda, Anda harus mendapatkan otorisasi URL dan token URL untuk AWS Secrets Manager rahasia yang Anda buat.

Gunakan prosedur berikut untuk mendapatkan otorisasi URL dan tokenURL.

Untuk mendapatkan otorisasi URL dan token URL
  1. Arahkan ke Domain Salesforce Anda. URL

  2. Gunakan salah satu metode berikut untuk mendapatkanURLs. Jika Anda menggunakan distribusi Linux dengan curl dan jq diinstal, kami sarankan menggunakan metode yang hanya berfungsi di Linux.

    • (Hanya Linux) Tentukan perintah berikut di terminal Anda.

      curl salesforce-domain-URL/.well-known/openid-configuration | \ jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \ jq '. += { identity_provider: "SALESFORCE", client_id: "example-client-id", client_secret: "example-client-secret" }'
      1. Arahkan ke example-org-URL/.well-known/openid-configuration di browser Anda.

      2. Salin authorization_endpoint dan token_endpoint ke editor teks.

      3. Buat JSON objek berikut:

        { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }

Setelah Anda membuat objek OAuth konfigurasi, Anda dapat membuat AWS Secrets Manager rahasia yang menyimpannya. Gunakan prosedur berikut untuk membuat rahasia.

Untuk membuat rahasia, lakukan hal berikut.

  1. Navigasikan ke konsol AWS Secrets Manager tersebut.

  2. Pilih Simpan rahasia.

  3. Pilih Jenis rahasia lainnya.

  4. Di bawah pasangan kunci/nilai pilih Plaintext.

  5. Ganti yang kosong JSON dengan pengaturan konfigurasi berikut.

    { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }
  6. Pilih Berikutnya.

  7. Untuk Nama Rahasia, tentukan nama rahasianya.

  8. Di bawah Tag, pilih Tambah.

    1. Untuk Kunci, tentukan sagemaker:partner. Untuk Nilai, sebaiknya tentukan nilai yang mungkin berguna untuk kasus penggunaan Anda. Namun, Anda dapat menentukan apa saja.

    penting

    Anda harus membuat kuncinya. Anda tidak dapat mengimpor data dari Salesforce jika Anda tidak membuatnya.

  9. Pilih Berikutnya.

  10. Pilih Toko.

  11. Pilih rahasia yang Anda buat.

  12. Catat bidang-bidang berikut:

    • Nomor Sumber Daya Amazon (ARN) dari rahasia

    • Nama rahasianya

Setelah Anda membuat rahasia, Anda harus menambahkan izin untuk Data Wrangler untuk membaca rahasianya. Gunakan prosedur berikut untuk menambahkan izin.

Untuk menambahkan izin baca untuk Data Wrangler, lakukan hal berikut.

  1. Arahkan ke SageMaker konsol Amazon.

  2. Pilih domain.

  3. Pilih domain yang Anda gunakan untuk mengakses Data Wrangler.

  4. Pilih Profil Pengguna Anda.

  5. Di bawah Detail, temukan peran Eksekusi. ARNIni dalam format berikut:arn:aws:iam::111122223333:role/example-role. Catat peran SageMaker eksekusi. Di dalamARN, semuanya setelahnyarole/.

  6. Navigasikan ke konsol IAM tersebut.

  7. Di bilah IAMpencarian pencarian, tentukan nama peran SageMaker eksekusi.

  8. Pilih perannya.

  9. Pilih Tambahkan izin.

  10. Pilih Buat kebijakan sebaris.

  11. Pilih JSON tab.

  12. Tentukan kebijakan berikut di dalam editor.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "secretsmanager:GetSecretValue", "secretsmanager:PutSecretValue" ], "Resource": "arn:aws:secretsmanager:*:*:secret:*", "Condition": { "ForAnyValue:StringLike": { "aws:ResourceTag/sagemaker:partner": "*" } } }, { "Effect": "Allow", "Action": [ "secretsmanager:UpdateSecret" ], "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*" } ] }
  13. Pilih Tinjau Kebijakan.

  14. Untuk Nama, tentukan nama.

  15. Pilih Buat kebijakan.

Setelah Anda memberikan izin Data Wrangler untuk membaca rahasia, Anda harus menambahkan Konfigurasi Siklus Hidup yang menggunakan rahasia Secrets Manager ke profil pengguna Amazon SageMaker Studio Classic Anda.

Gunakan prosedur berikut untuk membuat konfigurasi siklus hidup dan menambahkannya ke profil Studio Classic.

Untuk membuat konfigurasi siklus hidup dan menambahkannya ke profil Studio Classic, lakukan hal berikut.

  1. Arahkan ke SageMaker konsol Amazon.

  2. Pilih domain.

  3. Pilih domain yang Anda gunakan untuk mengakses Data Wrangler.

  4. Pilih Profil Pengguna Anda.

  5. Jika Anda melihat aplikasi berikut, hapus:

    • KernelGateway

    • JupyterKernel

    catatan

    Menghapus pembaruan aplikasi Studio Classic. Butuh beberapa saat agar pembaruan terjadi.

  6. Saat Anda menunggu pembaruan terjadi, pilih Konfigurasi Siklus Hidup.

  7. Pastikan halaman yang Anda kunjungi mengatakan konfigurasi Siklus Hidup Studio Classic.

  8. Pilih Buat konfigurasi.

  9. Pastikan aplikasi server Jupyter telah dipilih.

  10. Pilih Berikutnya.

  11. Untuk Nama, tentukan nama untuk konfigurasi.

  12. Untuk Skrip, tentukan skrip berikut:

    #!/bin/bash set -eux cat > ~/.sfgenie_identity_provider_oauth_config <<EOL { "secret_arn": "secrets-arn-containing-salesforce-credentials" } EOL
  13. Pilih Kirim.

  14. Di navigasi sebelah kiri, pilih domain.

  15. Pilih domain Anda.

  16. Pilih Lingkungan.

  17. Di bawah Konfigurasi Siklus Hidup untuk aplikasi Studio Classic pribadi, pilih Lampirkan.

  18. Pilih Konfigurasi yang ada.

  19. Di bawah konfigurasi Siklus Hidup Studio Classic pilih konfigurasi siklus hidup yang telah Anda buat.

  20. Pilih Lampirkan ke domain.

  21. Pilih kotak centang di samping konfigurasi siklus hidup yang telah Anda lampirkan.

  22. Pilih Tetapkan sebagai default.

Anda mungkin mengalami masalah saat menyiapkan konfigurasi siklus hidup Anda. Untuk informasi tentang debugging mereka, lihatDebug konfigurasi siklus hidup.

Panduan Ilmuwan Data

Gunakan yang berikut ini untuk menghubungkan Salesforce Data Cloud dan mengakses data Anda di Data Wrangler.

penting

Administrator Anda perlu menggunakan informasi di bagian sebelumnya untuk menyiapkan Salesforce Data Cloud. Jika Anda mengalami masalah, hubungi mereka untuk bantuan pemecahan masalah.

Untuk membuka Studio Classic dan memeriksa versinya, lihat prosedur berikut.

  1. Gunakan langkah-langkah Prasyarat untuk mengakses Data Wrangler melalui Amazon SageMaker Studio Classic.

  2. Di samping pengguna yang ingin Anda gunakan untuk meluncurkan Studio Classic, pilih Luncurkan aplikasi.

  3. Pilih Studio.

Untuk membuat dataset di Data Wrangler dengan data dari Salesforce Data Cloud
  1. Masuk ke SageMakerKonsol Amazon.

  2. Pilih Studio.

  3. Pilih Luncurkan aplikasi.

  4. Dari daftar dropdown, pilih Studio.

  5. Pilih ikon Beranda.

  6. Pilih Data.

  7. Pilih Data Wrangler.

  8. Pilih Impor data.

  9. Di bawah Tersedia, pilih Salesforce Data Cloud.

  10. Untuk nama Connection, tentukan nama untuk koneksi Anda ke Salesforce Data Cloud.

  11. Untuk Org URL, tentukan organisasi URL di akun Salesforce Anda. Anda bisa mendapatkan URL dari administrator Anda

  12. Pilih Hubungkan.

  13. Tentukan kredensyal Anda untuk masuk ke Salesforce.

Anda dapat mulai membuat kumpulan data menggunakan data dari Salesforce Data Cloud setelah Anda terhubung dengannya.

Setelah Anda memilih tabel, Anda dapat menulis kueri dan menjalankannya. Output kueri Anda ditampilkan di bawah Hasil kueri.

Setelah Anda menyelesaikan output kueri Anda, Anda kemudian dapat mengimpor output kueri Anda ke dalam aliran Data Wrangler untuk melakukan transformasi data.

Setelah membuat kumpulan data, arahkan ke layar Aliran data untuk mulai mengubah data Anda.

Impor data dari Snowflake

Anda dapat menggunakan Snowflake sebagai sumber data di Data Wrangler untuk menyiapkan SageMaker data di Snowflake untuk pembelajaran mesin.

Dengan Snowflake sebagai sumber data di Data Wrangler, Anda dapat dengan cepat terhubung ke Snowflake tanpa menulis satu baris kode pun. Anda dapat menggabungkan data Anda di Snowflake dengan data dari sumber data lain di Data Wrangler.

Setelah terhubung, Anda dapat secara interaktif menanyakan data yang disimpan di Snowflake, mengubah data dengan lebih dari 300 transformasi data yang telah dikonfigurasi sebelumnya, memahami data, dan mengidentifikasi potensi kesalahan dan nilai ekstrem dengan serangkaian templat visualisasi yang telah dikonfigurasi sebelumnya, dengan cepat mengidentifikasi inkonsistensi dalam alur kerja persiapan data Anda, dan mendiagnosis masalah sebelum model digunakan ke dalam produksi. Terakhir, Anda dapat mengekspor alur kerja persiapan data ke Amazon S3 untuk digunakan dengan fitur SageMaker lain seperti Amazon Autopilot, SageMaker Amazon Feature Store, dan SageMaker Amazon Pipelines. SageMaker

Anda dapat mengenkripsi output kueri Anda menggunakan AWS Key Management Service kunci yang telah Anda buat. Untuk informasi lebih lanjut tentang AWS KMS, lihat AWS Key Management Service.

Panduan Administrator

penting

Untuk mempelajari lebih lanjut tentang kontrol akses terperinci dan praktik terbaik, lihat Kontrol Akses Keamanan.

Bagian ini untuk administrator Snowflake yang menyiapkan akses ke Snowflake dari dalam Data Wrangler. SageMaker

penting

Anda bertanggung jawab untuk mengelola dan memantau kontrol akses dalam Snowflake. Data Wrangler tidak menambahkan lapisan kontrol akses sehubungan dengan Snowflake.

Kontrol akses meliputi:

  • Data yang diakses pengguna

  • (Opsional) Integrasi penyimpanan yang menyediakan Snowflake kemampuan untuk menulis hasil kueri ke bucket Amazon S3

  • Kueri yang dapat dijalankan pengguna

(Opsional) Konfigurasikan Izin Impor Data Kepingan Salju

Secara default, Data Wrangler menanyakan data di Snowflake tanpa membuat salinannya di lokasi Amazon S3. Gunakan informasi berikut jika Anda mengonfigurasi integrasi penyimpanan dengan Snowflake. Pengguna Anda dapat menggunakan integrasi penyimpanan untuk menyimpan hasil kueri mereka di lokasi Amazon S3.

Pengguna Anda mungkin memiliki tingkat akses data sensitif yang berbeda. Untuk keamanan data yang optimal, sediakan integrasi penyimpanan masing-masing pengguna. Setiap integrasi penyimpanan harus memiliki kebijakan tata kelola datanya sendiri.

Fitur ini saat ini tidak tersedia di Wilayah keikutsertaan.

Snowflake memerlukan izin berikut pada bucket dan direktori S3 untuk dapat mengakses file di direktori:

  • s3:GetObject

  • s3:GetObjectVersion

  • s3:ListBucket

  • s3:ListObjects

  • s3:GetBucketLocation

Buat IAM kebijakan

Anda harus membuat IAM kebijakan untuk mengonfigurasi izin akses bagi Snowflake untuk memuat dan membongkar data dari bucket Amazon S3.

Berikut ini adalah dokumen JSON kebijakan yang Anda gunakan untuk membuat kebijakan:

# Example policy for S3 write access # This needs to be updated { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion", "s3:DeleteObject", "s3:DeleteObjectVersion" ], "Resource": "arn:aws:s3:::bucket/prefix/*" }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": "arn:aws:s3:::bucket/", "Condition": { "StringLike": { "s3:prefix": ["prefix/*"] } } } ] }

Untuk informasi dan prosedur tentang membuat kebijakan dengan dokumen kebijakan, lihat Membuat IAM kebijakan.

Untuk dokumentasi yang memberikan ikhtisar penggunaan IAM izin dengan Snowflake, lihat sumber daya berikut:

Untuk memberikan izin penggunaan peran Snowflake ilmuwan data ke integrasi penyimpanan, Anda harus menjalankannya. GRANT USAGE ON INTEGRATION integration_name TO snowflake_role;

  • integration_nameadalah nama integrasi penyimpanan Anda.

  • snowflake_roleadalah nama peran Snowflake default yang diberikan kepada pengguna ilmuwan data.

Menyiapkan Akses Kepingan Salju OAuth

Alih-alih meminta pengguna Anda langsung memasukkan kredensialnya ke Data Wrangler, Anda dapat meminta mereka menggunakan penyedia identitas untuk mengakses Snowflake. Berikut ini adalah tautan ke dokumentasi Snowflake untuk penyedia identitas yang didukung Data Wrangler.

Gunakan dokumentasi dari tautan sebelumnya untuk mengatur akses ke penyedia identitas Anda. Informasi dan prosedur di bagian ini membantu Anda memahami cara menggunakan dokumentasi dengan benar untuk mengakses Snowflake dalam Data Wrangler.

Penyedia identitas Anda perlu mengenali Data Wrangler sebagai aplikasi. Gunakan prosedur berikut untuk mendaftarkan Data Wrangler sebagai aplikasi dalam penyedia identitas:

  1. Pilih konfigurasi yang memulai proses pendaftaran Data Wrangler sebagai aplikasi.

  2. Menyediakan pengguna dalam penyedia identitas akses ke Data Wrangler.

  3. Aktifkan otentikasi OAuth klien dengan menyimpan kredensi klien sebagai rahasia. AWS Secrets Manager

  4. Tentukan pengalihan URL menggunakan format berikut: https://domain-ID.studio.Wilayah AWS.sagemaker.aws/jupyter/default/lab

    penting

    Anda menentukan ID SageMaker domain Amazon dan Wilayah AWS yang Anda gunakan untuk menjalankan Data Wrangler.

    penting

    Anda harus mendaftarkan a URL untuk setiap SageMaker domain Amazon dan Wilayah AWS tempat Anda menjalankan Data Wrangler. Pengguna dari domain dan Wilayah AWS yang tidak memiliki URLs pengaturan pengalihan untuk mereka tidak akan dapat mengautentikasi dengan penyedia identitas untuk mengakses koneksi Snowflake.

  5. Pastikan kode otorisasi dan jenis hibah token refresh diizinkan untuk aplikasi Data Wrangler.

Dalam penyedia identitas Anda, Anda harus menyiapkan server yang mengirim OAuth token ke Data Wrangler di tingkat pengguna. Server mengirimkan token dengan Snowflake sebagai penonton.

Snowflake menggunakan konsep peran yang berbeda IAM peran yang digunakan. AWS Anda harus mengonfigurasi penyedia identitas untuk menggunakan peran apa pun untuk menggunakan peran default yang terkait dengan akun Snowflake. Misalnya, jika pengguna memiliki peran default dalam profil Snowflake mereka, koneksi dari Data Wrangler ke Snowflake digunakan systems administrator sebagai peran. systems administrator

Gunakan prosedur berikut untuk mengatur server.

Untuk mengatur server, lakukan hal berikut. Anda bekerja di dalam Snowflake untuk semua langkah kecuali yang terakhir.

  1. Mulai mengatur server atauAPI.

  2. Konfigurasikan server otorisasi untuk menggunakan kode otorisasi dan segarkan jenis hibah token.

  3. Tentukan masa pakai token akses.

  4. Setel batas waktu idle token refresh. Batas waktu idle adalah waktu token refresh kedaluwarsa jika tidak digunakan.

    catatan

    Jika Anda menjadwalkan pekerjaan di Data Wrangler, kami sarankan untuk membuat waktu tunggu idle lebih besar daripada frekuensi pekerjaan pemrosesan. Jika tidak, beberapa pekerjaan pemrosesan mungkin gagal karena token penyegaran kedaluwarsa sebelum dapat dijalankan. Ketika token penyegaran kedaluwarsa, pengguna harus mengautentikasi ulang dengan mengakses koneksi yang telah mereka buat ke Snowflake melalui Data Wrangler.

  5. Tentukan session:role-any sebagai ruang lingkup baru.

    catatan

    Untuk Azure AD, salin pengenal unik untuk ruang lingkup. Data Wrangler mengharuskan Anda untuk menyediakannya dengan pengenal.

  6. penting

    Dalam Integrasi OAuth Keamanan Eksternal untuk Kepingan Salju, aktifkan. external_oauth_any_role_mode

penting

Data Wrangler tidak mendukung token penyegaran yang berputar. Menggunakan token penyegaran yang berputar dapat mengakibatkan kegagalan akses atau pengguna harus sering masuk.

penting

Jika token penyegaran kedaluwarsa, pengguna Anda harus mengautentikasi ulang dengan mengakses koneksi yang telah mereka buat ke Snowflake melalui Data Wrangler.

Setelah menyiapkan OAuth penyedia, Anda memberikan Data Wrangler informasi yang dibutuhkan untuk terhubung ke penyedia. Anda dapat menggunakan dokumentasi dari penyedia identitas Anda untuk mendapatkan nilai untuk bidang berikut:

  • Token URL — Token URL yang dikirim oleh penyedia identitas ke Data Wrangler.

  • Otorisasi URL — Server otorisasi penyedia identitas. URL

  • ID Klien — ID penyedia identitas.

  • Rahasia klien — Rahasia yang hanya API dikenali oleh server otorisasi atau.

  • (Hanya Azure AD) Kredensi OAuth cakupan yang telah Anda salin.

Anda menyimpan bidang dan nilai dalam AWS Secrets Manager rahasia dan menambahkannya ke konfigurasi siklus hidup Amazon SageMaker Studio Classic yang Anda gunakan untuk Data Wrangler. Konfigurasi Siklus Hidup adalah skrip shell. Gunakan untuk membuat Amazon Resource Name (ARN) rahasia dapat diakses oleh Data Wrangler. Untuk informasi tentang membuat rahasia, lihat Memindahkan rahasia hardcode ke. AWS Secrets Manager Untuk informasi tentang menggunakan konfigurasi siklus hidup di Studio Classic, lihat. Menggunakan konfigurasi siklus hidup untuk menyesuaikan Studio Classic

penting

Sebelum membuat rahasia Secrets Manager, pastikan peran SageMaker eksekusi yang Anda gunakan untuk Amazon SageMaker Studio Classic memiliki izin untuk membuat dan memperbarui rahasia di Secrets Manager. Untuk informasi selengkapnya tentang menambahkan izin, lihat Contoh: Izin untuk membuat rahasia.

Untuk Okta dan Ping Federate, berikut ini adalah format rahasianya:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"OKTA"|"PING_FEDERATE", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize" }

Untuk Azure AD, berikut ini adalah format rahasianya:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"AZURE_AD", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize", "datasource_oauth_scope":"api://appuri/session:role-any)" }

Anda harus memiliki konfigurasi siklus hidup yang menggunakan rahasia Secrets Manager yang telah Anda buat. Anda dapat membuat konfigurasi siklus hidup atau memodifikasi konfigurasi yang telah dibuat. Konfigurasi harus menggunakan skrip berikut.

#!/bin/bash set -eux ## Script Body cat > ~/.snowflake_identity_provider_oauth_config <<EOL { "secret_arn": "example-secret-arn" } EOL

Untuk informasi tentang menyiapkan konfigurasi siklus hidup, lihat. Membuat dan mengaitkan konfigurasi siklus hidup Ketika Anda akan melalui proses pengaturan, lakukan hal berikut:

  • Atur jenis aplikasi konfigurasi keJupyter Server.

  • Lampirkan konfigurasi ke SageMaker domain Amazon yang memiliki pengguna Anda.

  • Jalankan konfigurasi secara default. Itu harus berjalan setiap kali pengguna login ke Studio Classic. Jika tidak, kredensil yang disimpan dalam konfigurasi tidak akan tersedia untuk pengguna Anda saat mereka menggunakan Data Wrangler.

  • Konfigurasi siklus hidup membuat file dengan nama, snowflake_identity_provider_oauth_config di folder beranda pengguna. File tersebut berisi rahasia Secrets Manager. Pastikan itu ada di folder beranda pengguna setiap kali instance Jupyter Server diinisialisasi.

Konektivitas Pribadi antara Data Wrangler dan Snowflake via AWS PrivateLink

Bagian ini menjelaskan cara menggunakan AWS PrivateLink untuk membuat koneksi pribadi antara Data Wrangler dan Snowflake. Langkah-langkahnya dijelaskan di bagian berikut.

Buat VPC

Jika Anda tidak memiliki VPC pengaturan, ikuti VPC instruksi Buat baru untuk membuatnya.

Setelah Anda memilih yang ingin VPC Anda gunakan untuk membuat koneksi pribadi, berikan kredensyal berikut kepada Administrator Snowflake Anda untuk mengaktifkan: AWS PrivateLink

  • VPCID

  • AWS ID Akun

  • Akun terkait yang URL Anda gunakan untuk mengakses Snowflake

penting

Seperti yang dijelaskan dalam dokumentasi Snowflake, mengaktifkan akun Snowflake Anda dapat memakan waktu hingga dua hari kerja.

Setelah AWS PrivateLink diaktifkan, ambil AWS PrivateLink konfigurasi untuk Wilayah Anda dengan menjalankan perintah berikut di lembar kerja Snowflake. Masuk ke konsol Snowflake Anda dan masukkan yang berikut ini di bawah Lembar Kerja: select SYSTEM$GET_PRIVATELINK_CONFIG();

  1. Ambil nilai untuk berikut:privatelink-account-name,, privatelink_ocsp-urlprivatelink-account-url, dan privatelink_ocsp-url dari JSON objek yang dihasilkan. Contoh dari setiap nilai ditampilkan dalam cuplikan berikut. Simpan nilai-nilai ini untuk digunakan nanti.

    privatelink-account-name: xxxxxxxx.region.privatelink privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
  2. Beralih ke AWS Konsol Anda dan arahkan ke VPC menu.

  3. Dari panel sisi kiri, pilih tautan Endpoints untuk menavigasi ke pengaturan VPCEndpoints.

    Sesampai di sana, pilih Create Endpoint.

  4. Pilih tombol radio untuk Temukan layanan dengan nama, seperti yang ditunjukkan pada gambar berikut.

    Bagian Create Endpoint di konsol.
  5. Di bidang Nama Layanan, tempelkan nilai untuk privatelink-vpce-id yang Anda ambil di langkah sebelumnya dan pilih Verifikasi.

    Jika koneksi berhasil, peringatan hijau yang mengatakan Nama layanan ditemukan muncul di layar Anda dan opsi VPCdan Subnet secara otomatis meluas, seperti yang ditunjukkan pada gambar berikut. Bergantung pada Wilayah yang ditargetkan, layar hasil Anda mungkin menampilkan nama AWS Wilayah lain.

    Bagian Create Endpoint di konsol yang menunjukkan koneksi berhasil.
  6. Pilih VPC ID yang sama yang Anda kirim ke Snowflake dari daftar VPCdropdown.

  7. Jika Anda belum membuat subnet, maka lakukan serangkaian instruksi berikut untuk membuat subnet.

  8. Pilih Subnet dari daftar VPCdropdown. Kemudian pilih Buat subnet dan ikuti petunjuk untuk membuat subset di Anda. VPC Pastikan Anda memilih VPC ID yang Anda kirim Snowflake.

  9. Di bawah Konfigurasi Grup Keamanan, pilih Buat Grup Keamanan Baru untuk membuka layar Grup Keamanan default di tab baru. Di tab baru ini, pilih t Buat Grup Keamanan.

  10. Berikan nama untuk grup keamanan baru (sepertidatawrangler-doc-snowflake-privatelink-connection) dan deskripsi. Pastikan untuk memilih VPC ID yang telah Anda gunakan pada langkah sebelumnya.

  11. Tambahkan dua aturan untuk mengizinkan lalu lintas dari dalam Anda VPC ke VPC titik akhir ini.

    Arahkan ke VPC bagian bawah Anda VPCs di tab terpisah, dan ambil CIDR blok Anda untuk AndaVPC. Kemudian pilih Tambahkan Aturan di bagian Aturan Masuk. Pilih HTTPS jenisnya, biarkan Sumber sebagai Kustom dalam formulir, dan tempel nilai yang diambil dari describe-vpcs panggilan sebelumnya (seperti). 10.0.0.0/16

  12. Pilih Buat Grup Keamanan. Ambil ID Grup Keamanan dari grup keamanan yang baru dibuat (sepertisg-xxxxxxxxxxxxxxxxx).

  13. Di layar konfigurasi VPCEndpoint, hapus grup keamanan default. Tempel ID grup keamanan di bidang pencarian dan pilih kotak centang.

    Bagian grup Keamanan di konsol.
  14. Pilih Buat Titik Akhir.

  15. Jika pembuatan endpoint berhasil, Anda akan melihat halaman yang memiliki link ke konfigurasi VPC endpoint Anda, yang ditentukan oleh ID. VPC Pilih tautan untuk melihat konfigurasi secara penuh.

    Bagian Detail titik akhir.

    Ambil catatan paling atas dalam daftar DNS nama. Ini dapat dibedakan dari DNS nama lain karena hanya menyertakan nama Wilayah (sepertius-west-2), dan tidak ada notasi huruf Availability Zone (sepertius-west-2a). Simpan informasi ini untuk digunakan nanti.

Bagian ini menjelaskan cara mengkonfigurasi titik akhir DNS Snowflake di bagian Anda. VPC Ini memungkinkan Anda VPC untuk menyelesaikan permintaan ke titik akhir Snowflake AWS PrivateLink .

  1. Arahkan ke menu Route 53 di dalam AWS konsol Anda.

  2. Pilih opsi Zona yang Dihosting (jika perlu, perluas menu sebelah kiri untuk menemukan opsi ini).

  3. Pilih Buat Zona yang Di-hosting.

    1. Di bidang Nama domain, referensi nilai yang disimpan untuk privatelink-account-url langkah-langkah sebelumnya. Di bidang ini, ID akun Snowflake Anda dihapus dari DNS nama dan hanya menggunakan nilai yang dimulai dengan pengenal Wilayah. Sebuah Resource Record Set juga dibuat nanti untuk subdomain, seperti,region.privatelink.snowflakecomputing.com.

    2. Pilih tombol radio untuk Private Hosted Zone di bagian Type. Kode Wilayah Anda mungkin tidakus-west-2. Referensi DNS nama yang dikembalikan kepada Anda oleh Snowflake.

      Halaman Buat zona yang dihosting di konsol.
    3. Di bagian VPCsuntuk mengaitkan dengan zona yang dihosting, pilih Wilayah tempat Anda VPC berada dan VPC ID yang digunakan pada langkah sebelumnya.

      VPCsUntuk mengasosiasikan dengan bagian zona yang dihosting di konsol.
    4. Pilih Buat zona yang di-hosting.

  4. Selanjutnya, buat dua catatan, satu untuk privatelink-account-url dan satu untukprivatelink_ocsp-url.

    • Di menu Zona yang Dihosting, pilih Buat Kumpulan Rekaman.

      1. Di bawah nama Rekam, masukkan ID Akun Snowflake Anda saja (8 karakter pertama diprivatelink-account-url).

      2. Di bawah Jenis rekaman, pilih CNAME.

      3. Di bawah Nilai, masukkan DNS nama untuk VPC titik akhir regional yang Anda ambil di langkah terakhir dari bagian Mengatur Integrasi Kepingan Salju AWS PrivateLink .

        Bagian Quick create record di konsol.
      4. Pilih Create records (Buat catatan).

      5. Ulangi langkah sebelumnya untuk OCSP catatan yang kita catatprivatelink-ocsp-url, dimulai dengan ocsp melalui ID Snowflake 8 karakter untuk nama rekaman (seperti). ocsp.xxxxxxxx

        Bagian Quick create record di konsol.

Bagian ini menjelaskan cara mengonfigurasi titik akhir inbound resolver Route 53 untuk Anda. VPC

  1. Arahkan ke menu Route 53 di dalam AWS konsol Anda.

    • Di panel sebelah kiri di bagian Keamanan, pilih opsi Grup Keamanan.

  2. Pilih Buat Grup Keamanan.

    • Berikan nama untuk grup keamanan Anda (sepertidatawranger-doc-route53-resolver-sg) dan deskripsi.

    • Pilih VPC ID yang digunakan pada langkah sebelumnya.

    • Buat aturan yang memungkinkan untuk DNS lebih UDP dan TCP dari dalam VPC CIDR blok.

      Bagian Aturan masuk di konsol.
    • Pilih Buat Grup Keamanan. Perhatikan ID Grup Keamanan karena menambahkan aturan untuk mengizinkan lalu lintas ke grup keamanan VPC titik akhir.

  3. Arahkan ke menu Route 53 di dalam AWS konsol Anda.

    • Di bagian Resolver, pilih opsi Inbound Endpoint.

  4. Pilih Buat Titik Akhir Masuk.

    • Berikan nama titik akhir.

    • Dari daftar dropdown VPCdi Region, pilih VPC ID yang telah Anda gunakan di semua langkah sebelumnya.

    • Dalam daftar dropdown grup Keamanan untuk titik akhir ini, pilih ID grup keamanan dari Langkah 2 di bagian ini.

      Pengaturan umum untuk bagian titik akhir masuk di konsol.
    • Di bagian Alamat IP, pilih Availability Zones, pilih subnet, dan tinggalkan pemilih radio untuk Gunakan alamat IP yang dipilih secara otomatis dipilih untuk setiap alamat IP.

      Bagian Alamat IP di konsol.
    • Pilih Kirim.

  5. Pilih titik akhir Inbound setelah dibuat.

  6. Setelah titik akhir masuk dibuat, perhatikan dua alamat IP untuk resolver.

    Bagian Alamat IP di konsol.
SageMaker VPCTitik akhir

Bagian ini menjelaskan cara membuat VPC titik akhir untuk hal-hal berikut: Amazon SageMaker Studio Classic, SageMaker Notebook, the, SageMaker Runtime Runtime SageMaker API, dan Amazon SageMaker Feature Store Runtime.

Buat grup keamanan yang diterapkan ke semua titik akhir.

  1. Arahkan ke EC2menu di AWS Konsol.

  2. Di bagian Jaringan & Keamanan, pilih opsi Grup keamanan.

  3. Pilih Buat grup keamanan.

  4. Berikan nama dan deskripsi grup keamanan (sepertidatawrangler-doc-sagemaker-vpce-sg). Aturan ditambahkan kemudian untuk mengizinkan lalu lintas HTTPS dari SageMaker grup ini.

Membuat titik akhir

  1. Arahkan ke VPCmenu di AWS konsol.

  2. Pilih opsi Endpoints.

  3. Pilih Buat Titik Akhir.

  4. Cari layanan dengan memasukkan namanya di bidang Pencarian.

  5. Dari daftar VPCdropdown, pilih VPC di mana koneksi Snowflake AWS PrivateLink Anda ada.

  6. Di bagian Subnet, pilih subnet yang memiliki akses ke koneksi Snowflake PrivateLink .

  7. Biarkan kotak centang Aktifkan DNS Nama dipilih.

  8. Di bagian Grup Keamanan, pilih grup keamanan yang Anda buat di bagian sebelumnya.

  9. Pilih Buat Titik Akhir.

Konfigurasikan Studio Classic dan Data Wrangler

Bagian ini menjelaskan cara mengkonfigurasi Studio Classic dan Data Wrangler.

  1. Konfigurasikan grup keamanan.

    1. Arahkan ke EC2 menu Amazon di AWS Konsol.

    2. Pilih opsi Grup Keamanan di bagian Jaringan & Keamanan.

    3. Pilih Buat Grup Keamanan.

    4. Berikan nama dan deskripsi untuk grup keamanan Anda (sepertidatawrangler-doc-sagemaker-studio).

    5. Buat aturan masuk berikut.

      • HTTPSKoneksi ke grup keamanan yang Anda sediakan untuk PrivateLink koneksi Snowflake yang Anda buat di langkah Atur Integrasi Kepingan Salju. PrivateLink

      • HTTPKoneksi ke grup keamanan yang Anda sediakan untuk PrivateLink koneksi Snowflake yang Anda buat di langkah Atur Integrasi Kepingan Salju. PrivateLink

      • Grup keamanan UDP dan TCP for DNS (port 53) ke Route 53 Resolver Inbound Endpoint yang Anda buat di langkah 2 Konfigurasi Route 53 Resolver Inbound Endpoint untuk Anda. VPC

    6. Pilih tombol Create Security Group di pojok kanan bawah.

  2. Konfigurasikan Studio Klasik.

    • Arahkan ke SageMaker menu di AWS konsol.

    • Dari konsol sebelah kiri, Pilih opsi SageMakerStudio Classic.

    • Jika Anda tidak memiliki domain yang dikonfigurasi, menu Memulai hadir.

    • Pilih opsi Pengaturan Standar dari menu Memulai.

    • Di bawah Metode otentikasi, pilih AWS Identity and Access Management (IAM).

    • Dari menu Izin, Anda dapat membuat peran baru atau menggunakan peran yang sudah ada sebelumnya, tergantung pada kasus penggunaan Anda.

      • Jika Anda memilih Buat peran baru, Anda akan diberikan opsi untuk memberikan nama bucket S3, dan kebijakan dibuat untuk Anda.

      • Jika Anda sudah memiliki peran yang dibuat dengan izin untuk bucket S3 yang Anda perlukan akses, pilih peran dari daftar tarik-turun. Peran ini harus memiliki AmazonSageMakerFullAccess kebijakan yang melekat padanya.

    • Pilih daftar tarik-turun Jaringan dan Penyimpanan untuk mengonfigurasi penggunaanVPC, keamanan, dan SageMaker subnet.

      • Di bawah VPC, pilih VPC di mana PrivateLink koneksi Snowflake Anda ada.

      • Di bawah Subnet (s), pilih subnet yang memiliki akses ke koneksi Snowflake PrivateLink.

      • Di bawah Akses Jaringan untuk Studio Klasik, pilih VPCHanya.

      • Di bawah Grup Keamanan, pilih grup keamanan yang Anda buat di langkah 1.

    • Pilih Kirim.

  3. Edit grup SageMaker keamanan.

    • Buat aturan masuk berikut:

      • Port 2049 ke Grup NFS Keamanan masuk dan keluar yang dibuat secara otomatis SageMaker pada langkah 2 (nama grup keamanan berisi ID domain Studio Classic).

      • Akses ke semua TCP port ke dirinya sendiri (diperlukan SageMaker untuk VPC Saja).

  4. Edit Grup Keamanan VPC Titik Akhir:

    • Arahkan ke EC2 menu Amazon di AWS konsol.

    • Temukan grup keamanan yang Anda buat pada langkah sebelumnya.

    • Tambahkan aturan masuk yang memungkinkan HTTPS lalu lintas dari grup keamanan yang dibuat pada langkah 1.

  5. Buat profil pengguna.

    • Dari Panel Kontrol Klasik SageMaker Studio, pilih Tambah Pengguna.

    • Berikan nama pengguna.

    • Untuk Peran Eksekusi, pilih untuk membuat peran baru atau menggunakan peran yang sudah ada sebelumnya.

      • Jika memilih Buat peran baru, Anda akan diberikan opsi untuk memberikan nama bucket Amazon S3, dan kebijakan dibuat untuk Anda.

      • Jika Anda sudah memiliki peran yang dibuat dengan izin ke bucket Amazon S3 yang memerlukan akses, pilih peran dari daftar tarik-turun. Peran ini harus memiliki AmazonSageMakerFullAccess kebijakan yang melekat padanya.

    • Pilih Kirim.

  6. Buat aliran data (ikuti panduan ilmuwan data yang diuraikan di bagian sebelumnya).

    • Saat menambahkan koneksi Snowflake, masukkan nilai privatelink-account-name (dari langkah Set Up Snowflake PrivateLink Integration) ke bidang nama akun Snowflake (alfanumerik), bukan nama akun Snowflake biasa. Segala sesuatu yang lain dibiarkan tidak berubah.

Memberikan informasi kepada ilmuwan data

Berikan ilmuwan data informasi yang mereka butuhkan untuk mengakses Snowflake dari Amazon SageMaker Data Wrangler.

penting

Pengguna Anda harus menjalankan Amazon SageMaker Studio Classic versi 1.3.0 atau yang lebih baru. Untuk informasi tentang memeriksa versi Studio Classic dan memperbaruinya, lihatSiapkan Data ML dengan Amazon SageMaker Data Wrangler.

  1. Untuk memungkinkan ilmuwan data Anda mengakses Snowflake dari SageMaker Data Wrangler, berikan mereka salah satu dari berikut ini:

    • Untuk Otentikasi Dasar, nama akun Snowflake, nama pengguna, dan kata sandi.

    • UntukOAuth, nama pengguna dan kata sandi di penyedia identitas.

    • UntukARN, Secrets Manager rahasia Amazon Resource Name (ARN).

    • Rahasia yang dibuat dengan AWS Secrets Manager dan rahasia. ARN Gunakan prosedur berikut di bawah ini untuk membuat rahasia Snowflake jika Anda memilih opsi ini.

      penting

      Jika ilmuwan data Anda menggunakan opsi Snowflake Credentials (Nama pengguna dan Kata Sandi) untuk terhubung ke Snowflake, Anda dapat menggunakan Secrets Manager untuk menyimpan kredensialnya secara rahasia. Secrets Manager memutar rahasia sebagai bagian dari rencana keamanan praktik terbaik. Rahasia yang dibuat di Secrets Manager hanya dapat diakses dengan peran Studio Classic yang dikonfigurasi saat Anda menyiapkan profil pengguna Studio Classic. Ini mengharuskan Anda untuk menambahkan izin inisecretsmanager:PutResourcePolicy,, ke kebijakan yang dilampirkan ke peran Studio Classic Anda.

      Kami sangat menyarankan agar Anda membuat cakupan kebijakan peran untuk menggunakan peran yang berbeda untuk grup pengguna Studio Classic yang berbeda. Anda dapat menambahkan izin berbasis sumber daya tambahan untuk rahasia Secrets Manager. Lihat Mengelola Kebijakan Rahasia untuk kunci kondisi yang dapat Anda gunakan.

      Untuk informasi tentang membuat rahasia, lihat Membuat rahasia. Anda dikenakan biaya untuk rahasia yang Anda buat.

  2. (Opsional) Berikan nama integrasi penyimpanan kepada ilmuwan data yang Anda buat menggunakan prosedur berikut Buat Integrasi Penyimpanan Cloud di Snowflake. Ini adalah nama integrasi baru dan dipanggil integration_name dalam CREATE INTEGRATION SQL perintah yang Anda jalankan, yang ditunjukkan dalam cuplikan berikut:

    CREATE STORAGE INTEGRATION integration_name TYPE = EXTERNAL_STAGE STORAGE_PROVIDER = S3 ENABLED = TRUE STORAGE_AWS_ROLE_ARN = 'iam_role' [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ] STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]

Panduan Ilmuwan Data

Gunakan yang berikut ini untuk menghubungkan Snowflake dan mengakses data Anda di Data Wrangler.

penting

Administrator Anda perlu menggunakan informasi di bagian sebelumnya untuk mengatur Snowflake. Jika Anda mengalami masalah, hubungi mereka untuk bantuan pemecahan masalah.

Anda dapat terhubung ke Snowflake dengan salah satu cara berikut:

  • Menentukan kredensi Snowflake Anda (nama akun, nama pengguna, dan kata sandi) di Data Wrangler.

  • Menyediakan Amazon Resource Name (ARN) dari rahasia yang berisi kredensialnya.

  • Menggunakan standar terbuka untuk penyedia delegasi akses (OAuth) yang terhubung ke Snowflake. Administrator Anda dapat memberi Anda akses ke salah satu OAuth penyedia berikut:

Bicaralah dengan administrator Anda tentang metode yang perlu Anda gunakan untuk terhubung ke Snowflake.

Bagian berikut memiliki informasi tentang bagaimana Anda dapat terhubung ke Snowflake menggunakan metode sebelumnya.

Specifying your Snowflake Credentials
Untuk mengimpor dataset ke Data Wrangler dari Snowflake menggunakan kredensi Anda
  1. Masuk ke SageMakerKonsol Amazon.

  2. Pilih Studio.

  3. Pilih Luncurkan aplikasi.

  4. Dari daftar dropdown, pilih Studio.

  5. Pilih ikon Beranda.

  6. Pilih Data.

  7. Pilih Data Wrangler.

  8. Pilih Impor data.

  9. Di bawah Tersedia, pilih Kepingan Salju.

  10. Untuk nama Koneksi, tentukan nama yang secara unik mengidentifikasi koneksi.

  11. Untuk metode Authentication, pilih Basic Username-Password.

  12. Untuk nama akun Snowflake (alfanumerik), tentukan nama lengkap akun Snowflake.

  13. Untuk Nama Pengguna, tentukan nama pengguna yang Anda gunakan untuk mengakses akun Snowflake.

  14. Untuk Kata Sandi, tentukan kata sandi yang terkait dengan nama pengguna.

  15. (Opsional) Untuk pengaturan lanjutan. tentukan yang berikut ini:

    • Peran — Peran dalam Snowflake. Beberapa peran memiliki akses ke kumpulan data yang berbeda. Jika Anda tidak menentukan peran, Data Wrangler menggunakan peran default di akun Snowflake Anda.

    • Integrasi penyimpanan — Saat Anda menentukan dan menjalankan kueri, Data Wrangler membuat salinan sementara hasil kueri dalam memori. Untuk menyimpan salinan permanen hasil kueri, tentukan lokasi Amazon S3 untuk integrasi penyimpanan. Administrator Anda memberi Anda S3URI.

    • KMSID kunci — KMS Kunci yang telah Anda buat. Anda dapat menentukan ARN untuk mengenkripsi output dari kueri Snowflake. Jika tidak, Data Wrangler menggunakan enkripsi default.

  16. Pilih Hubungkan.

Providing an Amazon Resource Name (ARN)
Untuk mengimpor dataset ke Data Wrangler dari Snowflake menggunakan ARN
  1. Masuk ke SageMakerKonsol Amazon.

  2. Pilih Studio.

  3. Pilih Luncurkan aplikasi.

  4. Dari daftar dropdown, pilih Studio.

  5. Pilih ikon Beranda.

  6. Pilih Data.

  7. Pilih Data Wrangler.

  8. Pilih Impor data.

  9. Di bawah Tersedia, pilih Kepingan Salju.

  10. Untuk nama Koneksi, tentukan nama yang secara unik mengidentifikasi koneksi.

  11. Untuk metode Otentikasi, pilih ARN.

  12. Secrets Manager ARN — ARN AWS Secrets Manager Rahasia yang digunakan untuk menyimpan kredensyal yang digunakan untuk terhubung ke Snowflake.

  13. (Opsional) Untuk pengaturan lanjutan. tentukan yang berikut ini:

    • Peran — Peran dalam Snowflake. Beberapa peran memiliki akses ke kumpulan data yang berbeda. Jika Anda tidak menentukan peran, Data Wrangler menggunakan peran default di akun Snowflake Anda.

    • Integrasi penyimpanan — Saat Anda menentukan dan menjalankan kueri, Data Wrangler membuat salinan sementara hasil kueri dalam memori. Untuk menyimpan salinan permanen hasil kueri, tentukan lokasi Amazon S3 untuk integrasi penyimpanan. Administrator Anda memberi Anda S3URI.

    • KMSID kunci — KMS Kunci yang telah Anda buat. Anda dapat menentukan ARN untuk mengenkripsi output dari kueri Snowflake. Jika tidak, Data Wrangler menggunakan enkripsi default.

  14. Pilih Hubungkan.

Using an OAuth Connection
penting

Administrator Anda menyesuaikan lingkungan Studio Classic Anda untuk menyediakan fungsionalitas yang Anda gunakan untuk menggunakan OAuth koneksi. Anda mungkin perlu me-restart aplikasi server Jupyter untuk menggunakan fungsionalitas.

Gunakan prosedur berikut untuk memperbarui aplikasi server Jupyter.

  1. Dalam Studio Classic, pilih File

  2. Pilih Shut down.

  3. Pilih Shut down server.

  4. Tutup tab atau jendela yang Anda gunakan untuk mengakses Studio Classic.

  5. Dari SageMaker konsol Amazon, buka Studio Classic.

Untuk mengimpor dataset ke Data Wrangler dari Snowflake menggunakan kredensi Anda
  1. Masuk ke SageMakerKonsol Amazon.

  2. Pilih Studio.

  3. Pilih Luncurkan aplikasi.

  4. Dari daftar dropdown, pilih Studio.

  5. Pilih ikon Beranda.

  6. Pilih Data.

  7. Pilih Data Wrangler.

  8. Pilih Impor data.

  9. Di bawah Tersedia, pilih Kepingan Salju.

  10. Untuk nama Koneksi, tentukan nama yang secara unik mengidentifikasi koneksi.

  11. Untuk metode Otentikasi, pilih OAuth.

  12. (Opsional) Untuk pengaturan lanjutan. tentukan yang berikut ini:

    • Peran — Peran dalam Snowflake. Beberapa peran memiliki akses ke kumpulan data yang berbeda. Jika Anda tidak menentukan peran, Data Wrangler menggunakan peran default di akun Snowflake Anda.

    • Integrasi penyimpanan — Saat Anda menentukan dan menjalankan kueri, Data Wrangler membuat salinan sementara hasil kueri dalam memori. Untuk menyimpan salinan permanen hasil kueri, tentukan lokasi Amazon S3 untuk integrasi penyimpanan. Administrator Anda memberi Anda S3URI.

    • KMSID kunci — KMS Kunci yang telah Anda buat. Anda dapat menentukan ARN untuk mengenkripsi output dari kueri Snowflake. Jika tidak, Data Wrangler menggunakan enkripsi default.

  13. Pilih Hubungkan.

Anda dapat memulai proses mengimpor data Anda dari Snowflake setelah Anda terhubung dengannya.

Dalam Data Wrangler, Anda dapat melihat gudang data, database, dan skema Anda, bersama dengan ikon mata yang dapat digunakan untuk melihat pratinjau tabel Anda. Setelah Anda memilih ikon Tabel Pratinjau, pratinjau skema tabel tersebut dihasilkan. Anda harus memilih gudang sebelum Anda dapat melihat pratinjau tabel.

penting

Jika Anda mengimpor dataset dengan kolom jenis TIMESTAMP_TZ atauTIMESTAMP_LTZ, tambahkan ::string ke nama kolom kueri Anda. Untuk informasi selengkapnya, lihat Cara: Membongkar LTZ data TIMESTAMP _TZ dan TIMESTAMP _ ke file Parket.

Setelah Anda memilih gudang data, database dan skema, Anda sekarang dapat menulis kueri dan menjalankannya. Output kueri Anda ditampilkan di bawah Hasil kueri.

Setelah Anda menyelesaikan output kueri Anda, Anda kemudian dapat mengimpor output kueri Anda ke dalam aliran Data Wrangler untuk melakukan transformasi data.

Setelah mengimpor data, navigasikan ke alur Data Wrangler Anda dan mulailah menambahkan transformasi ke dalamnya. Untuk daftar transformasi yang tersedia, lihatTransformasi Data.

Impor Data Dari Perangkat Lunak sebagai Platform Layanan (SaaS)

Anda dapat menggunakan Data Wrangler untuk mengimpor data dari lebih dari empat puluh platform perangkat lunak sebagai layanan (SaaS). Untuk mengimpor data Anda dari platform SaaS Anda, Anda atau administrator Anda harus menggunakan Amazon AppFlow untuk mentransfer data dari platform ke Amazon S3 atau Amazon Redshift. Untuk informasi selengkapnya tentang Amazon AppFlow, lihat Apa itu Amazon AppFlow? Jika Anda tidak perlu menggunakan Amazon Redshift, kami sarankan untuk mentransfer data ke Amazon S3 untuk proses yang lebih sederhana.

Data Wrangler mendukung transfer data dari platform SaaS berikut:

Daftar sebelumnya memiliki tautan ke informasi lebih lanjut tentang pengaturan sumber data Anda. Anda atau administrator Anda dapat merujuk ke tautan sebelumnya setelah Anda membaca informasi berikut.

Saat Anda menavigasi ke tab Impor aliran Data Wrangler Anda, Anda melihat sumber data di bawah bagian berikut:

  • Available

  • Siapkan sumber data

Anda dapat terhubung ke sumber data di bawah Tersedia tanpa memerlukan konfigurasi tambahan. Anda dapat memilih sumber data dan mengimpor data Anda.

Sumber data di bawah Mengatur sumber data, mengharuskan Anda atau administrator Anda menggunakan Amazon AppFlow untuk mentransfer data dari platform SaaS ke Amazon S3 atau Amazon Redshift. Untuk informasi tentang melakukan transfer, lihatMenggunakan Amazon AppFlow untuk mentransfer data Anda.

Setelah Anda melakukan transfer data, platform SaaS muncul sebagai sumber data di bawah Tersedia. Anda dapat memilihnya dan mengimpor data yang telah Anda transfer ke Data Wrangler. Data yang Anda transfer muncul sebagai tabel yang dapat Anda kueri.

Menggunakan Amazon AppFlow untuk mentransfer data Anda

Amazon AppFlow adalah platform yang dapat Anda gunakan untuk mentransfer data dari platform SaaS Anda ke Amazon S3 atau Amazon Redshift tanpa harus menulis kode apa pun. Untuk melakukan transfer data, Anda menggunakan file AWS Management Console.

penting

Anda harus memastikan bahwa Anda telah mengatur izin untuk melakukan transfer data. Untuk informasi selengkapnya, lihat AppFlow Izin Amazon.

Setelah menambahkan izin, Anda dapat mentransfer data. Di Amazon AppFlow, Anda membuat alur untuk mentransfer data. Aliran adalah serangkaian konfigurasi. Anda dapat menggunakannya untuk menentukan apakah Anda menjalankan transfer data sesuai jadwal atau apakah Anda mempartisi data menjadi file terpisah. Setelah mengkonfigurasi alur, Anda menjalankannya untuk mentransfer data.

Untuk informasi tentang membuat alur, lihat Membuat alur di Amazon AppFlow. Untuk informasi tentang menjalankan alur, lihat Mengaktifkan AppFlow aliran Amazon.

Setelah data ditransfer, gunakan prosedur berikut untuk mengakses data di Data Wrangler.

penting

Sebelum Anda mencoba mengakses data Anda, pastikan IAM peran Anda memiliki kebijakan berikut:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "glue:SearchTables", "Resource": [ "arn:aws:glue:*:*:table/*/*", "arn:aws:glue:*:*:database/*", "arn:aws:glue:*:*:catalog" ] } ] }

Secara default, IAM peran yang Anda gunakan untuk mengakses Data Wrangler adalah. SageMakerExecutionRole Untuk informasi selengkapnya tentang menambahkan kebijakan, lihat Menambahkan izin IAM identitas (konsol).

Untuk terhubung ke sumber data, lakukan hal berikut.

  1. Masuk ke SageMakerKonsol Amazon.

  2. Pilih Studio.

  3. Pilih Luncurkan aplikasi.

  4. Dari daftar dropdown, pilih Studio.

  5. Pilih ikon Beranda.

  6. Pilih Data.

  7. Pilih Data Wrangler.

  8. Pilih Impor data.

  9. Di bawah Tersedia, pilih sumber data.

  10. Untuk bidang Nama, tentukan nama koneksi.

  11. (Opsional) Pilih Konfigurasi lanjutan.

    1. Pilih Workgroup.

    2. Jika grup kerja Anda belum menerapkan lokasi keluaran Amazon S3 atau jika Anda tidak menggunakan grup kerja, tentukan nilai untuk lokasi hasil kueri Amazon S3.

    3. (Opsional) Untuk periode penyimpanan data, pilih kotak centang untuk mengatur periode penyimpanan data dan tentukan jumlah hari untuk menyimpan data sebelum dihapus.

    4. (Opsional) Secara default, Data Wrangler menyimpan koneksi. Anda dapat memilih untuk membatalkan pilihan kotak centang dan tidak menyimpan koneksi.

  12. Pilih Hubungkan.

  13. Tentukan kueri.

    catatan

    Untuk membantu Anda menentukan kueri, Anda dapat memilih tabel di panel navigasi sebelah kiri. Data Wrangler menunjukkan nama tabel dan pratinjau tabel. Pilih ikon di sebelah nama tabel untuk menyalin nama. Anda dapat menggunakan nama tabel dalam kueri.

  14. Pilih Jalankan.

  15. Pilih Kueri impor.

  16. Untuk nama Dataset, tentukan nama dataset.

  17. Pilih Tambahkan.

Saat Anda menavigasi ke layar Impor data, Anda dapat melihat koneksi yang telah Anda buat. Anda dapat menggunakan koneksi untuk mengimpor lebih banyak data.

Penyimpanan Data yang Diimpor

penting

Kami sangat menyarankan agar Anda mengikuti praktik terbaik seputar melindungi bucket Amazon S3 Anda dengan mengikuti praktik terbaik Keamanan.

Saat Anda menanyakan data dari Amazon Athena atau Amazon Redshift, kumpulan data yang ditanyakan akan disimpan secara otomatis di Amazon S3. Data disimpan di bucket SageMaker S3 default untuk AWS Wilayah tempat Anda menggunakan Studio Classic.

Bucket S3 default memiliki konvensi penamaan berikut:. sagemaker-region-account number Misalnya, jika nomor akun Anda 111122223333 dan Anda menggunakan Studio Classic in, kumpulan data yang diimpor akan disimpan di us-east-1 111122223333. sagemaker-us-east-1-

Alur Data Wrangler bergantung pada lokasi kumpulan data Amazon S3 ini, jadi Anda tidak boleh memodifikasi kumpulan data ini di Amazon S3 saat Anda menggunakan aliran dependen. Jika Anda memodifikasi lokasi S3 ini, dan Anda ingin terus menggunakan aliran data Anda, Anda harus menghapus semua objek trained_parameters dalam file.flow Anda. Untuk melakukan ini, unduh file.flow dari Studio Classic dan untuk setiap instancetrained_parameters, hapus semua entri. Ketika Anda selesai, trained_parameters harus menjadi JSON objek kosong:

"trained_parameters": {}

Saat Anda mengekspor dan menggunakan aliran data untuk memproses data, file.flow yang Anda ekspor merujuk ke kumpulan data ini di Amazon S3. Gunakan bagian berikut untuk mempelajari lebih lanjut.

Penyimpanan Impor Amazon Redshift

Data Wrangler menyimpan kumpulan data yang dihasilkan dari kueri Anda dalam file Parket di bucket S3 default Anda. SageMaker

File ini disimpan di bawah awalan berikut (direktori): redshift/uuid/data/, dimana uuid adalah pengidentifikasi unik yang dibuat untuk setiap kueri.

Misalnya, jika bucket default Anda, satu kumpulan data yang ditanyakan dari Amazon Redshift terletak di s3://-1-111122223333/redshift/ sagemaker-us-east-1-111122223333 sagemaker-us-eastuuid/data/.

Penyimpanan Impor Amazon Athena

Saat Anda menanyakan database Athena dan mengimpor kumpulan data, Data Wrangler menyimpan kumpulan data, serta subset dari kumpulan data tersebut, atau file pratinjau, di Amazon S3.

Dataset yang Anda impor dengan memilih Impor dataset disimpan dalam format Parket di Amazon S3.

File pratinjau ditulis dalam CSV format saat Anda memilih Jalankan di layar impor Athena, dan berisi hingga 100 baris dari kumpulan data yang Anda kueri.

Dataset yang Anda kueri terletak di bawah awalan (direktori): athena/uuid/data/, dimana uuid adalah pengidentifikasi unik yang dibuat untuk setiap kueri.

Misalnya, jika bucket default Anda adalahsagemaker-us-east-1-111122223333, satu set data yang ditanyakan dari Athena terletak di /athena/ s3://sagemaker-us-east-1-111122223333uuid/data/example_dataset.parquet.

Subset dari kumpulan data yang disimpan untuk melihat pratinjau kerangka data di Data Wrangler disimpan di bawah awalan: athena/.