Menggunakan Kembali Alur Data untuk Kumpulan Data yang Berbeda - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Kembali Alur Data untuk Kumpulan Data yang Berbeda

Untuk sumber data Amazon Simple Storage Service (Amazon S3), Anda dapat membuat dan menggunakan parameter. Parameter adalah variabel yang telah Anda simpan dalam aliran Data Wrangler Anda. Nilainya dapat berupa bagian mana pun dari jalur Amazon S3 sumber data. Gunakan parameter untuk dengan cepat mengubah data yang Anda impor ke dalam aliran Data Wrangler atau mengekspor ke pekerjaan pemrosesan. Anda juga dapat menggunakan parameter untuk memilih dan mengimpor subset tertentu dari data Anda.

Setelah Anda membuat alur Data Wrangler, Anda mungkin telah melatih model pada data yang telah Anda ubah. Untuk kumpulan data yang memiliki skema yang sama, Anda dapat menggunakan parameter untuk menerapkan transformasi yang sama pada kumpulan data yang berbeda dan melatih model yang berbeda. Anda dapat menggunakan kumpulan data baru untuk melakukan inferensi dengan model Anda atau Anda dapat menggunakannya untuk melatih kembali model Anda.

Secara umum, parameter memiliki atribut berikut:

  • Nama — Nama yang Anda tentukan untuk parameter

  • Jenis - Jenis nilai yang diwakili parameter

  • Nilai default - Nilai parameter saat Anda tidak menentukan nilai baru

catatan

Parameter Datetime memiliki atribut rentang waktu yang mereka gunakan sebagai nilai default.

Data Wrangler menggunakan kurawal kurawal{{}}, untuk menunjukkan bahwa parameter sedang digunakan di jalur Amazon S3. Misalnya, Anda dapat memiliki URL sepertis3://amzn-s3-demo-bucket1/{{example_parameter_name}}/example-dataset.csv.

Anda membuat parameter saat mengedit sumber data Amazon S3 yang telah Anda impor. Anda dapat mengatur setiap bagian dari path file ke nilai parameter. Anda dapat mengatur nilai parameter ke nilai atau pola. Berikut ini adalah tipe nilai parameter yang tersedia dalam aliran Data Wrangler:

  • Jumlah

  • String

  • Pola

  • Tanggal waktu

catatan

Anda tidak dapat membuat parameter pola atau parameter datetime untuk nama bucket di jalur Amazon S3.

Anda harus menetapkan angka sebagai nilai default dari parameter angka. Anda dapat mengubah nilai parameter ke nomor yang berbeda saat mengedit parameter atau saat Anda meluncurkan pekerjaan pemrosesan. Misalnya, di jalur S3s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv, Anda dapat membuat parameter angka bernama number_parameter di tempat. 1 Jalur S3 Anda sekarang muncul sebagais3://amzn-s3-demo-bucket/example-prefix/example-file-{{number_parameter}}.csv. Jalur terus menunjuk ke example-file-1.csv kumpulan data hingga Anda mengubah nilai parameter. Jika Anda mengubah nilai number_parameter 2 ke jalur sekarangs3://amzn-s3-demo-bucket/example-prefix/example-file-2.csv. Anda dapat mengimpor example-file-2.csv ke Data Wrangler jika Anda telah mengunggah file ke lokasi Amazon S3 tersebut.

Parameter string menyimpan string sebagai nilai defaultnya. Misalnya, di jalur S3s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv, Anda dapat membuat parameter string bernama string_parameter di tempat nama file,. example-file-1.csv Jalan sekarang muncul sebagais3://amzn-s3-demo-bucket/example-prefix/{{string_parameter}}. Itu terus cocoks3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv, sampai Anda mengubah nilai parameter.

Alih-alih menentukan nama file sebagai parameter string, Anda dapat membuat parameter string menggunakan seluruh jalur Amazon S3. Anda dapat menentukan kumpulan data dari lokasi Amazon S3 mana pun di parameter string.

Parameter pola menyimpan string ekspresi reguler (PythonREGEX) sebagai nilai defaultnya. Anda dapat menggunakan parameter pola untuk mengimpor beberapa file data secara bersamaan. Untuk mengimpor lebih dari satu objek sekaligus, tentukan nilai parameter yang cocok dengan objek Amazon S3 yang Anda impor.

Anda juga dapat membuat parameter pola untuk kumpulan data berikut:

  • s3://amzn-s3-demo-bucket1/example-prefix/example-file-1.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/example-file-2.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/example-file-10.csv

  • s3://amzn-s3-demo-bucket/example-prefix/example-file-0123.csv

Untuks3://amzn-s3-demo-bucket1/example-prefix/example-file-1.csv, Anda dapat membuat parameter pola di tempat1, dan mengatur nilai default parameter ke\d+. \d+REGEXString cocok dengan satu atau lebih digit desimal. Jika Anda membuat parameter pola bernamapattern_parameter, jalur S3 Anda akan muncul sebagais3://amzn-s3-demo-bucket1/example-prefix/example-file-{{pattern_parameter}}.csv.

Anda juga dapat menggunakan parameter pola untuk mencocokkan semua CSV objek dalam bucket Anda. Untuk mencocokkan semua objek dalam bucket, buat parameter pola dengan nilai default .* dan atur path kes3://amzn-s3-demo-bucket/{{pattern_parameter}}.csv. .*Karakter cocok dengan karakter string apa pun di jalur.

s3://amzn-s3-demo-bucket/{{pattern_parameter}}.csvJalur dapat cocok dengan kumpulan data berikut.

  • example-file-1.csv

  • other-example-file.csv

  • example-file-a.csv

Parameter datetime menyimpan format dengan informasi berikut:

  • Format untuk mengurai string di dalam jalur Amazon S3.

  • Rentang waktu relatif untuk membatasi nilai datetime yang cocok

Misalnya, di jalur file Amazon S3,s3://amzn-s3-demo-bucket/2020/01/01/example-dataset.csv, 2020/01/01 mewakili datetime dalam format file. year/month/day Anda dapat mengatur rentang waktu parameter ke interval seperti 1 years atau24 hours. Interval 1 years kecocokan semua jalur S3 dengan waktu tanggal yang berada di antara waktu saat ini dan waktu tepat setahun sebelum waktu saat ini. Waktu saat ini adalah waktu ketika Anda mulai mengekspor transformasi yang telah Anda buat ke data. Untuk informasi selengkapnya tentang mengekspor data, lihatEkspor. Jika tanggal saat ini adalah 2022/01/01 dan rentang waktunya1 years, jalur S3 cocok dengan kumpulan data seperti berikut:

  • s3://amzn-s3-demo-bucket/2021/01/01/example-dataset.csv

  • s3://amzn-s3-demo-bucket/2021/06/30/example-dataset.csv

  • s3://amzn-s3-demo-bucket/2021/12/31/example-dataset.csv

Nilai datetime dalam rentang waktu relatif berubah seiring berjalannya waktu. Jalur S3 yang termasuk dalam rentang waktu relatif mungkin juga berbeda.

Untuk jalur file Amazon S3,s3://amzn-s3-demo-bucket1/20200101/example-dataset.csv, 20220101 adalah contoh jalur yang dapat menjadi parameter datetime.

Untuk melihat tabel semua parameter yang telah Anda buat di alur Data Wrangler, pilih `{{}}` di sebelah kanan kotak teks yang berisi jalur Amazon S3. Jika Anda tidak lagi memerlukan parameter yang telah Anda buat, Anda dapat mengedit atau menghapus. Untuk mengedit atau menghapus parameter, pilih ikon di sebelah kanan parameter.

penting

Sebelum Anda menghapus parameter, pastikan Anda belum menggunakannya di mana pun dalam alur Data Wrangler Anda. Parameter yang dihapus yang masih dalam aliran menyebabkan kesalahan.

Anda dapat membuat parameter untuk setiap langkah aliran Data Wrangler Anda. Anda dapat mengedit atau menghapus parameter apa pun yang Anda buat. Jika Anda menerapkan transformasi ke data yang tidak lagi relevan dengan kasus penggunaan Anda, Anda dapat memodifikasi nilai parameter. Memodifikasi nilai parameter mengubah data yang Anda impor.

Bagian berikut memberikan contoh tambahan dan panduan umum tentang penggunaan parameter. Anda dapat menggunakan bagian untuk memahami parameter yang paling sesuai untuk Anda.

catatan

Bagian berikut berisi prosedur yang menggunakan antarmuka Data Wrangler untuk mengganti parameter dan membuat pekerjaan pemrosesan.

Anda juga dapat mengganti parameter dengan menggunakan prosedur berikut.

Untuk mengekspor aliran Data Wrangler Anda dan mengganti nilai parameter, lakukan hal berikut.

  1. Pilih + di sebelah simpul yang ingin Anda ekspor.

  2. Pilih Ekspor ke.

  3. Pilih lokasi tempat Anda mengekspor data.

  4. Di bawahparameter_overrides, tentukan nilai yang berbeda untuk parameter yang telah Anda buat.

  5. Jalankan Notebook Jupyter.

Anda dapat menggunakan parameter untuk menerapkan transformasi dalam alur Data Wrangler ke file berbeda yang cocok dengan pola di jalur Amazon S3. URI Ini membantu Anda menentukan file di bucket S3 yang ingin Anda ubah dengan spesifisitas tinggi. Misalnya, Anda mungkin memiliki kumpulan data dengan jalurnyas3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv. Kumpulan data yang berbeda bernama example-dataset.csv disimpan di bawah banyak contoh awalan yang berbeda. Awalan mungkin juga diberi nomor secara berurutan. Anda dapat membuat pola untuk angka-angka di Amazon S3URI. Parameter pola digunakan REGEX untuk memilih sejumlah file yang cocok dengan pola ekspresi. Berikut ini adalah REGEX pola yang mungkin berguna:

  • .*— Cocokkan nol atau lebih dari karakter apa pun, kecuali karakter baris baru

  • .+— Cocokkan satu atau lebih karakter apa pun, tidak termasuk karakter baris baru

  • \d+— Cocokkan satu atau lebih dari setiap digit desimal

  • \w+— Cocokkan satu atau lebih karakter alfanumerik

  • [abc-_]{2,4}— Cocokkan string dua, tiga, atau empat karakter yang terdiri dari kumpulan karakter yang disediakan dalam satu set tanda kurung

  • abc|def— Cocokkan satu string atau lainnya. Misalnya, operasi cocok dengan salah satu abc atau def

Anda dapat mengganti setiap nomor di jalur berikut dengan satu parameter yang memiliki nilai\d+.

  • s3://amzn-s3-demo-bucket1/example-prefix-3/example-prefix-4/example-prefix-5/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix-8/example-prefix-12/example-prefix-13/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix-4/example-prefix-9/example-prefix-137/example-dataset.csv

Prosedur berikut membuat parameter pola untuk dataset dengan paths3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv.

Untuk membuat parameter pola, lakukan hal berikut.

  1. Di samping dataset yang telah Anda impor, pilih Edit dataset.

  2. Sorot 0 masukexample-prefix-0.

  3. Tentukan nilai untuk bidang berikut:

    • Nama — Nama untuk parameter

    • Jenis - Pola

    • Nilai\ d+ekspresi reguler yang sesuai dengan satu atau lebih digit

  4. Pilih Buat.

  5. Ganti 1 dan 2 di URI jalur S3 dengan parameter. Jalur harus memiliki format berikut: s3://amzn-s3-demo-bucket1/example-prefix-{{example_parameter_name}}/example-prefix-{{example_parameter_name}}/example-prefix-{{example_parameter_name}}/example-dataset.csv

Berikut ini adalah prosedur umum untuk membuat parameter pola.

  1. Arahkan ke alur Data Wrangler Anda.

  2. Di samping dataset yang telah Anda impor, pilih Edit dataset.

  3. Sorot bagian URI yang Anda gunakan sebagai nilai parameter pola.

  4. Pilih Buat parameter kustom.

  5. Tentukan nilai untuk bidang berikut:

    • Nama — Nama untuk parameter

    • Jenis - Pola

    • Nilai - Ekspresi reguler yang berisi pola yang ingin Anda simpan.

  6. Pilih Buat.

Anda dapat menggunakan parameter untuk menerapkan transformasi dalam aliran Data Wrangler Anda ke file berbeda yang memiliki jalur serupa. Misalnya, Anda mungkin memiliki kumpulan data dengan jalurnyas3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv.

Anda mungkin memiliki transformasi dari alur Data Wrangler yang telah Anda terapkan ke kumpulan data di bawahnya. example-prefix-1 Anda mungkin ingin menerapkan transformasi yang sama dengan example-dataset.csv yang termasuk di bawah example-prefix-10 atauexample-prefix-20.

Anda dapat membuat parameter yang menyimpan nilai1. Jika Anda ingin menerapkan transformasi ke kumpulan data yang berbeda, Anda dapat membuat pekerjaan pemrosesan yang menggantikan nilai parameter dengan nilai yang berbeda. Parameter bertindak sebagai pengganti bagi Anda untuk mengubah ketika Anda ingin menerapkan transformasi dari aliran Data Wrangler Anda ke data baru. Anda dapat mengganti nilai parameter saat membuat pekerjaan pemrosesan Data Wrangler untuk menerapkan transformasi dalam aliran Data Wrangler Anda ke kumpulan data yang berbeda.

Gunakan prosedur berikut untuk membuat parameter numerik untuks3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv.

Untuk membuat parameter untuk URI jalur S3 sebelumnya, lakukan hal berikut.

  1. Arahkan ke alur Data Wrangler Anda.

  2. Di samping dataset yang telah Anda impor, pilih Edit dataset.

  3. Sorot nomor dalam contoh awalan. example-prefix-number

  4. Pilih Buat parameter kustom.

  5. Untuk Nama, tentukan nama untuk parameter.

  6. Untuk Type, pilih Integer.

  7. Untuk Nilai, tentukan nomornya.

  8. Buat parameter untuk angka yang tersisa dengan mengulangi prosedur.

Setelah Anda membuat parameter, terapkan transformasi ke dataset Anda dan buat node tujuan untuk mereka. Untuk informasi selengkapnya tentang node tujuan, lihatEkspor.

Gunakan prosedur berikut untuk menerapkan transformasi dari aliran Data Wrangler Anda ke rentang waktu yang berbeda. Ini mengasumsikan bahwa Anda telah membuat node tujuan untuk transformasi dalam alur Anda.

Untuk mengubah nilai parameter numerik dalam pekerjaan pemrosesan Data Wrangler, lakukan hal berikut.

  1. Dari alur Data Wrangler Anda, pilih Buat pekerjaan

  2. Pilih hanya node tujuan yang berisi transformasi ke dataset yang berisi parameter datetime.

  3. Pilih Konfigurasi pekerjaan.

  4. Pilih Parameter.

  5. Pilih nama parameter yang telah Anda buat.

  6. Ubah nilai parameter.

  7. Ulangi prosedur untuk parameter lainnya.

  8. Pilih Jalankan.

Anda dapat menggunakan parameter untuk menerapkan transformasi dalam aliran Data Wrangler Anda ke file berbeda yang memiliki jalur serupa. Misalnya, Anda mungkin memiliki kumpulan data dengan jalurnyas3://amzn-s3-demo-bucket1/example-prefix/example-dataset.csv.

Anda mungkin memiliki transformasi dari alur Data Wrangler yang telah Anda terapkan ke kumpulan data di bawahnya. example-prefix Anda mungkin ingin menerapkan transformasi yang sama ke example-dataset.csv bawah another-example-prefix atauexample-prefix-20.

Anda dapat membuat parameter yang menyimpan nilaiexample-prefix. Jika Anda ingin menerapkan transformasi ke kumpulan data yang berbeda, Anda dapat membuat pekerjaan pemrosesan yang menggantikan nilai parameter dengan nilai yang berbeda. Parameter bertindak sebagai pengganti bagi Anda untuk mengubah ketika Anda ingin menerapkan transformasi dari aliran Data Wrangler Anda ke data baru. Anda dapat mengganti nilai parameter saat membuat pekerjaan pemrosesan Data Wrangler untuk menerapkan transformasi dalam aliran Data Wrangler Anda ke kumpulan data yang berbeda.

Gunakan prosedur berikut untuk membuat parameter string untuks3://amzn-s3-demo-bucket1/example-prefix/example-dataset.csv.

Untuk membuat parameter untuk URI jalur S3 sebelumnya, lakukan hal berikut.

  1. Arahkan ke alur Data Wrangler Anda.

  2. Di samping dataset yang telah Anda impor, pilih Edit dataset.

  3. Sorot contoh awalan,example-prefix.

  4. Pilih Buat parameter kustom.

  5. Untuk Nama, tentukan nama untuk parameter.

  6. Untuk Type, pilih String.

  7. Untuk Nilai, tentukan awalan.

Setelah Anda membuat parameter, terapkan transformasi ke dataset Anda dan buat node tujuan untuk mereka. Untuk informasi selengkapnya tentang node tujuan, lihatEkspor.

Gunakan prosedur berikut untuk menerapkan transformasi dari aliran Data Wrangler Anda ke rentang waktu yang berbeda. Ini mengasumsikan bahwa Anda telah membuat node tujuan untuk transformasi dalam alur Anda.

Untuk mengubah nilai parameter numerik dalam pekerjaan pemrosesan Data Wrangler, lakukan hal berikut:

  1. Dari alur Data Wrangler Anda, pilih Buat pekerjaan

  2. Pilih hanya node tujuan yang berisi transformasi ke dataset yang berisi parameter datetime.

  3. Pilih Konfigurasi pekerjaan.

  4. Pilih Parameter.

  5. Pilih nama parameter yang telah Anda buat.

  6. Ubah nilai parameter.

  7. Ulangi prosedur untuk parameter lainnya.

  8. Pilih Jalankan.

Gunakan parameter datetime untuk menerapkan transformasi dalam alur Data Wrangler Anda ke rentang waktu yang berbeda. Sorot bagian Amazon S3 URI yang memiliki stempel waktu dan buat parameter untuk itu. Saat Anda membuat parameter, Anda menentukan rentang waktu dari waktu saat ini ke waktu di masa lalu. Misalnya, Anda mungkin memiliki Amazon S3 URI yang terlihat seperti berikut:. s3://amzn-s3-demo-bucket1/example-prefix/2022/05/15/example-dataset.csv Anda dapat menyimpan 2022/05/15 sebagai parameter datetime. Jika Anda menentukan tahun sebagai rentang waktu, rentang waktu mencakup saat Anda menjalankan pekerjaan pemrosesan yang berisi parameter datetime dan waktu tepat satu tahun yang lalu. Jika saat Anda menjalankan pekerjaan pemrosesan adalah 6 September 2022 atau2022/09/06, rentang waktu dapat mencakup yang berikut:

  • s3://amzn-s3-demo-bucket1/example-prefix/2022/03/15/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/2022/01/08/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/2022/07/31/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/2021/09/07/example-dataset.csv

Transformasi dalam aliran Data Wrangler berlaku untuk semua awalan sebelumnya. Mengubah nilai parameter dalam pekerjaan pemrosesan tidak mengubah nilai parameter dalam aliran Data Wrangler. Untuk menerapkan transformasi ke kumpulan data dalam rentang waktu yang berbeda, lakukan hal berikut:

  1. Buat node tujuan yang berisi semua transformasi yang ingin Anda gunakan.

  2. Buat pekerjaan Data Wrangler.

  3. Konfigurasikan pekerjaan untuk menggunakan rentang waktu yang berbeda untuk parameter. Mengubah nilai parameter dalam pekerjaan pemrosesan tidak mengubah nilai parameter dalam aliran Data Wrangler.

Untuk informasi selengkapnya tentang node tujuan dan pekerjaan Data Wrangler, lihat. Ekspor

Prosedur berikut membuat parameter datetime untuk jalur Amazon S3:. s3://amzn-s3-demo-bucket1/example-prefix/2022/05/15/example-dataset.csv

Untuk membuat parameter datetime untuk URI jalur S3 sebelumnya, lakukan hal berikut.

  1. Arahkan ke alur Data Wrangler Anda.

  2. Di samping dataset yang telah Anda impor, pilih Edit dataset.

  3. Sorot bagian URI yang Anda gunakan sebagai nilai parameter datetime.

  4. Pilih Buat parameter kustom.

  5. Untuk Nama, tentukan nama untuk parameter.

  6. Untuk Type, pilih Datetime.

    catatan

    Secara default, Data Wrangler memilih Predefined, yang menyediakan menu dropdown bagi Anda untuk memilih format tanggal. Namun, format stempel waktu yang Anda gunakan mungkin tidak tersedia. Alih-alih menggunakan Predefined sebagai opsi default, Anda dapat memilih Custom dan menentukan format stempel waktu secara manual.

  7. Untuk format Tanggal, buka menu dropdown berikut Predefined dan pilih YYYY/mm/dd. Formatnya, yyyy/mm/dd, sesuai dengan tahun/bulan/hari stempel waktu.

  8. Untuk Timezone, pilih zona waktu.

    catatan

    Data yang Anda analisis mungkin memiliki stempel waktu yang diambil di zona waktu yang berbeda dari zona waktu Anda. Pastikan zona waktu yang Anda pilih cocok dengan zona waktu data.

  9. Untuk Rentang waktu, tentukan rentang waktu untuk parameter.

  10. (Opsional) Masukkan deskripsi untuk menjelaskan bagaimana Anda menggunakan parameter.

  11. Pilih Buat.

Setelah Anda membuat parameter datetime, terapkan transformasi ke dataset Anda dan buat node tujuan untuk mereka. Untuk informasi selengkapnya tentang node tujuan, lihatEkspor.

Gunakan prosedur berikut untuk menerapkan transformasi dari aliran Data Wrangler Anda ke rentang waktu yang berbeda. Ini mengasumsikan bahwa Anda telah membuat node tujuan untuk transformasi dalam alur Anda.

Untuk mengubah nilai parameter datetime dalam pekerjaan pemrosesan Data Wrangler, lakukan hal berikut:

  1. Dari alur Data Wrangler Anda, pilih Buat pekerjaan

  2. Pilih hanya node tujuan yang berisi transformasi ke dataset yang berisi parameter datetime.

  3. Pilih Konfigurasi pekerjaan.

  4. Pilih Parameter.

  5. Pilih nama parameter datetime yang telah Anda buat.

  6. Untuk rentang waktu, ubah rentang waktu untuk kumpulan data.

  7. Pilih Jalankan.