Ekspor - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ekspor

Dalam alur Data Wrangler Anda, Anda dapat mengekspor beberapa atau semua transformasi yang telah Anda buat ke pipeline pemrosesan data Anda.

Alur Data Wrangler adalah serangkaian langkah persiapan data yang telah Anda lakukan pada data Anda. Dalam persiapan data Anda, Anda melakukan satu atau lebih transformasi ke data Anda. Setiap transformasi dilakukan dengan menggunakan langkah transformasi. Aliran memiliki serangkaian node yang mewakili impor data Anda dan transformasi yang telah Anda lakukan. Untuk contoh node, lihat gambar berikut.

Gambar sebelumnya menunjukkan aliran Data Wrangler dengan dua node. Node sampel Sumber menunjukkan sumber data dari mana Anda telah mengimpor data Anda. Node tipe Data menunjukkan bahwa Data Wrangler telah melakukan transformasi untuk mengubah kumpulan data menjadi format yang dapat digunakan.

Setiap transformasi yang Anda tambahkan ke aliran Data Wrangler muncul sebagai node tambahan. Untuk informasi tentang transformasi yang dapat Anda tambahkan, lihatTransformasi Data. Gambar berikut menunjukkan aliran Data Wrangler yang memiliki node Rename-column untuk mengubah nama kolom dalam dataset.

Anda dapat mengekspor transformasi data Anda ke yang berikut:

  • Amazon S3

  • SageMaker Pipa

  • Toko SageMaker Fitur Amazon

  • Kode Python

penting

Kami menyarankan Anda menggunakan kebijakan AmazonSageMakerFullAccess terkelola IAM untuk memberikan AWS izin menggunakan Data Wrangler. Jika tidak menggunakan kebijakan terkelola, Anda dapat menggunakan kebijakan IAM yang memberikan akses Data Wrangler ke bucket Amazon S3. Untuk informasi lebih lanjut tentang kebijakan ini, lihatKeamanan dan Izin.

Saat mengekspor aliran data, Anda dikenakan biaya untuk AWS sumber daya yang Anda gunakan. Anda dapat menggunakan tag alokasi biaya untuk mengatur dan mengelola biaya sumber daya tersebut. Anda membuat tag ini untuk profil pengguna Anda dan Data Wrangler secara otomatis menerapkannya ke sumber daya yang digunakan untuk mengekspor aliran data. Untuk informasi selengkapnya, lihat Menggunakan Tag Alokasi Biaya.

Ekspor ke Amazon S3

Data Wrangler memberi Anda kemampuan untuk mengekspor data ke lokasi dalam bucket Amazon S3. Anda dapat menentukan lokasi menggunakan salah satu metode berikut:

  • Node tujuan — Dimana Data Wrangler menyimpan data setelah memprosesnya.

  • Ekspor ke — Mengekspor data yang dihasilkan dari transformasi ke Amazon S3.

  • Ekspor data — Untuk kumpulan data kecil, dapat dengan cepat mengekspor data yang telah Anda ubah.

Gunakan bagian berikut untuk mempelajari lebih lanjut tentang masing-masing metode ini.

Destination Node

Jika Anda ingin menampilkan serangkaian langkah pemrosesan data yang telah Anda lakukan ke Amazon S3, Anda membuat node tujuan. Node tujuan memberi tahu Data Wrangler tempat menyimpan data setelah Anda memprosesnya. Setelah Anda membuat node tujuan, Anda membuat pekerjaan pemrosesan untuk menampilkan data. Pekerjaan pemrosesan adalah pekerjaan SageMaker pemrosesan Amazon. Saat Anda menggunakan node tujuan, ia menjalankan sumber daya komputasi yang diperlukan untuk menampilkan data yang telah Anda ubah ke Amazon S3.

Anda dapat menggunakan node tujuan untuk mengekspor beberapa transformasi atau semua transformasi yang telah Anda buat dalam alur Data Wrangler Anda.

Anda dapat menggunakan beberapa node tujuan untuk mengekspor transformasi atau set transformasi yang berbeda. Contoh berikut menunjukkan dua node tujuan dalam aliran Data Wrangler tunggal.

Anda dapat menggunakan prosedur berikut untuk membuat node tujuan dan mengekspornya ke bucket Amazon S3.

Untuk mengekspor aliran data Anda, Anda membuat node tujuan dan pekerjaan Data Wrangler untuk mengekspor data. Membuat pekerjaan Data Wrangler memulai pekerjaan SageMaker pemrosesan untuk mengekspor alur Anda. Anda dapat memilih node tujuan yang ingin Anda ekspor setelah Anda membuatnya.

catatan

Anda dapat memilih Buat pekerjaan di alur Data Wrangler untuk melihat instruksi untuk menggunakan pekerjaan pemrosesan.

Gunakan prosedur berikut untuk membuat node tujuan.

  1. Pilih + di sebelah node yang mewakili transformasi yang ingin Anda ekspor.

  2. Pilih Tambahkan tujuan.

  3. Pilih Amazon S3.

  4. Tentukan bidang berikut.

    • Nama Dataset — Nama yang Anda tentukan untuk dataset yang Anda ekspor.

    • Jenis file — Format file yang Anda ekspor.

    • Delimiter (file CSV dan Parket saja) — Nilai yang digunakan untuk memisahkan nilai lainnya.

    • Kompresi (file CSV dan Parket saja) — Metode kompresi yang digunakan untuk mengurangi ukuran file. Anda dapat menggunakan metode kompresi berikut:

      • bzip2

      • mengempiskan

      • gzip

    • (Opsional) Lokasi Amazon S3 — Lokasi S3 yang Anda gunakan untuk menampilkan file.

    • (Opsional) Jumlah partisi — Jumlah kumpulan data yang Anda tulis sebagai output dari pekerjaan pemrosesan.

    • (Opsional) Partisi demi kolom - Menulis semua data dengan nilai unik yang sama dari kolom.

    • (Opsional) Parameter Inferensi — Memilih Hasilkan artefak inferensi menerapkan semua transformasi yang Anda gunakan dalam aliran Data Wrangler ke data yang masuk ke pipeline inferensi Anda. Model dalam pipeline Anda membuat prediksi pada data yang diubah.

  5. Pilih Tambahkan tujuan.

Gunakan prosedur berikut untuk membuat pekerjaan pemrosesan.

Buat pekerjaan dari halaman aliran Data dan pilih node tujuan yang ingin Anda ekspor.

catatan

Anda dapat memilih Buat pekerjaan di alur Data Wrangler untuk melihat instruksi untuk membuat pekerjaan pemrosesan.

  1. Pilih Buat tugas. Gambar berikut menunjukkan panel yang muncul setelah Anda memilih Buat pekerjaan.

  2. Untuk nama Job, tentukan nama pekerjaan ekspor.

  3. Pilih node tujuan yang ingin Anda ekspor.

  4. (Opsional) Tentukan AWS KMS ARN kunci. AWS KMS Kunci adalah kunci kriptografi yang dapat Anda gunakan untuk melindungi data Anda. Untuk informasi selengkapnya tentang AWS KMS kunci, lihat AWS Key Management Service.

  5. (Opsional) Di bawah parameter Terlatih. pilih Reparasi jika Anda telah melakukan hal berikut:

    • Contoh kumpulan data Anda

    • Menerapkan transformasi yang menggunakan data Anda untuk membuat kolom baru dalam kumpulan data

    Untuk informasi selengkapnya tentang memperbaiki transformasi yang telah Anda buat ke seluruh kumpulan data, lihat. Reparasi Transformasi ke Seluruh Dataset dan Ekspor Mereka

    catatan

    Untuk data gambar, Data Wrangler mengekspor transformasi yang telah Anda buat ke semua gambar. Memperbaiki transformasi tidak berlaku untuk kasus penggunaan Anda.

  6. Pilih Konfigurasikan pekerjaan. Gambar berikut menunjukkan halaman Configure job.

  7. (Opsional) Konfigurasikan pekerjaan Data Wrangler. Anda dapat membuat konfigurasi berikut:

    • Konfigurasi Job

    • Konfigurasi memori percikan

    • Konfigurasi jaringan

    • Tanda

    • Parameter

    • Jadwal Asosiasi

  8. Pilih Jalankan.

Export to

Sebagai alternatif untuk menggunakan node tujuan, Anda dapat menggunakan opsi Ekspor ke untuk mengekspor aliran Data Wrangler Anda ke Amazon S3 menggunakan notebook Jupyter. Anda dapat memilih node data apa pun dalam aliran Data Wrangler Anda dan mengekspornya. Mengekspor node data mengekspor transformasi yang diwakili oleh node dan transformasi yang mendahuluinya.

Gunakan prosedur berikut untuk membuat notebook Jupyter dan menjalankannya untuk mengekspor aliran Data Wrangler Anda ke Amazon S3.

  1. Pilih + di sebelah node yang ingin Anda ekspor.

  2. Pilih Ekspor ke.

  3. Pilih Amazon S3 (melalui Jupyter Notebook).

  4. Jalankan notebook Jupyter.

Saat Anda menjalankan buku catatan, buku catatan akan mengekspor aliran data Anda (file.flow) Wilayah AWS sama dengan alur Data Wrangler.

Notebook menyediakan opsi yang dapat Anda gunakan untuk mengonfigurasi pekerjaan pemrosesan dan data yang dikeluarkannya.

penting

Kami memberi Anda konfigurasi pekerjaan untuk mengonfigurasi output data Anda. Untuk opsi partisi dan memori driver, kami sangat menyarankan agar Anda tidak menentukan konfigurasi kecuali Anda sudah memiliki pengetahuan tentang mereka.

Di bawah Job Configurations, Anda dapat mengonfigurasi hal berikut:

  • output_content_type— Jenis konten dari file output. Menggunakan CSV sebagai format default, tetapi Anda dapat menentukanParquet.

  • delimiter— Karakter yang digunakan untuk memisahkan nilai dalam dataset saat menulis ke file CSV.

  • compression— Jika diatur, kompres file output. Menggunakan gzip sebagai format kompresi default.

  • num_partitions— Jumlah partisi atau file yang ditulis Data Wrangler sebagai output.

  • partition_by— Nama-nama kolom yang Anda gunakan untuk mempartisi output.

Untuk mengubah format file output dari CSV ke Parquet, ubah nilainya dari "CSV" ke. "Parquet" Untuk sisa bidang sebelumnya, batalkan komentar pada baris yang berisi bidang yang ingin Anda tentukan.

Di bawah (Opsional) Konfigurasikan Memori Driver Cluster Spark Anda dapat mengonfigurasi properti Spark untuk pekerjaan itu, seperti memori driver Spark, di kamus. config

Berikut ini menunjukkan config kamus.

config = json.dumps({ "Classification": "spark-defaults", "Properties": { "spark.driver.memory": f"{driver_memory_in_mb}m", } })

Untuk menerapkan konfigurasi ke pekerjaan pemrosesan, hapus komentar pada baris berikut:

# data_sources.append(ProcessingInput( # source=config_s3_uri, # destination="/opt/ml/processing/input/conf", # input_name="spark-config", # s3_data_type="S3Prefix", # s3_input_mode="File", # s3_data_distribution_type="FullyReplicated" # ))
Export data

Jika Anda memiliki transformasi pada kumpulan data kecil yang ingin Anda ekspor dengan cepat, Anda dapat menggunakan metode Ekspor data. Saat Anda mulai memilih Ekspor data, Data Wrangler bekerja secara sinkron untuk mengekspor data yang telah Anda ubah ke Amazon S3. Anda tidak dapat menggunakan Data Wrangler sampai selesai mengekspor data Anda atau membatalkan operasi.

Untuk informasi tentang penggunaan metode Ekspor data dalam alur Data Wrangler Anda, lihat prosedur berikut.

Untuk menggunakan metode data Ekspor:

  1. Pilih node dalam aliran Data Wrangler Anda dengan membuka (mengklik dua kali) itu.

  2. Konfigurasikan bagaimana Anda ingin mengekspor data.

  3. Pilih Ekspor data.

Saat Anda mengekspor aliran data ke bucket Amazon S3, Data Wrangler menyimpan salinan file alur di bucket S3. Ini menyimpan file aliran di bawah awalan data_wrangler_flows. Jika Anda menggunakan bucket Amazon S3 default untuk menyimpan file flow, bucket ini menggunakan konvensi penamaan berikut:. sagemaker-region-account number Misalnya, jika nomor akun Anda adalah 111122223333 dan Anda menggunakan Studio Classic di us-east-1, kumpulan data yang Anda impor akan disimpan. sagemaker-us-east-1-111122223333 Dalam contoh ini, file.flow Anda yang dibuat di us-east-1 disimpan di. s3://sagemaker-region-account number/data_wrangler_flows/

Ekspor ke SageMaker Pipa

Saat ingin membangun dan menerapkan alur kerja machine learning (ML) skala besar, Anda dapat menggunakan SageMaker Pipelines untuk membuat alur kerja yang mengelola dan menerapkan pekerjaan. SageMaker Dengan SageMaker Pipelines, Anda dapat membangun alur kerja yang mengelola persiapan SageMaker data, pelatihan model, dan memodelkan pekerjaan penerapan. Anda dapat menggunakan algoritma pihak pertama yang SageMaker menawarkan dengan menggunakan SageMaker Pipelines. Untuk informasi lebih lanjut tentang SageMaker Pipelines, lihat SageMaker Pipelines.

Saat Anda mengekspor satu atau beberapa langkah dari aliran data ke SageMaker Pipelines, Data Wrangler akan membuat buku catatan Jupyter yang dapat Anda gunakan untuk menentukan, membuat instance, menjalankan, dan mengelola pipeline.

Menggunakan Notebook Jupyter untuk Membuat Pipeline

Gunakan prosedur berikut untuk membuat notebook Jupyter untuk mengekspor aliran Data Wrangler Anda ke Pipelines. SageMaker

Gunakan prosedur berikut untuk membuat notebook Jupyter dan menjalankannya untuk mengekspor aliran Data Wrangler Anda ke Pipelines. SageMaker

  1. Pilih + di sebelah node yang ingin Anda ekspor.

  2. Pilih Ekspor ke.

  3. Pilih SageMaker Pipelines (melalui Jupyter Notebook).

  4. Jalankan notebook Jupyter.

Anda dapat menggunakan notebook Jupyter yang dihasilkan Data Wrangler untuk menentukan pipeline. Pipeline mencakup langkah-langkah pemrosesan data yang ditentukan oleh alur Data Wrangler Anda.

Anda dapat menambahkan langkah tambahan ke pipeline dengan menambahkan langkah-langkah ke steps daftar dalam kode berikut di buku catatan:

pipeline = Pipeline( name=pipeline_name, parameters=[instance_type, instance_count], steps=[step_process], #Add more steps to this list to run in your Pipeline )

Untuk informasi selengkapnya tentang mendefinisikan pipeline, lihat Mendefinisikan SageMaker Pipeline.

Ekspor ke Endpoint Inferensi

Gunakan alur Data Wrangler Anda untuk memproses data pada saat inferensi dengan membuat pipeline inferensi SageMaker serial dari alur Data Wrangler Anda. Pipa inferensi adalah serangkaian langkah yang menghasilkan model terlatih yang membuat prediksi pada data baru. Pipa inferensi serial dalam Data Wrangler mengubah data mentah dan menyediakannya ke model pembelajaran mesin untuk prediksi. Anda membuat, menjalankan, dan mengelola pipeline inferensi dari notebook Jupyter dalam Studio Classic. Untuk informasi selengkapnya tentang mengakses buku catatan, lihatMenggunakan Notebook Jupyter untuk membuat titik akhir inferensi.

Di dalam buku catatan, Anda dapat melatih model pembelajaran mesin atau menentukan model yang sudah Anda latih. Anda dapat menggunakan Amazon SageMaker Autopilot atau XGBoost untuk melatih model menggunakan data yang telah Anda ubah dalam alur Data Wrangler Anda.

Pipeline menyediakan kemampuan untuk melakukan inferensi batch atau real-time. Anda juga dapat menambahkan aliran Data Wrangler ke SageMaker Model Registry. Untuk informasi selengkapnya tentang model hosting, lihatHost beberapa model dalam satu wadah di belakang satu titik akhir.

penting

Anda tidak dapat mengekspor aliran Data Wrangler ke titik akhir inferensi jika memiliki transformasi berikut:

  • Join

  • Bersambung

  • Grup oleh

Jika Anda harus menggunakan transformasi sebelumnya untuk menyiapkan data Anda, gunakan prosedur berikut.

Untuk mempersiapkan data Anda untuk inferensi dengan transformasi yang tidak didukung
  1. Buat alur Data Wrangler.

  2. Terapkan transformasi sebelumnya yang tidak didukung.

  3. Ekspor data ke bucket Amazon S3.

  4. Buat alur Data Wrangler terpisah.

  5. Impor data yang telah Anda ekspor dari alur sebelumnya.

  6. Terapkan transformasi yang tersisa.

  7. Buat pipeline inferensi serial menggunakan notebook Jupyter yang kami sediakan.

Untuk informasi tentang mengekspor data ke bucket Amazon S3, lihat. Ekspor ke Amazon S3 Untuk informasi tentang membuka notebook Jupyter yang digunakan untuk membuat pipeline inferensi serial, lihat. Menggunakan Notebook Jupyter untuk membuat titik akhir inferensi

Data Wrangler mengabaikan transformasi yang menghapus data pada saat inferensi. Misalnya, Data Wrangler mengabaikan Tangani Nilai yang Hilang transformasi jika Anda menggunakan konfigurasi Drop missing.

Jika Anda telah mereparasi transformasi ke seluruh kumpulan data Anda, transformasi terbawa ke saluran inferensi Anda. Misalnya, jika Anda menggunakan nilai median untuk mengimputasi nilai yang hilang, nilai median dari refitting transformasi diterapkan ke permintaan inferensi Anda. Anda dapat mereparasi transformasi dari alur Data Wrangler saat menggunakan notebook Jupyter atau saat mengekspor data ke pipeline inferensi. Untuk informasi tentang memperbaiki transformasi, lihat. Reparasi Transformasi ke Seluruh Dataset dan Ekspor Mereka

Pipa inferensi serial mendukung tipe data berikut untuk string input dan output. Setiap tipe data memiliki seperangkat persyaratan.

Jenis data yang didukung
  • text/csv— tipe data untuk string CSV

    • String tidak dapat memiliki header.

    • Fitur yang digunakan untuk pipa inferensi harus dalam urutan yang sama dengan fitur dalam kumpulan data pelatihan.

    • Harus ada pembatas koma di antara fitur.

    • Catatan harus dibatasi oleh karakter baris baru.

    Berikut ini adalah contoh string CSV yang diformat secara valid yang dapat Anda berikan dalam permintaan inferensi.

    abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890
  • application/json— tipe data untuk string JSON

    • Fitur yang digunakan dalam kumpulan data untuk pipa inferensi harus dalam urutan yang sama dengan fitur dalam kumpulan data pelatihan.

    • Data harus memiliki skema tertentu. Anda mendefinisikan skema sebagai instances objek tunggal yang memiliki satu set. features Setiap features objek mewakili pengamatan.

    Berikut ini adalah contoh string JSON yang diformat secara valid yang dapat Anda berikan dalam permintaan inferensi.

    { "instances": [ { "features": ["abc", 0.0, "Doe, John", 12345] }, { "features": ["def", 1.1, "Doe, Jane", 67890] } ] }

Menggunakan Notebook Jupyter untuk membuat titik akhir inferensi

Gunakan prosedur berikut untuk mengekspor alur Data Wrangler Anda untuk membuat pipeline inferensi.

Untuk membuat pipeline inferensi menggunakan notebook Jupyter, lakukan hal berikut.

  1. Pilih + di sebelah node yang ingin Anda ekspor.

  2. Pilih Ekspor ke.

  3. Pilih SageMaker Inference Pipeline (melalui Jupyter Notebook).

  4. Jalankan notebook Jupyter.

Saat Anda menjalankan notebook Jupyter, itu menciptakan artefak aliran inferensi. Artefak aliran inferensi adalah file aliran Data Wrangler dengan metadata tambahan yang digunakan untuk membuat pipeline inferensi serial. Node yang Anda ekspor mencakup semua transformasi dari node sebelumnya.

penting

Data Wrangler membutuhkan artefak aliran inferensi untuk menjalankan pipa inferensi. Anda tidak dapat menggunakan file aliran Anda sendiri sebagai artefak. Anda harus membuatnya dengan menggunakan prosedur sebelumnya.

Ekspor ke Kode Python

Untuk mengekspor semua langkah dalam aliran data Anda ke file Python yang dapat Anda integrasikan secara manual ke dalam alur kerja pemrosesan data apa pun, gunakan prosedur berikut.

Gunakan prosedur berikut untuk menghasilkan notebook Jupyter dan menjalankannya untuk mengekspor aliran Data Wrangler Anda ke Kode Python.

  1. Pilih + di sebelah node yang ingin Anda ekspor.

  2. Pilih Ekspor ke.

  3. Pilih Kode Python.

  4. Jalankan notebook Jupyter.

Anda mungkin perlu mengonfigurasi skrip Python untuk membuatnya berjalan di pipeline Anda. Misalnya, jika Anda menjalankan lingkungan Spark, pastikan Anda menjalankan skrip dari lingkungan yang memiliki izin untuk mengakses AWS sumber daya.

Ekspor ke Toko SageMaker Fitur Amazon

Anda dapat menggunakan Data Wrangler untuk mengekspor fitur yang telah Anda buat ke Amazon SageMaker Feature Store. Fitur adalah kolom dalam dataset Anda. Feature Store adalah toko terpusat untuk fitur dan metadata terkait. Anda dapat menggunakan Feature Store untuk membuat, berbagi, dan mengelola data yang dikurasi untuk pengembangan machine learning (ML). Toko terpusat membuat data Anda lebih mudah ditemukan dan dapat digunakan kembali. Untuk informasi selengkapnya tentang Toko Fitur, lihat Toko SageMaker Fitur Amazon.

Konsep inti di Feature Store adalah grup fitur. Grup fitur adalah kumpulan fitur, catatan mereka (pengamatan), dan metadata terkait. Ini mirip dengan tabel dalam database.

Anda dapat menggunakan Data Wrangler untuk melakukan salah satu hal berikut:

  • Perbarui grup fitur yang ada dengan catatan baru. Catatan adalah pengamatan dalam dataset.

  • Buat grup fitur baru dari node dalam alur Data Wrangler Anda. Data Wrangler menambahkan pengamatan dari kumpulan data Anda sebagai catatan dalam grup fitur Anda.

Jika Anda memperbarui grup fitur yang ada, skema kumpulan data Anda harus cocok dengan skema grup fitur. Semua catatan dalam grup fitur diganti dengan pengamatan di kumpulan data Anda.

Anda dapat menggunakan buku catatan Jupyter atau simpul tujuan untuk memperbarui grup fitur Anda dengan pengamatan dalam kumpulan data.

Jika grup fitur Anda dengan format tabel Iceberg memiliki kunci enkripsi toko offline khusus, pastikan Anda memberikan IAM yang Anda gunakan untuk izin pekerjaan Amazon SageMaker Processing untuk menggunakannya. Minimal, Anda harus memberikan izin untuk mengenkripsi data yang Anda tulis ke Amazon S3. Untuk memberikan izin, berikan peran IAM kemampuan untuk menggunakan. GenerateDataKey Untuk informasi selengkapnya tentang pemberian izin peran IAM untuk menggunakan kunci, lihat AWS KMS https://docs.aws.amazon.com/kms/latest/developerguide/key-policies.html

Destination Node

Jika Anda ingin menampilkan serangkaian langkah pemrosesan data yang telah Anda lakukan ke grup fitur, Anda dapat membuat simpul tujuan. Saat Anda membuat dan menjalankan node tujuan, Data Wrangler memperbarui grup fitur dengan data Anda. Anda juga dapat membuat grup fitur baru dari UI node tujuan. Setelah Anda membuat node tujuan, Anda membuat pekerjaan pemrosesan untuk menampilkan data. Pekerjaan pemrosesan adalah pekerjaan SageMaker pemrosesan Amazon. Saat Anda menggunakan node tujuan, ia menjalankan sumber daya komputasi yang diperlukan untuk menampilkan data yang telah Anda ubah ke grup fitur.

Anda dapat menggunakan node tujuan untuk mengekspor beberapa transformasi atau semua transformasi yang telah Anda buat dalam alur Data Wrangler Anda.

Gunakan prosedur berikut untuk membuat node tujuan untuk memperbarui grup fitur dengan pengamatan dari kumpulan data Anda.

Untuk memperbarui grup fitur menggunakan node tujuan, lakukan hal berikut.

catatan

Anda dapat memilih Buat pekerjaan di alur Data Wrangler untuk melihat petunjuk penggunaan pekerjaan pemrosesan untuk memperbarui grup fitur.

  1. Pilih simbol + di sebelah simpul yang berisi kumpulan data yang ingin Anda ekspor.

  2. Di bawah Tambahkan tujuan, pilih Toko SageMaker Fitur.

  3. Pilih (klik dua kali) grup fitur. Data Wrangler memeriksa apakah skema grup fitur cocok dengan skema data yang Anda gunakan untuk memperbarui grup fitur.

  4. (Opsional) Pilih Ekspor ke toko offline hanya untuk grup fitur yang memiliki toko online dan toko offline. Opsi ini hanya memperbarui toko offline dengan pengamatan dari kumpulan data Anda.

  5. Setelah Data Wrangler memvalidasi skema kumpulan data Anda, pilih Tambah.

Gunakan prosedur berikut untuk membuat grup fitur baru dengan data dari kumpulan data Anda.

Anda dapat menyimpan grup fitur Anda dengan salah satu cara berikut:

  • Online — Latensi rendah, cache ketersediaan tinggi untuk grup fitur yang menyediakan pencarian catatan secara real-time. Toko online memungkinkan akses cepat ke nilai terbaru untuk catatan dalam grup fitur.

  • Offline — Menyimpan data untuk grup fitur Anda di bucket Amazon S3. Anda dapat menyimpan data secara offline saat Anda tidak memerlukan pembacaan latensi rendah (sub-detik). Anda dapat menggunakan toko offline untuk fitur yang digunakan dalam eksplorasi data, pelatihan model, dan inferensi batch.

  • Baik online maupun offline — Menyimpan data Anda di toko online dan toko offline.

Untuk membuat grup fitur menggunakan node tujuan, lakukan hal berikut.

  1. Pilih simbol + di sebelah simpul yang berisi kumpulan data yang ingin Anda ekspor.

  2. Di bawah Tambahkan tujuan, pilih Toko SageMaker Fitur.

  3. Pilih Buat Grup Fitur.

  4. Di kotak dialog berikut, jika kumpulan data Anda tidak memiliki kolom waktu acara, pilih Buat kolom “EventTime”.

  5. Pilih Selanjutnya.

  6. Pilih Salin Skema JSON. Saat Anda membuat grup fitur, Anda menempelkan skema ke dalam definisi fitur.

  7. Pilih Buat.

  8. Untuk nama grup Fitur, tentukan nama untuk grup fitur Anda.

  9. Untuk Deskripsi (opsional), tentukan deskripsi untuk membuat grup fitur Anda lebih mudah ditemukan.

  10. Untuk membuat grup fitur untuk toko online, lakukan hal berikut.

    1. Pilih Aktifkan penyimpanan online.

    2. Untuk kunci enkripsi toko online, tentukan kunci enkripsi AWS terkelola atau kunci enkripsi Anda sendiri.

  11. Untuk membuat grup fitur untuk toko offline, lakukan hal berikut.

    1. Pilih Aktifkan penyimpanan offline. Tentukan nilai untuk bidang berikut:

      • Nama bucket S3 — Nama bucket Amazon S3 yang menyimpan grup fitur.

      • (Opsional) Nama direktori Dataset — Awalan Amazon S3 yang Anda gunakan untuk menyimpan grup fitur.

      • IAM Role ARN — Peran IAM yang memiliki akses ke Feature Store.

      • Format Tabel - Format tabel toko offline Anda. Anda dapat menentukan Glue atau Iceberg. Glue adalah format default.

      • Kunci enkripsi toko offline — Secara default, Toko Fitur menggunakan kunci AWS Key Management Service terkelola, tetapi Anda dapat menggunakan bidang untuk menentukan kunci Anda sendiri.

    2. Tentukan nilai untuk bidang berikut:

      • Nama bucket S3 — Nama bucket yang menyimpan grup fitur.

      • (Opsional) Nama direktori Dataset — Awalan Amazon S3 yang Anda gunakan untuk menyimpan grup fitur.

      • IAM Role ARN — Peran IAM yang memiliki akses ke feature store.

      • Kunci enkripsi toko offline — Secara default, Toko Fitur menggunakan kunci AWS terkelola, tetapi Anda dapat menggunakan bidang untuk menentukan kunci Anda sendiri.

  12. Pilih Lanjutkan.

  13. PilihJSON.

  14. Lepaskan tanda kurung placeholder di jendela.

  15. Tempel teks JSON dari Langkah 6.

  16. Pilih Lanjutkan.

  17. Untuk RECORD IDENTIFIER FEATURE NAME, pilih kolom di dataset Anda yang memiliki pengidentifikasi unik untuk setiap record dalam dataset Anda.

  18. Untuk NAMA FITUR WAKTU ACARA, pilih kolom dengan nilai stempel waktu.

  19. Pilih Lanjutkan.

  20. (Opsional) Tambahkan tag untuk membuat grup fitur Anda lebih mudah ditemukan.

  21. Pilih Lanjutkan.

  22. Pilih Buat grup fitur.

  23. Arahkan kembali ke alur Data Wrangler Anda dan pilih ikon penyegaran di sebelah bilah pencarian Grup Fitur.

catatan

Jika Anda telah membuat node tujuan untuk grup fitur dalam alur, Anda tidak dapat membuat node tujuan lain untuk grup fitur yang sama. Jika Anda ingin membuat node tujuan lain untuk grup fitur yang sama, Anda harus membuat file aliran lain.

Gunakan prosedur berikut untuk membuat pekerjaan Data Wrangler.

Buat pekerjaan dari halaman aliran Data dan pilih node tujuan yang ingin Anda ekspor.

  1. Pilih Buat tugas. Gambar berikut menunjukkan panel yang muncul setelah Anda memilih Buat pekerjaan.

  2. Untuk nama Job, tentukan nama pekerjaan ekspor.

  3. Pilih node tujuan yang ingin Anda ekspor.

  4. (Opsional) Untuk Output KMS Key, tentukan ARN, ID, atau alias kunci. AWS KMS Kunci KMS adalah kunci kriptografi. Anda dapat menggunakan kunci untuk mengenkripsi data output dari pekerjaan. Untuk informasi selengkapnya tentang AWS KMS kunci, lihat AWS Key Management Service.

  5. Gambar berikut menunjukkan halaman Configure job dengan tab konfigurasi Job terbuka.

    Bagian konfigurasi Job terletak di dekat bagian atas halaman Configure job.

    (Opsional) Di bawah parameter Terlatih. pilih Reparasi jika Anda telah melakukan hal berikut:

    • Contoh kumpulan data Anda

    • Menerapkan transformasi yang menggunakan data Anda untuk membuat kolom baru dalam kumpulan data

    Untuk informasi selengkapnya tentang memperbaiki transformasi yang telah Anda buat ke seluruh kumpulan data, lihat. Reparasi Transformasi ke Seluruh Dataset dan Ekspor Mereka

  6. Pilih Konfigurasikan pekerjaan.

  7. (Opsional) Konfigurasikan pekerjaan Data Wrangler. Anda dapat membuat konfigurasi berikut:

    • Konfigurasi Job

    • Konfigurasi memori percikan

    • Konfigurasi jaringan

    • Tanda

    • Parameter

    • Jadwal Asosiasi

  8. Pilih Jalankan.

Jupyter notebook

Gunakan prosedur berikut ke notebook Jupyter untuk mengekspor ke Amazon SageMaker Feature Store.

Gunakan prosedur berikut untuk membuat notebook Jupyter dan menjalankannya untuk mengekspor aliran Data Wrangler Anda ke Feature Store.

  1. Pilih + di sebelah node yang ingin Anda ekspor.

  2. Pilih Ekspor ke.

  3. Pilih Amazon SageMaker Feature Store (melalui Jupyter Notebook).

  4. Jalankan notebook Jupyter.

Menjalankan notebook Jupyter menjalankan pekerjaan Data Wrangler. Menjalankan pekerjaan Data Wrangler memulai pekerjaan SageMaker pemrosesan. Pekerjaan pemrosesan menyerap aliran ke feature store online dan offline.

penting

Peran IAM yang Anda gunakan untuk menjalankan buku catatan ini harus memiliki kebijakan AWS terkelola berikut yang dilampirkan: AmazonSageMakerFullAccess danAmazonSageMakerFeatureStoreAccess.

Anda hanya perlu mengaktifkan satu feature store online atau offline saat membuat grup fitur. Anda juga dapat mengaktifkan keduanya. Untuk menonaktifkan pembuatan toko online, atur EnableOnlineStore keFalse:

# Online Store Configuration online_store_config = { "EnableOnlineStore": False }

Notebook menggunakan nama kolom dan jenis kerangka data yang Anda ekspor untuk membuat skema grup fitur, yang digunakan untuk membuat grup fitur. Grup fitur adalah sekelompok fitur yang ditentukan di feature store untuk mendeskripsikan rekaman. Grup fitur mendefinisikan skema dan fitur yang terkandung dalam grup fitur. Definisi grup fitur terdiri dari daftar fitur, nama fitur pengenal catatan, nama fitur waktu acara, dan konfigurasi untuk toko online dan toko offline.

Setiap fitur dalam grup fitur dapat memiliki salah satu dari jenis berikut: String, Fractional, atau Integral. Jika kolom dalam kerangka data yang diekspor Anda bukan salah satu dari jenis ini, itu defaultnya. String

Berikut ini adalah contoh skema grup fitur.

column_schema = [ { "name": "Height", "type": "long" }, { "name": "Input", "type": "string" }, { "name": "Output", "type": "string" }, { "name": "Sum", "type": "string" }, { "name": "Time", "type": "string" } ]

Selain itu, Anda harus menentukan nama pengenal catatan dan nama fitur waktu acara:

  • Nama pengenal rekaman adalah nama fitur yang nilainya secara unik mengidentifikasi catatan yang ditentukan di feature store. Hanya catatan terbaru per nilai pengenal yang disimpan di toko online. Nama fitur pengenal catatan harus menjadi salah satu nama definisi fitur.

  • Nama fitur waktu acara adalah nama fitur yang EventTime menyimpan catatan dalam grup fitur. An EventTime adalah titik waktu ketika peristiwa baru terjadi yang sesuai dengan pembuatan atau pembaruan catatan dalam suatu fitur. Semua catatan dalam grup fitur harus memiliki yang sesuaiEventTime.

Notebook menggunakan konfigurasi ini untuk membuat grup fitur, memproses data Anda dalam skala besar, dan kemudian memasukkan data yang diproses ke toko fitur online dan offline Anda. Untuk mempelajari lebih lanjut, lihat Sumber Data dan Penyerapan.

Notebook menggunakan konfigurasi ini untuk membuat grup fitur, memproses data Anda dalam skala besar, dan kemudian memasukkan data yang diproses ke toko fitur online dan offline Anda. Untuk mempelajari lebih lanjut, lihat Sumber Data dan Penyerapan.

Reparasi Transformasi ke Seluruh Dataset dan Ekspor Mereka

Saat Anda mengimpor data, Data Wrangler menggunakan sampel data untuk menerapkan pengkodean. Secara default, Data Wrangler menggunakan 50.000 baris pertama sebagai sampel, tetapi Anda dapat mengimpor seluruh kumpulan data atau menggunakan metode pengambilan sampel yang berbeda. Untuk informasi selengkapnya, lihat Impor.

Transformasi berikut menggunakan data Anda untuk membuat kolom dalam kumpulan data:

Jika Anda menggunakan sampling untuk mengimpor data Anda, transformasi sebelumnya hanya menggunakan data dari sampel untuk membuat kolom. Transformasi mungkin tidak menggunakan semua data yang relevan. Misalnya, jika Anda menggunakan transformasi Encode Categorical, mungkin ada kategori di seluruh kumpulan data yang tidak ada dalam sampel.

Anda dapat menggunakan node tujuan atau notebook Jupyter untuk mereparasi transformasi ke seluruh kumpulan data. Ketika Data Wrangler mengekspor transformasi dalam aliran, itu menciptakan pekerjaan pemrosesan. SageMaker Saat pekerjaan pemrosesan selesai, Data Wrangler menyimpan file berikut di lokasi Amazon S3 default atau lokasi S3 yang Anda tentukan:

  • File aliran Data Wrangler yang menentukan transformasi yang direparasi ke kumpulan data

  • Dataset dengan transformasi reparasi diterapkan padanya

Anda dapat membuka file aliran Data Wrangler dalam Data Wrangler dan menerapkan transformasi ke kumpulan data yang berbeda. Misalnya, jika Anda telah menerapkan transformasi ke kumpulan data pelatihan, Anda dapat membuka dan menggunakan file aliran Data Wrangler untuk menerapkan transformasi ke kumpulan data yang digunakan untuk inferensi.

Untuk informasi tentang penggunaan node tujuan untuk mereparasi transformasi dan ekspor, lihat halaman berikut:

Gunakan prosedur berikut untuk menjalankan notebook Jupyter untuk mereparasi transformasi dan mengekspor data.

Untuk menjalankan notebook Jupyter dan untuk mereparasi transformasi dan mengekspor aliran Data Wrangler Anda, lakukan hal berikut.

  1. Pilih + di sebelah node yang ingin Anda ekspor.

  2. Pilih Ekspor ke.

  3. Pilih lokasi tempat Anda mengekspor data.

  4. Untuk refit_trained_params objek, atur refit keTrue.

  5. Untuk output_flow bidang, tentukan nama file aliran output dengan transformasi reparasi.

  6. Jalankan notebook Jupyter.

Buat Jadwal untuk Memproses Data Baru Secara Otomatis

Jika Anda memproses data secara berkala, Anda dapat membuat jadwal untuk menjalankan pekerjaan pemrosesan secara otomatis. Misalnya, Anda dapat membuat jadwal yang menjalankan pekerjaan pemrosesan secara otomatis saat Anda mendapatkan data baru. Untuk informasi selengkapnya tentang memproses pekerjaan, lihat Ekspor ke Amazon S3 danEkspor ke Toko SageMaker Fitur Amazon.

Saat Anda membuat pekerjaan, Anda harus menentukan peran IAM yang memiliki izin untuk membuat pekerjaan. Secara default, peran IAM yang Anda gunakan untuk mengakses Data Wrangler adalah. SageMakerExecutionRole

Izin berikut memungkinkan Data Wrangler mengakses EventBridge dan memungkinkan EventBridge untuk menjalankan pekerjaan pemrosesan:

  • Tambahkan kebijakan AWS Terkelola berikut ke peran eksekusi Amazon SageMaker Studio Classic yang memberikan izin kepada Data Wrangler untuk digunakan: EventBridge

    arn:aws:iam::aws:policy/AmazonEventBridgeFullAccess

    Untuk informasi selengkapnya tentang kebijakan, lihat kebijakan AWS terkelola untuk EventBridge.

  • Tambahkan kebijakan berikut ke peran IAM yang Anda tentukan saat membuat pekerjaan di Data Wrangler:

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker:StartPipelineExecution", "Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*" } ] }

    Jika Anda menggunakan peran IAM default, Anda menambahkan kebijakan sebelumnya ke peran eksekusi Amazon SageMaker Studio Classic.

    Tambahkan kebijakan kepercayaan berikut ke peran untuk memungkinkan untuk EventBridge mengasumsikannya.

    { "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
penting

Saat Anda membuat jadwal, Data Wrangler membuat eventRule in. EventBridge Anda dikenakan biaya untuk aturan acara yang Anda buat dan instance yang digunakan untuk menjalankan pekerjaan pemrosesan.

Untuk informasi tentang EventBridge harga, lihat EventBridge harga Amazon. Untuk informasi tentang memproses harga lowongan kerja, lihat SageMaker Harga Amazon.

Anda dapat mengatur jadwal menggunakan salah satu metode berikut:

  • Ekspresi CRON

    catatan

    Data Wrangler tidak mendukung ekspresi berikut:

    • LW#

    • Singkatan untuk hari

    • Singkatan untuk bulan

  • Ekspresi RATE

  • Berulang — Tetapkan interval per jam atau harian untuk menjalankan pekerjaan.

  • Waktu spesifik - Tetapkan hari dan waktu tertentu untuk menjalankan pekerjaan.

Bagian berikut menyediakan prosedur untuk menciptakan lapangan kerja.

CRON

Gunakan prosedur berikut untuk membuat jadwal dengan ekspresi CRON.

Untuk menentukan jadwal dengan ekspresi CRON, lakukan hal berikut.

  1. Buka alur Data Wrangler Anda.

  2. Pilih Buat tugas.

  3. (Opsional) Untuk tombol Output KMS, tentukan AWS KMS kunci untuk mengkonfigurasi output pekerjaan.

  4. Pilih Berikutnya, 2. Konfigurasikan pekerjaan.

  5. Pilih Jadwal Rekanan.

  6. Pilih Buat jadwal baru.

  7. Untuk Nama Jadwal, tentukan nama jadwal.

  8. Untuk Run Frequency, pilih CRON.

  9. Tentukan ekspresi CRON yang valid.

  10. Pilih Buat.

  11. (Opsional) Pilih Tambahkan jadwal lain untuk menjalankan pekerjaan pada jadwal tambahan.

    catatan

    Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

  12. Pilih salah satu cara berikut:

    • Jadwalkan dan jalankan sekarang — Data Wrangler pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.

    • Jadwal saja — Data Wrangler pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

  13. Pilih Jalankan

RATE

Gunakan prosedur berikut untuk membuat jadwal dengan ekspresi RATE.

Untuk menentukan jadwal dengan ekspresi RATE, lakukan hal berikut.

  1. Buka alur Data Wrangler Anda.

  2. Pilih Buat tugas.

  3. (Opsional) Untuk tombol Output KMS, tentukan AWS KMS kunci untuk mengkonfigurasi output pekerjaan.

  4. Pilih Berikutnya, 2. Konfigurasikan pekerjaan.

  5. Pilih Jadwal Rekanan.

  6. Pilih Buat jadwal baru.

  7. Untuk Nama Jadwal, tentukan nama jadwal.

  8. Untuk Run Frequency, pilih Rate.

  9. Untuk Nilai, tentukan bilangan bulat.

  10. Untuk Unit, pilih salah satu dari berikut ini:

    • Menit

    • Jam

    • Hari

  11. Pilih Buat.

  12. (Opsional) Pilih Tambahkan jadwal lain untuk menjalankan pekerjaan pada jadwal tambahan.

    catatan

    Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

  13. Pilih salah satu cara berikut:

    • Jadwalkan dan jalankan sekarang — Data Wrangler pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.

    • Jadwal saja — Data Wrangler pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

  14. Pilih Jalankan

Recurring

Gunakan prosedur berikut untuk membuat jadwal yang menjalankan pekerjaan secara berulang.

Untuk menentukan jadwal dengan ekspresi CRON, lakukan hal berikut.

  1. Buka alur Data Wrangler Anda.

  2. Pilih Buat tugas.

  3. (Opsional) Untuk tombol Output KMS, tentukan AWS KMS kunci untuk mengkonfigurasi output pekerjaan.

  4. Pilih Berikutnya, 2. Konfigurasikan pekerjaan.

  5. Pilih Jadwal Rekanan.

  6. Pilih Buat jadwal baru.

  7. Untuk Nama Jadwal, tentukan nama jadwal.

  8. Untuk Run Frequency, pastikan Recurring dipilih secara default.

  9. Untuk Setiap x jam, tentukan frekuensi per jam yang dijalankan pekerjaan pada siang hari. Nilai yang valid adalah bilangan bulat dalam rentang inklusif dan1. 23

  10. Untuk Pada hari, pilih salah satu opsi berikut:

    • Setiap hari

    • Akhir pekan

    • Hari kerja

    • Pilih Hari

    1. (Opsional) Jika Anda telah memilih Pilih Hari, pilih hari dalam seminggu untuk menjalankan pekerjaan.

    catatan

    Jadwal diatur ulang setiap hari. Jika Anda menjadwalkan pekerjaan untuk dijalankan setiap lima jam, itu berjalan pada waktu-waktu berikut di siang hari:

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  11. Pilih Buat.

  12. (Opsional) Pilih Tambahkan jadwal lain untuk menjalankan pekerjaan pada jadwal tambahan.

    catatan

    Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

  13. Pilih salah satu cara berikut:

    • Jadwalkan dan jalankan sekarang — Data Wrangler pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.

    • Jadwal saja — Data Wrangler pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

  14. Pilih Jalankan

Specific time

Gunakan prosedur berikut untuk membuat jadwal yang menjalankan pekerjaan pada waktu tertentu.

Untuk menentukan jadwal dengan ekspresi CRON, lakukan hal berikut.

  1. Buka alur Data Wrangler Anda.

  2. Pilih Buat tugas.

  3. (Opsional) Untuk tombol Output KMS, tentukan AWS KMS kunci untuk mengkonfigurasi output pekerjaan.

  4. Pilih Berikutnya, 2. Konfigurasikan pekerjaan.

  5. Pilih Jadwal Rekanan.

  6. Pilih Buat jadwal baru.

  7. Untuk Nama Jadwal, tentukan nama jadwal.

  8. Pilih Buat.

  9. (Opsional) Pilih Tambahkan jadwal lain untuk menjalankan pekerjaan pada jadwal tambahan.

    catatan

    Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

  10. Pilih salah satu cara berikut:

    • Jadwalkan dan jalankan sekarang — Data Wrangler pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.

    • Jadwal saja — Data Wrangler pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

  11. Pilih Jalankan

Anda dapat menggunakan Amazon SageMaker Studio Classic melihat pekerjaan yang dijadwalkan untuk dijalankan. Pekerjaan pemrosesan Anda berjalan di dalam SageMaker Pipelines. Setiap pekerjaan pemrosesan memiliki pipa sendiri. Ini berjalan sebagai langkah pemrosesan di dalam pipa. Anda dapat melihat jadwal yang telah Anda buat dalam pipeline. Untuk informasi tentang melihat pipeline, lihatLihat Pipeline.

Gunakan prosedur berikut untuk melihat pekerjaan yang telah Anda jadwalkan.

Untuk melihat pekerjaan yang telah Anda jadwalkan, lakukan hal berikut.

  1. Buka Amazon SageMaker Studio Classic.

  2. Buka SageMaker Pipa

  3. Lihat saluran pipa untuk pekerjaan yang telah Anda buat.

    Pipeline yang menjalankan pekerjaan menggunakan nama pekerjaan sebagai awalan. Misalnya, jika Anda telah membuat pekerjaan bernamahousing-data-feature-enginnering, nama pipeline adalahdata-wrangler-housing-data-feature-engineering.

  4. Pilih pipeline yang berisi pekerjaan Anda.

  5. Lihat status jaringan pipa. Pipelines dengan Status Sukses telah menjalankan pekerjaan pemrosesan dengan sukses.

Untuk menghentikan pekerjaan pemrosesan berjalan, lakukan hal berikut:

Untuk menghentikan pekerjaan pemrosesan agar tidak berjalan, hapus aturan acara yang menentukan jadwal. Menghapus aturan acara menghentikan semua pekerjaan yang terkait dengan jadwal berjalan. Untuk informasi tentang menghapus aturan, lihat Menonaktifkan atau menghapus aturan Amazon. EventBridge

Anda dapat menghentikan dan menghapus saluran pipa yang terkait dengan jadwal juga. Untuk informasi tentang menghentikan pipa, lihat StopPipelineExecution. Untuk informasi tentang menghapus pipeline, lihat DeletePipeline.