Pemrosesan data menggunakan perintah dataprocessing - Amazon Neptune

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pemrosesan data menggunakan perintah dataprocessing

Anda menggunakan perintah dataprocessing Neptune ML untuk membuat tugas pemrosesan data, memeriksa statusnya, menghentikannya, atau membuat daftar semua tugas pemrosesan data aktif.

Membuat tugas pemrosesan data menggunakan perintah dataprocessing Neptune ML

Perintah Neptune Neptune Neptune Neptune Neptune Neptune Neptune Neptunedataprocessing Perintah untuk membuat tugas baru seperti ini:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

Perintah untuk memulai pemrosesan ulang inkremental terlihat seperti ini:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
Parameter untuk pembuatan pekerjaan dataprocessing
  • id   –   (Opsional) Pengidentifikasi unik untuk job baru.

    Tipe: string. Default: UUID yang dihasilkan secara otomatis.

  • previousDataProcessingJobId- (Opsional) ID pekerjaan pekerjaan pengolahan data selesai dijalankan pada versi sebelumnya dari data.

    Tipe: string. Default: tidak ada.

    Catatan: Gunakan ini untuk pemrosesan data tambahan, untuk memperbarui model saat data grafik telah berubah (tetapi tidak saat data telah dihapus).

  • inputDataS3Location— (Diperlukan) URI lokasi Amazon S3 tempat Anda SageMaker ingin mengunduh data yang diperlukan untuk menjalankan tugas pemrosesan data.

    Tipe: string.

  • processedDataS3Location— (Diperlukan) URI lokasi Amazon S3 tempat Anda SageMaker ingin menyimpan hasil pekerjaan pemrosesan data.

    Tipe: string.

  • sagemakerIamRoleArn- (Opsional) ARN peran IAM untuk SageMaker eksekusi.

    Tipe: string. Catatan: Ini harus tercantum dalam grup parameter klaster DB Anda atau kesalahan akan terjadi.

  • neptuneIamRoleArn— (Opsional) yang SageMaker dapat diasumsikan untuk melakukan tugas atas nama Anda.

    Tipe: string. Catatan: Ini harus tercantum dalam grup parameter klaster DB Anda atau kesalahan akan terjadi.

  • processingInstanceType— (Opsional) Jenis instans ML yang digunakan selama pemrosesan data. Memorinya harus cukup besar untuk menahan set data yang diproses.

    Tipe: string. Default:ml.r5 tipe terkecil yang memorinya sepuluh kali lebih besar dari ukuran data grafik yang diekspor pada disk.

    Catatan: Neptune MLdapat memilih jenis instans secara otomatis. Lihat Memilih instance untuk pemrosesan data.

  • processingInstanceVolumeSizeInGB  –   (Opsional) Ukuran volume disk dari instans pemrosesan. Data input dan data yang diproses disimpan pada disk, sehingga ukuran volume harus cukup besar untuk menahan kedua set data.

    Tipe: integer. Default: 0.

    Catatan: Jika tidak ditentukan atau 0, Neptune MLmemilih ukuran volume secara otomatis berdasarkan ukuran data.

  • processingTimeOutInSeconds   –   (Opsional) Timeout dalam hitungan detik untuk tugas pemrosesan data.

    Tipe: integer. Default: 86,400 (1 hari).

  • modelType— (Opsional) Salah satu dari dua tipe model yang saat ini didukung oleh Neptune yang saat ini mendukung: model grafik heterogen (heterogeneous), dan grafik pengetahuan (kge).

    Tipe: string. Default: tidak ada.

    Catatan: Jika tidak ditentukan, Neptune MLmemilih jenis model secara otomatis berdasarkan data.

  • configFileName   –   (Opsional) File spesifikasi data yang menjelaskan cara memuat data grafik yang diekspor untuk pelatihan. File secara otomatis dihasilkan oleh kit alat ekspor Neptune.

    Tipe: string. Default: training-data-configuration.json.

  • subnets   –   (Opsional) ID dari subnet dalam VPC Neptune.

    Tipe: daftar string. Default: tidak ada.

  • securityGroupIds   –   (Opsional) ID grup keamanan VPC.

    Tipe: daftar string. Default: tidak ada.

  • volumeEncryptionKMSKey— (OpsionalAWS KMS) yang SageMaker digunakan untuk mengenkripsi data pada volume penyimpanan yang melekat pada instans komputasi MLyang menjalankan tugas pemrosesan.AWS Key Management Service

    Tipe: string. Default: tidak ada.

  • enableInterContainerTrafficEncryption- (Opsional) Mengaktifkan atau menonaktifkan enkripsi lalu lintas antar-kontainer dalam pelatihan atau pekerjaan penyetelan hiper-parameter.

    Jenis: boolean. Default: Benar.

    catatan

    enableInterContainerTrafficEncryptionParameter ini hanya tersedia dalam rilis mesin 1.2.0.2.R3.

  • s3OutputEncryptionKMSKey- (OpsionalAWS KMS) KunciAWS Key Management Service () yang SageMaker digunakan untuk mengenkripsi output dari pekerjaan pelatihan.

    Tipe: string. Default: tidak ada.

Mendapatkan status job pemrosesan data menggunakan perintah dataprocessing Neptune ML

Perintah dataprocessing Neptune ML sampel untuk status tugas terlihat seperti ini:

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
Parameter untuk status tugas dataprocessing
  • id   –   (Wajib) Pengenal unik tugas pemrosesan data.

    Tipe: string.

  • neptuneIamRoleArn— (Opsional) ARN peran IAM yang menyediakan akses Neptune ke SageMaker dan sumber daya Amazon S3.

    Tipe: string. Catatan: Ini harus tercantum dalam grup parameter klaster DB Anda atau kesalahan akan terjadi.

Menghentikan tugas pemrosesan data menggunakan perintah dataprocessing Neptune ML

Perintah dataprocessing Neptune ML sampel untuk menghentikan tugas terlihat seperti ini:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

Atau ini:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
Parameter untuk tugas berhenti dataprocessing
  • id   –   (Wajib) Pengenal unik tugas pemrosesan data.

    Tipe: string.

  • neptuneIamRoleArn— (Opsional) ARN peran IAM yang menyediakan akses Neptune ke SageMaker dan sumber daya Amazon S3.

    Tipe: string. Catatan: Ini harus tercantum dalam grup parameter klaster DB Anda atau kesalahan akan terjadi.

  • clean   –   (Opsional) Bendera ini menetapkan bahwa semua artefak Amazon S3 harus dihapus ketika tugas dihentikan.

    Tipe: Boolean. Default: FALSE.

Membuat daftar tugas pemrosesan data aktif menggunakan perintah dataprocessingNeptune ML

Perintah dataprocessing Neptune ML sampel untuk membuat daftar tugas aktif terlihat seperti ini:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

Atau ini:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
Parameter untuk tugas daftar dataprocessing
  • maxItems   –   (Opsional) Jumlah maksimum item yang akan dikembalikan.

    Tipe: integer. Default: 10. Nilai maksimum yang diperbolehkan: 1024.

  • neptuneIamRoleArn— (Opsional) ARN peran IAM yang menyediakan akses Neptune ke SageMaker dan sumber daya Amazon S3.

    Tipe: string. Catatan: Ini harus tercantum dalam grup parameter klaster DB Anda atau kesalahan akan terjadi.