Referensi resep - Amazon Machine Learning

Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihatApa itu Amazon Machine Learning.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Referensi resep

Resep Amazon XML berisi petunjuk untuk mengubah data Anda sebagai bagian dari proses machine learning. Resep didefinisikan menggunakan sintaks seperti JSON, tetapi mereka memiliki batasan tambahan di luar pembatasan JSON normal. Resep memiliki bagian berikut, yang harus muncul dalam urutan yang ditunjukkan di sini:

  • Grupmemungkinkan pengelompokan beberapa variabel, untuk kemudahan menerapkan transformasi. Misalnya, Anda dapat membuat sekelompok semua variabel yang harus dilakukan dengan bagian teks bebas dari halaman web (judul, tubuh), dan kemudian melakukan transformasi pada semua bagian ini sekaligus.

  • Tugasmemungkinkan penciptaan variabel bernama menengah yang dapat digunakan kembali dalam pengolahan.

  • Keluaranmendefinisikan variabel yang akan digunakan dalam proses pembelajaran, dan apa transformasi (jika ada) berlaku untuk variabel ini.

Grup

Anda dapat menentukan kelompok variabel untuk secara kolektif mengubah semua variabel dalam kelompok, atau menggunakan variabel ini untuk pembelajaran mesin tanpa mengubahnya. Secara default, Amazon IL membuat grup berikut untuk Anda:

ALL_TEXT, ALL_NUMERIC, ALL_CATEGORICAL, ALL_BINARY -Kelompok tipe-spesifik berdasarkan variabel yang didefinisikan dalam skema datasource.

catatan

Anda tidak dapat membuat grup denganALL_INPUTS.

Variabel ini dapat digunakan di bagian output resep Anda tanpa didefinisikan. Anda juga dapat membuat grup kustom dengan menambahkan atau mengurangi variabel dari grup yang ada, atau langsung dari kumpulan variabel. Dalam contoh berikut, kita menunjukkan ketiga pendekatan, dan sintaks untuk tugas pengelompokan:

"groups": { "Custom_Group": "group(var1, var2)", "All_Categorical_plus_one_other": "group(ALL_CATEGORICAL, var2)" }

Nama grup harus dimulai dengan karakter abjad dan dapat antara 1 dan 64 karakter panjang. Jika nama grup tidak dimulai dengan karakter abjad atau jika mengandung karakter khusus (, '"\ t\ r\ n ()\), maka nama tersebut perlu dikutip untuk dimasukkan dalam resep.

Tugas

Anda dapat menugaskan satu atau lebih variabel menengah, untuk kenyamanan dan keterbacaan. Misalnya, jika Anda memiliki variabel teks bernama email_subject, dan Anda menerapkan transformasi huruf kecil padanya, Anda dapat memberi nama variabel email_subject_lowercase yang dihasilkan, sehingga mudah untuk melacaknya di tempat lain dalam resep. Tugas juga dapat dirantai, memungkinkan Anda untuk menerapkan beberapa transformasi dalam urutan tertentu. Contoh berikut menunjukkan tugas tunggal dan dirantai dalam sintaks resep:

"assignments": { "email_subject_lowercase": "lowercase(email_subject)", "email_subject_lowercase_ngram":"ngram(lowercase(email_subject), 2)" }

Nama variabel menengah harus dimulai dengan karakter alfabet dan dapat antara 1 dan 64 karakter panjang. Jika nama tidak dimulai dengan alfabet atau jika mengandung karakter khusus (, '"\ t\ r\ n ()\), maka nama harus dikutip untuk dimasukkan dalam resep.

Output

Bagian output mengontrol variabel input mana yang akan digunakan untuk proses pembelajaran, dan transformasi mana yang berlaku untuk mereka. Bagian output kosong atau tidak ada adalah kesalahan, karena tidak ada data yang akan diteruskan ke proses pembelajaran.

Bagian output yang paling sederhana hanya mencakup yang telah ditetapkanALL_INPUTkelompok, menginstruksikan Amazon XML untuk menggunakan semua variabel yang didefinisikan dalam sumber data untuk pembelajaran:

"outputs": [ "ALL_INPUTS" ]

Bagian output juga dapat merujuk ke grup yang telah ditetapkan lainnya dengan menginstruksikan Amazon IL untuk menggunakan semua variabel dalam grup ini:

"outputs": [ "ALL_NUMERIC", "ALL_CATEGORICAL" ]

Bagian output juga dapat merujuk ke kelompok kustom. Pada contoh berikut, hanya satu dari kelompok kustom yang didefinisikan dalam bagian penugasan pengelompokan dalam contoh sebelumnya yang akan digunakan untuk pembelajaran mesin. Semua variabel lain akan dijatuhkan:

"outputs": [ "All_Categorical_plus_one_other" ]

Bagian output juga dapat merujuk ke tugas variabel yang didefinisikan dalam bagian penugasan:

"outputs": [ "email_subject_lowercase" ]

Dan variabel input atau transformasi dapat didefinisikan langsung di bagian output:

"outputs": [ "var1", "lowercase(var2)" ]

Output perlu secara eksplisit menentukan semua variabel dan variabel yang berubah yang diharapkan tersedia untuk proses pembelajaran. Katakanlah, misalnya, bahwa Anda termasuk dalam output produk Cartesian var1 dan var2. Jika Anda ingin memasukkan variabel mentah var1 dan var2 juga, maka Anda perlu menambahkan variabel mentah di bagian output:

"outputs": [ "cartesian(var1,var2)", "var1", "var2" ]

Output dapat mencakup komentar untuk dibaca dengan menambahkan teks komentar bersama dengan variabel:

"outputs": [ "quantile_bin(age, 10) //quantile bin age", "age // explicitly include the original numeric variable along with the binned version" ]

Anda dapat mencampur dan mencocokkan semua pendekatan ini dalam bagian output.

catatan

Komentar tidak diizinkan di konsol Amazon XML saat menambahkan resep.

Lengkapi Contoh

Contoh berikut mengacu pada beberapa prosesor data built-in yang diperkenalkan dalam contoh sebelumnya:

{ "groups": { "LONGTEXT": "group_remove(ALL_TEXT, title, subject)", "SPECIALTEXT": "group(title, subject)", "BINCAT": "group(ALL_CATEGORICAL, ALL_BINARY)" }, "assignments": { "binned_age" : "quantile_bin(age,30)", "country_gender_interaction" : "cartesian(country, gender)" }, "outputs": [ "lowercase(no_punct(LONGTEXT))", "ngram(lowercase(no_punct(SPECIALTEXT)),3)", "quantile_bin(hours-per-week, 10)", "hours-per-week // explicitly include the original numeric variable along with the binned version", "cartesian(binned_age, quantile_bin(hours-per-week,10)) // this one is critical", "country_gender_interaction", "BINCAT" ] }