Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Analisis asinkron untuk Amazon Comprehend wawasan
Bagian berikut menggunakan Amazon Comprehend API untuk menjalankan operasi asinkron guna menganalisis wawasan Amazon Comprehend.
Prasyarat
Dokumen harus dalam file teks berformat UTF-8. Anda dapat mengirimkan dokumen Anda dalam dua format. Format yang Anda gunakan tergantung pada jenis dokumen yang ingin Anda analisis, seperti yang dijelaskan dalam tabel berikut.
Deskripsi | format |
---|---|
Setiap file berisi satu dokumen masukan. Ini yang terbaik untuk koleksi dokumen besar. | Satu dokumen per file |
Input adalah satu atau lebih file. Setiap baris dalam file dianggap sebagai dokumen. Ini terbaik untuk dokumen pendek, seperti posting media sosial. Setiap baris harus diakhiri dengan umpan baris (LF,\n), carriage return (CR,\ r), atau keduanya (CRLF,\ r\n). Anda tidak dapat menggunakan pemisah garis UTF-8 (u+2028) untuk mengakhiri garis. |
Satu dokumen per baris |
Saat Anda memulai pekerjaan analisis, Anda menentukan lokasi S3 untuk data input Anda. URI harus berada di AWS Wilayah yang sama dengan titik akhir API yang Anda panggil. URI dapat menunjuk ke satu file atau dapat menjadi awalan untuk kumpulan file data. Untuk informasi selengkapnya, lihat tipe data InputDataConfig.
Anda harus memberikan Amazon Comprehend akses ke bucket Amazon S3 yang berisi koleksi dokumen dan file keluaran Anda. Untuk informasi selengkapnya, lihat Izin berbasis peran yang diperlukan untuk operasi asinkron.
Memulai pekerjaan analisis
Untuk mengirimkan pekerjaan analisis, gunakan konsol Amazon Comprehend atau operasi yang sesuai: Start*
-
StartDominantLanguageDetectionJob— Mulai pekerjaan untuk mendeteksi bahasa dominan di setiap dokumen dalam koleksi. Untuk informasi lebih lanjut tentang bahasa dominan dalam dokumen, lihatBahasa dominan.
-
StartEntitiesDetectionJob— Mulai pekerjaan untuk mendeteksi entitas di setiap dokumen dalam koleksi. Untuk informasi selengkapnya tentang entitas, lihatEntitas.
-
StartKeyPhrasesDetectionJob— Mulai pekerjaan untuk mendeteksi frasa kunci di setiap dokumen dalam koleksi. Untuk informasi selengkapnya tentang frasa kunci, lihatFrasa kunci.
-
StartPiiEntitiesDetectionJob— Mulai pekerjaan untuk mendeteksi informasi identitas pribadi (PII) di setiap dokumen dalam koleksi. Untuk informasi lebih lanjut tentang PII, lihatMendeteksi entitas PII.
-
StartSentimentDetectionJob— Mulai pekerjaan untuk mendeteksi sentimen di setiap dokumen dalam koleksi. Untuk informasi lebih lanjut tentang sentimen, lihatSentimen.
Pekerjaan analisis pemantauan
Start*
Operasi mengembalikan ID yang dapat Anda gunakan untuk memantau kemajuan pekerjaan.
Untuk memantau kemajuan menggunakan API, Anda menggunakan salah satu dari dua operasi, tergantung pada apakah Anda ingin memantau kemajuan pekerjaan individu atau beberapa pekerjaan.
Untuk memantau kemajuan pekerjaan analisis individu, gunakan Describe*
operasi. Anda memberikan ID pekerjaan yang dikembalikan oleh Start*
operasi. Respons dari Describe*
operasi berisi JobStatus
bidang dengan status pekerjaan.
Untuk memantau kemajuan beberapa pekerjaan analisis, gunakan List*
operasi. List*
operasi mengembalikan daftar pekerjaan yang Anda kirimkan ke Amazon Comprehend. Tanggapan mencakup JobStatus
bidang untuk setiap pekerjaan yang memberi tahu Anda status pekerjaan.
Jika bidang status disetel ke COMPLETED
atauFAILED
, pemrosesan pekerjaan telah selesai.
Untuk mendapatkan status pekerjaan individu, gunakan Describe*
operasi untuk analisis yang Anda lakukan.
Untuk mendapatkan status beberapa pekerjaan, gunakan List*
operasi untuk analisis yang Anda lakukan.
Untuk membatasi hasil pada pekerjaan yang sesuai dengan kriteria tertentu, gunakan parameter List*
operasi. Filter
Anda dapat memfilter nama pekerjaan, status pekerjaan, dan tanggal dan waktu pekerjaan itu diajukan. Untuk informasi selengkapnya, lihat Filter
parameter untuk setiap List*
operasi di referensi Amazon Comprehend API.
Mendapatkan hasil analisis
Setelah pekerjaan analisis selesai, gunakan Describe*
operasi untuk mendapatkan lokasi hasil. Jika status pekerjaanCOMPLETED
, respons menyertakan OutputDataConfig
bidang yang berisi bidang dengan lokasi Amazon S3 dari file keluaran. File,output.tar.gz
, adalah arsip terkompresi yang berisi hasil analisis.
Jika status pekerjaan adalahFAILED
, responsnya berisi Message
bidang yang menjelaskan alasan pekerjaan analisis tidak berhasil diselesaikan.
Untuk mendapatkan status pekerjaan individu, gunakan Describe*
operasi yang sesuai:
Hasilnya dikembalikan dalam satu file, dengan satu struktur JSON untuk setiap dokumen. Setiap file respons juga menyertakan pesan kesalahan untuk pekerjaan apa pun dengan bidang status yang disetel keFAILED
.
Masing-masing bagian berikut menunjukkan contoh output untuk dua format input.
Mendapatkan hasil deteksi bahasa yang dominan
Berikut ini adalah contoh file output dari analisis yang mendeteksi bahasa dominan. Format input adalah satu dokumen per baris. Untuk informasi lebih lanjut, lihat DetectDominantLanguageoperasi.
{"File": "0_doc", "Languages": [{"LanguageCode": "en", "Score": 0.9514502286911011}, {"LanguageCode": "de", "Score": 0.02374090999364853}, {"LanguageCode": "nl", "Score": 0.003208699868991971}, "Line": 0}
{"File": "1_doc", "Languages": [{"LanguageCode": "en", "Score": 0.9822712540626526}, {"LanguageCode": "de", "Score": 0.002621392020955682}, {"LanguageCode": "es", "Score": 0.002386554144322872}], "Line": 1}
Berikut ini adalah contoh output dari analisis di mana format input adalah satu dokumen per file:
{"File": "small_doc", "Languages": [{"LanguageCode": "en", "Score": 0.9728053212165833}, {"LanguageCode": "de", "Score": 0.007670710328966379}, {"LanguageCode": "es", "Score": 0.0028472368139773607}]}
{"File": "huge_doc", "Languages": [{"LanguageCode": "en", "Score": 0.984955906867981}, {"LanguageCode": "de", "Score": 0.0026436643674969673}, {"LanguageCode": "fr", "Score": 0.0014206881169229746}]}
Mendapatkan hasil deteksi entitas
Berikut ini adalah contoh file output dari analisis yang mendeteksi entitas dalam dokumen. Format input adalah satu dokumen per baris. Untuk informasi lebih lanjut, lihat DetectEntitiesoperasi. Output berisi dua pesan kesalahan, satu untuk dokumen yang terlalu panjang dan satu untuk dokumen yang tidak dalam format UTF-8.
{"File": "50_docs", "Line": 0, "Entities": [{"BeginOffset": 0, "EndOffset": 22, "Score": 0.9763959646224976, "Text": "Cluj-NapocaCluj-Napoca", "Type": "LOCATION"}"]}
{"File": "50_docs", "Line": 1, "Entities": [{"BeginOffset": 11, "EndOffset": 15, "Score": 0.9615424871444702, "Text": "Maat", "Type": "PERSON"}}]}
{"File": "50_docs", "Line": 2, "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size exceeds maximum size limit 102400 bytes."}
{"File": "50_docs", "Line": 3, "ErrorCode": "UNSUPPORTED_ENCODING", "ErrorMessage": "Document is not in UTF-8 format and all subsequent lines are ignored."}
Berikut ini adalah contoh output dari analisis di mana format input adalah satu dokumen per file. Output berisi dua pesan kesalahan, satu untuk dokumen yang terlalu panjang dan satu untuk dokumen yang tidak dalam format UTF-8.
{"File": "non_utf8.txt", "ErrorCode": "UNSUPPORTED_ENCODING", "ErrorMessage": "Document is not in UTF-8 format and all subsequent line are ignored."}
{"File": "small_doc", "Entities": [{"BeginOffset": 0, "EndOffset": 4, "Score": 0.645766019821167, "Text": "Maat", "Type": "PERSON"}]}
{"File": "huge_doc", "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size exceeds size limit 102400 bytes."}
Mendapatkan hasil deteksi frase kunci
Berikut ini adalah contoh file output dari analisis yang mendeteksi frasa kunci dalam dokumen. Format input adalah satu dokumen per baris. Untuk informasi lebih lanjut, lihat DetectKeyPhrasesoperasi.
{"File": "50_docs", "KeyPhrases": [{"BeginOffset": 0, "EndOffset": 22, "Score": 0.8948641419410706, "Text": "Cluj-NapocaCluj-Napoca"}, {"BeginOffset": 45, "EndOffset": 49, "Score": 0.9989854693412781, "Text": "Cluj"}], "Line": 0}
Berikut ini adalah contoh output dari analisis di mana format input adalah satu dokumen per file.
{"File": "1_doc", "KeyPhrases": [{"BeginOffset": 0, "EndOffset": 22, "Score": 0.8948641419410706, "Text": "Cluj-NapocaCluj-Napoca"}, {"BeginOffset": 45, "EndOffset": 49, "Score": 0.9989854693412781, "Text": "Cluj"}]}
Mendapatkan hasil deteksi informasi identitas pribadi (PII)
Berikut ini adalah contoh file output dari pekerjaan analisis yang mendeteksi entitas PII dalam dokumen. Format input adalah satu dokumen per baris.
{"Entities":[{"Type":"NAME","BeginOffset":40,"EndOffset":69,"Score":0.999995},{"Type":"ADDRESS","BeginOffset":247,"EndOffset":253,"Score":0.998828},{"Type":"BANK_ACCOUNT_NUMBER","BeginOffset":406,"EndOffset":411,"Score":0.693283}],"File":"doc.txt","Line":0} {"Entities":[{"Type":"SSN","BeginOffset":1114,"EndOffset":1124,"Score":0.999999},{"Type":"EMAIL","BeginOffset":3742,"EndOffset":3775,"Score":0.999993},{"Type":"PIN","BeginOffset":4098,"EndOffset":4102,"Score":0.999995}],"File":"doc.txt","Line":1}
Berikut ini adalah contoh output dari analisis di mana format input adalah satu dokumen per file.
{"Entities":[{"Type":"NAME","BeginOffset":40,"EndOffset":69,"Score":0.999995},{"Type":"ADDRESS","BeginOffset":247,"EndOffset":253,"Score":0.998828},{"Type":"BANK_ROUTING","BeginOffset":279,"EndOffset":289,"Score":0.999999}],"File":"doc.txt"}
Mendapatkan hasil deteksi sentimen
Berikut ini adalah contoh file output dari analisis yang mendeteksi sentimen yang dinyatakan dalam dokumen. Ini termasuk pesan kesalahan karena satu dokumen terlalu panjang. Format input adalah satu dokumen per baris. Untuk informasi lebih lanjut, lihat DetectSentimentoperasi.
{"File": "50_docs", "Line": 0, "Sentiment": "NEUTRAL", "SentimentScore": {"Mixed": 0.002734508365392685, "Negative": 0.008935936726629734, "Neutral": 0.9841893315315247, "Positive": 0.004140198230743408}}
{"File": "50_docs", "Line": 1, "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size is exceeded maximum size limit 5120 bytes."}
{"File": "50_docs", "Line": 2, "Sentiment": "NEUTRAL", "SentimentScore": {"Mixed": 0.0023119584657251835, "Negative": 0.0029857370536774397, "Neutral": 0.9866572022438049, "Positive": 0.008045154623687267}}
Berikut ini adalah contoh output dari analisis di mana format input adalah satu dokumen per file.
{"File": "small_doc", "Sentiment": "NEUTRAL", "SentimentScore": {"Mixed": 0.0023450672160834074, "Negative": 0.0009663937962614, "Neutral": 0.9795311689376831, "Positive": 0.017157377675175667}}
{"File": "huge_doc", "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size is exceeds the limit of 5120 bytes."}