Analisis asinkron untuk Amazon Comprehend wawasan - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Analisis asinkron untuk Amazon Comprehend wawasan

Bagian berikut menggunakan Amazon Comprehend API untuk menjalankan operasi asinkron guna menganalisis wawasan Amazon Comprehend.

Prasyarat

Dokumen harus dalam file teks berformat UTF-8. Anda dapat mengirimkan dokumen Anda dalam dua format. Format yang Anda gunakan tergantung pada jenis dokumen yang ingin Anda analisis, seperti yang dijelaskan dalam tabel berikut.

Deskripsi format
Setiap file berisi satu dokumen masukan. Ini yang terbaik untuk koleksi dokumen besar. Satu dokumen per file

Input adalah satu atau lebih file. Setiap baris dalam file dianggap sebagai dokumen. Ini terbaik untuk dokumen pendek, seperti posting media sosial.

Setiap baris harus diakhiri dengan umpan baris (LF,\n), carriage return (CR,\ r), atau keduanya (CRLF,\ r\n). Anda tidak dapat menggunakan pemisah garis UTF-8 (u+2028) untuk mengakhiri garis.

Satu dokumen per baris

Saat Anda memulai pekerjaan analisis, Anda menentukan lokasi S3 untuk data input Anda. URI harus berada di AWS Wilayah yang sama dengan titik akhir API yang Anda panggil. URI dapat menunjuk ke satu file atau dapat menjadi awalan untuk kumpulan file data. Untuk informasi selengkapnya, lihat tipe data InputDataConfig.

Anda harus memberikan Amazon Comprehend akses ke bucket Amazon S3 yang berisi koleksi dokumen dan file keluaran Anda. Untuk informasi selengkapnya, lihat Izin berbasis peran yang diperlukan untuk operasi asinkron.

Memulai pekerjaan analisis

Untuk mengirimkan pekerjaan analisis, gunakan konsol Amazon Comprehend atau operasi yang sesuai: Start*

Pekerjaan analisis pemantauan

Start*Operasi mengembalikan ID yang dapat Anda gunakan untuk memantau kemajuan pekerjaan.

Untuk memantau kemajuan menggunakan API, Anda menggunakan salah satu dari dua operasi, tergantung pada apakah Anda ingin memantau kemajuan pekerjaan individu atau beberapa pekerjaan.

Untuk memantau kemajuan pekerjaan analisis individu, gunakan Describe* operasi. Anda memberikan ID pekerjaan yang dikembalikan oleh Start* operasi. Respons dari Describe* operasi berisi JobStatus bidang dengan status pekerjaan.

Untuk memantau kemajuan beberapa pekerjaan analisis, gunakan List* operasi. List*operasi mengembalikan daftar pekerjaan yang Anda kirimkan ke Amazon Comprehend. Tanggapan mencakup JobStatus bidang untuk setiap pekerjaan yang memberi tahu Anda status pekerjaan.

Jika bidang status disetel ke COMPLETED atauFAILED, pemrosesan pekerjaan telah selesai.

Untuk mendapatkan status pekerjaan individu, gunakan Describe* operasi untuk analisis yang Anda lakukan.

Untuk mendapatkan status beberapa pekerjaan, gunakan List* operasi untuk analisis yang Anda lakukan.

Untuk membatasi hasil pada pekerjaan yang sesuai dengan kriteria tertentu, gunakan parameter List* operasi. Filter Anda dapat memfilter nama pekerjaan, status pekerjaan, dan tanggal dan waktu pekerjaan itu diajukan. Untuk informasi selengkapnya, lihat Filter parameter untuk setiap List* operasi di referensi Amazon Comprehend API.

Mendapatkan hasil analisis

Setelah pekerjaan analisis selesai, gunakan Describe* operasi untuk mendapatkan lokasi hasil. Jika status pekerjaanCOMPLETED, respons menyertakan OutputDataConfig bidang yang berisi bidang dengan lokasi Amazon S3 dari file keluaran. File,output.tar.gz, adalah arsip terkompresi yang berisi hasil analisis.

Jika status pekerjaan adalahFAILED, responsnya berisi Message bidang yang menjelaskan alasan pekerjaan analisis tidak berhasil diselesaikan.

Untuk mendapatkan status pekerjaan individu, gunakan Describe* operasi yang sesuai:

Hasilnya dikembalikan dalam satu file, dengan satu struktur JSON untuk setiap dokumen. Setiap file respons juga menyertakan pesan kesalahan untuk pekerjaan apa pun dengan bidang status yang disetel keFAILED.

Masing-masing bagian berikut menunjukkan contoh output untuk dua format input.

Mendapatkan hasil deteksi bahasa yang dominan

Berikut ini adalah contoh file output dari analisis yang mendeteksi bahasa dominan. Format input adalah satu dokumen per baris. Untuk informasi lebih lanjut, lihat DetectDominantLanguageoperasi.

{"File": "0_doc", "Languages": [{"LanguageCode": "en", "Score": 0.9514502286911011}, {"LanguageCode": "de", "Score": 0.02374090999364853}, {"LanguageCode": "nl", "Score": 0.003208699868991971}, "Line": 0} {"File": "1_doc", "Languages": [{"LanguageCode": "en", "Score": 0.9822712540626526}, {"LanguageCode": "de", "Score": 0.002621392020955682}, {"LanguageCode": "es", "Score": 0.002386554144322872}], "Line": 1}

Berikut ini adalah contoh output dari analisis di mana format input adalah satu dokumen per file:

{"File": "small_doc", "Languages": [{"LanguageCode": "en", "Score": 0.9728053212165833}, {"LanguageCode": "de", "Score": 0.007670710328966379}, {"LanguageCode": "es", "Score": 0.0028472368139773607}]} {"File": "huge_doc", "Languages": [{"LanguageCode": "en", "Score": 0.984955906867981}, {"LanguageCode": "de", "Score": 0.0026436643674969673}, {"LanguageCode": "fr", "Score": 0.0014206881169229746}]}

Mendapatkan hasil deteksi entitas

Berikut ini adalah contoh file output dari analisis yang mendeteksi entitas dalam dokumen. Format input adalah satu dokumen per baris. Untuk informasi lebih lanjut, lihat DetectEntitiesoperasi. Output berisi dua pesan kesalahan, satu untuk dokumen yang terlalu panjang dan satu untuk dokumen yang tidak dalam format UTF-8.

{"File": "50_docs", "Line": 0, "Entities": [{"BeginOffset": 0, "EndOffset": 22, "Score": 0.9763959646224976, "Text": "Cluj-NapocaCluj-Napoca", "Type": "LOCATION"}"]} {"File": "50_docs", "Line": 1, "Entities": [{"BeginOffset": 11, "EndOffset": 15, "Score": 0.9615424871444702, "Text": "Maat", "Type": "PERSON"}}]} {"File": "50_docs", "Line": 2, "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size exceeds maximum size limit 102400 bytes."} {"File": "50_docs", "Line": 3, "ErrorCode": "UNSUPPORTED_ENCODING", "ErrorMessage": "Document is not in UTF-8 format and all subsequent lines are ignored."}

Berikut ini adalah contoh output dari analisis di mana format input adalah satu dokumen per file. Output berisi dua pesan kesalahan, satu untuk dokumen yang terlalu panjang dan satu untuk dokumen yang tidak dalam format UTF-8.

{"File": "non_utf8.txt", "ErrorCode": "UNSUPPORTED_ENCODING", "ErrorMessage": "Document is not in UTF-8 format and all subsequent line are ignored."} {"File": "small_doc", "Entities": [{"BeginOffset": 0, "EndOffset": 4, "Score": 0.645766019821167, "Text": "Maat", "Type": "PERSON"}]} {"File": "huge_doc", "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size exceeds size limit 102400 bytes."}

Mendapatkan hasil deteksi frase kunci

Berikut ini adalah contoh file output dari analisis yang mendeteksi frasa kunci dalam dokumen. Format input adalah satu dokumen per baris. Untuk informasi lebih lanjut, lihat DetectKeyPhrasesoperasi.

{"File": "50_docs", "KeyPhrases": [{"BeginOffset": 0, "EndOffset": 22, "Score": 0.8948641419410706, "Text": "Cluj-NapocaCluj-Napoca"}, {"BeginOffset": 45, "EndOffset": 49, "Score": 0.9989854693412781, "Text": "Cluj"}], "Line": 0}

Berikut ini adalah contoh output dari analisis di mana format input adalah satu dokumen per file.

{"File": "1_doc", "KeyPhrases": [{"BeginOffset": 0, "EndOffset": 22, "Score": 0.8948641419410706, "Text": "Cluj-NapocaCluj-Napoca"}, {"BeginOffset": 45, "EndOffset": 49, "Score": 0.9989854693412781, "Text": "Cluj"}]}

Mendapatkan hasil deteksi informasi identitas pribadi (PII)

Berikut ini adalah contoh file output dari pekerjaan analisis yang mendeteksi entitas PII dalam dokumen. Format input adalah satu dokumen per baris.

{"Entities":[{"Type":"NAME","BeginOffset":40,"EndOffset":69,"Score":0.999995},{"Type":"ADDRESS","BeginOffset":247,"EndOffset":253,"Score":0.998828},{"Type":"BANK_ACCOUNT_NUMBER","BeginOffset":406,"EndOffset":411,"Score":0.693283}],"File":"doc.txt","Line":0} {"Entities":[{"Type":"SSN","BeginOffset":1114,"EndOffset":1124,"Score":0.999999},{"Type":"EMAIL","BeginOffset":3742,"EndOffset":3775,"Score":0.999993},{"Type":"PIN","BeginOffset":4098,"EndOffset":4102,"Score":0.999995}],"File":"doc.txt","Line":1}

Berikut ini adalah contoh output dari analisis di mana format input adalah satu dokumen per file.

{"Entities":[{"Type":"NAME","BeginOffset":40,"EndOffset":69,"Score":0.999995},{"Type":"ADDRESS","BeginOffset":247,"EndOffset":253,"Score":0.998828},{"Type":"BANK_ROUTING","BeginOffset":279,"EndOffset":289,"Score":0.999999}],"File":"doc.txt"}

Mendapatkan hasil deteksi sentimen

Berikut ini adalah contoh file output dari analisis yang mendeteksi sentimen yang dinyatakan dalam dokumen. Ini termasuk pesan kesalahan karena satu dokumen terlalu panjang. Format input adalah satu dokumen per baris. Untuk informasi lebih lanjut, lihat DetectSentimentoperasi.

{"File": "50_docs", "Line": 0, "Sentiment": "NEUTRAL", "SentimentScore": {"Mixed": 0.002734508365392685, "Negative": 0.008935936726629734, "Neutral": 0.9841893315315247, "Positive": 0.004140198230743408}} {"File": "50_docs", "Line": 1, "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size is exceeded maximum size limit 5120 bytes."} {"File": "50_docs", "Line": 2, "Sentiment": "NEUTRAL", "SentimentScore": {"Mixed": 0.0023119584657251835, "Negative": 0.0029857370536774397, "Neutral": 0.9866572022438049, "Positive": 0.008045154623687267}}

Berikut ini adalah contoh output dari analisis di mana format input adalah satu dokumen per file.

{"File": "small_doc", "Sentiment": "NEUTRAL", "SentimentScore": {"Mixed": 0.0023450672160834074, "Negative": 0.0009663937962614, "Neutral": 0.9795311689376831, "Positive": 0.017157377675175667}} {"File": "huge_doc", "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size is exceeds the limit of 5120 bytes."}