非同期分析ジョブの出力 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

非同期分析ジョブの出力

分析ジョブが完了すると、リクエストに指定した S3 バケットに結果が保存されます。

テキスト入力の出力

どちらの形式のテキスト入力文書 (マルチクラスまたはマルチラベル) でも、ジョブの出力は output.tar.gz という名前の 1 ファイルで構成されます。これは圧縮されたアーカイブファイルで、出力を含むテキストファイルが含まれています。

マルチクラス出力

マルチクラスモードで調教した分類子を使用すると、結果に classes が表示されます。classes のそれぞれは、分類子を調教する際に一連のカテゴリを作成するために使用するクラスです。

これらの出力フィールドの詳細については、Amazon Comprehend APIリファレンスClassifyDocument」の「」を参照してください。

以下の例では、相互に排他的なクラスを使用しています。

DOCUMENTARY SCIENCE_FICTION ROMANTIC_COMEDY SERIOUS_DRAMA OTHER

入力データ形式が 1 行に 1 文書の場合、出力ファイルには入力の 1 行につき 1 行が含まれます。各行には、ファイル名、入力行の 0 から始まる行番号、文書内の 1 つまたは複数のクラスが含まれます。最後は、Amazon Comprehend が個々のインスタンスを正しく分類したという確信で終わります。

例:

{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]} {"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]} {"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]} {"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

入力データ形式が 1 ファイルにつき 1 文書の場合、出力ファイルには文書ごとに 1 行ずつ含まれます。各行には、ファイルの名前と文書内のクラス (1 つまたは複数) があります。最後は、Amazon Comprehend が個々のインスタンスを正しく分類したという確信で終わります。

例:

{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]} {"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]} {"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]} {"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

マルチラベル出力

マルチラベルモードで調教した分類子を使用すると、結果に labels が表示されます。labels のそれぞれは、分類子を調教する際に一連のカテゴリを作成するために使用するラベルです。

以下の例では、これらの固有のラベルを使用しています。

SCIENCE_FICTION ACTION DRAMA COMEDY ROMANCE

入力データ形式が 1 行に 1 文書の場合、出力ファイルには入力の 1 行につき 1 行が含まれます。各行には、ファイル名、入力行の 0 から始まる行番号、文書内の 1 つまたは複数のクラスが含まれます。最後は、Amazon Comprehend が個々のインスタンスを正しく分類したという確信で終わります。

例:

{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]} {"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]} {"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]} {"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

入力データ形式が 1 ファイルにつき 1 文書の場合、出力ファイルには文書ごとに 1 行ずつ含まれます。各行には、ファイルの名前と文書内のクラス (1 つまたは複数) があります。最後は、Amazon Comprehend が個々のインスタンスを正しく分類したという確信で終わります。

例:

{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]} {"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]} {"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]} {"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

半構造化された入力文書の出力

半構造化入力ドキュメントの場合、出力には以下の追加フィールドが含まれる場合があります。

  • DocumentMetadata – ドキュメントに関する抽出情報。メタデータには、ドキュメント内のページのリストと、各ページから抽出された文字数が含まれます。リクエストに Byte パラメータがあると、このフィールドが応答に含まれます。

  • DocumentType – 入力ドキュメントの各ページのドキュメントタイプ。リクエストに Byte パラメータがあると、このフィールドが応答に含まれます。

  • エラー — 入力文書の処理中にシステムが検出したページレベルのエラー。エラーが検出されなかった場合、このフィールドは空です。

これらの出力フィールドの詳細については、Amazon Comprehend APIリファレンスClassifyDocument」の「」を参照してください。

次の例は、2 ページのスキャン済みPDFファイルの出力を示しています。

[{ #First page output "Classes": [ { "Name": "__label__2 ", "Score": 0.9993996620178223 }, { "Name": "__label__3 ", "Score": 0.0004330444789957255 } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 2 }, "DocumentType": "ScannedPDF", "File": "file.pdf", "Version": "VERSION_NUMBER" }, #Second page output { "Classes": [ { "Name": "__label__2 ", "Score": 0.9993996620178223 }, { "Name": "__label__3 ", "Score": 0.0004330444789957255 } ], "DocumentMetadata": { "PageNumber": 2, "Pages": 2 }, "DocumentType": "ScannedPDF", "File": "file.pdf", "Version": "VERSION_NUMBER" }]