ドキュメントデータの予測を行う

ドキュメントデータセットの単一予測とバッチ予測の両方を行う方法を以下に示します。それぞれの Ready-to-use モデルは、データセットの単一予測とバッチ予測の両方をサポートします。単一予測では、単一の予測を行います。例えば、テキストを抽出する画像が 1 つだけの場合や、主要言語を検出するテキストの段落が 1 つだけの場合です。バッチ予測では、データセット全体の予測を行います。例えば、顧客のセンチメントを分析する顧客レビューの CSV ファイルや、オブジェクトを検出する画像ファイルの場合です。

これらの手順は、経費分析、身元証明書分析、および文書分析の Ready-to-use モデルタイプで使用できます。

注記

ドキュメントクエリでは、現在単一予測のみがサポートされています。

単一予測

ドキュメントデータを使用して、Ready-to-use モデルで単一の予測を行うには、次の手順に従います。

Canvas アプリケーションの左側のナビゲーションペインで、[Ready-to-use モデル] を選択します。
[Ready-to-use モデル] ページで、ユースケースに合った Ready-to-use モデルを選択します。ドキュメントデータの場合は、[経費分析]、[身分証明書分析]、または[ドキュメント分析] のいずれかである必要があります。
選択した Ready-to-use モデルの [予測を実行] ページで、[単一予測] を選択します。
Ready-to-use モデルが身分証明書分析またはドキュメント分析の場合は、以下のアクションを実行します。経費分析または文書クエリを行う場合は、この手順をスキップして、手順 5 または手順 6 に進んでください。
1. [ドキュメントのアップロード] を選択します。
2. ローカルコンピューターから PDF、JPG、または PNG ファイルをアップロードするように求められます。ローカルファイルからドキュメントを選択すると、予測結果が生成されます。
Ready-to-use が経費分析の場合は、次の操作を行います。
1. [請求書または領収書のアップロード] を選択します。
2. ローカルコンピューターから PDF、JPG、PNG、または TIFF ファイルをアップロードするように求められます。ローカルファイルからドキュメントを選択すると、予測結果が生成されます。
Ready-to-use モデルがドキュメントクエリの場合は、次の操作を行います。
1. [ドキュメントのアップロード] を選択します。
2. ローカルコンピューターから PDF ファイルをアップロードするように求められます。ローカルファイルのドキュメントを選択します。PDF は 1～100 ページでなければなりません。
  
  注記
  アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、または欧州 (フランクフルト) 地域の場合、ドキュメントクエリの最大 PDF サイズは 20 ページです。
3. 右側のペインに、ドキュメント内の情報を検索するクエリを入力します。1 つのクエリに入力できる文字数は 1～200 文字です。クエリは一度に 15 個まで追加できます。
4. [クエリを送信] を選択すると、クエリに対する回答を含む結果が生成されます。クエリを送信するたびに 1 回請求されます。

右側のペインの [予測結果] には、文書の分析が表示されます。

以下の情報は、各タイプのソリューションの結果を示しています。

経費分析では、結果は領収書の合計などのフィールドを含む[概要フィールド] と、領収書の個々のアイテムなどのフィールドを含む[行アイテムフィールド] が表示されます。識別されたフィールドは、出力されたドキュメント画像上で強調表示されます。
身分証明書分析の場合、出力には、氏名、住所、生年月日など、Ready-to-use モデルが識別したフィールドが表示されます。識別されたフィールドは、出力されたドキュメント画像上で強調表示されます。
文書分析では、[未加工テキスト]、[フォーム]、[表]、[署名] が表示されます。[未加工テキスト] には抽出されたテキストがすべて含まれ、[フォーム]、[表]、[署名] にはこれらのカテゴリに該当するフォームに関する情報のみが含まれます。例えば、[表] にはドキュメント内の表から抽出された情報のみが含まれます。識別されたフィールドは、出力されたドキュメント画像上で強調表示されます。
ドキュメントクエリの場合、Canvas は各クエリに対する回答を返します。折りたたみ可能なクエリのドロップダウンを開くと、結果と予測の信頼度スコアが表示されます。Canvas がドキュメント内で複数の回答を検出した場合、クエリごとに複数の結果が表示される場合があります。

次のスクリーンショットは、ドキュメント分析ソリューションを使用した単一予測の結果を示しています。

ドキュメント分析の Ready-to-use モデルを使用した単一予測の結果のスクリーンショット。

バッチ予測

ドキュメントデータを使用して、Ready-to-use モデルでバッチ予測を行うには、次の手順に従います。

Canvas アプリケーションの左側のナビゲーションペインで、[Ready-to-use モデル] を選択します。
[Ready-to-use モデル] ページで、ユースケースに合った Ready-to-use モデルを選択します。画像データの場合は、[経費分析]、[身分証明書分析]、または[ドキュメント分析] のいずれかである必要があります。
選択した Ready-to-use モデルの [予測を実行] ページで、[バッチ予測] を選択します。
データセットを既にインポートしている場合は、[データセットを選択] を選択します。それ以外の場合は、[新しいデータセットをインポート] を選択すると、データのインポートワークフローが表示されます。
使用可能なデータセットのリストからデータセットを選択し、[予測を生成] を選択します。ユースケースがドキュメント分析の場合は、手順 6 に進んでください。
(オプション) ユースケースがドキュメント分析の場合は、[バッチ予測に含める機能の選択] という別のダイアログボックスが表示されます。[フォーム]、[表]、[署名] を選択して、結果をそれらの機能にグループ化できます。次に、[予測を生成] を選択します。

予測ジョブの実行が完了すると、[予測を実行] ページの [予測] の下に出力データセットが表示されます。このデータセットには結果が格納されており、[その他のオプション] アイコン ( ) を選択すると、[予測結果を表示] を選択してドキュメントデータの分析結果をプレビューできます。

以下の情報は、各タイプのソリューションの結果を示しています。

経費分析では、結果は領収書の合計などのフィールドを含む[概要フィールド] と、領収書の個々のアイテムなどのフィールドを含む[行アイテムフィールド] が表示されます。識別されたフィールドは、出力されたドキュメント画像上で強調表示されます。
身分証明書分析の場合、出力には、氏名、住所、生年月日など、Ready-to-use モデルが識別したフィールドが表示されます。識別されたフィールドは、出力されたドキュメント画像上で強調表示されます。
文書分析では、[未加工テキスト]、[フォーム]、[表]、[署名] が表示されます。[未加工テキスト] には抽出されたテキストがすべて含まれ、[フォーム]、[表]、[署名] にはこれらのカテゴリに該当するフォームに関する情報のみが含まれます。例えば、[表] にはドキュメント内の表から抽出された情報のみが含まれます。識別されたフィールドは、出力されたドキュメント画像上で強調表示されます。

結果をプレビューしたら、[予測をダウンロード] を選択して、結果を ZIP ファイルでダウンロードできます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

画像データの予測を行う

カスタムモデル