リファレンスアーキテクチャ

次の図は、このガイドの自動ソリューションを日次オペレーションレポートに適用した後のワークフローを示しています。新しいファイルが Amazon Simple Storage Service (Amazon S3) に取り込まれると、処理後すぐに QuickSight ダッシュボードで視覚化できます。

このソリューションの 4 つのフェーズのワークフローは、取り込み、処理、ストレージ、分析です。

この図は、次の 4 つのフェーズを示しています。

PDF ファイルの取り込み – アプリケーションは、同じ形式 (毎日のオペレーションレポートなど) の新しい PDF ファイルを Amazon Simple Storage Service (Amazon S3) バケットに自動的に取り込みます。Amazon S3 は、新しい PDF ファイルがバケットに追加されるとObjectCreatedイベントを開始し、 AWS Lambda 関数を呼び出します。詳細については、Amazon S3 ドキュメントの「Amazon S3 トリガーを使用して Lambda 関数を呼び出す」を参照してください。 Amazon S3
PDF ファイル処理 – Lambda 関数は、コンテンツを抽出する 1 つの PDF ファイルを Amazon Textract に送信します。後処理スクリプトは、Amazon Textract レスポンスを実行および解析し、このタイプの PDF ファイルに事前定義されたテンプレートを使用します。このテンプレートには正しい属性が含まれており、すべてのキーと値のペア、テーブル、その他の未加工テキストを正しく抽出するのに役立ちます。詳細については、 AWS 「規範ガイダンス」ウェブサイトの「Amazon Textract を使用して PDF ファイルからコンテンツを自動的に抽出する」のパターンを参照してください。
データストレージ – 抽出および修正されたデータは、各 PDF ファイルの JSON ファイルに加えて、Amazon DynamoDB テーブルに保存されます。JSON ファイルは、Amazon Athena、QuickSight、Amazon SageMaker AI などのダウンストリーム処理および分析サービスで使用できる S3 バケットに保存されます。 Amazon SageMaker
分析と視覚化 – QuickSight はデータを分析して、処理されたすべての PDF ファイルのインサイトを生成するのに役立つ視覚化を作成します。QuickSight でダッシュボードを作成したら、エンドユーザーやビジネスチームと共有できます。

考慮事項

このガイドのソリューションは、フォームとテーブルの同じ形式と一貫したレイアウトを持つ PDF ファイルの処理に適しています。ただし、テンプレートを定義して事前に編集して、プロセスを完全に自動化し、抽出されたデータを分析に使用できるようにする必要があります。このテンプレートは、Lambda 関数での処理中に使用されます。

このソリューションは異なる PDF ファイルタイプに同時に適用できますが、PDF ファイルタイプごとに個別のテンプレートを作成して定義し、アクセス可能な場所 (Amazon S3 など) に保存する必要があります。PDF ファイル名や S3 バケット内の異なるフォルダなど、PDF ファイルタイプごとに一意の識別子を使用することをお勧めします。その後、Lambda 関数は PDF ファイルタイプを処理するときに適切なテンプレートを呼び出すことができます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

序章

ソリューションフェーズ