翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
リファレンスアーキテクチャ
次の図は、このガイドの自動ソリューションを日常業務レポートに適用した後のワークフローを示しています。新しいファイルが Amazon Simple Storage Service (Amazon S3) に取り込まれると、処理後すぐに Amazon QuickSight ダッシュボードで視覚化できます。

この図は、次の 4 つのフェーズを示しています。
-
PDF ファイルの取り込み – アプリケーションは、同じ形式 (毎日のオペレーションレポートなど) の新しい PDF ファイルを Amazon Simple Storage Service (Amazon S3) バケットに自動的に取り込みます。Amazon S3 は、新しい PDF ファイルがバケットに追加されると
ObjectCreated
イベントを開始し、 AWS Lambda 関数を呼び出します。詳細については、Amazon S3 ドキュメントの「Amazon S3 トリガーを使用して Lambda 関数を呼び出す」を参照してください。 Amazon S3 -
PDF ファイル処理 – Lambda 関数は、コンテンツを抽出する 1 つの PDF ファイルを Amazon Textract に送信します。後処理スクリプトは、Amazon Textract レスポンスを実行および解析し、このタイプの PDF ファイルに事前定義されたテンプレートを使用します。このテンプレートには正しい属性が含まれており、すべてのキーと値のペア、テーブル、その他の未加工テキストを正しく抽出するのに役立ちます。詳細については、 AWS 規範ガイダンスウェブサイトの「Amazon Textract を使用して PDF ファイルからコンテンツを自動的に抽出する」というパターンを参照してください。
-
データストレージ – 抽出および修正されたデータは、各 PDF ファイルの JSON ファイルに加えて、Amazon DynamoDB テーブルに保存されます。JSON ファイルは、Amazon Athena、Amazon Amazon QuickSight SageMaker AI などのダウンストリーム処理および分析サービスで使用できる S3 バケットに保存されます。 Amazon SageMaker
-
分析と視覚化 – Amazon QuickSight はデータを分析し、処理されたすべての PDF ファイルのインサイトを生成するのに役立つ視覚化を作成します。Amazon QuickSight でダッシュボードを作成したら、エンドユーザーやビジネスチームと共有できます。
考慮事項
このガイドのソリューションは、フォームとテーブルの同じ形式と一貫したレイアウトの PDF ファイルの処理に適しています。ただし、プロセスを完全に自動化し、抽出されたデータを分析できるように、テンプレートを定義して事前に編集する必要があります。このテンプレートは、Lambda 関数での処理中に使用されます。
このソリューションは異なる PDF ファイルタイプに同時に適用できますが、PDF ファイルタイプごとに個別のテンプレートを作成して定義し、アクセス可能な場所 (Amazon S3 など) に保存する必要があります。PDF ファイル名や S3 バケット内の異なるフォルダなど、PDF ファイルタイプごとに一意の識別子を使用することをお勧めします。その後、Lambda 関数は PDF ファイルタイプを処理するときに適切なテンプレートを呼び出すことができます。