翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
リファレンスアーキテクチャ
次の図は、このガイドの自動化ソリューションを毎日の運用レポートに適用した後のワークフローを示しています。Amazon SS3 Simple Storage Service (Amazon S3) に新しいファイルが取り込まれると、処理後すぐに Amazon QuickSight ダッシュボードで視覚化できます。
図表に示す内容は以下のステップです。
-
PDF ファイルの取り込み — アプリケーションは、Amazon Simple Storage Service (Amazon S3) 3 バケットに同じ形式の新しい PDF ファイル (例:日次操作レポート) を Amazon S3 バケットに自動的に取り込みます。Amazon S3 は、新しい PDF
ObjectCreated
ファイルがバケットに追加されたときにイベントを開始し、AWS Lambdaこれにより関数が呼び出されます。詳細については、Amazon S3 ドキュメントの Amazon S3 トリガーを使用して Lambda 関数を呼び出すを参照してください。 -
PDF ファイル処理 — Lambda 関数は 1 つの PDF ファイルを Amazon Extract に送信し、Amazon Textract がコンテンツを抽出します。後処理スクリプトは Amazon Textract レスポンスを実行および解析し、このタイプの PDF ファイル用に定義済みのテンプレートを使用します。このテンプレートには正しい属性が含まれており、すべてのキーと値のペア、テーブル、およびその他の未加工テキストを正しく抽出するのに役立ちます。詳細については、AWS規範的ガイダンスウェブサイトの「Amazon Textract を使用して PDF ファイルからコンテンツを自動的に抽出する」というパターンを参照してください。
-
データストレージ — 抽出および修正されたデータは、各 PDF ファイルの JSON ファイルに加えて Amazon DynamoDB テーブルに保存されます。JSON ファイルは、Amazon Athena、Amazon、Amazon などのダウンストリームの処理および分析サービスで使用できる S3 SageMaker バケットに保存されます。 QuickSight
-
分析とビジュアライゼーション — Amazon QuickSight はデータを分析し、処理済みのすべての PDF ファイルのインサイトを生成するのに役立つビジュアライゼーションを作成します。Amazon でダッシュボードを作成したら QuickSight、エンドユーザーやビジネスチームと共有できます。
考慮事項
このガイドのソリューションは、形式が同一で、フォームと表のレイアウトが一貫している PDF ファイルの処理に適しています。ただし、プロセスを完全に自動化して抽出データを分析できるようにするには、事前にテンプレートを定義して編集する必要があります。このテンプレートは、Lambda 関数による処理中に使用されます。
このソリューションはさまざまな PDF ファイルタイプに同時に適用できますが、PDF ファイルタイプごとに個別のテンプレートを作成して定義し、アクセス可能な場所(Amazon S3 など)に保存する必要があります。PDF ファイル名や S3 バケット内の異なるフォルダなど、PDF ファイルタイプごとに一意の識別子を使用することをお勧めします。これで、Lambda 関数は PDF ファイルタイプを処理するときに適切なテンプレートを呼び出すことができます。