Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

リファレンスアーキテクチャ - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

リファレンスアーキテクチャ

次の図は、このガイドの自動ソリューションを日常業務レポートに適用した後のワークフローを示しています。新しいファイルが Amazon Simple Storage Service (Amazon S3) に取り込まれると、処理後すぐに Amazon QuickSight ダッシュボードで視覚化できます。

このソリューションの 4 つのフェーズのワークフローは、取り込み、処理、ストレージ、分析です。

この図は、次の 4 つのフェーズを示しています。

  1. PDF ファイルの取り込み – アプリケーションは、同じ形式 (毎日のオペレーションレポートなど) の新しい PDF ファイルを Amazon Simple Storage Service (Amazon S3) バケットに自動的に取り込みます。Amazon S3 は、新しい PDF ファイルがバケットに追加されるとObjectCreatedイベントを開始し、 AWS Lambda 関数を呼び出します。詳細については、Amazon S3 ドキュメントの「Amazon S3 トリガーを使用して Lambda 関数を呼び出す」を参照してください。 Amazon S3

  2. PDF ファイル処理 – Lambda 関数は、コンテンツを抽出する 1 つの PDF ファイルを Amazon Textract に送信します。後処理スクリプトは、Amazon Textract レスポンスを実行および解析し、このタイプの PDF ファイルに事前定義されたテンプレートを使用します。このテンプレートには正しい属性が含まれており、すべてのキーと値のペア、テーブル、その他の未加工テキストを正しく抽出するのに役立ちます。詳細については、 AWS 規範ガイダンスウェブサイトの「Amazon Textract を使用して PDF ファイルからコンテンツを自動的に抽出する」というパターンを参照してください。

  3. データストレージ – 抽出および修正されたデータは、各 PDF ファイルの JSON ファイルに加えて、Amazon DynamoDB テーブルに保存されます。JSON ファイルは、Amazon Athena、Amazon Amazon QuickSight SageMaker AI などのダウンストリーム処理および分析サービスで使用できる S3 バケットに保存されます。 Amazon SageMaker

  4. 分析と視覚化 – Amazon QuickSight はデータを分析し、処理されたすべての PDF ファイルのインサイトを生成するのに役立つ視覚化を作成します。Amazon QuickSight でダッシュボードを作成したら、エンドユーザーやビジネスチームと共有できます。

考慮事項

このガイドのソリューションは、フォームとテーブルの同じ形式と一貫したレイアウトの PDF ファイルの処理に適しています。ただし、プロセスを完全に自動化し、抽出されたデータを分析できるように、テンプレートを定義して事前に編集する必要があります。このテンプレートは、Lambda 関数での処理中に使用されます。

このソリューションは異なる PDF ファイルタイプに同時に適用できますが、PDF ファイルタイプごとに個別のテンプレートを作成して定義し、アクセス可能な場所 (Amazon S3 など) に保存する必要があります。PDF ファイル名や S3 バケット内の異なるフォルダなど、PDF ファイルタイプごとに一意の識別子を使用することをお勧めします。その後、Lambda 関数は PDF ファイルタイプを処理するときに適切なテンプレートを呼び出すことができます。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.