で PDF ファイルを分析する自動ソリューションの設計 AWS クラウド

Tianxia Jia と Yanyan Zhang、Amazon Web Services (AWS）

2021 年 10 月 (ドキュメント履歴）

組織は PDF ファイルを定期的に使用して、テキスト、テーブル、フォームなど、さまざまなデータ型を保存および転送します。ただし、さまざまな PDF ファイルからデータを自動的に集約して分析するのは難しい場合があります。たとえば、組織のビジネスアプリケーションは、異なる PDF ファイルを同じ形式で定期的に取り込む場合がありますが、ユーザーは個別に開いて読み取る必要があります。つまり、ユーザーはこれらの PDF ファイルから有用なインサイトを生成することが難しく、関連するデータを手動で抽出し、さらに分析するためにサードパーティーのツールを使用する必要があります。

Amazon Web Services (AWS) クラウドでは、Amazon Textract は PDF ファイルから情報 (印刷されたテキスト、フォーム、テーブルなど) を自動的に抽出し、元の PDF ファイルからの情報を含む JSON 形式のファイルを生成します。後処理中、抽出されたデータは Amazon DynamoDB に保存され、Amazon QuickSight の分析と視覚化を使用してビジネスインサイトを生成できます。

このガイドでは、サーバーレスで自動化された PDF ファイル分析ソリューションを 4 つのフェーズで提供します。

取り込みフェーズ – 組織が継続的に生成し (日次オペレーションレポートなど）、定期的にデータを抽出する必要がある PDF ファイルタイプを準備します。
処理フェーズ – ダウンストリームアプリケーションに必要なデータ値を PDF ファイルから抽出します。
データストレージフェーズ – 抽出したデータを JSON ファイルとして Amazon Simple Storage Service (Amazon S3) に、レコードとして DynamoDB テーブルに保存します。
分析フェーズ – Amazon QuickSight でダッシュボードを作成し、データを視覚化して分析できるようにします。

このガイドでは、Amazon S3 を使用して未加工データと処理済みデータを保存し、コンピューティングAWS Lambdaには Amazon Textract、PDF ファイルからコンテンツを抽出するには Amazon Textract、処理済みデータを保存するには DynamoDB、分析と視覚化には Amazon QuickSight を使用します。このガイドは、情報を自動的に抽出し、PDF ファイルからインサイトを生成したいデータサイエンティスト、機械学習 (ML) エンジニア、ソリューションアーキテクトを対象としています。

ターゲットを絞ったビジネス成果

で PDF ファイルを分析する自動ソリューションを設計した後、次の 3 つの結果が期待されます AWS クラウド。

新しいデータが使用可能になったときに更新する自動ソリューションを使用して、複数の PDF ファイルからの未加工データを大規模に自動的に処理します。
ダウンストリームモデリングおよび分析アプリケーション (Amazon SageMaker AI の ML モデリングなど) は、抽出された PDF ファイルコンテンツにアクセスできます。
QuickSight でエンドユーザーにすべての PDF ファイルの内容を表示するデータダッシュボード。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

リファレンスアーキテクチャ