翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
で PDF ファイルを分析する自動ソリューションの設計 AWS クラウド
Tianxia Jia と Yanyan Zhang、Amazon Web Services (AWS)
2021 年 10 月 (ドキュメント履歴)
組織は PDF ファイルを定期的に使用して、テキスト、テーブル、フォームなど、さまざまなデータ型を保存および転送します。ただし、さまざまな PDF ファイルからデータを自動的に集約して分析するのは難しい場合があります。たとえば、組織のビジネスアプリケーションは、異なる PDF ファイルを同じ形式で定期的に取り込む場合がありますが、ユーザーは個別に開いて読み取る必要があります。つまり、ユーザーはこれらの PDF ファイルから有用なインサイトを生成することが難しく、関連するデータを手動で抽出し、さらに分析するためにサードパーティーのツールを使用する必要があります。
Amazon Web Services (AWS) クラウドでは、Amazon Textract は PDF ファイルから情報 (印刷されたテキスト、フォーム、テーブルなど) を自動的に抽出し、元の PDF ファイルからの情報を含む JSON 形式のファイルを生成します。後処理中、抽出されたデータは Amazon DynamoDB に保存され、Amazon QuickSight の分析と視覚化を使用してビジネスインサイトを生成できます。
このガイドでは、サーバーレスで自動化された PDF ファイル分析ソリューションを 4 つのフェーズで提供します。
-
取り込みフェーズ – 組織が継続的に生成し (日次オペレーションレポートなど)、定期的にデータを抽出する必要がある PDF ファイルタイプを準備します。
-
処理フェーズ – ダウンストリームアプリケーションに必要なデータ値を PDF ファイルから抽出します。
-
データストレージフェーズ – 抽出したデータを JSON ファイルとして Amazon Simple Storage Service (Amazon S3) に、レコードとして DynamoDB テーブルに保存します。
-
分析フェーズ – Amazon QuickSight でダッシュボードを作成し、データを視覚化して分析できるようにします。
このガイドでは、Amazon S3 を使用して未加工データと処理済みデータを保存し、コンピューティングAWS Lambdaには Amazon Textract、PDF ファイルからコンテンツを抽出するには Amazon Textract、処理済みデータを保存するには DynamoDB、分析と視覚化には Amazon QuickSight を使用します。このガイドは、情報を自動的に抽出し、PDF ファイルからインサイトを生成したいデータサイエンティスト、機械学習 (ML) エンジニア、ソリューションアーキテクトを対象としています。
ターゲットを絞ったビジネス成果
で PDF ファイルを分析する自動ソリューションを設計した後、次の 3 つの結果が期待されます AWS クラウド。
-
新しいデータが使用可能になったときに更新する自動ソリューションを使用して、複数の PDF ファイルからの未加工データを大規模に自動的に処理します。
-
ダウンストリームモデリングおよび分析アプリケーション (Amazon SageMaker AI の ML モデリングなど) は、抽出された PDF ファイルコンテンツにアクセスできます。
-
QuickSight でエンドユーザーにすべての PDF ファイルの内容を表示するデータダッシュボード。