上のPDFファイルを分析する自動化ソリューションの設計AWS クラウド - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

上のPDFファイルを分析する自動化ソリューションの設計AWS クラウド

Amazon Web Services、ティアンシア・ジアとヤンヤン・チャン (AWS)

2021 年 10 月 (ドキュメント履歴)

Organizations は定期的に PDF ファイルを使用して、テキスト、表、フォームなどのさまざまな種類のデータを保存および転送します。ただし、さまざまな PDF ファイルのデータを自動的に集約して分析するのは難しい場合があります。たとえば、組織のビジネスアプリケーションには、同じ形式の異なる PDF ファイルが定期的に取り込まれているものの、ユーザーは個別に開いて読む必要があります。つまり、ユーザーはこれらのPDFファイルから有益な情報を得ることが難しく、関連するデータを手動で抽出し、さらに分析するためにサードパーティ製のツールを使用する必要があります。

Amazon Web Services (AWS) クラウドでは、Amazon Textract は PDF ファイルから情報(印刷テキスト、フォーム、表など)を自動的に抽出し、元の PDF ファイルの情報を含む JSON 形式のファイルを生成します。後処理中、抽出されたデータは Amazon DynamoDB に保存され、Amazon の分析とビジュアライゼーションを使用してビジネスインサイトを生成できます QuickSight。

このガイドでは、サーバーレスで自動化されたPDFファイル分析ソリューションを4つのフェーズに分けて提供します。

このガイドでは Amazon S3 を使用して未処理のデータと処理済みデータを保存し、コンピューティングには Amazon Textract を PDF ファイルからコンテンツを抽出し、DynamoDB を使用して処理済みデータを保存し、Amazon QuickSight を使用して分析と視覚化を行います。AWS Lambdaこのガイドは、PDF ファイルから自動的に情報を抽出し、インサイトを生成したいと考えているデータサイエンティスト、機械学習 (ML) エンジニア、ソリューションアーキテクトを対象としています。

ターゲットを絞ったビジネス成果

上の PDF ファイルを分析する自動化ソリューションを設計すると、次の 3 つの結果が期待できますAWS クラウド。

  • 新しいデータが利用可能になったときに更新される自動ソリューションを使用して、複数の PDF ファイルからの未処理データを大規模に自動的に処理します。

  • 下流のモデリングおよび分析アプリケーション (Amazon の ML モデリングなど SageMaker) は、抽出された PDF ファイルのコンテンツにアクセスできます。

  • Amazon のエンドユーザーにすべての PDF ファイルの内容を表示するデータダッシュボード QuickSight。