分析フェーズ - AWS 規範的ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

分析フェーズ

PDF ファイルを処理することで、さらなる処理や分析に使用できるコンテンツを抽出できます。たとえば、日次業務レポートのコストフィールドを使用してコスト傾向を特定したり、事業運営の主要業績評価指標 (KPI) を集約してインサイトを生成したりできます。抽出したコンテンツを、データレイク、データウェアハウス、サードパーティデータ、顧客関係管理(CRM)データなどの他のデータソースと組み合わせて、詳細なビジネス分析を実行することもできます。

Amazon QuickSight は、抽出された PDF ファイルデータを含む Amazon Simple Storage Service (Amazon S3) バケットに接続する、サーバーレスのビジネスインテリジェンスサービスです。その後、ビジネスアナリストはダッシュボードを作成して分析、視覚化し、S3 バケット内の JSON ファイルからインサイトを直接生成できます。ダッシュボードは S3 バケットに接続し、新しい PDF ファイルが処理されると自動的に更新されます。ダッシュボードをさまざまなユーザーと共有したりユーザーがダッシュボードに登録してモバイルデバイスで表示したりすることもできます。詳細については、Amazon QuickSight ドキュメントの「Amazon S3 ファイルを使用したデータセットの作成」を参照してください。

ほとんどの PDF ファイルには、フォームや表内、またはフリーテキスト段落にリッチテキストコンテンツが含まれています。テキストコンテンツが抽出されると、リッチテキストコンテンツは、Amazon Comprehend や Amazon Translate などの自然言語処理 (NLP)AWS を処理できる他の人工知能および機械学習 (AI/ML) サービスで使用できます。Amazon Kendra を使用して、PDF ファイルの大規模データベースから抽出されたドキュメントのインデックス作成と検索を行うこともできます。

データサイエンティストや ML エンジニアは、Amazon SageMaker を使用して S3 バケットまたは Amazon DynamoDB テーブル内の抽出データに直接アクセスして、高度な ML モデリングと予測を実装することもできます。

分析フェーズのベストプラクティス

分析フェーズを成功させるには、次の 2 つのベストプラクティスを使用できます。