分析フェーズ - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

分析フェーズ

PDF ファイルを処理することで、さらなる処理と分析に使用できるコンテンツを抽出できます。例えば、日次オペレーションレポートのコストフィールドを使用してコスト傾向を特定したり、ビジネスオペレーションの主要なパフォーマンス指標 (KPIs) を集計してインサイトを生成したりできます。また、抽出したコンテンツをデータレイク、データウェアハウス、サードパーティーデータ、顧客関係管理 (CRM) データなどの他のデータソースと組み合わせて、詳細なビジネス分析を実行することもできます。

Amazon QuickSight は、抽出された PDF ファイルデータを含む Amazon Simple Storage Service (Amazon S3) バケットに接続するサーバーレスビジネスインテリジェンスサービスです。その後、ビジネスアナリストはダッシュボードを作成して、S3 バケット内の JSON ファイルからインサイトを分析、視覚化、直接生成できます。ダッシュボードは S3 バケットに接続し、新しい PDF ファイルが処理されると自動的に更新されます。ダッシュボードをさまざまなユーザーと共有したり、ダッシュボードをサブスクライブしてモバイルデバイスで表示したりすることもできます。詳細については、Amazon QuickSight ドキュメントのAmazon S3 ファイルを使用したデータセットの作成」を参照してください。

ほとんどの PDF ファイルには、フォームとテーブル内またはフリーテキストの段落にリッチテキストコンテンツも含まれています。テキストコンテンツが抽出された後、リッチテキストコンテンツは、Amazon ComprehendAmazon Translate などの自然言語処理 (NLP) を処理できる他の AWS 人工知能および機械学習 (AI/ML) サービスで使用できます。Amazon Kendra を使用して、PDF ファイルの大規模なデータベースから抽出されたドキュメントのインデックス作成と検索を行うこともできます。

データサイエンティストと ML エンジニアは、Amazon SageMaker AI を使用して S3 バケットまたは Amazon DynamoDB テーブル内の抽出データに直接アクセスし、高度な ML モデリングと予測を実装することもできます。

分析フェーズのベストプラクティス

分析フェーズを成功させるには、次の 2 つのベストプラクティスを使用できます。