翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
PDF ファイルを処理することで、さらなる処理と分析に使用できるコンテンツを抽出できます。例えば、日次運用レポートのコストフィールドを使用してコスト傾向を特定したり、ビジネス運用の主要なパフォーマンス指標 (KPIs) を集計してインサイトを生成したりできます。また、抽出されたコンテンツをデータレイク、データウェアハウス、サードパーティーデータ、カスタマーリレーションシップ管理 (CRM) データなどの他のデータソースと組み合わせて、詳細なビジネス分析を実行することもできます。
Amazon QuickSight は、抽出された PDF ファイルデータを含む Amazon Simple Storage Service (Amazon S3) バケットに接続するサーバーレスビジネスインテリジェンスサービスです。その後、ビジネスアナリストはダッシュボードを作成して、S3 バケット内の JSON ファイルからインサイトを分析、視覚化、直接生成できます。ダッシュボードは S3 バケットに接続し、新しい PDF ファイルが処理されると自動的に更新されます。ダッシュボードをさまざまなユーザーと共有したり、ダッシュボードをサブスクライブしてモバイルデバイスで表示したりすることもできます。詳細については、Amazon QuickSight ドキュメントのAmazon S3 ファイルを使用したデータセットの作成」を参照してください。
ほとんどの PDF ファイルには、フォームとテーブル内またはフリーテキストの段落にリッチテキストコンテンツも含まれています。テキストコンテンツが抽出されると、Amazon Amazon Comprehend Amazon Translate などの自然言語処理 (NLP) を処理できる他の AWS 人工知能および機械学習 (AI/ML) サービスでリッチテキストコンテンツを使用できます。Amazon Kendra を使用して、PDF ファイルの大規模なデータベースから抽出されたドキュメントのインデックス作成と検索を行うこともできます。
データサイエンティストと ML エンジニアは、Amazon SageMaker AI を使用して S3 バケットまたは Amazon DynamoDB テーブル内の抽出データに直接アクセスし、高度な ML モデリングと予測を実装することもできます。
分析フェーズのベストプラクティス
分析フェーズを成功させるには、次の 2 つのベストプラクティスを使用できます。
-
S3 バケットを Amazon QuickSight のデータソースとして使用するマニフェストファイルを作成します。詳細については、Amazon QuickSight ドキュメントの「独自の Amazon S3 データを使用して分析を作成する」を参照してください。
-
データセットを自動的に更新して、Amazon S3 に追加された新しいデータをキャプチャし、ダッシュボードを更新します。詳細については、Amazon QuickSight ドキュメントの「スケジュールに基づくデータセットの更新」を参照してください。