分析フェーズ

PDF ファイルを処理することで、さらなる処理と分析に使用できるコンテンツを抽出できます。例えば、日次オペレーションレポートのコストフィールドを使用してコスト傾向を特定したり、ビジネスオペレーションの主要なパフォーマンス指標 (KPIs) を集計してインサイトを生成したりできます。また、抽出したコンテンツをデータレイク、データウェアハウス、サードパーティーデータ、顧客関係管理 (CRM) データなどの他のデータソースと組み合わせて、詳細なビジネス分析を実行することもできます。

Amazon QuickSight は、抽出された PDF ファイルデータを含む Amazon Simple Storage Service (Amazon S3) バケットに接続するサーバーレスビジネスインテリジェンスサービスです。その後、ビジネスアナリストはダッシュボードを作成して、S3 バケット内の JSON ファイルからインサイトを分析、視覚化、直接生成できます。ダッシュボードは S3 バケットに接続し、新しい PDF ファイルが処理されると自動的に更新されます。ダッシュボードをさまざまなユーザーと共有したり、ダッシュボードをサブスクライブしてモバイルデバイスで表示したりすることもできます。詳細については、Amazon QuickSight ドキュメントのAmazon S3 ファイルを使用したデータセットの作成」を参照してください。

ほとんどの PDF ファイルには、フォームとテーブル内またはフリーテキストの段落にリッチテキストコンテンツも含まれています。テキストコンテンツが抽出された後、リッチテキストコンテンツは、Amazon Comprehend や Amazon Translate などの自然言語処理 (NLP) を処理できる他の AWS 人工知能および機械学習 (AI/ML) サービスで使用できます。Amazon Kendra を使用して、PDF ファイルの大規模なデータベースから抽出されたドキュメントのインデックス作成と検索を行うこともできます。

データサイエンティストと ML エンジニアは、Amazon SageMaker AI を使用して S3 バケットまたは Amazon DynamoDB テーブル内の抽出データに直接アクセスし、高度な ML モデリングと予測を実装することもできます。

分析フェーズのベストプラクティス

分析フェーズを成功させるには、次の 2 つのベストプラクティスを使用できます。

QuickSight のデータソースとして S3 バケットを使用するマニフェストファイルを作成します。詳細については、QuickSight ドキュメントの「独自の Amazon S3 データを使用して分析を作成する」を参照してください。
データセットを自動的に更新して、Amazon S3 に追加された新しいデータをキャプチャし、ダッシュボードを更新します。詳細については、QuickSight ドキュメントの「スケジュールに基づくデータセットの更新」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

データストレージフェーズ

よくある質問