データストレージフェーズ

PDF ファイルの内容には通常、形式 (キーと値のペア）、テーブル、およびフリーテキストが含まれているため、JSON ファイルには、PDF ファイル構造を表し、抽出されたデータを保存するためのネストされたキーと値のペアが含まれている必要があります。PDF ファイルは非構造化データまたは半構造化データであるため、固定スキーマはありません。つまり、PDF ファイルの内容を従来の SQL データベースに保存するのは難しい場合があります。ただし、事前定義されたスキーマを必要としないため、NoSQL データベースは PDF ファイルの内容を保存するのに最適です。PDF ファイルの内容が抽出および後処理されたら、Amazon DynamoDB テーブルの PDF ファイルごとに 1 つのレコードとして保存できます。

最後に抽出したデータは、Amazon Simple Storage Service (Amazon S3) の JSON ファイルとして、DynamoDB テーブルのレコードとして保存することをお勧めします。ダウンストリーム処理および分析アプリケーションは、Amazon S3 の JSON ファイルを簡単に参照できます。例えば、Amazon S3 を Amazon SageMaker AI で ML モデルを構築するためのデータソースとして使用したり、Amazon Athena を使用して JSON ファイルを直接クエリしたり、Amazon Amazon QuickSight のデータソースとして Amazon Amazon S3 を使用したりできます。DynamoDB テーブルに保存されている抽出された PDF ファイルコンテンツは、あらゆる規模で低レイテンシーで簡単にアクセスできるため、このアプローチをクエリとスキャンのバックエンドデータベースとして使用するのに適しています。

データストレージフェーズのベストプラクティス

データストレージフェーズを成功させるには、次の 2 つのベストプラクティスを使用します。

最終的な JSON ファイルを Amazon S3 の別の出力フォルダに保存し、PDF ファイルタイプに基づく名前を使用してください。
DynamoDB はプライマリキーを使用して、テーブル内の各項目を一意に識別します。プライマリキーは、単一のキー (パーティションキーなど) または複合キー (パーティションキーとソートキーなど) にすることができます。このソリューションのプライマリキーでは、パーティションキーとして一意の PDF ファイル識別子 (PDF ファイル名など) を使用するか、パーティションキーとソートキーとして 2 つの識別子の組み合わせ (日付とウェアハウス名など) を使用することをお勧めします。詳細については、Amazon DynamoDB ドキュメントの「Amazon DynamoDB のコアコンポーネント」を参照してください。 DynamoDB

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

処理フェーズ

分析フェーズ