データストレージフェーズ - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データストレージフェーズ

PDF ファイルの内容には通常、形式 (キーと値のペア)、テーブル、およびフリーテキストが含まれているため、JSON ファイルには、PDF ファイル構造を表し、抽出されたデータを保存するためのネストされたキーと値のペアが含まれている必要があります。PDF ファイルは非構造化データまたは半構造化データであるため、固定スキーマはありません。つまり、PDF ファイルの内容を従来の SQL データベースに保存するのは難しい場合があります。ただし、事前定義されたスキーマを必要としないため、NoSQL データベースは PDF ファイルの内容を保存するのに最適です。PDF ファイルの内容が抽出および後処理されたら、Amazon DynamoDB テーブルの PDF ファイルごとに 1 つのレコードとして保存できます。

最後に抽出したデータは、Amazon Simple Storage Service (Amazon S3) の JSON ファイルとして、DynamoDB テーブルのレコードとして保存することをお勧めします。ダウンストリーム処理および分析アプリケーションは、Amazon S3 の JSON ファイルを簡単に参照できます。例えば、Amazon S3 を Amazon SageMaker AI で ML モデルを構築するためのデータソースとして使用したり、Amazon Athena を使用して JSON ファイルを直接クエリしたり、Amazon Amazon QuickSight のデータソースとして Amazon Amazon S3 を使用したりできます。DynamoDB テーブルに保存されている抽出された PDF ファイルコンテンツは、あらゆる規模で低レイテンシーで簡単にアクセスできるため、このアプローチをクエリとスキャンのバックエンドデータベースとして使用するのに適しています。

データストレージフェーズのベストプラクティス

データストレージフェーズを成功させるには、次の 2 つのベストプラクティスを使用します。

  • 最終的な JSON ファイルを Amazon S3 の別の出力フォルダに保存し、PDF ファイルタイプに基づく名前を使用してください。

  • DynamoDB はプライマリキーを使用して、テーブル内の各項目を一意に識別します。プライマリキーは、単一のキー (パーティションキーなど) または複合キー (パーティションキーとソートキーなど) にすることができます。このソリューションのプライマリキーでは、パーティションキーとして一意の PDF ファイル識別子 (PDF ファイル名など) を使用するか、パーティションキーとソートキーとして 2 つの識別子の組み合わせ (日付とウェアハウス名など) を使用することをお勧めします。詳細については、Amazon DynamoDB ドキュメントの「Amazon DynamoDB のコアコンポーネント」を参照してください。 DynamoDB