データストレージフェーズ - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データストレージフェーズ

PDF ファイルのコンテンツには通常、フォーム(キーと値のペア)、テーブル、およびフリーテキストが含まれるため、JSON ファイルには PDF ファイルの構造を表し、抽出されたデータを保存するために、ネストされたキーと値のペアを含める必要があります。PDF ファイルは非構造化データまたは半構造化データであるため、スキーマは固定されていません。つまり、PDF ファイルの内容を従来の SQL データベースに保存するのは難しい場合があります。ただし、NoSQL データベースは事前に定義されたスキーマを必要としないため、PDF ファイルの内容を保存するのに最適です。PDF ファイルの内容を抽出して後処理した後は、Amazon DynamoDB テーブルに PDF ファイルごとに 1 つのレコードとして保存できます。

最終的に抽出されたデータは、JSON ファイルとして Amazon Simple Storage Service (Amazon S3) に保存し、レコードとして DynamoDB テーブルに保存することをお勧めします。ダウンストリームの処理および分析アプリケーションでは、Amazon S3 の JSON ファイルを簡単に参照できます。たとえば、Amazon S3 を Amazon で ML モデルを構築するためのデータソースとして使用したり SageMaker、Amazon Athena を使用して JSON ファイルを直接クエリしたり、Amazon S3 を Amazon のデータソースとして使用したりできます QuickSight。DynamoDB テーブルに保存されている抽出された PDF ファイルのコンテンツには、どのような規模でも低レイテンシーで簡単にアクセスできるため、このアプローチはクエリやスキャンのバックエンドデータベースとして使用するのに適しています。

データストレージフェーズのベストプラクティス

データストレージフェーズを成功させるには、次の 2 つのベストプラクティスを使用してください。

  • 最終的な JSON ファイルを Amazon S3 の別の出力フォルダに保存し、PDF ファイルタイプに基づく名前を使用してください。

  • DynamoDB では、プライマリキーを使用してテーブルの各項目を一意に識別できます。主キーは、単一のキー (パーティションキーなど) でも複合キー (パーティションキーとソートキーなど) でもかまいません。このソリューションのプライマリキーでは、パーティションキーとして一意の PDF ファイル識別子 (PDF ファイル名など) を使用するか、パーティションキーとソートキーとして 2 つの識別子の組み合わせ (日付と倉庫名など) を使用することをお勧めします。詳細については、Amazon DynamoDB ドキュメントの「Amazon DynamoDB のコアコンポーネント」を参照してください。