インベントリリストの検索
インベントリリストが発行されると、マニフェストファイルは保存先バケットの次の場所に発行されます。
destination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.jsondestination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.checksumdestination-prefix
/source-bucket
/config-ID
/hive/dt=YYYY-MM-DD-HH-MM
/symlink.txt
-
は、インベントリ設定でオプションで指定するオブジェクトキー名プレフィックスです。このプレフィックスを使用して、保存先バケット内の共通の場所に、すべてのインベントリリストファイルをグループ化できます。destination-prefix
-
は、インベントリリストの対象であるソースバケットです。複数の異なるソースバケットから複数のインベントリレポートが同じ保存先バケットに送信されたときの競合を避けるには、ソースバケット名を追加します。source-bucket
-
同じソースバケットから同じ保存先バケットに複数のインベントリレポートが送信されたときの競合を避けるには、
を追加します。config-ID
は、インベントリレポートの設定から取得されるため、設定時に定義したレポートの名前になります。config-ID
-
は、インベントリのレポート生成プロセスでバケットのスキャンを開始した日時を示すタイムスタンプです (例:YYYY-MM-DDTHH-MMZ
2016-11-06T21-32Z
)。 -
manifest.json
はマニフェストファイルです。 -
manifest.checksum
は、manifest.json
ファイルのコンテンツの MD5 ハッシュです。 -
symlink.txt
は Apache Hive 互換のマニフェストファイルです。
インベントリリストは、保存先バケットの次の場所に、毎日または毎週発行されます。
destination-prefix
/source-bucket
/config-ID
/data/example-file-name.csv.gz
...destination-prefix
/source-bucket
/config-ID
/data/example-file-name-1.csv.gz
-
は、インベントリ設定でオプションで指定するオブジェクトキー名プレフィックスです。このプレフィックスを使用して、保存先バケットの共通の場所にすべてのインベントリリストファイルをグループ化できます。destination-prefix
-
は、インベントリリストの対象であるソースバケットです。複数の異なるソースバケットから複数のインベントリレポートが同じ保存先バケットに送信されたときの競合を避けるには、ソースバケット名を追加します。source-bucket
-
example-file-name
.csv.gz
は、CSV インベントリファイルの 1 つです。ORC インベントリ名はファイル名拡張子.orc
で終わり、Parquet インベントリ名はファイル名拡張子.parquet
で終わります。インベントリリストファイルは、Amazon S3 Select を使用してクエリできます。Amazon S3 コンソールで、インベントリリストの名前 (例:
destination-prefix
/source-bucket
/config-ID
/data/example-file-name.csv.gz
) を選択します。次に、[オブジェクトアクション]、[S3 Select を使用したクエリ] の順に選択します。S3 Select 集計関数を使用してインベントリリストファイルをクエリする方法の例については、「SUM の例」を参照してください。
インベントリマニフェスト
マニフェストファイルの manifest.json
と symlink.txt
は、インベントリファイルの場所を記述します。新しいインベントリリストが配信されるたびに、新しいセットのマニフェストファイルが作成されます。これらのファイルは互いに上書きされる可能性があります。バージョニングが有効なバケットには、Amazon S3 はマニフェストファイルの新しいバージョンを作成します。
manifest.json
ファイルに含まれる各マニフェストには、メタデータおよびその他のインベントリに関する基本的な情報が記載されています。この情報には以下が含まれます。
-
ソースバケット名
-
保存先バケット名
-
インベントリのバージョン
-
インベントリのレポート生成プロセスでバケットのスキャンを開始した日時をエポック日付形式で示す、作成タイムスタンプ
-
インベントリファイルの形式とスキーマ
-
保存先バケット内に存在するインベントリファイルのリスト
manifest.json
ファイルを書き込むたびに、manifest.checksum
ファイルのコンテンツの MD5 ハッシュとして manifest.json
ファイルが添付されます。
例 manifest.json
ファイル内のインベントリマニフェスト
manifest.json
ファイルに含まれる、CSV、ORC、Parquet 形式インベントリ用のインベントリマニフェストの例を以下に示します。
symlink.txt
ファイルは、Hive がインベントリファイルおよび関連データファイルを自動的に検出できるようにする Apache Hive 互換のマニフェストファイルです。Hive 互換のマニフェストは、Athena や Amazon Redshift Spectrum など、Hive 互換のサービスで動作します。また、Presto
重要
symlink.txt
Apache Hive 互換のマニフェストファイルは現在、AWS Glue では動作しません。
Apache Hivesymlink.txt
ファイルの読み取りは、ORC 形式および Parquet 形式のインベントリファイルではサポートされていません。