Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Individuazione dell'elenco inventario
Quando viene pubblicato un elenco di inventario, i file manifest vengono pubblicati nel seguente percorso del bucket di destinazione.
destination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.jsondestination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.checksumdestination-prefix
/source-bucket
/config-ID
/hive/dt=YYYY-MM-DD-HH-MM
/symlink.txt
-
è il prefisso del nome della chiave dell'oggetto specificato facoltativamente nella configurazione dell'inventario. Puoi utilizzare questo prefisso per raggruppare tutti i file dell'elenco di inventario in un percorso comune all'interno del bucket di destinazione.destination-prefix
-
è il bucket di origine per l'elenco inventario. Il nome del bucket di origine viene aggiunto per evitare conflitti quando più report di inventario provenienti da bucket di origine diversi vengono inviati allo stesso bucket di destinazione.source-bucket
-
viene aggiunto per evitare conflitti con più report di inventario provenienti dallo stesso bucket di origine inviati allo stesso bucket di destinazione.config-ID
proviene dalla configurazione del report di inventario ed è il nome del report definito durante la configurazione.config-ID
-
è il timestamp composto dall'ora di inizio e dalla data in cui la generazione del report di inventario comincia la scansione del bucket; ad esempio,YYYY-MM-DDTHH-MMZ
2016-11-06T21-32Z
. -
manifest.json
è il file manifest. -
manifest.checksum
è l'hash MD5 del contenuto del filemanifest.json
. -
symlink.txt
è il file manifesto compatibile con Apache Hive.
Gli elenchi di inventario vengono pubblicati giornalmente o settimanalmente nel seguente percorso del bucket di destinazione.
destination-prefix
/source-bucket
/config-ID
/data/example-file-name.csv.gz
...destination-prefix
/source-bucket
/config-ID
/data/example-file-name-1.csv.gz
-
è il prefisso del nome della chiave dell'oggetto specificato facoltativamente nella configurazione dell'inventario. Puoi utilizzare questo prefisso per raggruppare tutti i file dell'elenco di inventario in un percorso comune nel bucket di destinazione.destination-prefix
-
è il bucket di origine per l'elenco inventario. Il nome del bucket di origine viene aggiunto per evitare conflitti quando più report di inventario provenienti da bucket di origine diversi vengono inviati allo stesso bucket di destinazione.source-bucket
-
example-file-name
.csv.gz
è uno dei file CSV di inventario. I nomi di inventario ORC terminano con l'estensione del nome di file.orc
, mentre i nomi di inventario Parquet terminano con l'estensione del nome di file.parquet
.Puoi richiedere un file di elenco di inventario con Amazon S3 Select.
Quindi, scegli Azioni oggetto e Query con S3 Select. Per un esempio di come utilizzare una funzione aggregata S3 Select per interrogare un file di elenco di inventario, vedi SUM EsempioNella console Amazon S3, scegli il nome dell'elenco di inventario (ad esempio,
destination-prefix/
/data/ .csv.gz). example-file-namesource-bucket
/config-ID
Manifest inventario
Nei file manifest manifest.json
e symlink.txt
viene descritto dove sono posizionati i file di inventario. Ogni volta che viene distribuito un nuovo elenco di inventario, quest'ultimo è accompagnato da un nuovo set di file manifest. Questi file potrebbero sovrascriversi l'un l'altro. Nei bucket con il controllo delle versioni abilitato, Amazon S3 crea nuove versioni dei file manifesto.
Ogni manifesto contenuto nel file manifest.json
fornisce i metadata e altre informazioni di base riguardanti un inventario. Queste informazioni comprendono:
-
Il nome del bucket di origine
-
Il nome del bucket di destinazione
-
La versione dell'inventario
-
La creazione del timestamp in formato data epoca (Unix epoch) che è composto dall'ora di inizio e dalla data in cui il processo di generazione del report di inventario comincia la scansione del bucket
-
Il formato e lo schema dei file di inventario
-
Un elenco dei file di inventario che si trovano nel bucket di destinazione
Ogni volta che viene scritto un file manifest.json
, questo è accompagnato da un file manifest.checksum
che è l'hash MD5 del contenuto del file manifest.json
.
Esempio Manifest inventario in un file manifest.json
Negli esempi seguenti viene illustrato un manifesto inventario in un file manifest.json
per gli inventari in formato CSV, ORC e Parquet.
Il file symlink.txt
è un file manifesto compatibile con Apache Hive che consente a Hive di scoprire automaticamente i file di inventario e i relativi file di dati. Il manifest compatibile con Hive funziona con i servizi compatibili con Hive Athena e Amazon Redshift Spectrum. Funziona anche con applicazioni compatibili con Hive, incluse Presto
Importante
Il file manifesto compatibile con symlink.txt
Apache Hive attualmente non può essere utilizzato con AWS Glue.
La lettura del file symlink.txt
con Apache Hive