Localizar la descripción del inventario
Cuando se publica una lista de inventario, los archivos de manifiesto se publican en la siguiente ubicación del bucket de destino.
destination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.jsondestination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.checksumdestination-prefix
/source-bucket
/config-ID
/hive/dt=YYYY-MM-DD-HH-MM
/symlink.txt
-
es el prefijo del nombre de la clave del objeto que se especifica opcionalmente en la configuración del inventario. Puede utilizar este prefijo para agrupar todos los archivos de lista de inventario en una ubicación común en el bucket de destino.destination-prefix
-
es el bucket de origen para el que se realiza la lista del inventario. El nombre del bucket de origen se añade para evitar colisiones cuando se envían varios informes de inventario procedentes de distintos buckets de origen al mismo bucket de destino.source-bucket
-
se añade para evitar las colisiones con varios informes de inventario del mismo bucket de origen que se envían al mismo bucket de destino.config-ID
proviene de la configuración del informe de inventario, y es el nombre del informe que se define durante la configuración.config-ID
-
es la marca temporal que consta de la hora y de la fecha de inicio en la que el proceso de generación del informe de inventario comienza a explorar el bucket; por ejemplo,YYYY-MM-DDTHH-MMZ
2016-11-06T21-32Z
. -
manifest.json
es el archivo de manifiesto. -
manifest.checksum
es el hash MD5 del contenido del archivomanifest.json
. -
symlink.txt
es el archivo de manifiesto compatible con Apache Hive.
Las listas de inventario se publican en la siguiente ubicación del bucket de destino a diario o cada semana.
destination-prefix
/source-bucket
/config-ID
/data/example-file-name.csv.gz
...destination-prefix
/source-bucket
/config-ID
/data/example-file-name-1.csv.gz
-
es el prefijo del nombre de la clave del objeto que se especifica opcionalmente en la configuración del inventario. Puede utilizar este prefijo para agrupar todos los archivos de lista de inventario en una ubicación común en el bucket de destino.destination-prefix
-
es el bucket de origen para el que se realiza la lista del inventario. El nombre del bucket de origen se añade para evitar colisiones cuando se envían varios informes de inventario procedentes de distintos buckets de origen al mismo bucket de destino.source-bucket
-
example-file-name
.csv.gz
es uno de los archivos de inventario CSV. Los nombres de inventario ORC terminan con la extensión.orc
, mientras que los nombres de inventario Parquet terminan con la extensión.parquet
.
Manifiesto de inventario
Los archivos de manifiesto manifest.json
y symlink.txt
describen dónde se encuentran los archivos de inventario. Siempre que se entrega una nueva lista de inventario, esta va acompañada de un nuevo conjunto de archivos de manifiesto. Estos archivos pueden sobrescribirse entre sí. En buckets con control de versiones, Amazon S3 crea nuevas versiones de los archivos de manifiesto.
Cada manifiesto incluido en el archivo manifest.json
proporciona metadatos y otra información básica sobre un inventario. La información incluye lo siguiente:
-
Nombre del bucket de origen
-
Nombre del bucket de destino
-
Versión del inventario
-
Marca temporal de creación en formato de fecha de inicio que consta de la hora y de la fecha de inicio en la que el proceso de generación del informe de inventario comienza a explorar el bucket
-
Formato y esquema de los archivos de inventario
-
Lista de los archivos de inventario que están en el bucket de destino
Cuando se escribe un archivo manifest.json
, va acompañado de un archivo manifest.checksum
, que es el hash MD5 del contenido del archivo manifest.json
.
ejemplo Manifiesto de inventario en un manifest.json
archivo
En los ejemplos siguientes, se muestra un manifiesto de inventario en un archivo manifest.json
para inventarios con formato CSV, ORC y Parquet.
El archivo symlink.txt
es un archivo de manifiesto compatible con Apache Hive que permite a Hive detectar automáticamente los archivos de inventario y archivos de datos asociados. El manifiesto compatible con Hive funciona con los servicios compatibles con Hive Athena y Amazon Redshift Spectrum. También funciona con aplicaciones compatibles con Hive, como Presto
importante
El archivo de manifiesto symlink.txt
compatible con Apache Hive no funciona actualmente con AWS Glue.
El archivo symlink.txt
no se puede leer con Apache Hive