Localização de lista de inventário
Quando uma lista de inventários é publicada, os arquivos manifestos são publicados no seguinte local no bucket de destino.
destination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.jsondestination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.checksumdestination-prefix
/source-bucket
/config-ID
/hive/dt=YYYY-MM-DD-HH-MM
/symlink.txt
-
é o prefixo do nome da chave do objeto que é especificado opcionalmente na configuração do inventário. É possível usar esse prefixo para agrupar todos os arquivos da lista de inventários em um local comum no bucket de destino.destination-prefix
-
é o bucket de origem ao qual a lista de inventário se refere. O nome do bucket de origem é adicionado para evitar colisões quando vários relatórios do inventário de diferentes buckets de origem são enviados ao mesmo bucket de destino.source-bucket
-
O
é adicionado para evitar colisões com vários relatórios do inventário do mesmo bucket de origem que são enviados ao mesmo bucket de destino. Oconfig-ID
vem da configuração do relatório de inventário e é o nome do relatório definido durante a configuração.config-ID
-
é o carimbo de data/hora que consiste na data e hora de início em que o processo de geração do relatório de inventário começa a verificar o bucket. Por exemplo,YYYY-MM-DDTHH-MMZ
2016-11-06T21-32Z
. -
manifest.json
é o arquivo manifesto. -
manifest.checksum
é o hash MD5 do conteúdo do arquivomanifest.json
. -
symlink.txt
é o arquivo de manifesto compatível com o Apache Hive.
As listas de inventários são publicadas diária ou semanalmente no seguinte local do bucket de destino.
destination-prefix
/source-bucket
/config-ID
/data/example-file-name.csv.gz
...destination-prefix
/source-bucket
/config-ID
/data/example-file-name-1.csv.gz
-
é o prefixo do nome da chave do objeto que é especificado opcionalmente na configuração do inventário. É possível usar esse prefixo para agrupar todos os arquivos da lista de inventários em um local comum no bucket de destino.destination-prefix
-
é o bucket de origem ao qual a lista de inventário se refere. O nome do bucket de origem é adicionado para evitar colisões quando vários relatórios do inventário de diferentes buckets de origem são enviados ao mesmo bucket de destino.source-bucket
-
example-file-name
.csv.gz
é um dos arquivos de inventário em formato CSV. Os nomes de inventário ORC terminam com a extensão do nome do arquivo.orc
, e os nomes de inventário do Parquet terminam com a extensão de nome de arquivo.parquet
.
Manifesto de inventário
Os arquivos manifestos manifest.json
e symlink.txt
descrevem onde os arquivos de inventário estão localizados. Sempre que uma nova lista de inventários é entregue, um novo conjunto de arquivos manifestos a acompanha. Esses arquivos podem se sobrepor. Em buckets habilitados para versionamento, o Amazon S3 cria versões dos arquivos de manifesto.
Cada manifesto contido no arquivo manifest.json
fornece metadados e outras informações básicas sobre um inventário. Essas informações incluem:
-
O nome do bucket de origem
-
O nome do bucket de destino
-
A versão do inventário
-
O carimbo de data/hora de criação no formato de data de referência (epoch) que consiste na hora de início e na data em que o processo de geração do relatório de inventário começa a verificar o bucket
-
O formato e o esquema de arquivos de inventário
-
Uma lista dos arquivos de inventário que estão no bucket de destino
Sempre que um arquivo manifest.json
é gravado, ele é acompanhado por um arquivo manifest.checksum
, que representa o hash MD5 do conteúdo do arquivo manifest.json
.
exemplo Manifesto de inventário em um arquivo manifest.json
Os exemplos a seguir mostram um manifesto de inventário em um arquivo manifest.json
para inventários nos formatos CSV, ORC e Parquet.
O symlink.txt
é um arquivo manifesto compatível com o Apache Hive permitindo que o Hive detecte automaticamente arquivos de inventário e os arquivos de dados associados. O manifesto compatível com o Hive funciona com os serviços compatíveis com o Hive, o Athena e o Amazon Redshift Spectrum. Ele também funciona com aplicações compatíveis com o Hive, incluindo Presto
Importante
O arquivo manifesto symlink.txt
compatível com Apache Hive atualmente não funciona com o AWS Glue.
Ler o arquivo symlink.txt
com Apache Hive