Localização de lista de inventário
Quando uma lista de inventários é publicada, os arquivos manifestos são publicados no seguinte local no bucket de destino.
destination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.jsondestination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.checksumdestination-prefix
/source-bucket
/config-ID
/hive/dt=YYYY-MM-DD-HH-MM
/symlink.txt
-
prefixo de destino
é o prefixo (nome de chave de objeto) definido na configuração de inventário, que pode ser usado para agrupar todos os arquivos de lista de inventários em um local comum no bucket de destino. -
source-bucket
é o bucket de origem ao qual a lista de inventário se refere. Ele é adicionado para evitar colisões quando vários relatórios do inventário de diferentes buckets de origem são enviados ao mesmo bucket de destino. -
O
ID de config
é adicionado para evitar colisões com vários relatórios do inventário do mesmo bucket de origem que são enviados ao mesmo bucket de destino. Oconfig-ID
vem da configuração do relatório de inventário e é o nome do relatório definido na configuração. -
YYYY-MM-DDTHH-MMZ
é o time stamp que consiste na hora de início e na data em que o relatório de inventário começa a fazer a varredura no bucket. Por exemplo,2016-11-06T21-32Z
. -
manifest.json
é o arquivo manifesto. -
manifest.checksum
é o MD5 do conteúdo do arquivomanifest.json
. -
symlink.txt
é o arquivo manifesto compatível com o Apache Hive.
As listas de inventários são publicadas diária ou semanalmente no seguinte local do bucket de destino.
destination-prefix
/source-bucket
/config-ID
/data/example-file-name.csv.gz
...destination-prefix
/source-bucket
/config-ID
/data/example-file-name-1.csv.gz
-
é o prefixo (nome da chave de objeto) definido na configuração de inventário. Ele pode ser usado para agrupar todos os arquivos da lista de inventários em um local comum no bucket de destino.destination-prefix
-
é o bucket de origem ao qual a lista de inventário se refere. Ele é adicionado para evitar colisões quando vários relatórios do inventário de diferentes buckets de origem são enviados ao mesmo bucket de destino.source-bucket
-
example-file-name
.csv.gz
é um dos arquivos de inventário em formato CSV. Os nomes de inventário ORC terminam com a extensão do nome do arquivo.orc
, e os nomes de inventário do Parquet terminam com a extensão de nome de arquivo.parquet
.
Manifesto de inventário
Os arquivos manifestos manifest.json
e symlink.txt
descrevem onde os arquivos de inventário estão localizados. Sempre que uma nova lista de inventários é entregue, um novo conjunto de arquivos manifestos a acompanha. Esses arquivos podem se sobrepor. Em buckets habilitados para versionamento, o Amazon S3 cria versões dos arquivos de manifesto.
Cada manifesto contido no arquivo manifest.json
fornece metadados e outras informações básicas sobre um inventário. Essas informações incluem:
-
Nome do bucket de origem
-
Nome do bucket de destino
-
Versão do inventário
-
Time stamp de criação no formato de data de referência (epoch) que consiste na hora de início e na data em que o relatório de inventário começa a fazer a varredura no bucket
-
Formato e esquema de arquivos de inventário
-
Lista dos arquivos de inventário que estão no bucket de destino
Sempre que um arquivo manifest.json
é gravado, ele é acompanhado por um arquivo manifest.checksum
, que representa o MD5 do conteúdo do arquivo manifest.json
.
exemplo Manifesto de inventário em um arquivo manifest.json
Os exemplos a seguir mostram um manifesto de inventário em um arquivo manifest.json
para inventários formatados CSV, ORC e Parquet.
O symlink.txt
é um arquivo manifesto compatível com o Apache Hive pelo qual o Hive detecta automaticamente arquivos de inventário e seus arquivos de dados associados. O manifesto compatível com o Hive funciona com os serviços compatíveis com o Athena e o Amazon Redshift Spectrum. Ele também funciona com aplicativos compatíveis com o Hive, como Presto
O symlink.txt
arquivo manifesto compatível com Apache Hive atualmente não funciona com o AWS Glue.
A leitura do symlink.txt
com Apache Hive