Localização de lista de inventário
Quando uma lista de inventários é publicada, os arquivos manifestos são publicados no seguinte local no bucket de destino.
destination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.jsondestination-prefix
/source-bucket
/config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.checksumdestination-prefix
/source-bucket
/config-ID
/hive/dt=YYYY-MM-DD-HH-MM
/symlink.txt
-
é o prefixo do nome da chave do objeto que é especificado opcionalmente na configuração do inventário. É possível usar esse prefixo para agrupar todos os arquivos da lista de inventários em um local comum no bucket de destino.destination-prefix
-
é o bucket de origem ao qual a lista de inventário se refere. O nome do bucket de origem é adicionado para evitar colisões quando vários relatórios do inventário de diferentes buckets de origem são enviados ao mesmo bucket de destino.source-bucket
-
O
é adicionado para evitar colisões com vários relatórios do inventário do mesmo bucket de origem que são enviados ao mesmo bucket de destino. Oconfig-ID
vem da configuração do relatório de inventário e é o nome do relatório definido durante a configuração.config-ID
-
é o carimbo de data/hora que consiste na data e hora de início em que o processo de geração do relatório de inventário começa a verificar o bucket. Por exemplo,YYYY-MM-DDTHH-MMZ
2016-11-06T21-32Z
. -
manifest.json
é o arquivo manifesto. -
manifest.checksum
é o hash MD5 do conteúdo do arquivomanifest.json
. -
symlink.txt
é o arquivo de manifesto compatível com o Apache Hive.
As listas de inventários são publicadas diária ou semanalmente no seguinte local do bucket de destino.
destination-prefix
/source-bucket
/config-ID
/data/example-file-name.csv.gz
...destination-prefix
/source-bucket
/config-ID
/data/example-file-name-1.csv.gz
-
é o prefixo do nome da chave do objeto que é especificado opcionalmente na configuração do inventário. É possível usar esse prefixo para agrupar todos os arquivos da lista de inventários em um local comum no bucket de destino.destination-prefix
-
é o bucket de origem ao qual a lista de inventário se refere. O nome do bucket de origem é adicionado para evitar colisões quando vários relatórios do inventário de diferentes buckets de origem são enviados ao mesmo bucket de destino.source-bucket
-
example-file-name
.csv.gz
é um dos arquivos de inventário em formato CSV. Os nomes de inventário ORC terminam com a extensão do nome do arquivo.orc
, e os nomes de inventário do Parquet terminam com a extensão de nome de arquivo.parquet
.É possível consultar um arquivo de lista de inventário com o Amazon S3 Select. No console do Amazon S3, escolha o nome da lista de inventário (por exemplo,
prefixo-de-destino
/bucket-de-origem
/ID-de-config
/dados/nome-do-arquivo-de-exemplo.csv.gz
). Depois, escolha Ações de objeto e Consultar com o S3 Select. Para ver um exemplo de como usar uma função agregada do S3 Select para consultar um arquivo de lista de inventário, consulte. Exemplo de SUM
Manifesto de inventário
Os arquivos manifestos manifest.json
e symlink.txt
descrevem onde os arquivos de inventário estão localizados. Sempre que uma nova lista de inventários é entregue, um novo conjunto de arquivos manifestos a acompanha. Esses arquivos podem se sobrepor. Em buckets habilitados para versionamento, o Amazon S3 cria versões dos arquivos de manifesto.
Cada manifesto contido no arquivo manifest.json
fornece metadados e outras informações básicas sobre um inventário. Essas informações incluem:
-
O nome do bucket de origem
-
O nome do bucket de destino
-
A versão do inventário
-
O carimbo de data/hora de criação no formato de data de referência (epoch) que consiste na hora de início e na data em que o processo de geração do relatório de inventário começa a verificar o bucket
-
O formato e o esquema de arquivos de inventário
-
Uma lista dos arquivos de inventário que estão no bucket de destino
Sempre que um arquivo manifest.json
é gravado, ele é acompanhado por um arquivo manifest.checksum
, que representa o hash MD5 do conteúdo do arquivo manifest.json
.
exemplo Manifesto de inventário em um arquivo manifest.json
Os exemplos a seguir mostram um manifesto de inventário em um arquivo manifest.json
para inventários nos formatos CSV, ORC e Parquet.
O symlink.txt
é um arquivo manifesto compatível com o Apache Hive permitindo que o Hive detecte automaticamente arquivos de inventário e os arquivos de dados associados. O manifesto compatível com o Hive funciona com os serviços compatíveis com o Hive, o Athena e o Amazon Redshift Spectrum. Ele também funciona com aplicações compatíveis com o Hive, incluindo Presto
Importante
O arquivo manifesto symlink.txt
compatível com Apache Hive atualmente não funciona com o AWS Glue.
Ler o arquivo symlink.txt
com Apache Hive