Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Convenções de nomenclatura de arquivos para exportações para o Amazon S3 para o Amazon RDS

Modo de foco
Convenções de nomenclatura de arquivos para exportações para o Amazon S3 para o Amazon RDS - Amazon Relational Database Service

Os dados exportados para tabelas específicas são armazenados no formato base_prefix/files, onde o prefixo base é o seguinte:

export_identifier/database_name/schema_name.table_name/

Por exemplo:

export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/

Existem duas convenções de nomenclatura para arquivos.

  • Convenção atual:

    batch_index/part-partition_index-random_uuid.format-based_extension

    O índice do lote é um número de sequência que representa um lote de dados lidos da tabela. Se não conseguirmos particionar a tabela em pequenos blocos para serem exportados paralelamente, haverá vários índices de lote. O mesmo acontecerá se a tabela for particionada em várias tabelas. Haverá vários índices de lote, um para cada partição da tabela principal.

    Se conseguirmos particionar a tabela em pequenos blocos para serem lidos paralelamente, haverá apenas a pasta 1 de índices de lote.

    Na pasta de índices de lote, há um ou mais arquivos Parquet que contêm os dados da sua tabela. O prefixo do nome do arquivo Parquet é part-partition_index. Se a tabela estiver particionada, haverá vários arquivos que começam com o índice de partição 00000.

    Pode haver lacunas na sequência do índice de partição. Isso acontece porque cada partição é obtida de uma consulta por intervalos na tabela. Se não houver dados no intervalo dessa partição, esse número de sequência será ignorado.

    Por exemplo, suponha que a coluna id seja a chave primária da tabela e os valores mínimo e máximo sejam 100 e 1000. Quando tentamos exportar essa tabela com nove partições, a lemos com consultas paralelas, como as seguintes:

    SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300

    Isso deve gerar nove arquivos, de part-00000-random_uuid.gz.parquet a part-00008-random_uuid.gz.parquet. No entanto, se não houver linhas com IDs entre 200 e 350, uma das partições concluídas estará vazia e nenhum arquivo será criado para ela. No exemplo anterior, part-00001-random_uuid.gz.parquet não foi criado.

  • Convenção mais antiga:

    part-partition_index-random_uuid.format-based_extension

    É igual à convenção atual, mas sem o prefixo batch_index, por exemplo:

    part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet

A convenção de nomenclatura de arquivos está sujeita a alterações. Portanto, ao ler as tabelas de destino, recomendamos que você leia tudo dentro do prefixo base para a tabela.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.