Descarregamento de dados semiestruturados - Amazon Redshift

Descarregamento de dados semiestruturados

Com o Amazon Redshift, você pode exportar dados semiestruturados do cluster do Amazon Redshift para o Amazon S3 em vários formatos, incluindo texto, Apache Parquet, Apache ORC e Avro. As seções a seguir orientam você no processo de configuração e execução de operações de descarregamento de dados semiestruturados no Amazon Redshift.

CSV or text formats

É possível descarregar tabelas com colunas de dados SUPER no Amazon S3 em um formato CSV (valores separados por vírgula) ou em texto. Usando uma combinação de cláusulas de navegação e unnest, o Amazon Redshift descarrega dados hierárquicos no formato de dados SUPER para o Amazon S3 em formatos CSV ou de texto. Posteriormente, você pode criar tabelas externas contra dados descarregados e consultá-los usando o Redshift Spectrum. Para obter informações sobre como usar UNLOAD e as permissões necessárias do IAM, consulte UNLOAD.

Antes de executar o exemplo a seguir, preencha a tabela region_nations usando os processos em Carregamento de dados semiestruturados no Amazon Redshift. Para obter informações sobre as tabelas usadas no exemplo a seguir, consulte Conjunto de dados de amostra SUPER.

O exemplo a seguir descarrega dados no Amazon S3.


UNLOAD ('SELECT * FROM region_nations')
TO 's3://xxxxxx/'
IAM_ROLE 'arn:aws:iam::xxxxxxxxxxxx:role/Redshift-S3-Write'
DELIMITER AS '|'
GZIP
ALLOWOVERWRITE;

Ao contrário de outros tipos de dados em que uma string definida pelo usuário representa um valor nulo, o Amazon Redshift exporta as colunas de dados SUPER usando o formato JSON e a representa como nulo conforme determinado pelo formato JSON. Como resultado, as colunas de dados SUPER ignoram a opção NULL [AS] usada nos comandos UNLOAD.

Parquet format

É possível descarregar tabelas com colunas de dados SUPER para o Amazon S3 no formato Parquet. O Amazon Redshift representa as colunas SUPER em Parquet como o tipo de dados JSON. Isso permite que dados semiestruturados sejam representados em Parquet. É possível consultar essas colunas usando o Redshift Spectrum ou ingeri-las de volta ao Amazon Redshift usando o comando COPY. Para obter informações sobre como usar UNLOAD e as permissões necessárias do IAM, consulte UNLOAD.

O exemplo a seguir descarrega dados no Amazon S3 no formato Parquet.


UNLOAD ('SELECT * FROM region_nations')
TO 's3://xxxxxx/'
IAM_ROLE 'arn:aws:iam::xxxxxxxxxxxx:role/Redshift-S3-Write'
FORMAT PARQUET;

anchor anchor

O exemplo a seguir descarrega dados no Amazon S3.


UNLOAD ('SELECT * FROM region_nations')
TO 's3://xxxxxx/'
IAM_ROLE 'arn:aws:iam::xxxxxxxxxxxx:role/Redshift-S3-Write'
DELIMITER AS '|'
GZIP
ALLOWOVERWRITE;

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Carregamento de dados semiestruturados no Amazon Redshift

Consultar dados semiestruturados

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Descarregamento de dados semiestruturados

Esta página foi útil?

Próximo tópico:

Tópico anterior:

Precisa de ajuda?