Descarregamento de dados semiestruturados
Com o Amazon Redshift, você pode exportar dados semiestruturados do cluster do Amazon Redshift para o Amazon S3 em vários formatos, incluindo texto, Apache Parquet, Apache ORC e Avro. As seções a seguir orientam você no processo de configuração e execução de operações de descarregamento de dados semiestruturados no Amazon Redshift.
É possível descarregar tabelas com colunas de dados SUPER no Amazon S3 em um formato CSV (valores separados por vírgula) ou em texto. Usando uma combinação de cláusulas de navegação e unnest, o Amazon Redshift descarrega dados hierárquicos no formato de dados SUPER para o Amazon S3 em formatos CSV ou de texto. Posteriormente, você pode criar tabelas externas contra dados descarregados e consultá-los usando o Redshift Spectrum. Para obter informações sobre como usar UNLOAD e as permissões necessárias do IAM, consulte UNLOAD.
Antes de executar o exemplo a seguir, preencha a tabela region_nations usando os processos em Carregamento de dados semiestruturados no Amazon Redshift. Para obter informações sobre as tabelas usadas no exemplo a seguir, consulte Conjunto de dados de amostra SUPER.
O exemplo a seguir descarrega dados no Amazon S3.
UNLOAD ('SELECT * FROM region_nations')
TO 's3://xxxxxx/'
IAM_ROLE 'arn:aws:iam::xxxxxxxxxxxx:role/Redshift-S3-Write'
DELIMITER AS '|'
GZIP
ALLOWOVERWRITE;
Ao contrário de outros tipos de dados em que uma string definida pelo usuário representa um valor nulo, o Amazon Redshift exporta as colunas de dados SUPER usando o formato JSON e a representa como nulo conforme determinado pelo formato JSON. Como resultado, as colunas de dados SUPER ignoram a opção NULL [AS] usada nos comandos UNLOAD.