Carregar arquivos de dados - Amazon Redshift

Carregar arquivos de dados

Os arquivos de dados de origem vêm em formatos diferentes e usam algoritmos de compactação variados. Ao carregar dados com o comando COPY, o Amazon Redshift carrega todos os arquivos referenciados pelo prefixo do bucket do Amazon S3. (O prefixo é uma string de caracteres no início do nome da chave do objeto.) Se o prefixo se referir a vários arquivos ou arquivos que podem ser divididos, o Amazon Redshift carregará os dados paralelamente, aproveitando a arquitetura MPP do Amazon Redshift. Isso divide a workload entre os nós no cluster. Por outro lado, quando você carrega dados de um arquivo que não pode ser dividido, o Amazon Redshift é forçado a executar um carregamento serializado, que é muito mais lento. As seções a seguir descrevem a forma recomendada de carregar diferentes tipos de arquivo no Amazon Redshift, dependendo do formato e da compactação.

Carregar dados de arquivos que podem ser divididos

Os seguintes arquivos podem ser divididos automaticamente quando seus dados são carregados:

  • um arquivo CSV não compactado

  • um arquivo CSV compactado com BZIP

  • um arquivo em colunas (Parquet/ORC)

O Amazon Redshift divide automaticamente arquivos de 128 MB ou maiores em partes. Arquivos em colunas, especificamente Parquet e ORC, não serão divididos se tiverem menos de 128 MB. O Redshift usa fatias trabalhando em paralelo para carregar os dados. Isso fornece performance de carga rápida.

Carregar dados de arquivos que não podem ser divididos

Tipos de arquivo, como JSON ou CSV, quando compactados com outros algoritmos de compactação, como GZIP, não são divididos automaticamente. Desse modo, recomendamos dividir os dados manualmente em vários arquivos menores com tamanho semelhante, de 1 MB a 1 GB, após a compactação. Além disso, faça com que o número de arquivos seja um múltiplo do número de fatias em seu cluster. Para obter mais informações sobre como dividir seus dados em arquivos e exemplos de como carregar dados com o comando COPY, consulte Carregar dados do Amazon S3.