Opções de formato de dados para entradas e saídas no AWS Glue para Spark - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Opções de formato de dados para entradas e saídas no AWS Glue para Spark

Essas páginas oferecem informações sobre suporte a atributos e parâmetros de configuração para formatos de dados compatíveis com o AWS Glue para Spark. Consulte a seguir uma descrição do uso e da aplicabilidade destas informações.

Suporte de recursos em todos os formatos de dados no AWS Glue

Cada formato de dados pode ser compatível com diferentes recursos do AWS Glue. Os recursos comuns a seguir podem ou não ser compatíveis, de acordo com o tipo de formato. Consulte a documentação do formato de dados para entender como utilizar nossos recursos para atender a suas necessidades.

Leitura O AWS Glue pode reconhecer e interpretar esse formato de dados sem recursos adicionais, como conectores.
Gravação O AWS Glue pode gravar dados nesse formato sem recursos adicionais. É possível incluir bibliotecas de terceiros em seu trabalho e usar as funções padrão do Apache Spark para gravar dados, como faria em outros ambientes Spark. Para mais informações sobre como incluir bibliotecas, consulte Usar bibliotecas Python com o AWS Glue.
Leitura de transmissão O AWS Glue pode reconhecer e interpretar esse formato de dados a partir de um fluxo de mensagens do Apache Kafka, do Amazon Managed Streaming para Apache Kafka ou do Amazon Kinesis. Esperamos que os fluxos apresentem os dados em um formato consistente, para que sejam lidos como DataFrames.
Agrupar arquivos pequenos O AWS Glue pode agrupar arquivos para trabalhos em lote enviados para cada nó durante a execução de transformações do AWS Glue. Isso pode melhorar consideravelmente a performance de workloads que envolvam grandes quantidades de arquivos pequenos. Para obter mais informações, consulte Ler arquivos de entrada em grupos maiores.
Marcadores de trabalho O AWS Glue pode acompanhar o progresso das transformações que realizam o mesmo trabalho no mesmo conjunto de dados em todas as execuções de tarefas com indicadores de tarefas. Isso pode melhorar a performance de workloads que envolvem conjuntos de dados em que o trabalho só precisa ser feito com novos dados desde a última execução do trabalho. Para obter mais informações, consulte Rastrear dados processados usando marcadores de trabalho.

Parâmetros usados para interagir com formatos de dados no AWSGlue

Certos tipos de conexão do AWS Glue são compatíveis com vários tipos de format, fazendo com que seja necessário especificar informações sobre o formato de dados com um objeto format_options ao usar métodos como GlueContext.write_dynamic_frame.from_options.

Alguns tipos de conexão não exigem format_options. Por exemplo, em uso normal, uma conexão JDBC com um banco de dados relacional recupera dados em formato de dados tabular consistente. Portanto, a leitura de uma conexão JDBC não exigiria format_options.

Alguns métodos para ler e gravar dados no Glue não exigem format_options. Por exemplo, usar GlueContext.create_dynamic_frame.from_catalog com crawlers do AWS Glue. Os crawlers determinam a forma dos dados. Ao usar crawlers, um classificador do AWS Glue examinará seus dados para tomar decisões inteligentes sobre como representar o formato de dados. Em seguida, armazenará uma representação de seus dados no Catálogo de Dados do AWS Glue, que pode ser usado em um script ETL do AWS Glue para recuperar dados com o método GlueContext.create_dynamic_frame.from_catalog. Os crawlers eliminam a necessidade de especificar manualmente as informações sobre o formato dos dados.

Para trabalhos que acessam tabelas governadas pelo AWS Lake Formation, o AWS Glue oferece suporte para a leitura e a escrita de todos os formatos com suporte pelas tabelas governadas pelo Lake Formation. Para obter a lista atual de formatos com suporte para tabelas governadas pelo AWS Lake Formation, consulte Notas e restrições para tabelas controladas no Guia do desenvolvedor do AWS Lake Formation.

nota

Para gravar Apache Parquet, o ETL do AWS Glue só oferece suporte para gravação em uma tabela controlada especificando uma opção para um tipo de gravador Parquet personalizado otimizado para quadros dinâmicos. Ao gravar em uma tabela governada com o formato parquet, você deve adicionar a chave useGlueParquetWriter com um valor de true nos parâmetros da tabela.

Referência de configuração compartilhada

Você pode usar os valores de format_options a seguir com qualquer tipo de formato.

  • attachFilename: uma string no formato apropriado para ser usada como nome de coluna. Se você fornecer essa opção, o nome do arquivo de origem do registro será anexado ao registro. O valor do parâmetro será usado como nome da coluna.

  • attachTimestamp: uma string no formato apropriado para ser usada como nome de coluna. Se você fornecer essa opção, a hora da modificação do arquivo de origem do registro será anexado ao registro. O valor do parâmetro será usado como nome da coluna.