Histórico de documentação do AWS Glue - AWS Glue

Histórico de documentação do AWS Glue

AlteraçãoDescriçãoData

Integração de dados do Amazon Q no AWS Glue (preview)

A integração de dados do Amazon Q no AWS Glue é um novo recurso de IA generativa do AWS Glue que permite que engenheiros de dados e desenvolvedores de ETL criem trabalhos de integração de dados usando linguagem natural. Engenheiros e desenvolvedores podem pedir ao Q para criar trabalhos, solucionar problemas e responder perguntas sobre o AWS Glue e integração de dados. Para obter mais informações, consulte Integração de dados do Amazon Q no AWS Glue. Esse atributo inclui uma atualização da política AwsGlueSessionUserRestrictedNotebookPolicy gerenciada pela AWS. Para obter mais informações, consulte Atualizações do AWS Glue para políticas gerenciadas pela AWS.

30 de janeiro de 2024

Atualização da documentação do AWS Glue Streaming

Adição de um novo capítulo com conteúdo novo e reorganizado para o AWS Glue Streaming. Este conteúdo descreve como o streaming funciona com o AWS Glue, as características do processamento de dados em tempo real e como monitorar os trabalhos de streaming. Para obter mais informações, consulte AWS Glue Streaming.

27 de dezembro de 2023

Suporte para a detecção detalhada de dados confidenciais

A transformação “Detectar dados confidenciais” permite detectar, mascarar ou remover entidades definidas por você ou que são predefinidas pelo AWS Glue. Além disso, ações minuciosas permitem que você aplique uma ação específica por entidade. Para obter mais informações, consulte Como usar a detecção detalhada de dados confidenciais .

26 de novembro de 2023

Suporte para monitoramento de trabalhos com métricas de observabilidade do AWS Glue

Use métricas de observabilidade do AWS Glue para gerar insights sobre o que está acontecendo dentro do seu AWS Glue para trabalhos do Apache Sparks para melhorar a triagem e a análise de problemas. Para obter mais informações, consulte Monitoramento com métricas e observabilidade do AWS Glue.

26 de novembro de 2023

Suporte para detecção de anomalias no AWS Glue Data Quality

A detecção de anomalias no AWS Glue Data Quality usa algoritmos de machine learning (ML) nas estatísticas de dados ao longo do tempo para detectar padrões anormais e problemas ocultos de qualidade de dados que são difíceis de detectar por meio de regras. Para obter mais informações, consulte Detecções de anomalias no AWS Glue Data Quality .

26 de novembro de 2023

Atualização do comportamento do registro em log padrão da IU do Spark

Os trabalhos que geram logs da IU do Spark agora serão gravados com um padrão de nome de arquivo diferente para ser compatível com a IU do Spark no console do AWS Glue. Isso não altera o comportamento de log do CloudWatch. É possível reverter para o comportamento antigo atualizando a configuração do seu trabalho. Para obter mais informações, consulte Como monitorar os trabalhos usando a IU web do Spark.

17 de novembro de 2023

Suporte para fontes de dados novas no AWS Glue para Spark

Conexões com Amazon OpenSearch Service, Azure SQL, Azure Cosmos for NoSQL, SAP HANA Teradata Vantage e Vertica agora têm suporte nativo no AWS Glue. Além disso, as conexões com essas fontes de dados, junto com o MongoDB, agora estão disponíveis para uso no editor visual AWS Glue Studio. Para obter mais informações, consulte Tipos e opções de conexão para ETL no AWS Glue para Spark para saber mais sobre o suporte do AWS Glue para Spark e Como adicionar uma conexão do AWS Glue para saber mais sobre o uso no editor visual AWS Glue Studio.

17 de novembro de 2023

Suporte à geração de estatísticas de colunas

Você pode calcular estatísticas em nível de coluna para tabelas do AWS Glue Data Catalog em formatos de dados como Parquet, ORC, JSON, ION, CSV e XML sem precisar configurar pipelines de dados adicionais. Para obter mais informações, consulte Trabalhar com estatísticas de colunas.

16 de novembro de 2023

Suporte à compactação de dados para tabelas do Iceberg

Para obter uma melhor performance de leitura por serviços de análise da AWS, como o Amazon Athena e o Amazon EMR e trabalhos de ETL do AWS Glue, o Catálogo de Dados oferece compactação gerenciada (um processo que compacta pequenos objetos do Amazon S3 em objetos maiores) para tabelas do Iceberg no Catálogo de Dados. Para obter mais informações, consulte Como otimizar tabelas do Iceberg.

13 de novembro de 2023

Atualização do comportamento de espera na execução do trabalho

As execuções de trabalhos de shell padrão do Spark e do Python agora avançarão para WAITING em determinadas situações em vez de avançarem imediatamente para FAILED. Para obter mais informações, consulte Status de execução do trabalho do AWS Glue.

8 de novembro de 2023

AWS Glue Studio guia do usuário consolidado no AWS Glue guia do desenvolvedor

O AWS Glue Studio guia do usuário foi movido para o guia do desenvolvedor para criar um único guia de usuário unificado para AWS Glue Studio o AWS Glue console e o acesso AWS Glue Studio programático.

25 de outubro de 2023

Atualização da política gerenciada pela AWSGlueServiceNotebookRoleAWS

Adicionadas informações sobre uma pequena atualização na política gerenciada pela AWS AWSGlueServiceNotebookRole. Para obter mais informações, consulte Atualizações do AWS Glue nas políticas gerenciadas pela AWS.

9 de outubro de 2023

O AWS Glue Studio suporta cinco novas transformações integradas

O AWS Glue Studio suporta as cinco novas transformações integradas a seguir: Record matching, Remove null rows, Parse JSON column, Extract JSON path e Regex extractor. Para obter mais informações, consulte Editar nós de transformação de dados gerenciados pelo AWS Glue.

11 de agosto de 2023

Atualização da política gerenciada pela AWS AWSGlueServiceRole

Adicionadas informações sobre uma pequena atualização na política gerenciada pela AWS AWSGlueServiceRole. Para obter mais informações, consulte Atualizações do AWS Glue nas políticas gerenciadas pela AWS.

4 de agosto de 2023

Compatibilidade com crawling em tabelas do Apache Hudi

Adicionadas informações sobre o uso do AWS Glue para crawling em tabelas do Hudi em buckets do Amazon S3 e sobre o registro de tabelas do Hudi no AWS Glue Data Catalog. Para obter mais informações, consulte Em quais armazenamentos de dados posso fazer crawling? e Propriedades do crawler.

21 de julho de 2023

Atualização da política AWSGlueConsoleFullAccess gerenciada da AWS

Informações adicionadas sobre uma pequena atualização para a política gerenciada pela AWS AWSGlueConsoleFullAccess. Para obter mais informações, consulte Atualizações do AWS Glue nas políticas gerenciadas pela AWS.

14 de julho de 2023

Compatibilidade com crawling em tabelas do Apache Iceberg

Adicionadas informações sobre o uso do AWS Glue para fazer crawling em tabelas do Iceberg em buckets do Amazon S3 e sobre o registro das tabelas do Iceberg no AWS Glue Data Catalog. Para obter mais informações, consulte Em quais armazenamentos de dados posso fazer crawling? e Propriedades do crawler.

7 de julho de 2023

Compatibilidade com o AWS Glue com Ray

Adicionadas informações sobre o AWS Glue com Ray, um novo mecanismo que pode ajudar em trabalhos do AWS Glue. Reorganizado o conteúdo existente do AWS Glue com Spark para eliminar ambiguidades.

30 de maio de 2023

Compatibilidade com o AWS Glue Data Quality (GA)

O AWS Glue Data Quality agora está disponível para uso geral. O AWS Glue Data Quality ajuda a avaliar e monitorar a qualidade dos dados. Para obter informações sobre o uso do AWS Glue Data Quality com o catálogo de dados, consulte AWS Glue Data Quality. Para saber sobre o AWS Glue Data Quality para AWS Glue Studio, consulte Avaliar a qualidade dos dados com o AWS Glue Studio.

24 de maio de 2023

Compatibilidade com tipos de operadores maiores para trabalhos do Apache Spark

Agora o uso dos tipos de operador G.4X e G.8X para trabalhos do Apache Spark é compatível. Esses tipos de operadores são adequados para trabalhos que têm workloads que contém as transformações, agregações, uniões e consultas mais exigentes. Para obter mais informações, consulte Adição de trabalhos no AWS Glue.

8 de maio de 2023

Compatibilidade com a criação de índices de partição ao fazer crawling em tabelas

Adicionadas informações sobre como os crawlers são compatíveis com a criação de índices de partição para as tabelas que o crawler detecta. Para obter mais informações, consulte Definir a opção de configuração do crawler de índice de partição.

24 de abril de 2023

Compatibilidade com métricas de uso de recursos

Adicionadas informações sobre a visualização do uso de recursos do serviço e sobre a configuração de alarmes no Amazon CloudWatch. Para obter mais informações, consulte Monitorar recursos do AWS Glue.

7 de abril de 2023

Atualização da política AWSGlueConsoleFullAccess gerenciada da AWS

Informações adicionadas sobre uma pequena atualização para a política gerenciada pela AWS AWSGlueConsoleFullAccess. Para obter mais informações, consulte Atualizações do AWS Glue nas políticas gerenciadas pela AWS.

28 de março de 2023

Adicionada orientação para uso do AWS Glue com um AWS SDK com exemplos

O Guia do desenvolvedor do AWS Glue tem duas novas seções que fornecem informações para ajudar você a usar o AWS Glue com um AWS SDK. Para obter mais informações, consulte Usar o AWS Glue com um AWS SDK e Exemplos de código do AWS Glue usando AWS SDKs.

23 de fevereiro de 2023

Atualização da documentação do IAM com o AWS Glue

Reorganizadas e adicionadas informações sobre o uso do IAM com o AWS Glue. Para obter mais informações, consulte Gerenciamento de identidade e acesso do AWS Glue.

15 de fevereiro de 2023

Compatibilidade com execução de trabalhos de ETL de streaming no AWS Glue versão 4.0

Foram adicionadas informações sobre compatibilidade com execução de trabalhos de ETL de streaming no Glue versão 4.0 e novas opções para conexão com um cluster do Kafka ou um cluster do Amazon Managed Streaming for Apache Kafka e Amazon Kinesis Data Streams. Para obter mais informações, consulte Adicionar trabalhos de ETL de streaming no AWS Glue e Tipos de conexão e opções de ETL no AWS Glue.

8 de fevereiro de 2023

Compatibilidade com crawling em fontes de dados do MongoDB Atlas

Adicionadas informações sobre o uso do AWS Glue para fazer crawling em fontes de dados do MongoDB Atlas. Para obter mais informações, consulte Em quais armazenamentos de dados posso fazer crawling?, Propriedades de conexão do MongoDB e do MongoDB Atlas e Usar uma conexão do MongoDB ou do MongoDB Atlas.

6 de fevereiro de 2023

Compatibilidade com crawling de tabelas do Delta Lake usando um conector do Delta Lake

Adicionadas informações sobre como usar o AWS Glue para rastrear tabelas do Delta Lake. Esse recurso permite que você use mecanismos de consulta da AWS para consultar diretamente o log de transações do Delta e usar recursos como viagem no tempo e garantias ACID, além de sincronizar os metadados do Delta Lake dos arquivos de transação do Amazon S3 com o Data Catalog para habilitar permissões de coluna em consultas no Lake Formation. Para obter mais informações, consulte Como especificar opções de configuração para um datastore Delta Lake e Consulta a tabelas Data Lake.

15 de dezembro de 2022

Compatibilidade com o AWS Glue Data Quality (versão pré-lançamento)

Agora existe compatibilidade com o AWS Glue Data Quality (versão pré-lançamento). AWS Glue O Data Quality ajuda você a avaliar e monitorar a qualidade dos dados quando você usa o AWS Glue 3.0. Para obter informações sobre como usar o AWS Glue Data Quality com o Data Catalog, consulte AWS Glue Data Quality (versão pré-lançamento). Para saber sobre o AWS Glue Data Quality para AWS Glue Studio, consulte Avaliar a qualidade dos dados com o AWS Glue Studio.

30 de novembro de 2022

Compatibilidade com um novo conector do Amazon Redshift Spark com novos recursos e melhorias de performance

Agora é possível usar um novo conector do Spark do Amazon Redshift com um novo driver JDBC com tarefas do AWS Glue ETL para criar aplicações do Apache Spark que leem e gravam dados no Amazon Redshift como parte de seus pipelines de ingestão e transformação de dados. Para obter mais informações, consulte Mover dados de e para o Amazon Redshift.

29 de novembro de 2022

Compatibilidade com o AWS Glue versão 4.0.

Informações adicionadas sobre compatibilidade com o AWS Glue versão 4.0. Os recursos incluem suporte nativo para estruturas de data lake aberto com Apache Hudi, Delta Lake e Apache Iceberg, e suporte nativo para o Cloud Shuffle Storage Plugin baseado no Amazon S3 (um plug-in do Apache Spark) para usar o Amazon S3 para capacidade de armazenamento aleatório e elástico. Para obter mais informações, consulte as Notas de versão do AWS Glue e Migrar trabalho do AWS Glue para o AWS Glue versão 4.0.

28 de novembro de 2022

O AWS Glue Studio agora oferece transformações visuais personalizadas

As transformações visuais personalizadas permitem que os clientes definam, reutilizem e compartilhem a lógica de ETL específica da empresa entre suas equipes. Para obter mais informações, consulte Transformações visuais personalizadas.

28 de novembro de 2022

Compatibilidade com o uso do crawler do AWS Glue para publicar metadados para armazenamentos de dados JDBC

Agora é possível usar o crawler do AWS Glue para publicar metadados, como comentários e tipos brutos, no Data Catalog para armazenamentos de dados JDBC. Para obter mais informações, consulte Parâmetros definidos nas tabelas do Data Catalog pelo crawler, Propriedades do crawler e Estrutura JdbcTarget.

18 de novembro de 2022

Compatibilidade com crawling de armazenamentos de dados do Snowflake

Agora, é possível usar o AWS Glue para rastrear de tabelas e visualizações do Snowflake e para publicar os metadados no Data Catalog como uma entrada de tabela. Para tabelas externas do Snowflake no Amazon S3, o crawler também rastreia locais do Amazon S3 e o tipo de formato de arquivo da tabela externa e os insere como parâmetros da tabela. Para obter mais informações, consulte Em quais armazenamentos de dados posso fazer crawling?, Propriedades de conexão do AWS Glue e Parâmetros definidos nas tabelas do Data Catalog pelo crawler.

18 de novembro de 2022

Compatibilidade com um melhor gerenciamento de ordem aleatória das aplicações do Spark

Agora é possível usar um novo Cloud Shuffle Storage Plugin for Apache Spark. Para obter mais informações, consulte Gerenciador de ordem aleatória do Spark no AWS Glue com o Amazon S3 e Cloud Shuffle Storage Plugin for Apache Spark.

15 de novembro de 2022

Adicionada compatibilidade com destinos do Data Catalog ao acelerar notificações de eventos do Amazon S3 de crawls

Além da compatibilidade já existente com destinos do Amazon S3, agora é possível acelerar crawls para destinos do Data Catalog usando notificações de eventos do Amazon S3. Para obter mais informações, consulte Aceleração de crawls usando notificações de eventos do Amazon S3.

13 de outubro de 2022

Compatibilidade com a especificação do número máximo de tabelas que um crawler pode criar

Agora, há compatibilidade com a especificação do número máximo de tabelas que o crawler tem permissão para criar. Para obter mais informações, consulte Como especificar o número máximo de tabelas que o crawler pode criar.

6 de setembro de 2022

Compatibilidade com Python 3.9 em trabalhos de shell do Python no AWS Glue

Agora, o AWS Glue oferece suporte para a execução de scripts compatíveis com o Python 3.9 em trabalhos de shell do Python e para optar pelo uso de conjuntos pré-empacotados de bibliotecas. Para obter mais informações, consulte Trabalhos de shell do Python no AWS Glue.

11 de agosto de 2022

Compatibilidade com a execução de trabalhos não urgentes ou não temporários do AWS Glue utilizando capacidade extra

Agora, há suporte para a configuração de execuções flexíveis de trabalho para trabalhos não urgentes, como trabalhos de pré-produção, testes e cargas de dados ocasionais. Para obter mais informações, consulte Adição de trabalhos no AWS Glue.

9 de agosto de 2022

Suporte para um novo tipo de operador para trabalhos de streaming

O suporte agora está disponível para uso do tipo de operador G.025X para trabalhos de streaming de baixo volume. Para obter mais informações, consulte Adição de trabalhos no AWS Glue.

14 de julho de 2022

Suporte para o uso do Kafka SASL em conexões do AWS Glue

O suporte agora está disponível para uso do Kafka SASL em conexões doAWS Glue. Para obter mais informações, consulte Propriedades de conexão do AWS Glue Kafka para autenticação do cliente.

5 de julho de 2022

Compatibilidade com o conector do Apache Kafka para esquemas protobuf

O suporte para o Apache Kafka Connector agora está disponível para esquemas Protobuf. Para obter mais informações, consulte Registro de esquemas do AWS Glue.

9 de junho de 2022

Compatibilidade com Auto Scaling para trabalhos do AWS Glue (disponível ao público)

Adição de informações sobre como usar o Auto Scaling para trabalhos no AWS Glue versão 3.0 para escalar dinamicamente os recursos de computação. Para mais informações, consulte Uso de Auto Scaling para o AWS Glue.

14 de abril de 2022

Atualização na documentação para desenvolvimento e testes do AWS Glue de scripts de trabalho doAWS Glue

Informações reorganizadas e adicionadas sobre os métodos de desenvolvimento e testes disponíveis para o AWS Glue, incluindo instruções de desenvolvimento com o Docker. Para mais informações, consulte Desenvolvimento e teste de scripts de trabalho do AWS Glue.

14 de março de 2022

Adição de protocol buffers (protobuf) como formato de dados compatível para o registro de esquemas do AWS Glue

Adicionadas informações sobre o Protobuf como formato de dados suportado (além do AVRO e JSON). Para obter mais informações, consulte Registro de esquemas do AWS Glue.

25 de fevereiro de 2022

Suporte ao crawling de tabelas do Delta Lake

Adição de informações sobre como usar o AWS Glue para o crawling de tabelas do Delta Lake. Para obter mais informações, consulte Como especificar opções de configuração para um datastore do Delta Lake.

24 de fevereiro de 2022

Suporte a insights de trabalhos do AWS Glue

Adição de informações sobre como usar insights de trabalhos do AWS Glue para simplificar a depuração e a otimização de trabalhos para seus trabalhos do AWS Glue. Para obter mais informações, consulte Monitorar com insights de trabalhos do AWS Glue.

8 de fevereiro de 2022

Suporte a crawling de tabelas de catálogo de dados baseadas no Amazon S3 usando um endpoint da VPC

Além de armazenamentos de dados do Amazon S3, você pode configurar suas tabelas de catálogo de dados baseadas no Amazon S3 para serem acessadas somente por um ambiente da Amazon Virtual Private Cloud (Amazon VPC) para fins de segurança, auditoria ou controle. Para obter mais informações, consulte Crawling de um datastore do Amazon S3 ou de tabelas de catálogo de dados baseado no Amazon S3 usando um endpoint da VPC.

3 de fevereiro de 2022

Suporte a tabelas governadas pelo Lake Formation

Adição de informações sobre o suporte do AWS Glue para tabelas governadas pelo Lake Formation, com suporte a transações ACID, compactação automática de dados e consultas de viagem no tempo. Para obter mais informações, consulte a API do AWS Glue e o Guia do desenvolvedor do AWS Lake Formation.

30 de novembro de 2021

Novas políticas gerenciadas da AWS adicionadas para sessões interativas e cadernos

Novas políticas gerenciadas para o IAM forneceram segurança aprimorada para uso do AWS Glue com sessões interativas e cadernos. Para obter mais informações, consulte Políticas gerenciadas pela AWS para o AWS Glue.

30 de novembro de 2021

O registro de esquemas do Glue agora oferece suporte a trabalhos de transmissão

Você pode criar trabalhos de transmissão que acessem tabelas que fazem parte do Glue Schema Registry. Para obter mais informações, consulte AWS Glue Schema Registry e Adição de trabalhos de ETL de transmissão no AWS Glue.

15 de novembro de 2021

Suporte a novos recursos de machine learning

Adicionadas informações sobre novos recursos para a transformação de machine learning de correspondências de Find (Localizar), incluindo correspondência incremental e pontuação de correspondência. Para obter mais informações, consulte Localização de correspondências incrementais e Estimação da qualidade das correspondências usando as pontuações de confiança de correspondência.

31 de outubro de 2021

(prévia privada) Suporte para trabalhos flexíveis do AWS Glue

Adição de informações sobre a configuração de trabalhos do Spark no AWS Glue com uma classe de execução flexível, adequada para trabalhos insensíveis ao tempo, cujos horários de início e conclusão podem variar. Para obter mais informações, consulte Adição de trabalhos no AWS Glue.

29 de outubro de 2021

Compatibilidade com a aceleração de crawls usando notificações de eventos do Amazon S3

Adição de informações sobre a aceleração de crawls usando notificações de eventos do Amazon S3. Para obter mais informações, consulte Aceleração de crawls usando notificações de eventos do Amazon S3.

15 de outubro de 2021

Opções de configuração de segurança adicionais relacionadas ao controle de acesso e a VPCs

Adição de informações sobre como você pode configurar novas permissões de controle de acesso no AWS Glue e configurar VPCs. Para obter mais informações, consulte Tags da AWS no AWS Glue, Políticas baseadas em identidade (políticas do IAM) que controlam configurações usando chaves de condição ou chaves de contexto, e Configuração de todas as chamadas da AWS para passar pela sua VPC.

13 de outubro de 2021

Suporte para políticas de endpoint da VPC

Adição de informações sobre o suporte a políticas de endpoint da Virtual Private Cloud (VPC) no AWS Glue. Para obter mais informações, consulte Endpoints de VPC do AWS Glue e interface (AWS PrivateLink).

11 de outubro de 2021

O Glue Studio agora está disponível na China

O AWS Glue Studio agora está disponível nas regiões Pequim e Ningxia da China.

11 de outubro de 2021

O AWS Glue Studio oferece criação de cadernos, para edição interativa de trabalhos

Os cadernos ajudam você a escrever e executar código, visualizar os resultados e compartilhar ideias. Normalmente, os cientistas de dados usam cadernos para experimentos e tarefas de exploração de dados. Para obter mais informações, consulte Usar cadernos.

1.º de outubro de 2021

O acesso direto a fontes de transmissão agora está disponível

Ao adicionar origens de dados ao seu trabalho de ETL no editor visual, você pode fornecer informações para acessar o fluxo de dados em vez de usar um banco de dados e uma tabela do Data Catalog.

30 de setembro de 2021

Documentada a política de suporte à versão do AWS Glue

Adicionadas informações sobre a política de suporte à versão do AWS Glue e as fases de fim de vida para certas versões do AWS Glue. Para obter mais informações, consulte a Política de suporte à versão do AWS Glue.

24 de setembro de 2021

Conectores personalizados agora podem ser usados com visualizações de dados

Ao editar o nó da origem dos dados usando um conector personalizado, você pode visualizar o conjunto de dados escolhendo a guia de visualização de dados. Para obter mais informações, consulte Conectores personalizados .

24 de setembro de 2021

Suporte para sessões interativas do AWS Glue (pré-visualização privada)

(Previsualização privada) Adição de informações sobre o uso de sessões interativas do AWS Glue para executar workloads do Spark na nuvem a partir de qualquer Jupyter Notebook. As sessões interativas são o método preferido para desenvolver seu código de extrair, transformar e carregar (ETL) do AWS Glue usando o AWS Glue 2.0 ou posterior. Para obter mais informações, consulte Configurar e executar sessões interativas do AWS Glue para o caderno Jupyter.

24 de agosto de 2021

Compatibilidade com a criação de fluxos de trabalho com base em esquemas (disponível ao público)

Adição de informações sobre a codificação de casos de uso comuns de extração, transformação e carregamento (ETL) nos blueprints e, em seguida, a criação de fluxos de trabalho de blueprints. Permite que os analistas de dados criem e executem facilmente processos de ETL complexos. Para obter mais informações, consulte Realização de atividades de ETL complexas usando esquemas e fluxos de trabalho no AWS Glue.

23 de agosto de 2021

Compatibilidade com o AWS Glue versão 3.0.

Adição de informações sobre o suporte para o AWS Glue versão 3.0, que é compatível com a atualização do mecanismo Apache Spark 3.0 para executar trabalhos de ETL do Apache Spark, além de outras otimizações e atualizações. Para obter mais informações, consulte Notas de release do AWS Glue e Migrar trabalho do AWS Glue para o AWS Glue versão 3.0. Outros recursos nesta versão incluem o gerenciador de ordem aleatória do AWS Glue, um leitor CSV vetorizado SIMD e predicados de partição de catálogo. Para obter mais informações, consulte o Gerenciador de ordem aleatória do Spark do AWS Glue com o Amazon S3, Opções de formato para entradas e saídas de ETL no AWS Glue e Filtragem do lado do servidor usando predicados de partição de catálogo.

18 de agosto de 2021

AWS GovCloud (US) Region

O AWS Glue Studio agora está disponível na AWS GovCloud (US) Region

18 de agosto de 2021

Criação de shell do Python disponível no AWS Glue Studio

Agora, ao criar um novo trabalho, você pode optar por criar um trabalho do shell do Python. Para obter mais informações, consulte Iniciar o processo de criação de trabalho e Editar trabalhos de shell do Python no AWS Glue Studio.

13 de agosto de 2021

Compatibilidade com a inicialização de um fluxo de trabalho com um evento do Amazon EventBridge

Adicionadas informações sobre como o AWS Glue pode ser um consumidor de eventos em uma arquitetura orientada a eventos. Para obter mais informações, consulte Iniciar um fluxo de trabalho do AWS Glue com um evento do Amazon EventBridge e Exibir os eventos do EventBridge que iniciaram um fluxo de trabalho.

14 de julho de 2021

Adição do JSON como um formato de dados com suporte para o AWS Glue Schema Registry

Adicionadas informações sobre o JSON como um formato de dados suportado (além do AVRO). Para obter mais informações, consulte Registro de esquemas do AWS Glue.

30 de junho de 2021

Criar trabalhos de transmissão do AWS Glue sem uma tabela do Data Catalog

A função create_data_frame_from_options do Python ou getSource para scripts Scala é compatível com a criação de trabalhos de ETL de transmissão que fazem referência aos fluxos de dados diretamente, em vez de exigir uma tabela do Data Catalog.

15 de junho de 2021

Agora as transformações de machine learning do AWS Glue são compatíveis com chaves do AWS Key Management Service

Você pode especificar uma configuração de segurança ou chave do AWS KMS ao configurar as transformações de machine learning do AWS Glue com o console, a CLI ou APIs do AWS Glue. Para obter mais informações, consulte Usar a criptografia dos dados com transformações de machine learning e API de machine learning do AWS Glue.

15 de junho de 2021

Atualização da política AWSGlueConsoleFullAccess gerenciada da AWS

Informações adicionadas sobre uma pequena atualização para a política gerenciada pela AWS AWSGlueConsoleFullAccess. Para obter mais informações, consulte Atualizações do AWS Glue nas políticas gerenciadas pela AWS.

10 de junho de 2021

Visualizar o conjunto de dados do trabalho ao criar e editar trabalhos

Você pode usar a nova guia Data preview (Previsualização de dados) para um nó no diagrama de trabalhos a fim de ver uma amostra dos dados processados por esse nó. Para obter mais informações, consulte Usar previsualizações de dados no editor de trabalhos visual.

7 de junho de 2021

Compatibilidade com a especificação de um valor que indica o local da tabela para a saída do crawler.

Informações adicionadas sobre a especificação de um valor que indica o local da tabela ao configurar a saída do crawler. Para obter mais informações, consulte Como especificar o local da tabela.

04 de junho de 2021

Compatibilidade com crawling em uma amostra de arquivos em um conjunto de dados ao realizar o crawling em um datastore do Amazon S3

Informações adicionadas sobre crawling de uma amostra de arquivos ao realizar o crawling no Amazon S3. Para obter mais informações, consulte Propriedades do crawler.

10 de maio de 2021

Suporte para o gravador de parquet otimizado do AWS Glue

Informações adicionadas sobre o uso do gravador de parquet otimizado do AWS Glue para DynamicFrames a fim de criar ou atualizar tabelas com a classificação parquet. Para obter mais informações, consulte Criar tabelas, atualizar esquemas e adicionar novas partições no catálogo de dados de trabalhos de ETL do AWS Glue e Opções de formato para entradas e saídas de ETL no AWS Glue.

4 de maio de 2021

Compatibilidade com senhas de autenticação de cliente do Kafka

Informações adicionadas sobre trabalhos de ETL de transmissão no AWS Glue suportam autenticação de certificado de cliente SSL com produtores de transmissão do Apache Kafka. Agora você pode fornecer um certificado personalizado ao definir uma conexão do AWS Glue com um cluster do Apache Kafka, que o AWS Glue usará ao autenticar com ele. Para obter mais informações, consulte Propriedades de conexão do AWS Glue e API de conexão.

28 de abril de 2021

Compatibilidade com o consumo de dados do Amazon Kinesis Data Streams em outra conta em trabalhos de ETL de transmissão

Informações adicionadas sobre como criar um trabalho de ETL de transmissão para consumir dados do Amazon Kinesis Data Streams em outra conta. Para obter mais informações, consulte Adicionar trabalhos ETL de streaming no AWS Glue.

30 de março de 2021

Transformação SQL disponível

Você pode usar um nó de transformação SQL para gravar sua própria transformação na forma de uma consulta SQL. Para obter mais informações, consulte Usar uma consulta SQL para transformar dados.

23 de março de 2021

Suporte para a criação de fluxos de trabalho de esquemas (pré-visualização pública)

(Previsualização pública) Informações adicionadas sobre a codificação de casos de uso comuns de extração, transformação e carregamento (ETL) nos blueprints e subsequente criação de fluxos de trabalho de blueprints. Permite que os analistas de dados criem e executem facilmente processos de ETL complexos. Para obter mais informações, consulte Realização de atividades de ETL complexas usando esquemas e fluxos de trabalho no AWS Glue.

22 de março de 2021

Conectores podem ser usados para destinos de dados

Agora, o uso de um conector personalizado ou do AWS Marketplace para seu destino de dados é suportado. Para obter mais informações, consulte Criação de trabalhos com conectores personalizados.

15 de março de 2021

Suporte para métricas de importância de coluna para transformações de machine learning do AWS Glue

Informações adicionadas sobre a exibição de métricas de importância de coluna ao trabalhar com transformações de machine learning do AWS Glue. Para obter mais informações, consulte Trabalhar com transformações de machine learning no console do AWS Glue

5 de fevereiro de 2021

O recurso de programação de trabalhos agora está disponível no AWS Glue Studio

Você pode definir uma programação baseada em tempo para suas execuções de trabalhos no AWS Glue Studio. Você pode usar o console para criar uma programação básica ou definir uma programação mais complexa usando a sintaxe cron. Para obter mais informações, consulte Programar execuções de trabalhos.

21 de dezembro de 2020

Lançamento de conectores personalizados do AWS Glue

Os conectores personalizados do AWS Glue permitem que você descubra e assine conectores no AWS Marketplace. Também lançamos interfaces do runtime do Spark no AWS Glue para ligar conectores criados para a fonte de dados do Apache Spark, consulta federada do Athena e APIs do JDBC. Para obter mais informações, consulte Uso de conectores e conexões com o AWS Glue Studio.

21 de dezembro de 2020

Suporte para execução de trabalhos de ETL de transmissão no AWS Glue versão 2.0

Informações adicionadas sobre suporte para a execução de trabalhos de ETL de transmissão no Glue versão 2.0. Para obter mais informações, consulte Adicionar trabalhos ETL de streaming no AWS Glue.

18 de dezembro de 2020

Compatibilidade com o particionamento de workload com execução limitada

Informações adicionadas sobre como habilitar o particionamento de workload para configurar os limites superiores no tamanho do conjunto de dados ou o número de arquivos processados em execuções de trabalho de ETL. Para obter mais informações, consulte Particionamento de workload com execução limitada.

23 de novembro de 2020

Compatibilidade com gerenciamento aprimorado de partições

Informações adicionadas sobre como usar novas APIs para adicionar ou excluir um índice de partição para/de uma tabela existente. Para obter mais informações, consulte Trabalhar com índices de partição.

23 de novembro de 2020

Suporte para o AWS Glue Schema Registry

Informações adicionadas sobre o uso do registro de esquema do AWS Glue para descobrir, controlar e evoluir esquemas centralmente. Para obter mais informações, consulte Registro de esquemas do AWS Glue.

19 de novembro de 2020

Compatibilidade com o formato de entrada Grok em trabalhos de ETL de transmissão

Informações adicionadas sobre a aplicação de padrões Grok a fontes de transmissão, como arquivos de log. Para obter mais informações, consulte Aplicar padrões Grok a fontes de transmissão.

17 de novembro de 2020

Suporte para a adição de tags a fluxos de trabalho no console do AWS Glue

Informações adicionadas sobre como adicionar tags ao criar um fluxo de trabalho usando o console do AWS Glue. Para obter mais informações, consulte Criar e desenvolver um fluxo de trabalho usando o console do AWS Glue.

27 de outubro de 2020

Compatibilidade com execuções incrementais de crawler

Informações adicionadas sobre o suporte para execuções incrementais de crawler, que rastreiam somente as pastas do Amazon S3 adicionadas desde a última execução. Para obter mais informações, consulte Crawls incrementais.

21 de outubro de 2020

Suporte para detecção de esquema para fontes de dados de ETL de transmissão. Suporte para transmissão Avro de fontes de dados de ETL e Kafka autogerenciado

A transmissão de trabalhos de extração, transformação e carregamento (ETL) no AWS Glue agora pode detectar automaticamente o esquema de registros de entrada e lidar com alterações de esquema por registro. Origens dos dados do Kafka autogerenciado agora são suportadas. Trabalhos de ETL de transmissão agora suportam o formato Avro nas origens dos dados. Para obter mais informações, consulte ETL de transmissão no AWS Glue, Definir propriedades de trabalho para um trabalho de ETL de transmissão e Notas e restrições para fontes de transmissão do Avro.

7 de outubro de 2020

Compatibilidade com crawling em origens de dados do MongoDB e DocumentDB

Informações adicionadas sobre suporte para crawling de origens dos dados do MongoDB e do Amazon DocumentDB (compatível com MongoDB). Para obter mais informações, consulte Definir crawlers.

5 de outubro de 2020

Compatibilidade com conformidade com FIPS

Informações adicionadas sobre endpoints dos FIPS para clientes que precisam de módulos criptográficos validados pelo FIPS 140-2 ao acessar dados usando o AWS Glue. Para obter mais informações, consulte Conformidade com os FIPS.

23 de setembro de 2020

O AWS Glue Studio fornece uma interface visual fácil de usar para criar e monitorar trabalhos

Agora você pode usar uma interface simples baseada em gráficos para compor trabalhos que movem e transformam dados e executá-los no AWS Glue. Em seguida, você pode usar o painel de execução de tarefas no AWS Glue Studio para monitorar a execução de ETL e garantir que seus trabalhos estejam operando conforme pretendido. Para obter mais informações, consulte o Guia do usuário do AWS Glue Studio.

23 de setembro de 2020

Compatibilidade com a criação de índices de tabela para melhorar a performance de consulta

Informações adicionadas sobre a criação de índices de tabela para permitir que você recupere um subconjunto das partições de uma tabela. Para obter mais informações, consulte Trabalhar com índices de partição.

9 de setembro de 2020

Compatibilidade com tempos reduzidos de inicialização ao executar trabalhos de ETL do Apache Spark no AWS Glue versão 2.0.

Informações adicionadas sobre o suporte para o AWS Glue versão 2.0 que fornece uma infraestrutura atualizada para executar trabalhos do ETL do Apache Spark com tempos de inicialização reduzidos, alterações no registro e suporte para especificar módulos Python adicionais no nível do trabalho. Para obter mais informações, consulte Notas de release do AWS Glue e Executar trabalhos de ETL do Spark com startup reduzidos.

10 de agosto de 2020

Compatibilidade com a limitação do número de execuções simultâneas de fluxo de trabalho.

Informações adicionadas sobre como limitar o número de execuções de fluxo de trabalho simultâneas para um determinado fluxo de trabalho. Para obter mais informações, consulte Criar e desenvolver um fluxo de trabalho usando o console do AWS Glue.

10 de agosto de 2020

Compatibilidade com crawling em um datastore do Amazon S3 usando um endpoint da VPC

Informações adicionadas sobre a configuração do datastore do Amazon S3 para acesso somente por um ambiente da Amazon Virtual Private Cloud (Amazon VPC), para fins de segurança, auditoria ou controle. Para obter mais informações, consulte Crawling de um datastore do Amazon S3 usando um endpoint da VPC.

7 de agosto de 2020

Compatibilidade com a retomada de execuções de fluxo de trabalho

Informações adicionadas sobre como retomar execuções de fluxo de trabalho que foram concluídas apenas parcialmente porque um ou mais nós (trabalhos ou crawlers) não foram concluídos com êxito. Para obter mais informações, consulte Reparar e retomar uma execução de fluxo de trabalho.

27 de julho de 2020

Compatibilidade com a habilitação de certificados de CA privada em conexões do Kafka no AWS Glue.

Informações adicionadas sobre novas opções de conexão que são compatíveis com a habilitação de certificados CA privados para conexões Kafka no AWS Glue. Para obter mais informações, consulte Tipos de conexão e opções para ETL no AWS Glue e Parâmetros especiais usados ​​pelo AWS Glue.

20 de julho de 2020

Compatibilidade com a leitura de dados do DynamoDB em outra conta

Informações adicionadas sobre o suporte do AWS Glue para leitura de dados de tabela do DynamoDB de outra conta da AWS. Para obter mais informações, consulte Leitura de dados do DynamoDB em outra conta.

17 de julho de 2020

Compatibilidade com uma conexão de gravador do DynamoDB no AWS Glue versão 1.0 ou posterior

Informações adicionadas sobre o suporte ao gravador do DynamoDB e opções de conexão novas ou atualizadas para o DynamoDB ler ou gravar. Para obter mais informações, consulte Tipos de conexão e opções para ETL no AWS Glue.

17 de julho de 2020

Compatibilidade com links de recursos e controle de acesso entre contas usando o AWS Glue e o Lake Formation

Conteúdo adicionado sobre novos objetos do Data Catalog chamados links de recursos, e sobre como gerenciar o compartilhamento de recursos do Data Catalog entre contas com o AWS Glue e o AWS Lake Formation. Para obter mais informações, consulte Concessão de acesso entre contas e Links de recursos de tabela.

7 de julho de 2020

Compatibilidade com amostragem de registros ao realizar crawling dos armazenamentos de dados do DynamoDB

Adicionadas informações sobre novas propriedades que você pode configurar ao realizar crawling de um datastore do DynamoDB. Para obter mais informações, consulte Propriedades do crawler.

12 de junho de 2020

Compatibilidade com a interrupção de uma execução de fluxo de trabalho.

Informações adicionadas sobre como interromper a execução de determinado fluxo de trabalho. Para obter mais informações, consulte Interromper uma execução de fluxo de trabalho.

14 de maio de 2020

Compatibilidade com trabalhos de ETL de transmissão do Spark

Inclusão de informações sobre a criação de trabalhos de extração, transformação e carregamento (ETL) com fontes de dados de streaming. Para obter mais informações, consulte Adicionar trabalhos ETL de streaming no AWS Glue.

27 de abril de 2020

Compatibilidade com a criação de tabelas, atualização do esquema e adição de novas partições ao Data Catalog após a execução de um trabalho de ETL

Adição de informações sobre como você pode habilitar a criação de tabelas, atualizar o esquema e adicionar novas partições para visualizar os resultados do trabalho de ETL no catálogo de dados. Para obter mais informações, consulte Criar tabelas, atualizar esquemas e adicionar novas partições no Data Catalog de trabalhos de ETL do AWS Glue.

2 de abril de 2020

Compatibilidade com a especificação de uma versão para o formato de dados Apache Avro como uma entrada e saída de ETL no AWS Glue

Adição de informações sobre como especificar uma versão para o formato de dados do Apache Avro como uma entrada e saída de ETL no AWS Glue. A versão padrão é 1.7. É possível usar a opção de formato version para especificar o Avro versão 1.8 para habilitar a leitura/gravação lógica. Para obter mais informações, consulte Opções de formato para entradas e saídas de ETL no AWS Glue.

31 de março de 2020

Compatibilidade com o committer otimizado para EMRFS do S3 para gravação de dados Parquet no Amazon S3

Informações adicionadas sobre como definir um novo sinalizador para habilitar o committer otimizado para EMRFR S3, para gravar dados parquet no Amazon S3 ao criar ou atualizar um trabalho do AWS Glue. Para obter mais informações, consulte Parâmetros especiais usados pelo AWS Glue.

30 de março de 2020

Suporte para transformações de machine learning como um recurso gerenciado por tags de recursos da AWS

Informações adicionadas sobre o uso de tags de recursos da AWS para gerenciar e controlar o acesso às transformações de machine learning no AWS Glue. Você pode atribuir tags de recursos da AWS a trabalhos, acionadores, endpoints, crawlers e transformações de machine learning no AWS Glue. Para obter mais informações, consulte Tags da AWS no AWS Glue.

2 de março de 2020

Compatibilidade com argumentos de trabalho não substituíveis

Adição de informações sobre suporte para parâmetros especiais de trabalho que não podem ser substituídos em triggers ou quando o trabalho é executado. Para obter mais informações, consulte Adição de trabalhos no AWS Glue.

12 de fevereiro de 2020

Compatibilidade com novas transformações para conjuntos de dados no Amazon S3

Informações adicionadas sobre novas transformações (Merge, Purge e Transition) e exclusões de classe de armazenamento do Amazon S3 para que aplicações do Apache Spark funcionem com conjuntos de dados no Amazon S3. Para obter mais informações sobre o suporte a essas transformações para Python, consulte mergeDynamicFrame e Trabalhar com conjuntos de dados no Amazon S3. Para Scala, consulte mergeDynamicFrames e APIs GlueContext em Scala do AWS Glue.

16 de janeiro de 2020

Compatibilidade com a atualização do Data Catalog com novas informações de partição de um trabalho de ETL

Adição de informações sobre como codificar um script de extração, transformação e carregamento (ETL) para atualizar o AWS Glue Data Catalog com novas informações de partição. Com esse recurso, não é mais necessário executar novamente o crawler após a conclusão do trabalho para exibir as novas partições. Para obter mais informações, consulte Atualizar o Data Catalog com novas partições.

15 de janeiro de 2020

Novo tutorial: usar um caderno do SageMaker

Adição de um tutorial que demonstra como usar um caderno do Amazon SageMaker para ajudar a desenvolver seus scripts de ETL e machine learning. Consulte Tutorial: usar um caderno do Amazon SageMaker com o endpoint de desenvolvimento.

3 de janeiro de 2020

Compatibilidade com leitura do MongoDB e do Amazon DocumentDB (compatível com MongoDB)

Informações adicionadas sobre novos tipos e opções de conexão para ações de leitura e gravação no MongoDB e no Amazon DocumentDB (compatível com MongoDB). Para obter mais informações, consulte Tipos de conexão e opções para ETL no AWS Glue.

17 de dezembro de 2019

Várias correções e esclarecimentos

Adição de correções e esclarecimentos ao longo do documento. Itens removidos do capítulo Problemas conhecidos. Adição de avisos informando que o AWS Glue oferece suporte apenas a chaves mestras do cliente (CMKs) simétricas ao especificar configurações de criptografia do Catálogo de Dados e criar configurações de segurança. Adição de uma nota informando que o AWS Glue não permite gravar no Amazon DynamoDB.

9 de dezembro de 2019

Compatibilidade com drivers JDBC personalizados

Foram adicionadas informações sobre como conectar destinos e fontes de dados com drivers JDBC que não são compatíveis nativamente com o AWS Glue, como MySQL versão 8 e Oracle Database versão 18. Para obter mais informações, consulte Valores de connectionType do JDBC.

25 de novembro de 2019

Compatibilidade com a conexão de cadernos do SageMaker com diferentes endpoints de desenvolvimento

Informações adicionadas sobre como você pode conectar um caderno do SageMaker a diferentes endpoints de desenvolvimento. Atualizações para descrever a nova ação do console para alternar para um novo endpoint de desenvolvimento e a nova política do IAM do SageMaker. Para obter mais informações, consulte Trabalhar com cadernos no console do AWS Glue e Criar uma política do IAM para cadernos do Amazon SageMaker.

21 de novembro de 2019

Compatibilidade com a versão do AWS Glue em transformações de machine learning

Informações adicionadas sobre como definir a versão do AWS Glue em uma transformação de machine learning de maneira a indicar com qual versão do AWS Glue uma transformação de machine learning é compatível. Para obter mais informações, consulte Trabalhar com transformações de machine learning no console do AWS Glue.

21 de novembro de 2019

Compatibilidade com a recuperação de estados anteriores de seus marcadores de trabalho

Adição de informações sobre como retroceder seus marcadores de trabalho para qualquer execução de trabalho anterior, resultando no reprocessamento subsequente de dados de execução de trabalho somente a partir da execução do trabalho marcado. Descrição de duas novas subopções para a opção job-bookmark-pause que permitem executar um trabalho entre dois marcadores. Para obter mais informações, consulte Rastrear dados processados usando marcadores de trabalho e Parâmetros especiais usados pelo AWS Glue.

22 de outubro de 2019

Compatibilidade com certificados JDBC personalizados para conexão com um datastore

Adição de informações sobre o suporte do AWS Glue a certificados JDBC personalizados para conexões SSL a fontes de dados ou destinos do AWS Glue. Para obter mais informações, consulte Trabalhar com conexões no console do AWS Glue.

10 de outubro de 2019

Compatibilidade com o formato de distribuição wheel do Python

Informações adicionadas sobre o suporte do AWS Glue a arquivos wheel (junto com arquivos egg) como dependências para trabalhos de shell do Python. Para obter mais informações, consulte Fornecer sua própria biblioteca Python.

26 de setembro de 2019

Compatibilidade com versionamento de endpoints de desenvolvimento no AWS Glue

Adição de informações sobre como definir o Glue version em endpoints de desenvolvimento. O Glue version determina as versões de Apache Spark e Python que são compatíveis com o AWS Glue. Para obter mais informações, consulte Adicionar um endpoint de desenvolvimento.

19 de setembro de 2019

Compatibilidade com monitoramento do AWS Glue usando a interface de usuário do Spark

Adição de informações sobre como usar a IU do Apache Spark para monitorar e depurar trabalhos de ETL do AWS Glue em execução no sistema de trabalhos do AWS Glue e aplicativos Spark em endpoints de desenvolvimento do AWS Glue. Para obter mais informações, consulte Monitorar o AWS Glue usando a interface do usuário do Spark.

19 de setembro de 2019

Aprimoramento do suporte para desenvolvimento de script de ETL local usando a biblioteca de ETL pública do AWS Glue

Atualização do conteúdo da biblioteca de ETL do AWS Glue para refletir que o AWS Glue versão 1.0 agora é compatível. Para obter mais informações, consulte Desenvolver e testar scripts de ETL localmente usando a biblioteca de ETL do AWS Glue.

18 de setembro de 2019

Compatibilidade com a exclusão de classes de armazenamento do Amazon S3 ao executar trabalhos

Informações adicionadas sobre a exclusão de classes de armazenamento do Amazon S3 ao executar trabalhos de ETL do AWS Glue que leem arquivos ou partições do Amazon S3. Para obter mais informações, consulte Excluir classes de armazenamento do Amazon S3.

29 de agosto de 2019

Suporte para desenvolvimento de script de ETL local usando a biblioteca de ETL pública do AWS Glue

Adição de informações sobre como desenvolver e testar scripts Python e Scala de ETL localmente sem a necessidade de uma conexão de rede. Para obter mais informações, consulte Desenvolver e testar scripts de ETL localmente usando a biblioteca de ETL do AWS Glue.

28 de agosto de 2019

Problemas conhecidos

Adição de informações sobre problemas conhecidos no AWS Glue. Para obter mais informações, consulte Problemas conhecidos do AWS Glue,

28 de agosto de 2019

Compatibilidade com transformações de machine learning no AWS Glue

Adição de informações sobre recursos de machine learning fornecidos pelo AWS Glue para criar transformações personalizadas. É possível criar essas transformações ao criar uma tarefa. Para obter mais informações, consulte Transformações de machine learning no AWS Glue.

8 de agosto de 2019

Compatibilidade com Amazon Virtual Private Cloud compartilhada

Informações adicionadas sobre o suporte do AWS Glue para Amazon Virtual Private Cloud compartilhada. Para obter mais informações, consulte Amazon VPCs compartilhadas.

6 de agosto de 2019

Compatibilidade com versionamento no AWS Glue

Informações adicionadas sobre como definir a Glue version em endpoints de desenvolvimento. A versão do AWS Glue determina as versões de Apache Spark e Python que são compatíveis com o AWS Glue. Para obter mais informações, consulte Adição de trabalhos no AWS Glue.

24 de julho de 2019

Compatibilidade com opções adicionais de configuração para endpoints de desenvolvimento

Adição de informações sobre opções de configuração para endpoints de desenvolvimento que têm cargas de trabalho com uso intensivo de memória. Você pode escolher entre duas novas configurações que fornecem mais memória por executor. Para obter mais informações, consulte Trabalhar com endpoints de desenvolvimento no console do AWS Glue.

24 de julho de 2019

Compatibilidade com atividades de extração, transferência e carregamento (ETL) usando fluxos de trabalho

Informações adicionadas sobre como usar uma nova construção chamada de fluxo de trabalho para criar uma atividade complexa de vários trabalhos de extração, transformação e carregamento (ETL) que o AWS Glue pode executar e rastrear como uma entidade única. Para obter mais informações, consulte Realizar atividades complexas de ETL usando fluxos de trabalho no AWS Glue.

20 de junho de 2019

Compatibilidade com Python 3.6 em tarefas de shell do Python

Adicionadas informações sobre o suporte a Python 3.6 em tarefas de shell do Python. É possível especificar Python 2.7 ou Python 3.6 como uma propriedade da tarefa. Para obter mais informações, consulte Adicionar trabalhos de shell do Python no AWS Glue.

5 de junho de 2019

Compatibilidade com endpoints de nuvem privada virtual (VPC)

Informações adicionadas sobre como se conectar diretamente ao AWS Glue por meio de um endpoint de interface na VPC. Quando você usa um endpoint de interface de VPC, a comunicação entre a VPC e o AWS Glue é realizada integralmente e com segurança na rede da AWS. Para obter mais informações, consulte Usar o AWS Glue com endpoints da VPC.

4 de junho de 2019

Suporte para o registro de logs contínuo e em tempo real para trabalhos do AWS Glue

Informações adicionadas sobre como habilitar e visualizar em tempo real logs de trabalho do Apache Spark no CloudWatch, incluindo os logs de driver, cada um dos logs de executor e uma barra de progresso de trabalhos do Spark. Para obter mais informações, consulte Registro contínuo para tarefas do AWS Glue.

28 de maio de 2019

Compatibilidade com tabelas existentes do Data Catalog como fontes do crawler

Informações adicionadas sobre como especificar uma lista de tabelas existentes do Data Catalog como fontes do crawler. Os crawlers podem detectar alterações nos esquemas da tabela, atualizar as definições da tabela e registrar novas partições conforme novos dados ficam disponíveis. Para obter mais informações, consulte Propriedades do crawler.

10 de maio de 2019

Compatibilidade com opções adicionais de configuração para trabalhos com uso intenso de memória

Adicionadas informações sobre as opções de configuração para tarefas do Apache Spark com cargas de trabalho com uso intensivo de memória. Você pode escolher entre duas novas configurações que fornecem mais memória por executor. Para obter mais informações, consulte Adição de trabalhos no AWS Glue.

5 de abril de 2019

Compatibilidade com classificadores personalizados de CSV

Adicionadas informações sobre como usar um classificador CSV personalizado para inferir o esquema de vários tipos de dados CSV. Para obter mais informações, consulte Escrever classificadores personalizados.

26 de março de 2019

Suporte para tags de recursos da AWS

Informações adicionadas sobre como usar tags de recursos da AWS para ajudar você a gerenciar e controlar o acesso aos seus recursos do AWS Glue. Você pode atribuir tags de recursos da AWS para trabalhos, acionadores, endpoints e crawlers no AWS Glue. Para obter mais informações, consulte Tags da AWS no AWS Glue.

20 de março de 2019

Compatibilidade do Data Catalog com trabalhos do Spark SQL

Informações adicionadas sobre como configurar os trabalhos e endpoints de desenvolvimento do AWS Glue para usar o AWS Glue Data Catalog como um metastore do Apache Hive externo. Isso permite que os trabalhos e os endpoints de desenvolvimento executem consultas do Apache Spark SQL diretamente nas tabelas armazenadas no AWS Glue Data Catalog. Para obter mais informações, consulte Suporte do AWS Glue Data Catalog para trabalhos do Spark SQL.

14 de março de 2019

Compatibilidade com trabalhos de shell do Python

Adição de informações sobre trabalhos de shell do Python e o novo campo Maximum capacity (Capacidade máxima). Para obter mais informações, consulte Adicionar trabalhos de shell do Python no AWS Glue.

18 de janeiro de 2019

Compatibilidade com notificações quando houver alterações em bancos de dados e tabelas

Adição de informações sobre eventos que são gerados para alterações em chamadas de API de partição, tabela e banco de dados. É possível configurar ações no CloudWatch Events para responder a esses eventos. Para obter mais informações, consulte Automatizar o AWS Glue com o CloudWatch Events.

16 de janeiro de 2019

Compatibilidade com criptografia de senhas de conexão

Adicionadas informações sobre criptografia de senhas usadas em objetos de conexão. Para mais informações, consulte Como criptografar senhas de conexão.

11 de dezembro de 2018

Compatibilidade com permissão por recurso e políticas baseadas em recursos

Adição de informações sobre como usar políticas de permissões em nível de recurso e baseadas em recursos com o AWS Glue. Para obter mais informações, consulte os tópicos em Segurança no AWS Glue.

15 de outubro de 2018

Compatibilidade com cadernos do SageMaker

Informações adicionadas sobre o uso de cadernos do SageMaker com endpoints de desenvolvimento do AWS Glue. Para obter mais informações, consulte Gerenciamento de cadernos.

5 de outubro de 2018

Compatibilidade com criptografia

Adicionadas informações sobre como usar criptografia com o AWS Glue. Para obter mais informações, consulte Criptografia em repouso, Criptografia em trânsito e Configurar a criptografia no AWS Glue.

24 de agosto de 2018

Compatibilidade com métricas de trabalho do Apache Spark

Adição de informações sobre o uso de métricas do Apache Spark para melhorar a depuração e a criação de perfis de trabalhos de ETL. Você pode facilmente acompanhar métricas do runtime como bytes lidos e gravados, uso de memória e carga de CPU do driver e executores, e ordem aleatória de dados entre os executores no console do AWS Glue. Para obter mais informações, consulte Monitorar o AWS Glue usando métricas do CloudWatch, Monitorar e depurar trabalhos e Trabalhar com trabalhos no console do AWS Glue.

13 de julho de 2018

Compatibilidade com o DynamoDB como uma origem dos dados

Informações adicionadas sobre o crawling do DynamoDB e como usá-lo como uma origem dos dados de trabalhos de ETL. Para obter mais informações, consulte Catalogamento de tabelas com um crawler e Parâmetros de conexão.

10 de julho de 2018

Atualizações do procedimento para criar um servidor de cadernos

Informações atualizadas sobre como criar um servidor de cadernos em uma instância do Amazon EC2 associada a um endpoint de desenvolvimento. Para obter mais informações, consulte Criação de um servidor de caderno associado a um endpoint de desenvolvimento.

9 de julho de 2018

Atualizações agora disponíveis em RSS

Agora, você pode assinar um feed RSS para receber notificações sobre atualizações do Guia do desenvolvedor do AWS Glue.

25 de junho de 2018

Compatibilidade com notificações de atraso para trabalhos

Adicionadas informações sobre como configurar um limite de atraso quando um trabalho for executado. Para obter mais informações, consulte Adição de trabalhos no AWS Glue.

25 de maio de 2018

Configurar um crawler para acrescentar novas colunas

Adicionadas informações sobre a nova opção de configuração para crawlers, MergeNewColumns. Para obter mais informações, consulte Configuração de um crawler.

7 de maio de 2018

Compatibilidade com tempo limite para trabalhos

Adicionadas informações sobre como definir um tempo limite quando um trabalho é executado. Para obter mais informações, consulte Adição de trabalhos no AWS Glue.

10 de abril de 2018

Compatibilidade com script de ETL Scala e acionamento de trabalhos com base em estados adicionais de execução

Informações adicionadas sobre o uso do Scala como linguagem de programação de ETL. Além disso, a API do gatilho agora é compatível com disparos quando as condições são atendidas (junto com todas as outras condições). Os trabalhos podem ser acionados com base em uma execução de trabalho com falha ou interrompida (além de uma execução de trabalho concluída com sucesso).

12 de janeiro de 2018

Atualizações anteriores

A tabela a seguir descreve as alterações importantes em cada versão do Guia de desenvolvedor do AWS Glue antes de janeiro de 2018.

Alteração Descrição Data
Suporte a fontes de dados XML e nova opção de configuração do crawler Informações adicionadas sobre a classificação de fontes de dados XML e nova opção de crawler para alterações de partição. 16 de novembro de 2017
Novas transformações, suporte a mecanismos de banco de dados adicionais do Amazon RDS e aprimoramentos do endpoint de desenvolvimento Informações adicionadas sobre as transformações de filtro e mapa, suporte para o Amazon RDS Microsoft SQL Server e Amazon RDS Oracle, além de novos recursos para endpoints de desenvolvimento. 29 de setembro de 2017
Versão inicial do AWS Glue Este é o lançamento inicial do Guia do desenvolvedor do AWS Glue. 14 de agosto de 2017