Usar uma fonte de dados de transmissão
É possível criar trabalhos de extração, transformação e carregamento (ETL) de transmissão que sejam executados continuamente e que consumam dados de fontes de transmissão, como o Amazon Kinesis Data Streams, Apache Kafka e Amazon Managed Streaming for Apache Kafka (Amazon MSK).
Para configurar propriedades de uma fonte de dados de transmissão
-
Vá para o editor visual de um trabalho novo ou salvo.
-
Escolha um nó de origem dos dados no gráfico para fluxos de dados do Kafka ou do Kinesis.
-
Escolha a guia Data source properties (Propriedades da origem dos dados) e insira as seguintes informações:
- Kinesis
-
-
Kinesis source type (Tipo de origem do Kinesis): escolha a opção Stream details (Detalhes do fluxo) para usar o acesso direto à fonte de transmissão ou escolha Data Catalog Table(Tabela do Data Catalog) para usar as informações nele armazenadas.
Se você escolher Stream details (Detalhes do fluxo), especifique as informações adicionais a seguir.
-
Local do fluxo de dados: escolha se o fluxo está associado ao usuário atual ou a outro usuário.
-
Region (Região): escolha a Região da AWS onde o fluxo existe. Essas informações são usadas para construir o ARN para acesso ao fluxo de dados.
-
Stream ARN (ARN do fluxo): o nome do recurso da Amazon (ARN) do fluxos de dados do Kinesis. Se o fluxo estiver localizado na conta atual, você poderá escolher o nome do fluxo na lista suspensa. É possível usar o campo de pesquisa para procurar um fluxo de dados por seu nome ou ARN.
-
Data format (Formato de dados): escolha na lista o formato usado pelo fluxo de dados.
O AWS Glue detecta automaticamente o esquema dos dados da transmissão.
Se você escolher Data Catalog table (Tabela do Data Catalog), especifique as informações adicionais a seguir.
-
Database (Banco de dados): (opcional) escolha o banco de dados no AWS Glue Data Catalog que contém a tabela associada à sua fonte de dados de transmissão. É possível usar o campo de pesquisa para procurar um banco de dados pelo nome.
-
Table (Tabela): (opcional) escolha a tabela associada aos dados de origem na lista. Essa tabela já deve existir no AWS Glue Data Catalog. É possível usar o campo de pesquisa para procurar uma tabela pelo nome.
-
Detect schema (Detectar esquema): escolha essa opção para que o AWS Glue detecte o esquema dos dados da transmissão, em vez de usar as informações do esquema em uma tabela do Data Catalog. Essa opção é habilitada automaticamente quando a opção Stream details (Detalhes do fluxo) é escolhida.
-
-
Starting position (Posição inicial): por padrão, o trabalho de ETL usa a opção Earliest (Mais antiga), o que significa que ele lê dados começando com o registro mais antigo disponível no fluxo. Em vez disso, você pode escolher Latest (Mais recente), o que indica que o trabalho de ETL deve começar a leitura logo após o registro mais recente no fluxo.
-
Window size (Tamanho da janela): por padrão, o trabalho de ETL processa e grava dados em janelas de 100 segundos. Isso permite que os dados sejam processados de forma eficiente e que as agregações sejam realizadas em dados que chegam mais tarde do que o esperado. É possível modificar esse tamanho da janela para aumentar a pontualidade ou a precisão da agregação.
Os trabalhos de transmissão do AWS Glue usam pontos de verificação em vez de marcadores de trabalho para rastrear os dados que foram lidos.
-
Connection options (Opções de conexão): expanda essa seção para adicionar pares de chave-valor a fim de especificar opções de conexão adicionais. Para obter informações sobre quais opções você pode especificar aqui, consulte "connectionType": "kinesis" no Guia do desenvolvedor do AWS Glue.
-
- Kafka
-
-
Apache Kafka source (Origem do Apache Kafka): escolha a opção Stream details (Detalhes do fluxo) para usar o acesso direto à fonte de transmissão ou escolha Data Catalog Table(Tabela do Data Catalog) para usar as informações nele armazenadas.
Se você escolher Data Catalog table (Tabela do Data Catalog), especifique as informações adicionais a seguir.
-
Database (Banco de dados): (opcional) escolha o banco de dados no AWS Glue Data Catalog que contém a tabela associada à sua fonte de dados de transmissão. É possível usar o campo de pesquisa para procurar um banco de dados pelo nome.
-
Table (Tabela): (opcional) escolha a tabela associada aos dados de origem na lista. Essa tabela já deve existir no AWS Glue Data Catalog. É possível usar o campo de pesquisa para procurar uma tabela pelo nome.
-
Detect schema (Detectar esquema): escolha essa opção para que o AWS Glue detecte o esquema dos dados de transmissão, em vez de armazenar as informações do esquema em uma tabela do Data Catalog. Essa opção é habilitada automaticamente quando a opção Stream details (Detalhes do fluxo) é escolhida.
Se você escolher Stream details (Detalhes do fluxo), especifique as informações adicionais a seguir.
-
Connection name (Nome da conexão): escolha a conexão do AWS Glue que contém as informações de acesso e autenticação para o fluxo de dados do Kafka. Você deve usar uma conexão com origens de dados de streaming do Kafka. Se uma conexão não existe, é possível usar o console do AWS Glue para criar uma conexão para o fluxo de dados do Kafka.
-
Topic name (Nome do tópico): insira o nome do tópico do qual a leitura será feita.
-
Data format (Formato dos dados): escolha o formato a ser usado ao ler dados da sequência de eventos do Kafka.
-
-
Starting position (Posição inicial): por padrão, o trabalho de ETL usa a opção Earliest (Mais antiga), o que significa que ele lê dados começando com o registro mais antigo disponível no fluxo. Em vez disso, você pode escolher Latest (Mais recente), o que indica que o trabalho de ETL deve começar a leitura logo após o registro mais recente no fluxo.
-
Window size (Tamanho da janela): por padrão, o trabalho de ETL processa e grava dados em janelas de 100 segundos. Isso permite que os dados sejam processados de forma eficiente e que as agregações sejam realizadas em dados que chegam mais tarde do que o esperado. É possível modificar esse tamanho da janela para aumentar a pontualidade ou a precisão da agregação.
Os trabalhos de transmissão do AWS Glue usam pontos de verificação em vez de marcadores de trabalho para rastrear os dados que foram lidos.
-
Connection options (Opções de conexão): expanda essa seção para adicionar pares de chave-valor a fim de especificar opções de conexão adicionais. Para obter informações sobre quais opções você pode especificar aqui, consulte "connectionType": "kafka" no Guia do desenvolvedor do AWS Glue.
-
nota
As previsualizações de dados não são suportadas atualmente para fontes de dados de transmissão.