Etapa 5: Criar um trabalho que usa a conexão do OpenSearch - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Etapa 5: Criar um trabalho que usa a conexão do OpenSearch

Depois de criar uma função para o seu trabalho de ETL, você pode criar um trabalho no AWS Glue Studio que usa a conexão e o conector para o Open Spark ElasticSearch.

Se seu trabalho for executado em uma Amazon Virtual Private Cloud (Amazon VPC), certifique-se de que a VPC esteja configurada corretamente. Para ter mais informações, consulte Configurar uma VPC para seu trabalho de ETL.

Para criar um trabalho que usa o Elasticsearch Spark Connector
  1. Em AWS Glue Studio, escolha Connectors (Conectores).

  2. Na lista Your connections (Suas conexões), selecione a conexão que você acabou de criar e escolha Create job (Criar trabalho).

  3. No editor de trabalhos visual, escolha o nó de origem dos dados. À direita, na guia Data source properties - Connector (Propriedades da origem dos dados: conector), configure informações adicionais para o conector.

    1. Escolha Add schema (Adicionar esquema) e insira o esquema do conjunto de dados na origem dos dados. As conexões não usam tabelas armazenadas no Data Catalog, o que significa que AWS Glue Studio não conhece o esquema dos dados. Você deve fornecer manualmente essas informações de esquema. Para obter instruções sobre como usar o editor de esquemas, consulte Editar o esquema de um nó de transformação personalizada.

    2. Expanda Connection options (Opções de conexão).

    3. Escolha Add new option (Adicionar nova opção) e insira as informações necessárias para o conector que não foram inseridas no segredo da AWS:

      • es.nodes: https://<endpoint do domínio do OpenSearch>

      • es.port: 443

      • path: test

      • es.nodes.wan.only: true

      Para obter uma explicação sobre essas opções de conexão, consulte: https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html.

  4. Adicione um nó de destino ao gráfico.

    Seu destino de dados pode ser o Amazon S3 ou pode usar informações de um AWS Glue Data Catalog ou um conector para gravar dados em um local diferente. Por exemplo, você pode usar uma tabela do Data Catalog para gravar em um banco de dados no Amazon RDS ou pode usar um conector como destino de dados para gravar em armazenamentos de dados que não são suportados nativamente no AWS Glue.

    Se você escolher um conector para o destino dos dados, deverá escolher uma conexão criada para esse conector. Além disso, se exigido pelo provedor do conector, você deve adicionar opções para fornecer mais informações ao conector. Se você usar uma conexão que contenha informações para um segredo da AWS, então não será preciso fornecer a autenticação com o nome do usuário e senha nas opções de conexão.

  5. Opcionalmente, adicione mais fontes de dados, e um ou mais nós de transformação, conforme descrito em Editar nós de transformação de dados gerenciados pelo AWS Glue.

  6. Configure as propriedades do trabalho conforme descrito em Modificar as propriedades do trabalho, começando com a etapa 3, e salve o trabalho.

Próxima etapa

Etapa 6: Executar o trabalho