Localizar correspondências incrementais - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Localizar correspondências incrementais

O recurso Find matches permite identificar registros duplicados ou correspondentes no seu conjunto de dados, mesmo quando os registros não tenham um identificador exclusivo comum e quando não houver campos com uma correspondência exata. A versão inicial da transformação Find matches identificava registros correspondentes em um único conjunto de dados. Quando você adiciona novos dados ao conjunto de dados, você precisava mesclá-los com o conjunto de dados limpo existente e executar novamente a correspondência com o conjunto de dados mesclado completo.

O recurso de correspondência incremental facilita a correspondência com registros incrementais em relação a conjuntos de dados correspondentes existentes. Vamos supor que você queira combinar dados de clientes potenciais com conjuntos de dados de clientes existentes. O recurso de correspondência incremental oferece a flexibilidade de combinar centenas de milhares de novos clientes potenciais com um banco de dados existente de clientes potenciais e clientes, mesclando os resultados em um único banco de dados ou tabela. Ao fazer a correspondência somente entre os conjuntos de dados novos e existentes, a otimização da localização de correspondências incrementais reduz o tempo de computação, o que também reduz o custo.

O uso de correspondência incremental é semelhante a Find matches conforme descrito em Tutorial: como criar uma transformação de machine learning com o AWS Glue. Este tópico identifica apenas as diferenças com correspondência incremental.

Para obter mais informações, consulte a postagem do blog em Correspondências de dados incrementais.

Execução de um trabalho de correspondência incremental

Para o procedimento a seguir, suponha o seguinte:

  • Você rastreou o conjunto de dados existente até a tabela first_records. O conjunto de dados first_records deve ser um conjunto de dados correspondente ou a saída do trabalho correspondente.

  • Você criou e treinou uma transformação de Find matches com o AWS Glue versão 2.0. Essa é a única versão do AWS Glue com suporte a correspondências incrementais.

  • A linguagem de ETL é Scala. Observe que também há suporte para Python.

  • O modelo já gerado é chamado de demo-xform.

  1. Rastreie o conjunto de dados incremental até a tabela second_records.

  2. No console do AWS Glue, no painel de navegação, escolha Jobs (Trabalhos).

  3. Escolha Add job (Adicionar trabalho), e siga as etapas do assistente para criar um trabalho de ETL do Spark com um script gerado. Escolha os seguintes valores de propriedade para sua transformação:

    1. Em Name (Nome), escolhademo-etl.

    2. Em IAM role (Função do IAM), escolha uma função do IAM com permissão para os dados de fonte do Amazon S3, o arquivo de rotulagem e as operações de API do AWS Glue.

    3. Em ETL language (Linguagem de ETL), escolha Scala.

    4. Em Script file name (Nome do arquivo de script), escolha demo-etl. Esse é o nome do arquivo do script Scala.

    5. Em Data source (Fonte de dados), escolha first_records. A fonte de dados que você escolher deve corresponder ao esquema da fonte de dados da transformação de machine learning.

    6. Em Transform type (Tipo de transformação), escolha Find matching records (Encontrar registros correspondentes) para criar um trabalho usando uma transformação de machine learning.

    7. Selecione a opção de correspondência incremental e para Data Source (Fonte de dados), selecione a tabela chamada second_records.

    8. Em Transform (Transformação), escolha demo-xform, a transformação de machine learning usada pelo trabalho.

    9. Escolha Create tables in your data target (Criar tabelas em seu destino de dados) ou Use tables in the data catalog and update your data target (Usar tabelas no catálogo de dados e atualizar seu destino de dados).

  4. Escolha Save job and edit script (Salvar trabalho e editar script) para exibir a página do editor de script.

  5. Escolha Run job (Executar trabalho) para iniciar a execução do trabalho.