증분 일치 항목 찾기 - AWS Glue

증분 일치 항목 찾기

일치 항목 찾기 기능을 사용하면 레코드에 공통된 고유 식별자가 없고 정확히 일치하는 필드가 없는 경우에도 데이터 집합에서 중복 레코드나 일치 레코드를 식별할 수 있습니다. 일치 항목 찾기 변환의 초기 릴리스에서는 단일 데이터 집합 내의 일치 레코드를 식별했습니다. 데이터 집합에 새 데이터를 추가하는 경우 정리된 기존 데이터 집합과 병합하고 병합된 전체 데이터 집합에 대해 일치를 다시 실행해야 했습니다.

증분 일치 기능을 사용하면 기존 일치 데이터 집합과 증분 레코드를 더 간단하게 일치시킬 수 있습니다. 기존 고객 데이터 집합과 잠재 고객 데이터를 일치시키려는 경우를 가정합니다. 증분 일치 기능을 사용하면 결과를 단일 데이터베이스나 테이블에 병합하여 잠재 고객 및 고객의 기존 데이터베이스와 수십만 명의 신규 잠재 고객을 유연성 있게 일치시킬 수 있습니다. 증분 일치 항목 찾기 최적화는 새 데이터 집합과 기존 데이터 집합 간에만 일치시켜 계산 시간을 단축하므로 비용도 절감됩니다.

증분 일치 사용법은 자습서: AWS Glue로 기계 학습 변환 생성에 설명된 일치 항목 찾기와 유사합니다. 이 주제에서는 증분 일치와의 차이점만 설명합니다.

자세한 내용은 증분 데이터 일치에 대한 블로그 게시물을 참조하세요.

증분 일치 작업 실행

다음 절차에서는 다음과 같이 가정합니다.

  • 기존 데이터 세트를 first_records 테이블로 크롤링했습니다. first_records 데이터 세트는 일치하는 데이터 세트이거나 일치하는 작업의 출력이어야 합니다.

  • AWS Glue 버전 2.0을 사용하여 일치 항목 찾기 변환을 생성하고 훈련시켰습니다. 증분 일치는 이 버전의 AWS Glue에서만 지원됩니다.

  • ETL 언어는 Scala입니다. Python도 지원됩니다.

  • demo-xform이라는 모델이 이미 생성되어 있습니다.

  1. 증분 데이터 집합을 second_records 테이블로 크롤링합니다.

  2. AWS Glue 콘솔의 탐색 창에서 작업을 선택합니다.

  3. 작업 추가를 선택하고, 마법사의 단계에 따라 생성된 스크립트로 ETL Spark 작업을 만듭니다. 변환에 대해 다음 속성 값을 선택하십시오.

    1. 이름(Name)에서 demo-etl을 선택합니다.

    2. IAM 역할(IAM role)에서 Amazon S3 소스 데이터, 레이블 지정 파일, AWS Glue API 작업에 대한 권한이 있는 IAM 역할을 선택합니다.

    3. ETL 언어Scala를 선택합니다.

    4. 스크립트 파일 이름(Script file name)에서 demo-etl을 선택합니다. Scala 스크립트의 파일 이름입니다.

    5. 데이터 원본(Data source)에서 first_records를 선택합니다. 선택한 데이터 원본이 기계 학습 변환의 데이터 원본 스키마와 일치해야 합니다.

    6. Transform type(변환 유형)으로 Find matching records(일치 레코드 찾기)를 선택하여 기계 학습 변환을 사용하는 작업을 만듭니다.

    7. 증분 일치 옵션을 선택하고 데이터 원본(Data Source)에서 second_records라는 테이블을 선택합니다.

    8. 변환(Transform)에서 이 작업에 사용할 기계 학습 변환인 demo-xform을 선택합니다.

    9. 데이터 대상에 테이블 생성(Create tables in your data target) 또는 데이터 카탈로그 내 테이블 사용 및 데이터 대상 업데이트(Use tables in the data catalog and update your data target)를 선택합니다.

  4. 작업 저장 및 스크립트 편집을 선택하여 스크립트 편집기 페이지를 표시합니다.

  5. 작업 실행을 선택하여 작업을 실행하기 시작합니다.