5단계: OpenSearch 연결을 사용하는 작업 생성 - AWS Glue Studio

5단계: OpenSearch 연결을 사용하는 작업 생성

ETL 작업에 대한 역할을 생성한 후 AWS Glue Studio에서 Open Spark ElasticSearch용 커넥터와 연결을 사용하는 작업을 생성할 수 있습니다.

작업이 Amazon Virtual Private Cloud(Amazon VPC) 내에서 실행되는 경우 VPC가 올바르게 구성되었는지 확인합니다. 자세한 정보는 ETL 작업에 사용할 VPC 구성을 참조하십시오.

Elasticsearch Spark 커넥터를 사용하는 작업을 생성하려면

  1. AWS Glue Studio에서 커넥터(Connectors)를 선택합니다.

  2. [연결(Your connections)] 목록에서 방금 생성한 연결을 선택하고 [작업 생성(Create job)]을 선택합니다.

  3. 시각적 작업 편집기에서 데이터 원본 노드를 선택합니다. 오른쪽의 [데이터 원본 속성 - 커넥터(Data source properties - Connector)] 탭에서 커넥터에 대한 추가 정보를 구성합니다.

    1. [스키마 추가(Add schema)]를 선택하고 데이터 원본에 있는 데이터 집합의 스키마를 입력합니다. 연결은 Data Catalog에 저장된 테이블을 사용하지 않습니다. 즉, AWS Glue Studio는 데이터의 스키마를 알지 못합니다. 이 스키마 정보를 수동으로 제공해야 합니다. 스키마 편집기를 사용하는 방법에 대한 지침은 사용자 정의 변환 노드에서 스키마 편집 섹션을 참조하세요.

    2. [연결 옵션(Connection options)]을 확장합니다.

    3. [새 옵션 추가(Add new option)]를 선택하고 AWS 보안 암호에 입력되지 않은 커넥터에 필요한 정보를 입력합니다.

      • es.nodes: https://<OpenSearch domain endpoint>

      • es.port: 443

      • path: 테스트

      • es.nodes.wan.only.: true

      
        스크린샷은 작업 그래프(선택됨)의 데이터 원본 노드를 보여줍니다. 오른쪽 패널에서 [데이터 원본 속성(Data source properties)] 탭이 선택됩니다. [연결(Connection)] 필드 값은 MyEsConn입니다. 머리글 [연결 옵션(Connection options)] 아래에 추가 옵션이 추가되었습니다. 키-값 페어는 (es.nodes, https://my-elasticsearch-endpo...), (es.port, 443), (path, test), (es.nodes.wan.only, true)입니다.

      이러한 연결 옵션에 대한 설명은 https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html 섹션을 참조하세요.

  4. 작업 다이어그램에 노드 추가데이터 대상 노드 편집에 설명된 대로 그래프에 대상 노드를 추가합니다.

    데이터 대상은 Amazon S3이거나 AWS Glue Data Catalog 또는 커넥터의 정보를 사용하여 다른 위치에 데이터를 쓸 수 있습니다. 예를 들어 Data Catalog 테이블을 사용하여 Amazon RDS의 데이터베이스에 쓰거나 커넥터를 데이터 대상으로 사용하여 AWS Glue에서 기본적으로 지원되지 않는 데이터 스토어에 쓸 수 있습니다.

    
      스크린샷은 작업 그래프의 두 노드인 조인 변환 노드와 ElasticSearch 커넥터(선택됨)에 대한 데이터 대상 노드를 보여줍니다. 오른쪽 패널에서 [노드 속성(Node properties)] 탭이 선택됩니다. 표시되는 값은 [이름 - "ElasticSearch Spark 커넥터", 노드 유형 - ElasticSearch Spark 커넥터(Name - "ElasticSearch Spark Connector", Node type - ElasticSearch Spark Connector)]입니다. 노드 유형 선택에 대한 드롭다운 목록이 표시되고 S3, Data Catalog, Google BigQuery용 AWS Glue 커넥터, Apache Hudi 커넥터 및 ElasticSearch Spark 커넥터(선택됨)를 포함하는 사용 가능한 데이터 대상 목록이 표시됩니다.

    데이터 대상에 대한 커넥터를 선택하는 경우 해당 커넥터에 대해 생성된 연결을 선택해야 합니다. 또한 커넥터 공급자가 요구하는 경우 커넥터에 추가 정보를 제공하는 옵션을 추가해야 합니다. AWS 보안 암호에 대한 정보가 포함된 연결을 사용하는 경우 연결 옵션에서 사용자 이름과 암호 인증을 제공할 필요가 없습니다.

    
      스크린샷은 작업 그래프의 4개 노드인 ElasticSearch 소스 노드, Data Catalog 소스 노드, 조인 변환 노드 및 ElasticSearch 데이터 대상 노드(선택됨)를 보여줍니다. 오른쪽 패널에서 [데이터 대상 속성(Data target properties)] 탭이 선택됩니다. [연결(Connection)] 필드 값은 MyEsConn입니다. 머리글 [연결 옵션(Connection options)] 아래에 추가 옵션이 추가되었습니다. 키-값 페어는(es.net.http.auth.user, MyUser), (path, es_write_loc), (es.nodes.wan.only, true), (es.nodes, https://search-glue-etl-job-vtr...), (es.net.http.auth.pass, HiddenPassword) 및 (es.port, 443)입니다.
  5. 필요에 따라 데이터 변환 노드 편집에 설명된 대로 추가 데이터 원본과 하나 이상의 변환 노드를 추가합니다.

  6. 작업 속성 수정에 설명된 대로 3단계부터 작업 속성을 구성하고 작업을 저장합니다.

다음 단계

6단계: 작업 실행