스트리밍 데이터 원본 사용 - AWS Glue Studio

스트리밍 데이터 원본 사용

지속적으로 실행되고 Amazon Kinesis Data Streams, Apache Kafka 및 Amazon Managed Streaming for Apache Kafka(Amazon MSK)의 스트리밍 소스의 데이터 사용하는 스트리밍 추출, 변환, 로드 작업을 생성할 수 있습니다.

스트리밍 데이터 원본의 속성을 구성하려면

  1. 새 작업 또는 저장된 작업의 시각적 그래프 편집기로 이동합니다.

  2. Kafka 또는 Kinesis Data Streams에 대한 그래프에서 데이터 원본 노드를 선택합니다.

  3. [데이터 원본 속성(Data source properties)] 탭을 선택한 후 다음 정보를 입력합니다.

    Kinesis
    • Kinesis 소스 유형(Kinesis source type): 스트림 세부 정보(Stream details) 옵션을 선택하여 스트리밍 소스에 직접 액세스하거나 Data Catalog 테이블(Data Catalog table)을 선택하여 테이블에 저장된 정보를 대신 사용합니다.

      스트림 세부 정보(Stream details)를 선택한 경우 다음 추가 정보를 지정합니다.

      • 데이터 스트림 위치(Location of data stream): 스트림이 현재 사용자 계정 내에 있는지 또는 다른 계정에 있는지 선택합니다.

      • 리전(Region): 스트림이 있는 AWS 리전을 선택합니다. 이 정보는 데이터 스트림에 액세스하기 위한 ARN을 구성하는 데 사용됩니다.

      • 스트림 ARN(Stream ARN): Kinesis 데이터 스트림의 Amazon 리소스 이름(ARN)을 입력합니다. 스트림이 현재 계정 내에 있는 경우 드롭다운 목록에서 스트림 이름을 선택할 수 있습니다. 검색 필드를 사용하여 이름이나 ARN으로 데이터 스트림을 검색할 수 있습니다.

      • 데이터 포맷(Data format): 목록에서 데이터 스트림에 사용할 포맷을 선택합니다.

        AWS Glue Studio는 스트리밍 데이터에서 스키마를 자동으로 탐지합니다.

      Data Catalog 테이블(Data Catalog table)을 선택한 경우 다음 추가 정보를 지정합니다.

      • 데이터베이스(Database): (선택 사항) AWS Glue Data Catalog에서 스트리밍 데이터 원본과 연결된 테이블이 포함된 데이터베이스를 선택합니다. 검색 필드를 사용하여 이름으로 데이터베이스를 검색할 수 있습니다.

      • [테이블(Table)]: (선택 사항) 목록에서 원본 데이터와 연결된 테이블을 선택합니다. 이 테이블이 AWS Glue Data Catalog에 이미 존재해야 합니다. 검색 필드를 사용하여 이름으로 테이블을 검색할 수 있습니다.

      • 스키마 탐지(Detect schema): AWS Glue Studio가 Data Catalog 테이블의 스키마 정보를 사용하는 대신 스트리밍 데이터에서 스키마를 탐지하도록 하려면 이 옵션을 선택합니다. 스트림 세부 정보(Stream details) 옵션을 선택한 경우 이 옵션은 자동으로 사용됩니다.

    • 시작 위치(Starting position): 기본값으로 ETL 작업은 가장 오래된 항목(Earliest) 옵션을 사용하므로 스트림에서 사용 가능한 가장 오래된 레코드부터 데이터를 읽습니다. 최신 항목(Latest)을 대신 선택할 수도 있습니다. 이 경우 ETL 작업은 스트림에서 가장 최근 레코드 직후부터 읽기를 시작해야 합니다.

    • [기간 크기(Window size)]: 기본적으로 ETL 작업은 100초 기간에 데이터를 처리하고 작성합니다. 이를 통해 데이터를 효율적으로 처리할 수 있으며 예상보다 늦게 도착하는 데이터에 대해 집계를 수행할 수 있습니다. 이 기간 크기를 수정하여 적시성 또는 집계 정확도를 높일 수 있습니다.

      AWS Glue 스트리밍 작업은 작업 북마크 대신 체크포인트를 사용하여 읽은 데이터를 추적합니다.

    • 연결 옵션(Connection options): 키-값 페어를 추가하여 추가 연결 옵션을 지정하려면 이 섹션을 확장합니다. 여기에서 지정할 수 있는 옵션에 대한 자세한 내용은 AWS Glue 개발자 가이드"connectionType": "kinesis"를 참조하세요.

    Kafka
    • Apache Kafka 소스(Apache Kafka source): 스트림 세부 정보(Stream details) 옵션을 선택하여 스트리밍 소스에 직접 액세스하거나 Data Catalog 테이블(Data Catalog table)을 선택하여 테이블에 저장된 정보를 대신 사용합니다.

      Data Catalog 테이블(Data Catalog table)을 선택한 경우 다음 추가 정보를 지정합니다.

      • 데이터베이스(Database): (선택 사항) AWS Glue Data Catalog에서 스트리밍 데이터 원본과 연결된 테이블이 포함된 데이터베이스를 선택합니다. 검색 필드를 사용하여 이름으로 데이터베이스를 검색할 수 있습니다.

      • [테이블(Table)]: (선택 사항) 목록에서 원본 데이터와 연결된 테이블을 선택합니다. 이 테이블이 AWS Glue Data Catalog에 이미 존재해야 합니다. 검색 필드를 사용하여 이름으로 테이블을 검색할 수 있습니다.

      • 스키마 탐지(Detect schema): AWS Glue Studio가 Data Catalog 테이블에 스키마 정보를 저장하는 대신 스트리밍 데이터에서 스키마를 탐지하도록 하려면 이 옵션을 선택합니다. 스트림 세부 정보(Stream details) 옵션을 선택한 경우 이 옵션은 자동으로 사용됩니다.

      스트림 세부 정보(Stream details)를 선택한 경우 다음 추가 정보를 지정합니다.

      • 연결 이름(Connection name): Kafka 데이터 스트림에 대한 액세스 및 인증 정보가 포함된 AWS Glue 연결을 선택합니다. Kafka 스트리밍 데이터 원본과의 연결을 사용해야 합니다. 연결이 없는 경우 AWS Glue 콘솔을 사용하여 Kafka 데이터 스트림에 대한 연결을 생성할 수 있습니다.

      • 주제 이름(Topic name): 읽을 주제의 이름을 입력합니다.

      • 데이터 포맷(Data format): Kafka 이벤트 스트림에서 데이터를 읽을 때 사용할 포맷을 선택합니다.

    • 시작 위치(Starting position): 기본값으로 ETL 작업은 가장 오래된 항목(Earliest) 옵션을 사용하므로 스트림에서 사용 가능한 가장 오래된 레코드부터 데이터를 읽습니다. 최신 항목(Latest)을 대신 선택할 수도 있습니다. 이 경우 ETL 작업은 스트림에서 가장 최근 레코드 직후부터 읽기를 시작해야 합니다.

    • [기간 크기(Window size)]: 기본적으로 ETL 작업은 100초 기간에 데이터를 처리하고 작성합니다. 이를 통해 데이터를 효율적으로 처리할 수 있으며 예상보다 늦게 도착하는 데이터에 대해 집계를 수행할 수 있습니다. 이 기간 크기를 수정하여 적시성 또는 집계 정확도를 높일 수 있습니다.

      AWS Glue 스트리밍 작업은 작업 북마크 대신 체크포인트를 사용하여 읽은 데이터를 추적합니다.

    • 연결 옵션(Connection options): 키-값 페어를 추가하여 추가 연결 옵션을 지정하려면 이 섹션을 확장합니다. 여기에서 지정할 수 있는 옵션에 대한 자세한 내용은 AWS Glue 개발자 가이드"connectionType": "kafka"를 참조하세요.

참고

데이터 미리 보기는 현재 스트리밍 데이터 원본에 대해 지원되지 않습니다.