AWS Glue에 대한 문서 기록 - AWS Glue

AWS Glue에 대한 문서 기록

변경 사항설명날짜

크롤링 Amazon S3 이벤트 알림을 가속화할 때 데이터 카탈로그 대상에 대한 지원을 추가했습니다.

Amazon S3 대상에 대한 기존 지원과 더불어 이제 Amazon S3 이벤트 알림을 사용한 데이터 카탈로그 대상의 크롤링 가속화에 대한 지원이 제공됩니다. 자세한 내용은 Amazon S3 이벤트 알림을 사용하여 크롤링 가속화를 참조하세요.

2022년 10월 13일

크롤러가 생성할 수 있는 최대 테이블 수 지정 가능

이제 크롤러가 생성할 수 있는 최대 테이블 수를 지정할 수 있습니다. 자세한 내용을 알아보려면 크롤러가 생성할 수 있는 최대 테이블 수를 지정하는 방법을 참조하세요.

2022년 9월 6일

AWS Glue에서 Python 셸 작업의 Python 3.9 지원

AWS Glue의 Python 셸 작업에서 Python 3.9와 호환되는 스크립트 실행과 사용할 사전 패키징된 라이브러리 세트 선택에 대해 지원이 제공됩니다. 자세한 내용은 AWS Glue의 Python 셸 작업을 참조하세요.

2022년 8월 11일

예비 용량에 관한 긴급하지 않거나 시간에 민감하지 않은 AWS Glue 작업 실행 지원

이제 사전 프로덕션 작업, 테스트 및 일회성 데이터 로드와 같이 긴급하지 않은 작업에 대한 유연한 작업 실행 구성 지원이 제공됩니다. 자세한 내용은 AWS Glue의 작업 추가를 참조하십시오.

2022년 8월 9일

스트리밍 작업에 대한 새 작업자 유형 지원

이제 볼륨이 낮은 스트리밍 작업에 대한 G.025X 작업자 유형의 사용이 지원됩니다. 자세한 내용은 AWS Glue의 작업 추가를 참조하십시오.

2022년 7월 14일

AWS Glue 연결에서의 Kafka SASL 사용 지원

이제 AWS Glue 연결에서 Kafka SASL 사용이 지원됩니다. 자세한 내용은 클라이언트 인증을 위한 AWS Glue Kafka 연결 속성을 참조하세요.

2022년 7월 5일

Protobuf 스키마에 대한 Apache Kafka 커넥터 지원

Protobuf 스키마에 대한 Apache Kafka 커넥터가 이제 지원됩니다. 자세한 내용은 AWS Glue Schema Registry를 참조하세요.

2022년 6월 9일

AWS Glue 작업에서 Auto Scaling 지원(GA)

AWS Glue 버전 3.0 작업에 Auto Scaling을 사용하여 컴퓨팅 리소스 크기를 동적으로 조정하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue에서 Auto Scaling 사용을 참조하세요.

2022년 4월 14일

AWS Glue 작업 스크립트 AWS Glue 개발 및 테스트에 대한 설명서 업데이트

AWS Glue에 대한 사용 가능한 개발 및 테스트 방법에 대한 정보가 재구성 및 추가되었으며, Docker를 통해 개발하기 위한 지침을 포함합니다. 자세한 내용은 AWS Glue 작업 스크립트 개발 및 테스트를 참조하세요.

2022년 3월 14일

AWS Glue Schema Registry의 지원되는 데이터 형식으로 프로토콜 버퍼(Protobuf) 추가

AVRO 및 JSON 외에 지원되는 데이터 형식으로 Protobuf에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue Schema Registry를 참조하세요.

2022년 2월 25일

Delta Lake 테이블 크롤링에 대한 지원

AWS Glue를 사용하여 Delta Lake 테이블을 크롤링하는 작업에 대한 정보를 추가했습니다. 자세한 내용은 Delta Lake 데이터 스토어에 대한 구성 옵션을 지정하는 방법을 참조하십시오.

2022년 2월 24일

AWS Glue 작업 인사이트 지원

AWS Glue 작업 인사이트를 사용하여 작업 디버깅 및 AWS Glue 작업의 최적화를 간소화하는 방법이 추가되었습니다. 자세한 내용은 Monitoring with AWS Glue job insights(작업 인사이트를 사용한 모니터링)를 참조하세요.

2022년 2월 8일

VPC 엔드포인트를 사용한 Amazon S3 기반 데이터 카탈로그 테이블의 크롤링 지원

Amazon S3 데이터 스토어 외에도 Amazon S3 기반 데이터 카탈로그 테이블이 보안, 감사 또는 제어를 위해 Amazon Virtual Private Cloud 환경(Amazon VPC)에 의해서만 액세스되도록 구성할 수 있습니다. 자세한 내용은 Crawling an Amazon S3 Data Store or Amazon S3 backed Data Catalog tables using a VPC Endpoint(VPC 엔드포인트를 사용하여 Amazon S3 데이터 스토어 또는 Amazon S3 기반 데이터 카탈로그 테이블 크롤링)를 참조하세요.

2022년 2월 3일

Lake Formation 관리형 테이블 지원

ACID 트랜잭션, 자동 데이터 압축, 시간 이동 쿼리를 지원하는 Lake Formation 관리형 테이블에 대한 AWS Glue 지원 정보를 추가했습니다. 자세한 내용은 AWS Glue APIAWS Lake Formation 개발자 가이드를 참조하세요.

2021년 11월 30일

대화형 세션과 노트북에 대한 새로운 AWS 관리형 정책이 추가됨

대화형 세션과 노트북에 AWS Glue를 사용하기 위해 IAM에서 제공하는 향상된 보안에 대한 새로운 관리형 정책입니다. 자세한 내용은 AWS Glue에 대한 AWS 관리형(미리 정의된) 정책을 참조하세요.

2021년 11월 30일

퍼블릭 평가판 기능에 대한 설명서

AWS Glue 및 AWS Glue Studio 평가판 릴리스에서 사용할 수 있는 기능을 설명했습니다. 자세한 내용은 AWS Glue 및 AWS Glue Studio 평가판 기능을 참조하세요.

2021년 11월 23일

이제 스트리밍 작업에서 Glue Schema Registry가 지원됨

Glue Schema Registry의 일부인 테이블에 액세스하는 스트리밍 작업을 생성할 수 있습니다. 자세한 내용은 AWS Glue Schema RegistryAWS Glue에서 스트리밍 ETL 작업 추가를 참조하세요.

2021년 11월 15일

새로운 기계 학습 기능 지원

증분 일치 및 일치 점수를 포함하여 일치 항목 찾기 기계 학습 변환의 새로운 기능에 대한 정보를 추가했습니다. 자세한 내용은 증분 일치 항목 찾기일치 신뢰도 점수를 사용하여 일치 항목의 품질 추정을 참조하세요.

2021년 10월 31일

(프라이빗 평가판) AWS Glue 유연한 작업 지원

시작 및 완료 시간이 다를 수 있는 시간에 민감하지 않은 작업에 해당되는 유연한 실행 클래스를 사용한 AWS Glue Spark 작업 구성에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue의 작업 추가를 참조하십시오.

2021년 10월 29일

Amazon S3 이벤트 알림을 사용하여 크롤링 가속화 지원

Amazon S3 이벤트 알림을 사용하여 크롤링을 가속화하는 방법에 대한 정보를 추가했습니다. 자세한 내용은 Amazon S3 이벤트 알림을 사용하여 크롤링 가속화를 참조하세요.

2021년 10월 15일

액세스 제어 및 VPC와 관련된 추가 보안 구성 옵션

AWS Glue에서 새로운 액세스 제어 권한을 구성하는 방법 및 VPC 구성에 대한 정보를 추가했습니다. 자세한 내용은 AWS Glue의 AWS 태그, 조건 키 또는 컨텍스트 키를 사용하여 설정을 제어하는 자격 증명 기반 정책(IAM 정책), 모든 AWS 호출이 VPC를 통과하도록 구성을 참조하세요.

2021년 10월 13일

VPC 엔드포인트 정책 지원

AWS Glue의 Virtual Private Cloud(VPC) 엔드포인트 정책 지원에 대한 정보를 추가했습니다. 자세한 내용은 AWS Glue 및 인터페이스 VPC 엔드포인트(AWS PrivateLink)를 참조하세요.

2021년 10월 11일

AWS Glue 버전 지원 정책이 문서화됨

AWS Glue 버전 지원 정책 및 특정 AWS Glue 버전의 수명 종료 단계에 대한 정보를 추가했습니다. 자세한 내용은 AWS Glue 버전 지원 정책을 참조하세요.

2021년 9월 24일

AWS Glue 대화형 세션 지원(프라이빗 평가판)

(프라이빗 평가판) AWS Glue 대화형 세션을 사용하여 Jupyter Notebook에서 클라우드의 Spark 워크로드를 실행하는 방법에 대한 정보를 추가했습니다. 대화형 세션은 AWS Glue 2.0 이상을 사용할 때 AWS Glue 추출, 변환, 로드 코드를 개발하는 데 선호되는 방법입니다. 자세한 내용은 Jupyter Notebook에 대해 AWS Glue 대화형 세션 설정 및 실행을 참조하세요.

2021년 8월 24일

블루프린트에서 워크플로 생성 지원(GA)

블루프린트에서 일반적인 추출, 변환, 로드 사용 사례를 코딩한 다음 블루프린트에서 워크플로를 생성하는 방법에 대한 정보가 추가되었습니다. 데이터 분석가가 복잡한 ETL 프로세스를 쉽게 생성하고 실행할 수 있습니다. 자세한 정보는 AWS Glue에서 블루프린트와 워크플로를 사용하여 복잡한 ETL 활동 수행을 참조하세요.

2021년 8월 23일

AWS Glue 버전 3.0을 지원합니다.

Apache Spark ETL 작업 실행을 위한 Apache Spark 3.0 엔진 업그레이드, 기타 최적화 및 업그레이드를 지원하는 AWS Glue 버전 3.0에 대한 지원 정보가 추가되었습니다. 자세한 내용은 AWS Glue 릴리스 정보AWS Glue 버전 3.0으로 AWS Glue 작업 마이그레이션을 참조하세요. 이 릴리스의 다른 기능에는 AWS Glue 셔플 관리자, SIMD 벡터화 CSV 리더 및 카탈로그 파티션 조건자가 있습니다. 자세한 내용은 Amazon S3의 AWS Glue Spark 셔플 관리자, AWS Glue의 ETL 입력 및 출력의 포맷 옵션카탈로그 파티션 조건자를 사용한 서버 측 필터링을 참조하세요.

2021년 8월 18일

Amazon EventBridge 이벤트로 워크플로 시작 지원

이벤트 중심 아키텍처에서 AWS Glue가 이벤트 소비자가 될 수 있는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 Amazon EventBridge 이벤트로 AWS Glue 워크플로 시작워크플로를 시작한 EventBridge 이벤트 보기를 참조하세요.

2021년 7월 14일

AWS Glue Schema Registry의 지원되는 데이터 포맷으로 JSON 추가

AVRO 외에 지원되는 데이터 포맷으로서의 JSON에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue Schema Registry를 참조하세요.

2021년 6월 30일

Data Catalog 테이블 없이 AWS Glue 스트리밍 작업 생성

create_data_frame_from_options Python 함수 또는 Scala 스크립트용 getSource는 Data Catalog 테이블을 요구하는 대신 데이터 스트림을 직접 참조하는 스트리밍 ETL 작업 생성을 지원합니다.

2021년 6월 15일

AWS Glue Machine Learning 변환에서 이제 AWS Key Management Service 키 지원

콘솔, CLI 또는 AWS Glue API를 사용하여 AWS Glue Machine Learning 변환을 구성할 때 보안 구성 또는 AWS KMS 키를 지정할 수 있습니다. 자세한 내용은 Machine Learning 변환에 데이터 암호화 사용AWS Glue Machine Learning API를 참조하세요.

2021년 6월 15일

AWSGlueConsoleFullAccess AWS 관리형 정책 업데이트

AWSGlueConsoleFullAccess AWS 관리형 정책의 마이너 업데이트에 대한 정보가 추가되었습니다. 자세한 내용은 AWS 관리형 정책에 대한 AWS Glue 업데이트를 참조하세요.

2021년 6월 10일

크롤러 출력의 테이블 위치를 나타내는 값 지정 지원

크롤러의 출력을 구성할 때 테이블 위치를 나타내는 값 지정에 대한 정보가 추가되었습니다. 자세한 내용은 테이블 위치를 지정하는 방법을 참조하세요.

2021년 6월 4일

Amazon S3 데이터 스토어를 크롤링할 때 데이터 집합의 파일 샘플 크롤링 지원

Amazon S3를 크롤링할 때 파일 샘플을 크롤링하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 크롤러 속성을 참조하십시오.

2021년 5월 10일

AWS Glue 최적화 parquet 라이터 지원

DynamicFrames에 AWS Glue 최적화 parquet 라이터를 사용하여 parquet 분류가 있는 테이블을 생성하거나 업데이트하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue ETL 작업의 Data Catalog에서 테이블 생성, 스키마 업데이트 및 새 파티션 추가AWS Glue의 ETL 입력 및 출력 포맷 옵션을 참조하세요.

2021년 5월 4일

Kafka 클라이언트 인증 암호 지원

AWS Glue의 스트리밍 ETL 작업이 Apache Kafka 스트림 생성자를 사용한 SSL 클라이언트 인증서 인증을 지원하는 방법에 대한 정보가 추가되었습니다. 이제 인증할 때 AWS Glue가 사용하는 Apache Kafka 클러스터에 대한 AWS Glue 연결을 정의하는 동안 사용자 정의 인증서를 제공할 수 있습니다. 자세한 내용은 AWS Glue 연결 속성연결 API를 참조하세요.

2021년 4월 28일

스트리밍 ETL 작업에서 다른 계정의 Amazon Kinesis Data Streams 데이터 사용 지원

다른 계정의 Amazon Kinesis Data Streams에서 데이터를 사용하기 위해 스트리밍 ETL 작업을 생성하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue에서 스트리밍 ETL 작업 추가를 참조하십시오.

2021년 3월 30일

블루프린트에서 워크플로 생성 지원(공개 평가판)

(공개 미리 보기) 블루프린트에서 일반적인 추출, 변환, 로드 사용 사례를 코딩한 다음 블루프린트에서 워크플로를 생성하는 방법에 대한 정보가 추가되었습니다. 데이터 분석가가 복잡한 ETL 프로세스를 쉽게 생성하고 실행할 수 있습니다. 자세한 정보는 AWS Glue에서 블루프린트와 워크플로를 사용하여 복잡한 ETL 활동 수행을 참조하세요.

2021년 3월 22일

AWS Glue 기계 학습 변환을 위한 열 중요도 지표 지원

AWS Glue 기계 학습 변환 작업 시 열 중요도 지표 보기에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue 콘솔에서 Machine Learning 변환 작업을 참조하세요.

2021년 2월 5일

Glue 버전 2.0에서 스트리밍 ETL 작업 실행 지원

Glue 버전 2.0에서 스트리밍 ETL 작업 실행 지원에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue에서 스트리밍 ETL 작업 추가를 참조하십시오.

2020년 12월 18일

제한된 실행으로 워크로드 분할 지원

워크로드 분할을 사용하여 데이터 집합 크기의 상한 또는 ETL 작업 실행에서 처리되는 파일 수를 구성하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 제한된 실행으로 워크로드 분할을 참조하세요.

2020년 11월 23일

향상된 파티션 관리 지원

새 API를 사용하여 기존 테이블에 파티션 인덱스를 추가하거나 삭제하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 파티션 인덱스 작업을 참조하세요.

2020년 11월 23일

AWS Glue Schema Registry 지원

AWS Glue Schema Registry를 사용하여 스키마를 중앙에서 검색, 제어 및 발전시키는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue Schema Registry를 참조하세요.

2020년 11월 19일

스트리밍 ETL 작업에서 Grok 입력 형식 지원

로그 파일과 같은 스트리밍 소스에 Grok 패턴을 적용하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 스트리밍 소스에 Grok 패턴 적용을 참조하세요.

2020년 11월 17일

AWS Glue 콘솔에서 워크플로에 태그 추가 지원

AWS Glue 콘솔을 사용하여 워크플로를 생성할 때 태그를 추가하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue 콘솔을 사용하여 워크플로 생성 및 구축을 참조하세요.

2020년 10월 27일

증분 크롤러 실행 지원

마지막 실행 이후 추가된 Amazon S3 폴더만 크롤링하는 증분 크롤러 실행 지원에 대한 정보가 추가되었습니다. 자세한 내용은 증분 크롤을 참조하세요.

2020년 10월 21일

스트리밍 ETL 데이터 소스에 대한 스키마 감지 지원. Avro 스트리밍 ETL 데이터 소스 및 자체 관리형 Kafka 지원

AWS Glue의 스트리밍 추출, 변환, 로드 작업은 이제 수신 레코드의 스키마를 자동으로 감지하고 레코드별로 스키마 변경을 처리할 수 있습니다. 이제 자체 관리형 Kafka 데이터 원본이 지원됩니다. 스트리밍 ETL 작업은 이제 데이터 원본에서 Avro 포맷을 지원합니다. 자세한 내용은 AWS Glue의 스트리밍 ETL, 스트리밍 ETL 작업에 대한 작업 속성 정의Avro 스트리밍 소스에 대한 참고 사항 및 제한 사항을 참조하세요.

2020년 10월 7일

MongoDB 및 DocumentDB 데이터 소스 크롤링 지원

MongoDB 및 Amazon DocumentDB(MongoDB 호환) 데이터 원본 크롤링 지원에 대한 정보가 추가되었습니다. 자세한 내용은 크롤러 정의를 참조하세요.

2020년 10월 5일

FIPS 규정 준수 지원

AWS Glue를 사용하여 데이터에 액세스할 때 FIPS 140-2 검증된 암호화 모듈이 필요한 고객을 위한 FIPS 엔드포인트에 대한 정보가 추가되었습니다. 자세한 내용은 FIPS 규정 준수를 참조하세요.

2020년 9월 23일

AWS Glue Studio에서는 작업 생성 및 모니터링을 위한 사용하기 쉬운 시각적 인터페이스를 제공합니다.

이제 간단한 그래프 기반 인터페이스를 사용하여 데이터를 이동 및 변환하고 AWS Glue에서 실행하는 작업을 작성할 수 있습니다. 그런 다음 AWS Glue Studio의 작업 실행 대시보드를 사용하여 ETL 실행을 모니터링하고 작업이 의도한 대로 작동하는지 확인할 수 있습니다. 자세한 내용은 AWS Glue Studio 사용 설명서를 참조하세요.

2020년 9월 23일

쿼리 성능 향상을 위한 테이블 인덱스 생성 지원

테이블에서 파티션의 하위 집합을 검색할 수 있도록 테이블 인덱스 생성에 대한 정보가 추가되었습니다. 자세한 내용은 파티션 인덱스 작업을 참조하세요.

2020년 9월 9일

AWS Glue 버전 2.0에서 Apache Spark ETL 작업을 실행할 때 시작 시간 단축 지원.

시작 시간 단축, 로깅 변경, 작업 수준에서 추가 Python 모듈 지정 지원과 함께 Apache Spark ETL 작업 실행을 위한 업그레이드된 인프라를 제공하는 AWS Glue 버전 2.0 지원에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue 릴리스 정보단축된 시작 시간으로 Spark ETL 작업 실행을 참조하세요.

2020년 8월 10일

동시 워크플로 실행 수 제한 지원

특정 워크플로에 대한 동시 워크플로 실행 수를 제한하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue 콘솔을 사용하여 워크플로 생성 및 구축을 참조하세요.

2020년 8월 10일

VPC 엔드포인트를 사용한 Amazon S3 데이터 스토어 크롤링 지원

보안, 감사 또는 제어 목적으로 Amazon Virtual Private Cloud 환경(Amazon VPC)에서만 액세스할 수 있도록 Amazon S3 데이터 스토어를 구성하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 VPC 엔드포인트를 사용하여 Amazon S3 데이터 스토어 크롤링을 참조하세요.

2020년 8월 7일

워크플로 실행 재개 지원

하나 이상의 노드(작업 또는 크롤러)가 성공적으로 완료되지 않아 부분적으로만 완료된 워크플로 실행을 재개하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 워크플로 실행 복구 및 재개를 참조하세요.

2020년 7월 27일

AWS Glue의 Kafka 연결에서 프라이빗 CA 인증서 사용 지원

AWS Glue에서 Kafka 연결에 대한 프라이빗 CA 인증서 사용을 지원하는 새로운 연결 옵션에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue에서 ETL 관련 연결 유형 및 옵션AWS Glue가 사용하는 특정 파라미터를 참조하세요.

2020년 7월 20일

다른 계정의 DynamoDB 데이터 읽기 지원

다른 AWS 계정의 DynamoDB 테이블에서 데이터 읽기에 대한 AWS Glue 지원에 대한 정보가 추가되었습니다. 자세한 내용은 다른 계정의 DynamoDB 데이터에서 읽기를 참조하세요.

2020년 7월 17일

AWS Glue 버전 1.0 이상에서 DynamoDB 라이터 연결 지원

DynamoDB 라이터 지원에 대한 정보와 DynamoDB에서 읽거나 쓸 수 있는 새로운 연결 옵션 또는 업데이트된 연결 옵션이 추가되었습니다. 자세한 내용은 AWS Glue의 ETL 연결 유형 및 옵션을 참조하세요.

2020년 7월 17일

AWS Glue 및 Lake Formation을 모두 사용하여 리소스 링크 및 교차 계정 액세스 제어 지원

리소스 링크라는 새 Data Catalog 객체에 대한 내용과 AWS Glue 및 AWS Lake Formation이 모두 있는 계정 간에 Data Catalog 리소스 공유를 관리하는 방법에 대한 내용이 추가되었습니다. 자세한 내용은 교차 계정 액세스 권한 부여테이블 리소스 링크를 참조하세요.

2020년 7월 7일

DynamoDB 데이터 스토어를 크롤링할 때 레코드 샘플링 지원

DynamoDB 데이터 저장소를 크롤링할 때 구성할 수 있는 새 속성에 대한 정보가 추가되었습니다. 자세한 내용은 크롤러 속성을 참조하십시오.

2020년 6월 12일

워크플로우 실행 중지 지원

특정 워크플로우에 대한 워크플로우 실행을 중지하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 워크플로우 실행 중지를 참조하십시오.

2020년 5월 14일

Spark 스트리밍 ETL 작업 지원

스트리밍 데이터 원본을 사용하여 추출, 변환 및 로드(ETL) 작업을 생성하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue에서 스트리밍 ETL 작업 추가를 참조하십시오.

2020년 4월 27일

ETL 작업 실행 후 Data Catalog에서 테이블 생성, 스키마 업데이트, 새 파티션 추가 지원

Data Catalog에서 테이블 생성, 스키마 업데이트 및 새 파티션 추가를 활성화하여 ETL 작업의 결과를 확인하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue ETL 작업의 Data Catalog에서 테이블 생성, 스키마 업데이트 및 새 파티션 추가를 참조하세요.

2020년 4월 2일

AWS Glue에서 Apache Avro 데이터 형식을 ETL 입력 및 출력으로 버전 지정 지원

AWS Glue에서 Apache Avro 데이터 포맷을 ETL 입력 및 출력으로 버전을 지정하는 것에 대한 정보가 추가되었습니다. 기본 버전은 1.7입니다. version 포맷 옵션을 사용해 Avro 버전 1.8을 지정하여 논리적 읽기/쓰기를 활성화할 수 있습니다. 자세한 내용은 AWS Glue에서 ETL 입력 및 출력의 포맷 옵션을 참조하세요.

2020년 3월 31일

Amazon S3에 Parquet 데이터를 쓸 수 있도록 EMRFS S3 최적화 커미터 지원

AWS Glue 작업을 생성하거나 업데이트할 때 Amazon S3에 Parquet 데이터를 쓸 수 있도록 새 플래그를 설정해 EMRFS S3 최적화 커미터를 활성화하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue가 사용하는 특정 파라미터를 참조하십시오.

2020년 3월 30일

AWS 리소스 태그로 관리되는 리소스로 기계 학습 변환 지원

AWS Glue에서 AWS 리소스 태그를 사용하여 기계 학습 변환에 대한 액세스를 관리하고 제어하는 방법에 대한 정보가 추가되었습니다. AWS Glue의 작업, 트리거, 엔드포인트, 크롤러 및 기계 학습 변환에 AWS 리소스 태그를 할당할 수 있습니다. 자세한 내용은 AWS Glue의 AWS 태그를 참조하세요.

2020년 3월 2일

재정의할 수 없는 작업 인수 지원

트리거에서 또는 작업을 실행할 때 재정의할 수 없는 특수 작업 파라미터에 대한 지원 정보가 추가되었습니다. 자세한 내용은 AWS Glue의 작업 추가를 참조하십시오.

2020년 2월 12일

Amazon S3의 데이터 집합을 사용할 수 있도록 새로운 변환 지원

Apache Spark 애플리케이션에서 Amazon S3의 데이터 집합을 사용할 수 있도록 새로운 변환(병합, 제거 및 전환) 및 Amazon S3 스토리지 클래스 제외 사항에 대한 정보가 추가되었습니다. Python의 경우 이러한 변환 지원에 대한 자세한 내용은 mergeDynamicFrameAmazon S3에서 데이터 집합 작업을 참조하세요. Scala의 경우는 mergeDynamicFramesAWS Glue Scala GlueContext API를 참조하세요.

2020년 1월 16일

ETL 작업에서 새 파티션 정보로 Data Catalog 업데이트 지원

ETL(추출, 변환 및 로드) 스크립트를 코딩하여 새 파티션 정보로 AWS Glue Data Catalog를 업데이트하는 방법에 대한 정보가 추가되었습니다. 이 기능을 사용하면 새 파티션을 확인하기 위해 작업 완료 후 크롤러를 다시 실행할 필요가 없습니다. 자세한 내용은 새 파티션으로 Data Catalog 업데이트를 참조하세요.

2020년 1월 15일

새 자습서: SageMaker 노트북 사용

Amazon SageMaker 노트북을 사용하여 ETL 및 기계 학습 스크립트를 개발하는 방법을 보여주는 자습서가 추가되었습니다. 자습서: 개발 엔드포인트와 함께 Amazon SageMaker 노트북 사용을 참조하십시오.

2020년 1월 3일

MongoDB 및 Amazon DocumentDB(MongoDB 호환)에서의 읽기 지원

MongoDB 및 Amazon DocumentDB(MongoDB와 호환)에서의 읽기 및 쓰기에 대한 새 연결 유형 및 연결 옵션에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue의 ETL 연결 유형 및 옵션을 참조하세요.

2019년 12월 17일

다양한 수정 및 설명

전체적으로 수정 및 설명을 추가했습니다. 알려진 문제 장에서 항목을 제거했습니다. 데이터 카탈로그 암호화 설정을 지정하고 보안 구성을 생성할 때 AWS Glue가 대칭 고객 마스터 키(CMK)만 지원하는 경고가 추가되었습니다. AWS Glue가 Amazon DynamoDB에 쓰기를 지원하지 않는다는 메모를 추가했습니다.

2019년 12월 9일

사용자 지정 JDBC 드라이버 지원

MySQL 버전 8 및 Oracle Database 버전 18과 같이 AWS Glue에서 기본적으로 지원하지 않는 JDBC 드라이버로 데이터 원본과 대상에 연결하는 데 대한 정보가 추가되었습니다. 자세한 내용은 JDBC connectionType 값을 참조하십시오.

2019년 11월 25일

SageMaker 노트북을 다른 개발 엔드포인트에 연결하도록 지원

SageMaker 노트북을 다른 개발 엔드포인트에 연결하는 방법에 대한 정보가 추가되었습니다. 새로운 개발 엔드포인트로 전환하기 위한 새로운 콘솔 작업 및 새로운 SageMaker IAM 정책을 설명하기 위한 업데이트입니다. 자세한 내용은 AWS Glue 콘솔에서 노트북 작업Amazon SageMaker 노트북용 IAM 정책 생성을 참조하세요.

2019년 11월 21일

기계 학습 변환에서 AWS Glue 버전 지원

AWS Glue의 어떤 버전이 기계 학습 변환과 호환되는지 나타내기 위해 기계 학습 변환에서 AWS Glue 버전을 정의하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue 콘솔에서 기계 학습 변환 작업을 참조하세요.

2019년 11월 21일

작업 북마크 되돌리기 지원

이전 작업 실행으로 작업 북마크를 되돌리는 방법에 대한 정보를 추가했습니다. 이제 후속 작업 실행 시 북마크로 지정된 작업 실행의 데이터만 다시 처리합니다. 두 북마크 간에 작업을 실행할 수 있도록 허용하는 job-bookmark-pause 옵션에 대한 두 개의 새로운 하위 옵션 설명이 있습니다. 자세한 내용은 작업 북마크를 사용해 처리된 데이터 추적AWS Glue에서 사용되는 특정 파라미터를 참조하세요.

2019년 10월 22일

데이터 스토어에 연결하기 위한 사용자 지정 JDBC 인증서 지원

AWS Glue 데이터 소스 또는 대상에 SSL을 연결하기 위해 AWS Glue의 사용자 지정 JDBC 인증서 지원에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue 콘솔에서 연결 작업을 참조하세요.

2019년 10월 10일

Python Wheel 지원

Python 셸 작업에 대한 종속성으로 AWS Glue의 wheel 파일(egg 파일과 함께) 지원에 대한 정보가 추가되었습니다. 자세한 내용은 자체 Python 라이브러리 제공을 참조하십시오.

2019년 9월 26일

AWS Glue에서 개발 엔드포인트의 버전 관리 지원

개발 엔드포인트에서 Glue version을 정의하는 방법에 대한 정보가 추가되었습니다. Glue version는 AWS Glue에서 지원하는 Apache Spark 및 Python의 버전을 결정합니다. 자세한 내용은 개발 엔드포인트 추가를 참조하십시오.

2019년 9월 19일

Spark UI를 사용한 AWS Glue 모니터링 지원

Apache Spark UI를 사용하여 AWS Glue 작업 시스템에서 실행 중인 AWS Glue ETL 작업과 AWS Glue 개발 엔드포인트의 Spark 애플리케이션을 모니터링하고 디버그하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 Spark UI를 사용한 AWS Glue 모니터링을 참조하세요.

2019년 9월 19일

퍼블릭 AWS Glue ETL 라이브러리를 사용해 로컬 ETL 스크립트를 개발할 수 있도록 지원 개선

AWS Glue 버전 1.0이 현재 지원되고 있다는 것을 반영하기 위해 AWS Glue ETL 라이브러리 콘텐츠가 업데이트되었습니다. 자세한 내용은 AWS Glue ETL 라이브러리를 사용해 로컬에서 ETL 스크립트 개발 및 테스트를 참조하세요.

2019년 9월 18일

작업 실행 시 Amazon S3 스토리지 클래스를 제외할 수 있도록 지원

Amazon S3에서 파일 또는 파티션을 읽어오는 AWS Glue ETL 작업을 실행할 때 Amazon S3 스토리지 클래스를 제외하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 Amazon S3 스토리지 클래스 제외를 참조하세요.

2019년 8월 29일

퍼블릭 AWS Glue ETL 라이브러리를 사용해 로컬 ETL 스크립트를 개발할 수 있도록 지원

로컬에서 네트워크를 연결하지 않고 Python 및 Scala ETL 스크립트를 개발하여 테스트하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue ETL 라이브러리를 사용해 로컬에서 ETL 스크립트 개발 및 테스트를 참조하세요.

2019년 8월 28일

알려진 문제

알려진 AWS Glue 문제에 대한 정보가 추가되었습니다. 자세한 내용은 알려진 AWS Glue 문제 단원을 참조하십시오.

2019년 8월 28일

AWS Glue에서 기계 학습 변환 지원

사용자 지정 변환 생성을 위해 AWS Glue에서 제공하는 기계 학습 기능에 대해 정보를 추가했습니다. 작업을 생성할 때 이러한 변환을 만들 수 있습니다. 자세한 내용은 AWS Glue에서의 기계 학습 변환을 참조하십시오.

2019년 8월 8일

공유 Amazon Virtual Private Cloud 지원

공유 Amazon Virtual Private Cloud에 대한 AWS Glue 지원 관련 정보가 추가되었습니다. 자세한 내용은 공유 Amazon VPC를 참조하십시오.

2019년 8월 6일

AWS Glue에서 버전 관리 지원

작업 속성에서 Glue version을 정의하는 방법에 대한 정보가 추가되었습니다. AWS Glue 버전은 AWS Glue에서 지원하는 Apache Spark 및 Python의 버전을 결정합니다. 자세한 내용은 AWS Glue의 작업 추가를 참조하십시오.

2019년 7월 24일

개발 엔드포인트의 추가 구성 옵션 지원

메모리 집약적 워크로드가 있는 개발 엔드포인트의 구성 옵션에 대한 정보를 추가했습니다. 실행기당 더 많은 메모리를 제공하는 두 가지 새로운 구성 중에서 선택할 수 있습니다. 자세한 내용은 AWS Glue 콘솔상의 개발 엔드포인트 작업을 참조하십시오.

2019년 7월 24일

워크플로를 사용한 ETL(추출, 전송, 로드) 활동 수행 지원

AWS Glue가 단일 엔터티로 실행하고 추적할 수 있는 복잡한 다중 작업 추출, 변환, 로드 활동을 설계하기 위해 워크플로라는 새로운 구조 사용에 대한 정보를 추가했습니다. 자세한 내용은 AWS Glue에서 워크플로를 사용하여 복잡한 ETL 활동 수행을 참조하세요.

2019년 6월 20일

Python 셸 작업의 Python 3.6 지원

Python 셸 작업의 Python 3.6 지원에 대한 정보를 추가했습니다. Python 2.7 또는 Python 3.6을 작업 속성으로 지정할 수 있습니다. 자세한 내용은 AWS Glue에서 Python 셸 작업 추가를 참조하세요.

2019년 6월 5일

Virtual Private Cloud(VPC) 엔드포인트 지원

VPC에서 인터페이스 엔드포인트를 통해 AWS Glue에 직접 연결하는 방법에 대한 정보가 추가되었습니다. VPC 인터페이스 엔드포인트를 사용하는 경우 VPC와 AWS Glue 간의 통신은 AWS 네트워크에서 완전하고 안전하게 수행됩니다. 자세한 내용은 VPC 엔드포인트와 함께 AWS Glue 사용을 참조하세요.

2019년 6월 4일

AWS Glue 작업에 대한 실시간 지속 로깅 지원

드라이버 로그, 각 실행기 로그 및 Spark 작업 진행률 표시줄을 포함한 CloudWatch의 실시간 Apache Spark 작업 로그를 활성화하고 보는 작업에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue 작업에 대한 지속 로깅을 참조하십시오.

2019년 5월 28일

크롤러 소스로 기존 Data Catalog 테이블 지원

크롤러 소스로 기존 Data Catalog 테이블의 목록 지정에 대한 정보가 추가되었습니다. 이제 크롤러는 테이블 스키마에 대한 변경 사항을 감지하고 테이블 정의를 업데이트하며 새 데이터를 사용할 수 있게 되면 새 파티션을 등록할 수 있습니다. 자세한 내용은 크롤러 속성을 참조하십시오.

2019년 5월 10일

메모리 집약적 작업에 대한 추가 구성 옵션 지원

메모리 집약적 워크로드가 있는 Apache Spark 작업의 구성 옵션에 대한 정보를 추가했습니다. 실행기당 더 많은 메모리를 제공하는 두 가지 새로운 구성 중에서 선택할 수 있습니다. 자세한 내용은 AWS Glue의 작업 추가를 참조하십시오.

2019년 4월 5일

CSV 사용자 지정 분류자 지원

사용자 지정 CSV 분류자를 사용하여 다양한 유형의 CSV 데이터 스키마 추론에 대한 정보를 추가했습니다. 자세한 내용은 사용자 지정 분류자 작성을 참조하십시오.

2019년 3월 26일

AWS 리소스 태그 지원

AWS Glue 리소스에 대한 액세스를 관리 및 제어하는 데 도움이 되도록 AWS 리소스 태그의 사용 방법에 대한 정보가 추가되었습니다. AWS Glue의 작업, 트리거, 엔드포인트 및 크롤러에 AWS 리소스 태그를 할당할 수 있습니다. 자세한 내용은 AWS Glue의 AWS 태그를 참조하세요.

2019년 3월 20일

Spark SQL 작업에 Data Catalog 지원

AWS Glue Data Catalog를 외부 Apache Hive 메타스토어로 사용하도록 AWS Glue 작업 및 개발 엔드포인트를 구성하는 방법에 대한 정보를 추가했습니다. 이렇게 하면 작업 및 개발 엔드포인트가 AWS Glue Data Catalog에 저장된 테이블에 대해 Apache Spark SQL 쿼리를 직접 실행할 수 있습니다. 자세한 내용은 Spark SQL 작업에 대한 AWS Glue Data Catalog 지원을 참조하세요.

2019년 3월 14일

Python 셸 작업 지원

Python 셸 작업과 새로운 필드 Maximum capacity(최대 용량)에 대한 정보가 추가되었습니다. 자세한 내용은 AWS Glue에서 Python 셸 작업 추가를 참조하세요.

2019년 1월 18일

데이터베이스와 테이블을 변경할 때 알림 지원

데이터베이스, 테이블 및 파티션 API 호출의 변경 사항에 대해 생성된 이벤트 정보가 추가되었습니다. 이러한 이벤트에 응답하도록 CloudWatch Events에서 작업을 구성할 수 있습니다. 자세한 내용은 CloudWatch Events를 사용한 AWS Glue 자동화를 참조하세요.

2019년 1월 16일

연결 암호 암호화 지원

연결 객체에 사용되는 암호 암호화에 대한 정보를 추가했습니다. 자세한 내용은 Encrypting Connection Passwords 단원을 참조하십시오.

2018년 12월 11일

리소스 수준 권한 및 리소스 기반 정책에 대한 지원

AWS Glue에서 리소스 수준 권한 및 리소스 기반 정책을 사용하는 방법에 대한 정보를 추가했습니다. 자세한 내용은 AWS Glue의 보안에 수록된 주제를 참조하십시오.

2018년 10월 15일

SageMaker 노트북 지원

AWS Glue 개발 엔드포인트에서 SageMaker 노트북을 사용하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 노트북 관리를 참조하십시오.

2018년 10월 5일

암호화 지원

AWS Glue의 암호화를 사용하는 방법에 대한 정보를 추가했습니다. 자세한 내용은 저장 데이터 암호화, 전송 데이터 암호화AWS Glue의 암호화 설정을 참조하세요.

2018년 8월 24일

Apache Spark 작업 지표 지원

ETL 작업의 디버깅 및 프로파일링 향상을 위해 Apache Spark 측정치 사용에 대한 정보를 추가했습니다. 드라이버 및 실행기의 읽고 쓴 바이트 수, 메모리 사용량 및 CPU 부하 같은 실행 시간 측정치와, AWS Glue 콘솔의 실행기 간의 데이터 셔플을 쉽게 추적할 수 있습니다. 자세한 내용은 CloudWatch 지표를 사용하여 AWS Glue 모니터링, 작업 모니터링 및 디버깅AWS Glue 콘솔에서 작업 처리를 참조하세요.

2018년 7월 13일

데이터 원본으로서 DynamoDB 지원

DynamoDB 크롤링 및 이를 ETL 작업 데이터 원본으로 사용하는 방법에 대한 정보가 추가되었습니다. 자세한 내용은 크롤러를 사용하여 테이블 카탈로그 작성연결 파라미터를 참조하십시오.

2018년 7월 10일

노트북 서버 생성 절차 업데이트

개발 엔드포인트와 연결된 Amazon EC2 인스턴스에서 노트북 서버를 생성하는 방법에 대한 정보가 업데이트되었습니다. 자세한 내용은 개발 엔드포인트와 연결된 노트북 서버 생성 단원을 참조하십시오.

2018년 7월 9일

RSS에서 현재 사용 가능한 업데이트

이제 AWS Glue Developer Guide에 대한 업데이트 알림을 받으려면 RSS 피드를 구독하면 됩니다.

2018년 6월 25일

작업 지연 알림 지원

작업 중의 지연 임계값을 구성하는 내용이 추가됩니다. 자세한 내용은 AWS Glue의 작업 추가를 참조하십시오.

2018년 5월 25일

크롤러를 구성하여 새 열 추가

크롤러, MergeNewColumns의 새 구성 옵션에 대한 정보를 추가했습니다. 더 자세한 내용은 크롤러 구성하기를 참조하십시오.

2018년 5월 7일

작업 제한 시간 지원

작업 중의 타임아웃 임계값을 설정하는 내용이 추가됩니다. 자세한 내용은 AWS Glue의 작업 추가를 참조하십시오.

2018년 10월 4일

추가 실행 상태를 기반으로 Scala ETL 스크립트 및 트리거 작업 지원

ETL 프로그래밍 언어로써 사용되는 Scala에 대한 자세한 내용이 포함되었습니다. 또한, 트리거 API는 현재 (모든 조건과 더불어) 조건이 맞으면 API의 시작을 지원합니다. 작업도 ("succeeded" 작업 실행과 더불어) "failed" 또는 "stopped" 작업 실행을 기반으로 시작됩니다.

2018년 1월 12일

이전 업데이트

다음 표에서는 2018년 1월 이전 AWS Glue 개발자 안내서의 각 릴리스에서 변경된 중요 사항에 대해 설명합니다.

변경 사항 설명 날짜
XML 데이터 원본 및 새로운 크롤러 구성 옵션 지원 파티션 변경에 따른 XML 데이터 원본 및 새로운 크롤러 옵션을 분류하는 추가된 정보. 2017년 11월 16일
새로운 변환, 추가 Amazon RDS 데이터베이스 엔진 지원 및 개발 엔드포인트 개선 맵 및 필터 변환, Amazon RDS Microsoft SQL Server 및 Amazon RDS Oracle에 대한 지원, 개발 엔드포인트를 위한 새로운 기능에 대한 정보가 추가되었습니다. 2017년 9월 29일
AWS Glue 최초 릴리스 AWS Glue Developer Guide가 처음으로 릴리스되었습니다. 2017년 8월 14일