AWS Glue Studio를 사용하여 시각적 ETL 작업 구축 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue Studio를 사용하여 시각적 ETL 작업 구축

AWS Glue 작업은 소스 데이터에 연결하여 처리한 다음 데이터 대상에 작성하는 스크립트를 캡슐화합니다. 일반적으로 작업은 추출, 변환 및 로드(ETL) 스크립트를 실행합니다. 작업은 Apache Spark 및 Ray 런타임 환경용으로 설계된 스크립트를 실행할 수 있습니다. 작업은 범용 Python 스크립트(Python 셸 작업)를 실행할 수도 있습니다. AWS Glue 트리거는 일정 또는 이벤트에 따라 또는 필요에 따라 작업을 시작할 수 있습니다. 작업 실행을 모니터링하여 완료 상태, 지속 시간, 시작 시간 같은 실행 시간 지표를 이해할 수 있습니다.

AWS Glue에서 생성하는 스크립트를 사용하거나 직접 제공할 수 있습니다. 소스 스키마와 대상 위치 또는 스키마를 사용하여 AWS Glue Studio 코드 생성기는 Apache Spark API (PySpark) 스크립트를 자동으로 생성할 수 있습니다. 이 스크립트를 시작 포인트로 사용할 수 있고 목적에 부합하기 위해 편집할 수도 있습니다.

AWS Glue에서는 여러 데이터 형식으로 출력 파일을 작성할 수 있습니다. 작업 유형마다 지원하는 출력 형식이 다를 수 있습니다. 몇 가지 데이터 포맷의 경우, 일반 압축 포맷이 작성될 수 있습니다.

AWS Glue 콘솔로 로그인합니다

의 작업은 ETL (추출, 변환, 로드) 작업을 수행하는 비즈니스 로직으로 AWS Glue 구성됩니다. AWS Glue 콘솔의 [ETL] 섹션에서 작업을 생성할 수 있습니다.

기존 작업을 보려면 https://console.aws.amazon.com/glue/ 에 AWS Management Console 로그인하고 AWS Glue 콘솔을 여십시오. 그런 다음 AWS Glue에서 [작업(Jobs)] 탭을 선택합니다. 작업이 마지막으로 수정되고 현재 작업이 옵션을 표시할 경우, [Jobs(작업)] 목록은 각 작업과 관련된 스크립트 위치를 보여줍니다.

새 작업을 생성하는 동안 또는 작업을 저장한 후 AWS Glue Studio를 사용하여 ETL 작업을 수정할 수 있습니다. 시각적 편집기에서 노드를 편집하거나 개발자 모드에서 작업 스크립트를 편집하여 이를 수행할 수 있습니다. 시각적 편집기에서 노드를 추가하고 제거하여 더 복잡한 ETL 작업을 생성할 수도 있습니다.

AWS Glue Studio에서 작업을 생성하기 위한 다음 단계

시각적 작업 편집기를 사용하여 작업에 대한 노드를 구성합니다. 각 노드는 소스 위치에서 데이터 읽기 또는 데이터에 변환 적용과 같은 작업을 나타냅니다. 작업에 추가하는 각 노드에는 데이터 위치 또는 변환에 대한 정보를 제공하는 속성이 있습니다.

다음은 작업을 생성하고 관리하는 단계입니다.