Ray 작업의 데이터에 연결 - AWS Glue

Ray 작업의 데이터에 연결

AWS Glue on Ray는 현재 AWS Glue의 미리 보기 릴리스이므로 변경될 수 있습니다.

AWS Glue Ray 작업은 데이터를 Ray 작업과 통합할 때 빠르게 반복할 수 있도록 설계된 미리 선택된 Python 패키지 라이브러리를 제공합니다.

이 라이브러리의 일부로 AWS SDK for pandas(awswrangler)를 제공합니다. 이 SDK는 변환을 통해 pandas DataFrames로 데이터를 관리할 때 AWS 서비스에서 읽고 쓸 수 있는 깔끔하고 테스트된 솔루션을 제공합니다. AWS SDK for pandas를 사용하여 데이터를 읽고 쓰는 방법에 대한 예는 AWS SDK for pandas 웹사이트의 빠른 시작을 참조하세요.

소스 및 싱크에 직접 연결

AWS SDK for pandas를 통해 Ray 작업은 현재 다음과 같은 연결을 지원합니다.

연결 읽기(Read) 쓰기
Amazon S3 지원 지원
Athena 지원 해당 사항 없음
Lake Formation 관리 테이블 지원 지원
Timestream 지원 지원

AWS SDK for pandas를 통해 Ray 작업은 다음과 같은 형식 유형을 지원합니다.

  • Parquet

  • CSV

  • JSON

  • XSLX

Amazon S3에서 AWS SDK for pandas를 사용하는 방법에 대한 자세한 내용은 AWS SDK for pandas 웹사이트의 Amazon S3를 참조하세요.

참고

AWS Glue ETL은 DynamicFrame 추상화를 제공하여 데이터 세트의 행 간 스키마 차이를 해결하는 ETL 워크플로를 간소화합니다. AWS Glue ETL은 추가 기능(예: 작업 북마크 및 작은 파일 그룹화)을 제공합니다. 현재 Ray 작업에서는 해당 기능을 제공하지 않습니다.

데이터 카탈로그를 통한 연결

awswrangler에서는 Ray 작업과 함께 데이터 카탈로그를 통해 데이터를 관리할 수 있습니다. 자세한 내용은 AWS SDK for pandas 웹사이트의 Glue 카탈로그를 참조하세요.