Ray 작업의 데이터에 연결
AWS Glue on Ray는 현재 AWS Glue의 미리 보기 릴리스이므로 변경될 수 있습니다. |
AWS Glue Ray 작업은 데이터를 Ray 작업과 통합할 때 빠르게 반복할 수 있도록 설계된 미리 선택된 Python 패키지 라이브러리를 제공합니다.
이 라이브러리의 일부로 AWS SDK for pandas(awswrangler)를 제공합니다. 이 SDK는 변환을 통해 pandas DataFrames로 데이터를 관리할 때 AWS 서비스에서 읽고 쓸 수 있는 깔끔하고 테스트된 솔루션을 제공합니다. AWS SDK for pandas를 사용하여 데이터를 읽고 쓰는 방법에 대한 예는 AWS SDK for pandas 웹사이트의 빠른 시작
소스 및 싱크에 직접 연결
AWS SDK for pandas를 통해 Ray 작업은 현재 다음과 같은 연결을 지원합니다.
연결 | 읽기(Read) | 쓰기 |
---|---|---|
Amazon S3 | 지원 | 지원 |
Athena | 지원 | 해당 사항 없음 |
Lake Formation 관리 테이블 | 지원 | 지원 |
Timestream | 지원 | 지원 |
AWS SDK for pandas를 통해 Ray 작업은 다음과 같은 형식 유형을 지원합니다.
-
Parquet
-
CSV
-
JSON
-
XSLX
Amazon S3에서 AWS SDK for pandas를 사용하는 방법에 대한 자세한 내용은 AWS SDK for pandas 웹사이트의 Amazon S3
AWS Glue ETL은 DynamicFrame 추상화를 제공하여 데이터 세트의 행 간 스키마 차이를 해결하는 ETL 워크플로를 간소화합니다. AWS Glue ETL은 추가 기능(예: 작업 북마크 및 작은 파일 그룹화)을 제공합니다. 현재 Ray 작업에서는 해당 기능을 제공하지 않습니다.
데이터 카탈로그를 통한 연결
awswrangler에서는 Ray 작업과 함께 데이터 카탈로그를 통해 데이터를 관리할 수 있습니다. 자세한 내용은 AWS SDK for pandas 웹사이트의 Glue 카탈로그