Athena for Spark에서 세션 및 노트북을 사용하는 경우 Apache Hive 테이블 외에도 Linux Foundation Delta Lake, Apache Hudi, Apache Iceberg 테이블을 사용할 수 있습니다.
고려 사항 및 제한
Athena for Spark에서 Apache Hive 이외의 테이블 형식을 사용하는 경우 다음 사항을 고려합니다.
-
Apache Hive 이외에도 노트북당 하나의 테이블 형식만 지원됩니다. Athena for Spark에서 여러 테이블 형식을 사용하려면 각 테이블 형식에 대해 별도의 노트북을 생성합니다. Athena for Spark에서 노트북을 생성하는 방법에 대한 자세한 내용은 7단계: 자체 노트북 생성 섹션을 참조하세요.
-
Delta Lake, Hudi 및 Iceberg 테이블 형식은 AWS Glue를 사용하여 Athena for Spark에서 메타스토어로 테스트되었습니다. 다른 메타스토어를 사용할 수도 있지만 현재 이러한 사용은 지원되지 않습니다.
-
추가 테이블 형식을 사용하려면 Athena 콘솔 및 이 설명서에 나와 있는 대로 기본
spark_catalog
속성을 재정의합니다. 이러한 비 Hive 카탈로그는 고유한 테이블 형식 외에도 Hive 테이블을 읽을 수 있습니다.
테이블 버전
다음 테이블에는 Amazon Athena for Apache Spark에서 지원되는 비 Hive 테이블 버전이 나와 있습니다.
테이블 형식 | 지원되는 버전 |
---|---|
Apache Iceberg | 1.2.1 |
Apache Hudi | 0.13 |
Linux Foundation Delta Lake | 2.0.2 |
Athena for Spark에서 이러한 테이블 형식 .jar
파일과 해당 종속성이 Spark 드라이버 및 실행기의 클래스 경로에 로드됩니다.
Amazon Athena 노트북에서 Spark SQL을 사용하여 Iceberg, Hudi 및 Delta Lake 테이블 형식을 사용하는 방법은 AWS 빅 데이터 블로그 게시물 Use Amazon Athena with Spark SQL for your open-source transactional table formats