Amazon Athena for Apache Spark에서 비 Hive 테이블 형식 사용 - Amazon Athena

Amazon Athena for Apache Spark에서 비 Hive 테이블 형식 사용

Athena for Spark에서 세션 및 노트북을 사용하는 경우 Apache Hive 테이블 외에도 Linux Foundation Delta Lake, Apache Hudi, Apache Iceberg 테이블을 사용할 수 있습니다.

고려 사항 및 제한

Athena for Spark에서 Apache Hive 이외의 테이블 형식을 사용하는 경우 다음 사항을 고려합니다.

  • Apache Hive 이외에도 노트북당 하나의 테이블 형식만 지원됩니다. Athena for Spark에서 여러 테이블 형식을 사용하려면 각 테이블 형식에 대해 별도의 노트북을 생성합니다. Athena for Spark에서 노트북을 생성하는 방법에 대한 자세한 내용은 사용자 노트북 생성 섹션을 참조하세요.

  • Delta Lake, Hudi 및 Iceberg 테이블 형식은 AWS Glue를 사용하여 Athena for Spark에서 메타스토어로 테스트되었습니다. 다른 메타스토어를 사용할 수도 있지만 현재 이러한 사용은 지원되지 않습니다.

  • 추가 테이블 형식을 사용하려면 Athena 콘솔 및 이 설명서에 나와 있는 대로 기본 spark_catalog 속성을 재정의합니다. 이러한 비 Hive 카탈로그는 고유한 테이블 형식 외에도 Hive 테이블을 읽을 수 있습니다.

테이블 버전

다음 테이블에는 Amazon Athena for Apache Spark에서 지원되는 비 Hive 테이블 버전이 나와 있습니다.

테이블 형식 지원되는 버전
Apache Iceberg 1.2.1
Apache Hudi 0.13
Linux Foundation Delta Lake 2.0.2

Athena for Spark에서 이러한 테이블 형식 .jar 파일과 해당 종속성이 Spark 드라이버 및 실행기의 클래스 경로에 로드됩니다.

Amazon Athena 노트북에서 Spark SQL을 사용하여 Iceberg, Hudi 및 Delta Lake 테이블 형식을 사용하는 방법은 AWS 빅 데이터 블로그 게시물 Use Amazon Athena with Spark SQL for your open-source transactional table formats를 참조하세요.