테이블, 데이터베이스, 데이터 카탈로그 이해 - Amazon Athena

테이블, 데이터베이스, 데이터 카탈로그 이해

Athena에서 테이블과 데이터베이스는 기본 소스 데이터에 대한 스키마를 정의하는 메타데이터 정의를 위한 컨테이너입니다. 각 데이터 집합에 대한 테이블이 Athena에 있어야 합니다. 테이블의 메타데이터는 Amazon S3의 데이터 위치를 Athena에 알려주고, 데이터의 구조(예: 열 이름, 데이터 유형 및 테이블 이름)를 지정합니다. 데이터베이스는 테이블의 논리적 그룹이며 데이터 세트에 대한 메타데이터와 스키마 정보만 보유합니다.

쿼리하려는 각 데이터 세트에 대해 쿼리 결과를 얻고 반환하는 데 사용할 기본 테이블이 Athena에 있어야 합니다. 따라서 데이터를 쿼리하기 전에 테이블이 Athena에 등록되어 있어야 합니다. 자동 또는 수동으로 테이블을 만들면 등록이 이루어집니다.

테이블 생성 방법에 관계없이 테이블 생성 프로세스는 Athena를 통해 데이터 세트를 등록합니다. AWS Glue Data Catalog에서 이 등록이 이루어지며, 등록하면 Athena가 데이터에 대해 쿼리를 실행할 수 있게 됩니다.

  • 테이블을 자동으로 만들려면 Athena에서 AWS Glue 크롤러를 사용합니다. AWS Glue 및 크롤러에 대한 자세한 내용은 AWS Glue와 통합을 참조하세요. AWS Glue는 테이블을 생성할 때 자신의 AWS Glue 데이터 카탈로그에 해당 테이블을 등록합니다. Athena는 AWS Glue 데이터 카탈로그를 사용하여 이 메타데이터를 저장하고 검색하며, 기본 데이터 세트를 분석하기 위해 쿼리를 실행할 때 사용합니다.

테이블을 만든 후에는 SQL SELECT 문을 사용하여 테이블을 쿼리해서 원본 데이터의 특정 파일 위치 가져오기 등을 수행할 수 있습니다. 쿼리 결과는 Amazon S3의 지정된 쿼리 결과 위치에 저장됩니다.

AWS Glue 데이터 카탈로그는 Amazon Web Services 계정 전반에서 액세스할 수 있습니다. 다른 AWS 서비스도 AWS Glue 데이터 카탈로그를 공유할 수 있으므로 Athena를 사용하여 조직 전체에서 생성된 데이터베이스와 테이블을 볼 수 있으며 그 반대의 경우도 마찬가지입니다. 또한 AWS Glue를 사용하면 자동으로 데이터 스키마를 찾고 데이터를 추출, 변환 및 로드(ETL)할 수 있습니다.

  • 수동으로 테이블을 생성하려면

    • Athena 콘솔을 사용하여 테이블 만들기 마법사를 실행합니다.

    • Athena 콘솔을 사용하여 쿼리 편집기에서 Hive DDL 문을 작성합니다.

    • Athena API 또는 CLI를 사용해 DDL 문으로 SQL 쿼리 문자열을 실행합니다.

    • Athena JDBC 또는 ODBC 드라이버를 사용합니다.

테이블 및 데이터베이스를 수동으로 생성하는 경우 Athena는 내부적으로 CREATE TABLE, CREATE DATABASE, DROP TABLE 등의 HiveQL 데이터 정의 언어(DDL) 문을 사용하여 AWS Glue Data Catalog에 테이블과 데이터베이스를 생성합니다.

참고

2017년 8월 14일 이전에 생성된 테이블이 Athena에 있는 경우, 이는 Athena 관리형 내부 데이터 카탈로그에서 생성된 것이며 업데이트할 때까지 AWS Glue Data Catalog와 나란히 존재합니다. 자세한 정보는 단계별 AWS Glue Data Catalog 업그레이드을 참조하십시오.

기존 테이블을 쿼리하면 Amazon Athena는 내부적으로 분산 SQL 엔진인 Presto를 사용합니다. Athena 내의 샘플 데이터가 포함된 예제를 보면 테이블을 생성한 다음 Athena에서 그에 대한 쿼리를 실행하는 방법을 알 수 있습니다. 또한 Athena는 Amazon S3에 저장된 데이터를 기반으로 테이블 생성을 시작하는 데 도움이 되는 자습서를 콘솔에 제공합니다.

  • Athena 쿼리 편집기에서 테이블을 만들고 쿼리를 작성하는 방법에 대한 단계별 자습서는 시작하기 단원을 참조하세요.

  • 콘솔에서 Athena 자습서를 실행합니다. https://console.aws.amazon.com/athena/에 처음으로 로그인하면 자동으로 시작됩니다. 콘솔에서 자습서를 선택해 실행할 수도 있습니다.