데이터 원본에 연결

Amazon Athena를 사용하여 데이터 세트의 다른 위치 및 형식으로 저장된 데이터를 쿼리할 수 있습니다. 이 데이터 세트는 CSV, JSON, Avro, Parquet 또는 기타 형식일 수 있습니다.

쿼리를 실행하기 위해 Athena에서 작업하는 테이블과 데이터베이스는 메타데이터를 기반으로 합니다. 메타데이터는 데이터 세트의 기본 데이터에 대한 데이터입니다. 해당 메타데이터가 데이터 세트를 설명하는 방법을 스키마라고 합니다. 예를 들어 테이블 이름, 테이블의 열 이름 및 각 열의 데이터 유형은 기본 데이터 세트를 설명하는 메타데이터로 저장된 스키마입니다. Athena에서 사용자는 메타데이터를 데이터 카탈로그 또는 메타스토어로 구성하기 위한 시스템을 호출합니다. 데이터 세트와 이를 설명하는 데이터 카탈로그의 조합을 데이터 원본이라고 합니다.

메타데이터와 기본 데이터 세트의 관계는 작업하는 데이터 원본 유형에 따라 달라집니다. MySQL, PostgreSQL, SQL Server와 같은 관계형 데이터 원본은 데이터 세트와 메타데이터를 밀접하게 통합합니다. 이러한 시스템에서는 데이터가 작성될 때 메타데이터가 가장 자주 작성됩니다. Hive를 사용하여 구축된 것과 같은 다른 데이터 원본을 사용하면 데이터 세트를 읽을 때 즉석에서 메타데이터를 정의할 수 있습니다. 데이터 세트는 예를 들어 CSV, JSON, Parquet 또는 Avro처럼 다양한 형식일 수 있습니다.

Athena는 기본적으로 AWS Glue Data Catalog를 지원합니다. AWS Glue Data Catalog는 Amazon S3, Amazon Redshift, Amazon DynamoDB 등의 다른 데이터 세트 및 데이터 원본을 바탕으로 구축된 데이터 카탈로그입니다. 다양한 커넥터를 사용하여 Athena를 다른 데이터 원본에 연결할 수도 있습니다.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

6단계: 다른 데이터 소스에 연결

AWS Glue Data Catalog 사용