사전 조건 제한 사항 용어 파라미터 데이터 형식 지원 데이터 형식 변환 파티션 및 분할 성능 패스스루 쿼리 라이선스 정보 추가 리소스

Amazon Athena Snowflake 커넥터

Snowflake용 Amazon Athena 커넥터를 사용하면 Amazon Athena가 JDBC를 사용하여 Snowflake SQL 데이터베이스 또는 RDS 인스턴스에 저장된 데이터에 대해 SQL 쿼리를 실행할 수 있습니다.

이 커넥터는 Glue 데이터 카탈로그에 페더레이션 카탈로그로 등록할 수 있습니다. 카탈로그, 데이터베이스, 테이블, 열, 행 및 태그 수준에서 Lake Formation에 정의된 데이터 액세스 제어를 지원합니다. 이 커넥터는 Glue Connections를 사용하여 Glue의 구성 속성을 중앙 집중화합니다.

사전 조건

Athena 콘솔 또는 AWS Serverless Application Repository를 사용하여 AWS 계정에 커넥터를 배포합니다. 자세한 내용은 데이터 소스 연결 생성 또는 AWS Serverless Application Repository을 사용하여 데이터 소스 커넥터 배포을 참조하세요.

제한 사항

DDL 쓰기 작업은 지원되지 않습니다.
멀티플렉서 설정에서 유출 버킷과 접두사는 모든 데이터베이스 인스턴스에서 공유됩니다.
모든 관련 Lambda 제한. 자세한 내용은 AWS Lambda 개발자 안내서에서 Lambda 할당량을 참조하십시오.
현재 단일 분할이 포함된 Snowflake 뷰가 지원됩니다.
Snowflake에서 객체 이름은 대/소문자를 구분하기 때문에 두 테이블이 이름은 같지만 대/소문자가 다를 수 있습니다(예: EMPLOYEE 및 employee). Athena 연합 쿼리에서 스키마 테이블 이름은 소문자로 Lambda 함수에 제공됩니다. 이 문제를 해결하려면 @schemaCase 쿼리 힌트를 제공하여 대/소문자를 구분하는 이름을 가진 테이블에서 데이터를 검색합니다. 다음은 쿼리 힌트가 포함된 두 가지 샘플 쿼리입니다.
```
SELECT *
                    FROM "lambda:snowflakeconnector".SYSTEM."MY_TABLE@schemaCase=upper&tableCase=upper"     
```
```
SELECT *
                    FROM "lambda:snowflakeconnector".SYSTEM."MY_TABLE@schemaCase=upper&tableCase=lower"     
```
Snowflake 연결을 Glue Catalog 및 Lake Formation으로 마이그레이션하는 경우 Athena는 모든 요청을 대문자로 기본 설정하거나 주석을 지원하지 않습니다. Glue Connection의 기본 동작은 대소문자를 조정하지 않습니다.

Snowflake는 다음 대소문자 모드를 지원합니다.
- NONE(Glue Connection이 있는 커넥터의 기본값)
- CASE_INSENSITIVE_SEARCH
- 주석(Glue Connection이 없는 커넥터의 기본값)

용어

다음 용어는 Snowflake 커넥터와 관련이 있습니다.

데이터베이스 인스턴스 - 온프레미스, Amazon EC2 또는 Amazon RDS에 배포된 데이터베이스의 모든 인스턴스.
핸들러 - 데이터베이스 인스턴스에 액세스하는 Lambda 핸들러. 핸들러는 메타데이터 또는 데이터 레코드용일 수 있습니다.
메타데이터 핸들러 - 데이터베이스 인스턴스에서 메타데이터를 검색하는 Lambda 핸들러.
레코드 핸들러 - 데이터베이스 인스턴스에서 데이터 레코드를 검색하는 Lambda 핸들러.
복합 핸들러 - 데이터베이스 인스턴스에서 메타데이터와 데이터 레코드를 모두 검색하는 Lambda 핸들러.
속성 또는 파라미터 - 핸들러에서 데이터베이스 정보를 추출하는 데 사용되는 데이터베이스 속성. 이러한 속성을 Lambda 환경 변수로 구성합니다.
연결 문자열 - 데이터베이스 인스턴스에 대한 연결을 설정하는 데 사용되는 텍스트 문자열.
카탈로그 - connection_string 속성의 필수 접두사로서 Athena에 등록된 비 AWS Glue Glue 카탈로그.
멀티플렉싱 핸들러 - 여러 데이터베이스 연결을 수락하고 사용할 수 있는 Lambda 핸들러.

파라미터

이 섹션의 파라미터를 사용하여 Snowflake 커넥터를 구성합니다.

Glue 연결 객체를 사용하여 Snowflake 커넥터를 구성하는 것이 좋습니다. 이렇게 하려면 Snowflake 커넥터 Lambda의 glue_connection 환경 변수를 사용할 Glue 연결 이름으로 설정합니다.

Glue 연결 속성

다음 명령을 사용하여 Glue 연결 객체에 대한 스키마를 가져옵니다. 이 스키마에는 연결을 제어할 때 사용할 수 있는 모든 파라미터가 포함되어 있습니다.


aws glue describe-connection-type --connection-type SNOWFLAKE

Lambda 환경 속성

glue_connection - 페더레이션 커넥터와 연결된 Glue 연결의 이름을 지정합니다.
casing_mode - (선택 사항) 스키마 및 테이블 이름의 대소문자를 처리하는 방법을 지정합니다. casing_mode 파라미터는 다음 값을 사용하여 대소문자 지정 동작을 지정합니다.
- none - 지정된 스키마 및 테이블 이름의 대소문자를 변경하지 않습니다. 연결된 Glue 연결이 있는 커넥터의 기본값입니다.
- annotation - 주석이 있는 경우 테이블 이름을 조정합니다. 연결된 Glue 연결이 없는 커넥터의 기본값입니다.
- case_insensitive_search - Snowflake에서 스키마 및 테이블 이름에 대해 대소문자를 구분하지 않는 검색을 수행합니다. 쿼리에 커넥터의 기본 대소문자와 일치하지 않는 스키마 또는 테이블 이름이 포함된 경우 이 값을 사용합니다.
- upper - 지정된 스키마 및 테이블 이름을 모두 대문자로 표시합니다.
- lower - 지정된 스키마와 테이블 이름을 모두 소문자로 표시합니다.

참고

Glue 연결을 사용하는 모든 커넥터는 AWS Secrets Manager를 사용하여 자격 증명을 저장해야 합니다.
Glue 연결을 사용하여 생성된 Snowflake 커넥터는 멀티플렉싱 핸들러 사용을 지원하지 않습니다.
Glue 연결을 사용하여 생성된 Snowflake 커넥터는 ConnectionSchemaVersion 2만 지원합니다.

참고

2024년 12월 3일 이후에 생성된 Athena 데이터 소스 커넥터는 AWS Glue 연결을 사용합니다.

아래에 나열된 파라미터 이름과 정의는 연결된 Glue 연결 없이 생성된 Athena 데이터 소스 커넥터에 대한 것입니다. Athena 데이터 소스 커넥터의 이전 버전을 수동으로 배포하거나 glue_connection 환경 속성이 지정되지 않은 경우에만 다음 파라미터를 사용합니다.

Lambda 환경 속성

default - Snowflake 데이터베이스 인스턴스에 연결하는 데 사용할 JDBC 연결 문자열입니다. 예: snowflake://${jdbc_connection_string}
catalog_connection_string – 멀티플렉싱 핸들러에서 사용합니다(Glue 연결을 사용할 때는 지원되지 않음). 데이터베이스 인스턴스 연결 문자열. Athena에서 사용되는 카탈로그의 이름을 환경 변수 앞에 붙입니다. 예를 들어 Athena에 등록된 카탈로그가 mysnowflakecatalog인 경우 환경 변수 이름은 mysnowflakecatalog_connection_string입니다.
spill_bucket – Lambda 함수 제한을 초과하는 데이터에 대한 Amazon S3 버킷을 지정합니다.
spill_prefix – (선택 사항) 기본값은 athena-federation-spill이라는 지정된 spill_bucket의 하위 폴더입니다. 미리 정해진 일 수 또는 시간보다 오래된 유출을 삭제하려면 이 위치에서 Amazon S3 스토리지 수명 주기를 구성하는 것이 좋습니다.
spill_put_request_headers – (선택 사항) 유출에 사용되는 Amazon S3 putObject 요청에 대한 요청 헤더 및 값의 JSON 인코딩 맵입니다(예: {"x-amz-server-side-encryption" : "AES256"}). 다른 가능한 헤더를 알아보려면 Amazon Simple Storage Service API Reference(Amazon Simple Storage Service API 참조)의 PutObject를 참조하세요.
kms_key_id – (선택 사항) 기본적으로 Amazon S3로 유출된 모든 데이터는 AES-GCM 인증 암호화 모드와 임의로 생성된 키를 사용하여 암호화됩니다. Lambda 함수가 a7e63k4b-8loc-40db-a2a1-4d0en2cd8331과 같이 KMS에서 생성된 더 강력한 암호화 키를 사용하도록 하려면 KMS 키 ID를 지정합니다.
disable_spill_encryption – (선택 사항) True로 설정하면 유출 암호화가 비활성화됩니다. S3로 유출되는 데이터가 AES-GCM을 사용하여 암호화되도록 기본값은 False입니다(임의로 생성된 키 또는 KMS를 사용하여 키 생성). 유출 암호화를 비활성화하면 특히 유출 위치가 서버 측 암호화를 사용하는 경우 성능이 향상될 수 있습니다.

연결 문자열

다음 형식의 JDBC 연결 문자열을 사용하여 데이터베이스 인스턴스에 연결합니다.


snowflake://${jdbc_connection_string}

멀티플렉싱 핸들러 사용

멀티플렉서를 사용하여 단일 Lambda 함수로 여러 데이터베이스 인스턴스에 연결할 수 있습니다. 요청은 카탈로그 이름을 기준으로 라우팅됩니다. Lambda에서 다음 클래스를 사용합니다.

핸들러	Class
복합 핸들러	`SnowflakeMuxCompositeHandler`
메타데이터 핸들러	`SnowflakeMuxMetadataHandler`
레코드 핸들러	`SnowflakeMuxRecordHandler`

멀티플렉싱 핸들러 파라미터

파라미터	설명
`$catalog_connection_string`	필수 사항입니다. 데이터베이스 인스턴스 연결 문자열. Athena에서 사용되는 카탈로그의 이름을 환경 변수 앞에 붙입니다. 예를 들어, Athena에 등록된 카탈로그가 `mysnowflakecatalog`인 경우 환경 변수 이름은 `mysnowflakecatalog_connection_string`입니다.
`default`	필수 사항입니다. 기본 연결 문자열. 이 문자열은 카탈로그가 `lambda:${AWS_LAMBDA_FUNCTION_NAME}`일 때 사용됩니다.

다음은 snowflake1(기본값)과 snowflake2라는 2개의 데이터베이스 인스턴스를 지원하는 Snowflake MUX Lambda 함수에 대한 예제 속성입니다.

속성	값
`default`	`snowflake://jdbc:snowflake://snowflake1.host:port/?warehouse=warehousename&db=db1&schema=schema1&${Test/RDS/Snowflake1}`
`snowflake_catalog1_connection_string`	`snowflake://jdbc:snowflake://snowflake1.host:port/?warehouse=warehousename&db=db1&schema=schema1${Test/RDS/Snowflake1}`
`snowflake_catalog2_connection_string`	`snowflake://jdbc:snowflake://snowflake2.host:port/?warehouse=warehousename&db=db1&schema=schema1&user=sample2&password=sample2`

자격 증명 제공

JDBC 연결 문자열에서 데이터베이스의 사용자 이름과 암호를 제공하려면 연결 문자열 속성 또는 AWS Secrets Manager를 사용합니다.

연결 문자열 - 사용자 이름과 암호를 JDBC 연결 문자열에 속성으로 지정할 수 있습니다.

중요
보안 모범 사례로, 환경 변수 또는 연결 문자열에서 하드 코딩된 자격 증명은 사용하지 않습니다. 하드 코딩된 보안 암호를 AWS Secrets Manager로 이동하는 방법에 대한 자세한 내용은 AWS Secrets Manager 사용 설명서의 하드 코딩된 보안 암호를 AWS Secrets Manager로 이동을 참조하세요.
AWS Secrets Manager - AWS Secrets Manager에서 Athena 연합 쿼리 기능을 사용하려면 Secrets Manager 연결을 위한 VPC 엔드포인트 또는 인터넷 액세스가 Lambda 함수에 연결된 VPC에 있어야 합니다.

JDBC 연결 문자열에 AWS Secrets Manager의 보안 암호 이름을 입력할 수 있습니다. 커넥터는 암호 이름을 Secrets Manager의 username 및 password 값으로 바꿉니다.

Amazon RDS 데이터베이스 인스턴스의 경우 이 지원은 긴밀하게 통합됩니다. Amazon RDS를 사용하는 경우 AWS Secrets Manager 및 자격 증명 교체를 사용하는 것이 좋습니다. 데이터베이스에서 Amazon RDS를 사용하지 않는 경우 자격 증명을 다음 형식의 JSON으로 저장합니다.
```
{"username": "${username}", "password": "${password}"}
```

보안 암호 이름이 있는 연결 문자열의 예제

다음 문자열의 보안 암호 이름은 ${Test/RDS/Snowflake1}입니다.


snowflake://jdbc:snowflake://snowflake1.host:port/?warehouse=warehousename&db=db1&schema=schema1${Test/RDS/Snowflake1}&...

커넥터는 다음 예제와 같이 보안 암호 이름을 사용하여 보안 암호를 검색하고 사용자 이름과 암호를 제공합니다.


snowflake://jdbc:snowflake://snowflake1.host:port/warehouse=warehousename&db=db1&schema=schema1&user=sample2&password=sample2&...

현재 Snowflake는 user 및 password JDBC 속성을 인식합니다. 또한 user 또는 password 키 없이 username/password 형식의 사용자 이름과 암호를 허용합니다.

단일 연결 핸들러 사용

다음과 같은 단일 연결 메타데이터 및 레코드 핸들러를 사용하여 단일 Snowflake 인스턴스에 연결할 수 있습니다.

핸들러 유형	Class
복합 핸들러	`SnowflakeCompositeHandler`
메타데이터 핸들러	`SnowflakeMetadataHandler`
레코드 핸들러	`SnowflakeRecordHandler`

단일 연결 핸들러 파라미터

파라미터	설명
`default`	필수 사항입니다. 기본 연결 문자열.

단일 연결 핸들러는 하나의 데이터베이스 인스턴스를 지원하며 default 연결 문자열 파라미터를 제공해야 합니다. 다른 연결 문자열은 모두 무시됩니다.

다음은 Lambda 함수에서 지원하는 단일 Snowflake 인스턴스에 대한 예제 속성입니다.

속성	값
`default`	`snowflake://jdbc:snowflake://snowflake1.host:port/?secret=Test/RDS/Snowflake1`

유출 파라미터

Lambda SDK는 데이터를 Amazon S3로 유출할 수 있습니다. 동일한 Lambda 함수에서 액세스하는 모든 데이터베이스 인스턴스는 동일한 위치로 유출됩니다.

파라미터	설명
`spill_bucket`	필수 사항입니다. 유출 버킷 이름.
`spill_prefix`	필수 사항입니다. 유출 버킷 키 접두사.
`spill_put_request_headers`	(선택 사항) 유출에 사용되는 Amazon S3 `putObject` 요청에 대한 요청 헤더 및 값의 JSON 인코딩 맵(예: `{"x-amz-server-side-encryption" : "AES256"}`). 다른 가능한 헤더를 알아보려면 Amazon Simple Storage Service API Reference(Amazon Simple Storage Service API 참조)의 PutObject를 참조하세요.

데이터 형식 지원

다음 표에 JDBC와 Apache Arrow의 해당 데이터 형식이 나와 있습니다.

JDBC	화살표
불	Bit
Integer	Tiny
Short	Smallint
Integer	정수
Long	Bigint
float	Float4
배정밀도 실수	Float8
날짜	DateDay
Timestamp	DateMilli
String	Varchar
바이트	Varbinary
BigDecimal	10진수
ARRAY	나열

데이터 형식 변환

JDBC에서 Arrow로의 변환 외에도 커넥터는 Snowflake 소스와 Athena 데이터 형식이 호환되도록 다른 특정 변환을 수행합니다. 이러한 변환은 쿼리가 성공적으로 실행되도록 하는 데 도움이 됩니다. 다음 표에 이러한 변환이 나와 있습니다.

소스 데이터 형식(Snowflake)	변환된 데이터 형식(Athena)
TIMESTAMP	TIMESTAMPMILLI
날짜	TIMESTAMPMILLI
INTEGER	INT
DECIMAL	BIGINT
TIMESTAMP_NTZ	TIMESTAMPMILLI

지원되지 않는 다른 모든 데이터 형식은 VARCHAR로 변환됩니다.

파티션 및 분할

파티션은 커넥터에 대한 분할을 생성하는 방법을 결정하는 데 사용됩니다. Athena는 커넥터가 분할을 생성하는 데 도움이 되도록 테이블에 대한 파티셔닝 체계를 나타내는 varchar 유형의 합성 열을 생성합니다. 커넥터는 실제 테이블 정의를 수정하지 않습니다.

이 합성 열과 파티션을 생성하려면 Athena에 프라이머리 키를 정의해야 합니다. 하지만 Snowflake는 프라이머리 키 제약 조건을 적용하지 않으므로 고유성을 직접 적용해야 합니다. 그렇지 않으면 Athena는 단일 분할을 기본값으로 설정하게 됩니다.

성능

최적의 성능을 위해 가능하면 쿼리에 필터를 사용합니다. 또한 파티션 배포가 균일한 방대한 데이터 세트를 검색하려면 기본 파티셔닝을 사용하는 것이 좋습니다. 열의 하위 집합을 선택하면 쿼리 런타임 속도를 높이고 스캔되는 데이터를 줄일 수 있습니다. Snowflake 커넥터는 동시성으로 인한 제한에 대한 복원력이 뛰어납니다.

Athena Snowflake 커넥터는 조건부 푸시다운을 수행하여 쿼리에서 스캔하는 데이터를 줄입니다. LIMIT 절, 간단한 조건자 및 복잡한 표현식을 커넥터로 푸시다운하여 스캔하는 데이터와 쿼리 실행 시간을 줄입니다.

LIMIT 절

LIMIT N 문은 쿼리로 스캔하는 데이터를 줄입니다. LIMIT N 푸시다운을 통해 커넥터는 Athena에 N개 행만 반환합니다.

Predicates

조건자는 부울 값으로 평가되고 여러 조건에 따라 행을 필터링하는 SQL 쿼리의 WHERE 절에 사용되는 표현식입니다. Athena Snowflake 커넥터는 이러한 표현식을 결합하고 Snowflake로 직접 푸시하여 기능을 개선하고 스캔하는 데이터를 줄일 수 있습니다.

다음 Athena Snowflake 커넥터 연산자는 조건자 푸시다운을 지원합니다.

부울: AND, OR, NOT
관계: EQUAL, NOT_EQUAL, LESS_THAN, LESS_THAN_OR_EQUAL, GREATER_THAN, GREATER_THAN_OR_EQUAL, IS_DISTINCT_FROM, NULL_IF, IS_NULL
산술: ADD, SUBTRACT, MULTIPLY, DIVIDE, MODULUS, NEGATE
기타: LIKE_PATTERN, IN

결합된 푸시다운 예제

쿼리 기능을 개선하기 위해 다음 예제와 같이 푸시다운 유형을 결합합니다.


SELECT * 
FROM my_table 
WHERE col_a > 10 
    AND ((col_a + col_b) > (col_c % col_d))
    AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%') 
LIMIT 10;

패스스루 쿼리

Snowflake 커넥터는 패스스루 쿼리를 지원합니다. 패스스루 쿼리는 테이블 함수를 사용하여 실행을 위해 전체 쿼리를 데이터 소스로 푸시다운합니다.

Snowflake에서 패스스루 쿼리를 사용하려면 다음 구문을 사용합니다.


SELECT * FROM TABLE(
        system.query(
            query => 'query string'
        ))

다음 예제 쿼리는 Snowflake의 데이터 소스로 쿼리를 푸시다운합니다. 쿼리는 customer 테이블의 모든 열을 선택하여 결과를 10개로 제한합니다.


SELECT * FROM TABLE(
        system.query(
            query => 'SELECT * FROM customer LIMIT 10'
        ))

라이선스 정보

이 커넥터를 사용하면 이 커넥터에 대한 pom.xml 파일에서 목록을 찾을 수 있는 타사 구성 요소가 포함되어 있음을 인정하고 GitHub.com의 LICENSE.txt 파일에 제공된 해당 타사 라이선스의 조건에 동의하는 것으로 간주됩니다.

추가 리소스

최신 JDBC 드라이버 버전 정보를 알아보려면 GitHub.com의 Snowflake 커넥터용 pom.xml 파일을 참조하세요.

이 커넥터에 대한 추가 정보를 알아보려면 GitHub.com의 해당 사이트를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

SAP HANA

SQL Server