Amazon Athena Teradata 커넥터 - Amazon Athena

Amazon Athena Teradata 커넥터

Teradata용 Amazon Athena 커넥터를 사용하면 Athena가 Teradata 데이터베이스에 저장된 데이터에 대해 SQL 쿼리를 실행할 수 있습니다.

필수 조건

제한 사항

  • DDL 쓰기 작업은 지원되지 않습니다.

  • 멀티플렉서 설정에서 유출 버킷과 접두사는 모든 데이터베이스 인스턴스에서 공유됩니다.

  • 모든 관련 Lambda 제한. 자세한 내용은 AWS Lambda 개발자 안내서에서 Lambda 할당량을 참조하십시오.

용어

다음 용어는 Teradata 커넥터와 관련이 있습니다.

  • 데이터베이스 인스턴스 - 온프레미스, Amazon EC2 또는 Amazon RDS에 배포된 데이터베이스의 모든 인스턴스.

  • 핸들러 - 데이터베이스 인스턴스에 액세스하는 Lambda 핸들러. 핸들러는 메타데이터 또는 데이터 레코드용일 수 있습니다.

  • 메타데이터 핸들러 - 데이터베이스 인스턴스에서 메타데이터를 검색하는 Lambda 핸들러.

  • 레코드 핸들러 - 데이터베이스 인스턴스에서 데이터 레코드를 검색하는 Lambda 핸들러.

  • 복합 핸들러 - 데이터베이스 인스턴스에서 메타데이터와 데이터 레코드를 모두 검색하는 Lambda 핸들러.

  • 속성 또는 파라미터 - 핸들러에서 데이터베이스 정보를 추출하는 데 사용되는 데이터베이스 속성. 이러한 속성을 Lambda 환경 변수로 구성합니다.

  • 연결 문자열 - 데이터베이스 인스턴스에 대한 연결을 설정하는 데 사용되는 텍스트 문자열.

  • 카탈로그 - connection_string 속성의 필수 접두사로서 Athena에 등록된 비 AWS Glue Glue 카탈로그.

  • 멀티플렉싱 핸들러 - 여러 데이터베이스 연결을 수락하고 사용할 수 있는 Lambda 핸들러.

Lambda 계층 필수 구성 요소

Athena와 함께 Teradata 커넥터를 사용하려면 Teradata JDBC 드라이버를 포함하는 Lambda 계층을 생성해야 합니다. Lambda 계층은 Lambda 함수에 관한 추가 코드를 포함하는 .zip 파일 아카이브입니다. 계정에 Teradata 커넥터를 배포할 때 계층의 ARN을 지정합니다. 이렇게 하면 Teradata JDBC 드라이버가 있는 Lambda 계층이 Teradata 커넥터에 첨부되므로 Athena와 함께 사용할 수 있습니다.

Lambda 계층에 대한 자세한 내용은 AWS Lambda 개발자 안내서Lambda 계층 만들기 및 공유를 참조하세요.

Teradata 커넥터용 Lambda 계층을 생성하려면
  1. Teradata JDBC 드라이버 다운로드 페이지(https://downloads.teradata.com/download/connectivity/jdbc-driver)로 이동합니다.

  2. Teradata JDBC 드라이버를 다운로드합니다. 웹 사이트에서 파일을 다운로드하려면 계정을 생성하고 라이선스 계약에 동의해야 합니다.

  3. 다운로드한 아카이브 파일에서 terajdbc4.jar 파일을 추출합니다.

  4. 다음 폴더 구조를 만들고 .jar 파일을 안에 배치합니다.

    java\lib\terajdbc4.jar

  5. terajdbc4.jar 파일이 포함된 전체 폴더 구조의 .zip 파일을 생성합니다.

  6. AWS Management Console에 로그인하고 https://console.aws.amazon.com/lambda/에서 AWS Lambda 콘솔을 엽니다.

  7. 탐색 창에서 계층(Layers)을 선택한 다음 계층 생성(Create layer)을 선택합니다.

  8. 이름(Name)에 계층의 이름을 입력합니다(예: TeradataJava11LambdaLayer).

  9. .zip 파일 업로드(Upload a .zip file) 옵션이 선택되어 있는지 확인하세요.

  10. 업로드(Upload)를 선택하여 Teradata JDBC 드라이버가 포함된 압축 폴더를 업로드합니다.

  11. 생성(Create)을 선택합니다.

  12. 계층의 세부 정보 페이지에서 페이지 상단의 클립보드 아이콘을 선택하여 계층 ARN을 복사합니다.

  13. 참조용으로 ARN을 저장합니다.

파라미터

이 섹션의 Lambda 환경 변수를 사용하여 Teradata 커넥터를 구성합니다.

연결 문자열

다음 형식의 JDBC 연결 문자열을 사용하여 데이터베이스 인스턴스에 연결합니다.

teradata://${jdbc_connection_string}

멀티플렉싱 핸들러 사용

멀티플렉서를 사용하여 단일 Lambda 함수로 여러 데이터베이스 인스턴스에 연결할 수 있습니다. 요청은 카탈로그 이름을 기준으로 라우팅됩니다. Lambda에서 다음 클래스를 사용합니다.

핸들러 Class
복합 핸들러 TeradataMuxCompositeHandler
메타데이터 핸들러 TeradataMuxMetadataHandler
레코드 핸들러 TeradataMuxRecordHandler

멀티플렉싱 핸들러 파라미터

파라미터 설명
$catalog_connection_string 필수 사항입니다. 데이터베이스 인스턴스 연결 문자열. Athena에서 사용되는 카탈로그의 이름을 환경 변수 앞에 붙입니다. 예를 들어, Athena에 등록된 카탈로그가 myteradatacatalog인 경우 환경 변수 이름은 myteradatacatalog_connection_string입니다.
default 필수 사항입니다. 기본 연결 문자열. 이 문자열은 카탈로그가 lambda:${AWS_LAMBDA_FUNCTION_NAME}일 때 사용됩니다.

다음은 teradata1(기본값)과 teradata2라는 2개의 데이터베이스 인스턴스를 지원하는 Teradata MUX Lambda 함수에 대한 예제 속성입니다.

속성
default teradata://jdbc:teradata://teradata2.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,user=sample2&password=sample2
teradata_catalog1_connection_string teradata://jdbc:teradata://teradata1.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,${Test/RDS/Teradata1}
teradata_catalog2_connection_string teradata://jdbc:teradata://teradata2.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,user=sample2&password=sample2

자격 증명 제공

JDBC 연결 문자열에서 데이터베이스의 사용자 이름과 암호를 제공하려면 연결 문자열 속성 또는 AWS Secrets Manager를 사용합니다.

  • 연결 문자열 - 사용자 이름과 암호를 JDBC 연결 문자열에 속성으로 지정할 수 있습니다.

    중요

    보안 모범 사례로, 환경 변수 또는 연결 문자열에서 하드 코딩된 보안 인증은 사용하지 않습니다. 하드 코딩된 보안 암호를 AWS Secrets Manager로 이동하는 방법에 대한 자세한 내용은 AWS Secrets Manager 사용 설명서하드 코딩된 보안 암호를 AWS Secrets Manager로 이동을 참조하세요.

  • AWS Secrets Manager - AWS Secrets Manager에서 Athena 연합 쿼리 기능을 사용하려면 Secrets Manager 연결을 위한 VPC 엔드포인트 또는 인터넷 액세스가 Lambda 함수에 연결된 VPC에 있어야 합니다.

    JDBC 연결 문자열에 AWS Secrets Manager의 보안 암호 이름을 입력할 수 있습니다. 커넥터는 암호 이름을 Secrets Manager의 usernamepassword 값으로 바꿉니다.

    Amazon RDS 데이터베이스 인스턴스의 경우 이 지원은 긴밀하게 통합됩니다. Amazon RDS를 사용하는 경우 AWS Secrets Manager 및 자격 증명 교체를 사용하는 것이 좋습니다. 데이터베이스에서 Amazon RDS를 사용하지 않는 경우 자격 증명을 다음 형식의 JSON으로 저장합니다.

    {"username": "${username}", "password": "${password}"}
보안 암호 이름이 있는 연결 문자열의 예제

다음 문자열의 보안 암호 이름은 ${Test/RDS/Teradata1}입니다.

teradata://jdbc:teradata1.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,${Test/RDS/Teradata1}&...

커넥터는 다음 예제와 같이 보안 암호 이름을 사용하여 보안 암호를 검색하고 사용자 이름과 암호를 제공합니다.

teradata://jdbc:teradata://teradata1.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,...&user=sample2&password=sample2&...

현재 Teradata는 userpassword JDBC 속성을 인식합니다. 또한 user 또는 password 키 없이 username/password 형식의 사용자 이름과 암호를 허용합니다.

단일 연결 핸들러 사용

다음과 같은 단일 연결 메타데이터 및 레코드 핸들러를 사용하여 단일 Teradata 인스턴스에 연결할 수 있습니다.

핸들러 유형 Class
복합 핸들러 TeradataCompositeHandler
메타데이터 핸들러 TeradataMetadataHandler
레코드 핸들러 TeradataRecordHandler

단일 연결 핸들러 파라미터

파라미터 설명
default 필수 사항입니다. 기본 연결 문자열.

단일 연결 핸들러는 하나의 데이터베이스 인스턴스를 지원하며 default 연결 문자열 파라미터를 제공해야 합니다. 다른 연결 문자열은 모두 무시됩니다.

다음은 Lambda 함수에서 지원하는 단일 Teradata 인스턴스에 대한 예제 속성입니다.

속성
default teradata://jdbc:teradata://teradata1.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,secret=Test/RDS/Teradata1

유출 파라미터

Lambda SDK는 데이터를 Amazon S3로 유출할 수 있습니다. 동일한 Lambda 함수에서 액세스하는 모든 데이터베이스 인스턴스는 동일한 위치로 유출됩니다.

파라미터 설명
spill_bucket 필수 사항입니다. 유출 버킷 이름.
spill_prefix 필수 사항입니다. 유출 버킷 키 접두사.
spill_put_request_headers (선택 사항) 유출에 사용되는 Amazon S3 putObject 요청에 대한 요청 헤더 및 값의 JSON 인코딩 맵(예: {"x-amz-server-side-encryption" : "AES256"}). 다른 가능한 헤더를 알아보려면 Amazon Simple Storage Service API Reference(Amazon Simple Storage Service API 참조)의 PutObject를 참조하세요.

데이터 형식 지원

다음 표에 JDBC와 Apache Arrow의 해당 데이터 형식이 나와 있습니다.

JDBC 화살표
Bit
Integer Tiny
Short Smallint
Integer 정수
Long Bigint
float Float4
Double Float8
날짜 DateDay
Timestamp DateMilli
String Varchar
바이트 Varbinary
BigDecimal 10진수
ARRAY 나열

파티션 및 분할

파티션은 Integer 형식의 단일 파티션 열로 표시됩니다. 열에는 Teradata 테이블에 정의된 파티션의 이름이 들어 있습니다. 파티션 이름이 없는 테이블의 경우 단일 파티션에 해당하는 *가 반환됩니다. 파티션은 분할과 동일합니다.

명칭 유형 설명
파티션 Integer Teradata의 명명된 파티션.

성능

Teradata는 기본 파티션을 지원합니다. Athena Teradata 커넥터는 이러한 파티션에서 병렬로 데이터를 검색할 수 있습니다. 파티션 배포가 균일한 초대규모 데이터 세트를 쿼리하려면 기본 파티셔닝을 사용하는 것이 좋습니다. 열 하위 집합을 선택하면 쿼리 런타임이 크게 느려집니다. 이 커넥터는 동시성으로 인해 약간의 제한을 나타냅니다.

쿼리에서 스캔하는 데이터를 줄이기 위해 Athena Teradata 커넥터에서 조건자 푸시다운을 수행합니다. 스캔하는 데이터와 쿼리 실행 시간을 줄이도록 간단한 조건자와 복잡한 표현식을 커넥터로 푸시다운합니다.

Predicates

조건자는 부울 값으로 평가되고 여러 조건에 따라 행을 필터링하는 SQL 쿼리의 WHERE 절에 사용되는 표현식입니다. Athena Teradata 커넥터는 이러한 표현식을 결합하고 Teradata로 직접 푸시하여 기능을 개선하고 스캔하는 데이터를 줄일 수 있습니다.

다음 Athena Teradata 커넥터 연산자는 조건자 푸시다운을 지원합니다.

  • 부울: AND, OR, NOT

  • 관계: EQUAL, NOT_EQUAL, LESS_THAN, LESS_THAN_OR_EQUAL, GREATER_THAN, GREATER_THAN_OR_EQUAL, NULL_IF, IS_NULL

  • 산술: ADD, SUBTRACT, MULTIPLY, DIVIDE, MODULUS, NEGATE

  • 기타: LIKE_PATTERN, IN

결합된 푸시다운 예제

쿼리 기능을 개선하기 위해 다음 예제와 같이 푸시다운 유형을 결합합니다.

SELECT * FROM my_table WHERE col_a > 10 AND ((col_a + col_b) > (col_c % col_d)) AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%');

패스스루 쿼리

Teradata 커넥터는 패스스루 쿼리를 지원합니다. 패스스루 쿼리는 테이블 함수를 사용하여 실행을 위해 전체 쿼리를 데이터 소스로 푸시다운합니다.

Teradata에서 패스스루 쿼리를 사용하려면 다음 구문을 사용합니다.

SELECT * FROM TABLE( system.query( query => 'query string' ))

다음 예제 쿼리는 Teradata의 데이터 소스로 쿼리를 푸시다운합니다. 쿼리는 customer 테이블의 모든 열을 선택하여 결과를 10개로 제한합니다.

SELECT * FROM TABLE( system.query( query => 'SELECT * FROM customer LIMIT 10' ))

라이선스 정보

이 커넥터를 사용하면 이 커넥터에 대한 pom.xml 파일에서 목록을 찾을 수 있는 타사 구성 요소가 포함되어 있음을 인정하고 GitHub.com의 LICENSE.txt 파일에 제공된 해당 타사 라이선스의 조건에 동의하는 것으로 간주됩니다.

추가적인 리소스

최신 JDBC 드라이버 버전 정보를 알아보려면 GitHub.com의 Teradata 커넥터용 pom.xml 파일을 참조하세요.

이 커넥터에 대한 추가 정보를 알아보려면 GitHub.com의 해당 사이트를 참조하세요.