Amazon S3를 AWS DMS 소스로 사용 - AWS Database Migration Service

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon S3를 AWS DMS 소스로 사용

AWS DMS를 사용하여 Amazon S3 버킷에서 데이터를 마이그레이션할 수 있습니다. 이렇게 하려면 하나 이상의 데이터 파일을 포함하는 Amazon S3 버킷에 액세스합니다. 해당 S3 버킷에서, 데이터와 데이터의 데이터베이스 테이블 간 매핑을 설명하는 JSON 파일을 이러한 파일 안에 포함합니다.

전체 로드가 시작되기 전에 Amazon S3 버킷에 소스 데이터 파일이 있어야 합니다. bucketName 파라미터를 사용하여 버킷 이름을 지정합니다.

소스 데이터 파일은 쉼표로 구분된 값(.csv) 형식이어야 합니다. 다음과 같은 명명 규칙을 사용하여 이름을 지정합니다. 이 규칙에서 schemaName은 원본 스키마이고 tableName은 해당 스키마 내 테이블 이름입니다.

/schemaName/tableName/LOAD001.csv /schemaName/tableName/LOAD002.csv /schemaName/tableName/LOAD003.csv ...

예를 들면 다음 Amazon S3 경로에서 mybucket에 데이터 파일이 있다고 가정합니다.

s3://mybucket/hr/employee

로드 시, AWS DMS는 원본 스키마 이름이 hr이고 원본 테이블 이름이 employee라고 가정합니다.

bucketName(필수) 외에도, 원할 경우 bucketFolder 파라미터를 제공하여 AWS DMS가 Amazon S3 버킷에서 데이터 파일을 찾을 위치를 지정할 수 있습니다. 이전 예제에 이어 bucketFoldersourcedata로 설정하는 경우, AWS DMS는 다음 경로에서 데이터 파일을 읽습니다.

s3://mybucket/sourcedata/hr/employee

추가 연결 속성을 사용하여 열 구분 기호, 행 구분 기호, null 값 지표 등 여러 파라미터를 지정할 수 있습니다. 자세한 내용은 Amazon S3를 AWS DMS 소스로 사용 시 엔드포인트 설정 섹션을 참조하세요.

다음과 같이 ExpectedBucketOwner Amazon S3 엔드포인트 설정을 사용하여 버킷 소유자를 지정하고 스나이핑을 방지할 수 있습니다. 그런 다음, 연결을 테스트하거나 마이그레이션을 수행하도록 요청하면 S3는 지정된 파라미터와 비교하여 버킷 소유자의 계정 ID를 확인합니다.

--s3-settings='{"ExpectedBucketOwner": "AWS_Account_ID"}'

AWS DMS 소스로 사용되는 Amazon S3 외부 테이블 정의

데이터 파일 외에, 외부 테이블 정의도 제공해야 합니다. 외부 테이블 정의는 AWS DMS가 Amazon S3에서 데이터를 해석하는 방식을 설명하는 JSON 문서입니다. 이 문서의 최대 크기는 2 MB입니다. AWS DMS 관리 콘솔을 사용하여 소스 엔드포인트를 생성할 경우, JSON을 테이블 매핑 상자에 직접 입력할 수 있습니다. AWS Command Line Interface(AWS CLI) 또는 AWS DMS API를 사용하여 마이그레이션을 수행할 경우 JSON 파일을 생성하여 외부 테이블 정의할 수 있습니다.

다음을 포함하는 데이터 파일이 있다고 가정해 보겠습니다.

101,Smith,Bob,2014-06-04,New York 102,Smith,Bob,2015-10-08,Los Angeles 103,Smith,Bob,2017-03-13,Dallas 104,Smith,Bob,2017-03-13,Dallas

다음은 이 데이터에 대한 외부 테이블 정의 예제입니다.

{ "TableCount": "1", "Tables": [ { "TableName": "employee", "TablePath": "hr/employee/", "TableOwner": "hr", "TableColumns": [ { "ColumnName": "Id", "ColumnType": "INT8", "ColumnNullable": "false", "ColumnIsPk": "true" }, { "ColumnName": "LastName", "ColumnType": "STRING", "ColumnLength": "20" }, { "ColumnName": "FirstName", "ColumnType": "STRING", "ColumnLength": "30" }, { "ColumnName": "HireDate", "ColumnType": "DATETIME" }, { "ColumnName": "OfficeLocation", "ColumnType": "STRING", "ColumnLength": "20" } ], "TableColumnsTotal": "5" } ] }

이 JSON 문서의 요소는 다음과 같습니다.

TableCount - 소스 테이블 수. 이 예제에는 테이블이 하나뿐입니다.

Tables - 소스 테이블당 하나의 JSON 맵으로 구성된 배열. 이 예제에는 맵이 하나뿐입니다. 각 맵은 다음 요소로 구성됩니다.

  • TableName - 소스 테이블의 이름.

  • TablePath - AWS DMS가 전체 데이터 로드 파일을 찾을 수 있는 Amazon S3 버킷의 경로. bucketFolder 값이 지정된 경우, 해당 값이 경로에 추가됩니다.

  • TableOwner - 이 테이블의 스키마 이름.

  • TableColumns - 하나 이상의 맵으로 이루어진 배열. 각 맵은 소스 테이블의 열을 설명합니다.

    • ColumnName – 소스 테이블의 열 이름.

    • ColumnType - 열의 데이터 형식. 유효한 데이터 형식은 Amazon S3의 소스 데이터 형식 섹션을 참조하십시오.

    • ColumnLength - 이 열의 바이트 수. S3 소스가 전체 LOB 모드를 지원하지 않으므로 최대 열 길이는 2,147,483,647바이트(2,047메가바이트)로 제한됩니다. ColumnLength가 유효한 데이터 형식은 다음과 같습니다.

      • BYTE

      • STRING

    • ColumnNullable - 이 열에 NULL 값을 포함할 수 있는 경우 true인 불 값(기본값=false).

    • ColumnIsPk - 이 열이 프라이머리 키의 일부인 경우 true인 불 값(기본값=false).

    • ColumnDateFormat - DATE, TIME, DATETIME 형식이 있는 열의 입력 날짜 형식으로, 데이터 문자열을 날짜 객체로 파싱하는 데 사용됩니다. 가능한 값은 다음과 같습니다.

      - YYYY-MM-dd HH:mm:ss - YYYY-MM-dd HH:mm:ss.F - YYYY/MM/dd HH:mm:ss - YYYY/MM/dd HH:mm:ss.F - MM/dd/YYYY HH:mm:ss - MM/dd/YYYY HH:mm:ss.F - YYYYMMdd HH:mm:ss - YYYYMMdd HH:mm:ss.F
  • TableColumnsTotal - 총 열 수. 이 숫자는 TableColumns 배열의 요소 수와 일치해야 합니다.

별도로 지정하지 않는 경우 AWS DMS에서는 ColumnLength가 0이라고 가정합니다.

참고

지원되는 AWS DMS 버전에서는 S3 소스 데이터에 선택적 작업 열이 TableName 열 값 앞에 첫 번째 열로 포함될 수 있습니다. 이 작업 열은 전체 로드 중에 데이터를 S3 대상 엔드포인트로 마이그레이션하는 데 사용되는 작업(INSERT)을 식별합니다.

있는 경우 이 열의 값은 INSERT 작업 키워드(I)의 초기 문자열입니다. 지정된 경우 일반적으로 이 열은 이전 마이그레이션 중에 DMS에서 S3 대상으로 생성한 S3 소스입니다.

3.4.2 이전 DMS 버전에서 이 열은 이전 DMS 전체 로드에서 생성한 S3 소스 데이터에 없었습니다. S3 대상 데이터에 열을 추가하면 모든 행이 데이터의 전체 로드 중에 기록되는지 또는 CDC 로드 중에 기록되는지와 상관없이 S3 대상에 기록된 모든 행의 형식을 일관적으로 유지할 수 있습니다 S3 대상 데이터 서식 지정에 대한 자세한 내용은 마이그레이션된 S3 데이터에 소스 DB 작업 표시 단원을 참조하십시오

NUMERIC 유형 열의 경우, 정밀도와 배율을 지정합니다. 정밀도는 숫자의 총 자릿수이며, 배율은 소수점 오른쪽의 자릿수입니다. 다음과 같이, 이를 위해 ColumnPrecisionColumnScale 요소를 사용할 수 있습니다.

... { "ColumnName": "HourlyRate", "ColumnType": "NUMERIC", "ColumnPrecision": "5" "ColumnScale": "2" } ...

소수점 이하 초가 포함된 데이터가 있는 DATETIME 유형 열의 경우, 스케일을 지정합니다. 스케일은 소수점 이하 초의 자릿수이며, 범위는 0에서 9까지입니다. 다음과 같이 이를 위해 ColumnScale 요소를 사용할 수 있습니다.

... { "ColumnName": "HireDate", "ColumnType": "DATETIME", "ColumnScale": "3" } ...

달리 지정하지 않으면 AWS DMS는 ColumnScale이 0이라고 가정하고 소수점 이하 초를 잘라냅니다.

AWS DMS 소스로 사용되는 Amazon S3에서 CDC 사용

AWS DMS에서 전체 데이터 로드를 수행한 후에는 선택적으로 데이터 변경 내용을 대상 엔드포인트로 복제할 수 있습니다. 이 작업을 수행하려면 변경 데이터 캡처 파일(CDC 파일)을 Amazon S3 버킷에 업로드할 수 있습니다. CDC 파일을 업로드할 경우, AWS DMS는 이러한 CDC 파일을 읽고 나서 대상 엔드포인트에서 변경 내용을 적용합니다.

CDC 파일은 다음과 같이 지정됩니다.

CDC00001.csv CDC00002.csv CDC00003.csv ...
참고

변경 데이터 폴더에서 CDC 파일을 복제하려면 어휘(순차적) 순으로 CDC 파일을 성공적으로 업로드합니다. 예를 들어 CDC00002.csv 파일을 CDC00003.csv 파일 앞에 업로드합니다. 그렇지 않으면 CDC00002.csv를 건너뛰고 CDC00003.csv 이후에 로드해도 CDC00002.csv가 복제되지 않습니다. CDC00003.csv 이후에 CDC00004.csv를 로드하면 CDC00004.csv가 성공적으로 복제됩니다.

AWS DMS가 파일을 찾을 수 있는 위치를 나타내려면 cdcPath 파라미터를 지정하세요. 이전 예제를 계속하여, cdcPathchangedata로 설정하는 경우 AWS DMS는 다음 경로에서 CDC 파일을 읽습니다.

s3://mybucket/changedata

cdcPathchangedata로, bucketFoldermyFolder로 설정하면 AWS DMS는 다음 경로에서 CDC 파일을 읽습니다.

s3://mybucket/myFolder/changedata

다음과 같이 CDC 파일의 레코드에는 형식 지정되어 있습니다.

  • 작업 - INSERT 또는 I, UPDATE 또는 U, DELETE 또는 D와 같은 수행할 변경 작업. 이러한 키워드 및 문자 값은 대소문자를 구분합니다.

    참고

    지원되는 AWS DMS 버전에서 AWS DMS는 각 로드 레코드에 수행할 작업을 두 가지 방법으로 식별할 수 있습니다. AWS DMS는 레코드의 키워드 값(예: INSERT) 또는 키워드 첫 문자(예: I)로 수행할 작업을 식별할 수 있습니다. 이전 버전에서는 AWS DMS가 전체 키워드 값에서만 로드 작업을 인식했습니다.

    이전 버전의 AWS DMS에서는 CDC 데이터를 로깅하기 위해 전체 키워드 값이 기록되었습니다. 또한 이전 버전에서는 키워드 첫 문자만 사용하여 작업 값을 S3 대상에 기록했습니다.

    두 가지 형식을 모두 인식하면 S3 소스 데이터를 생성하기 위해 작업 열이 기록되는 방식과 상관없이 AWS DMS가 작업을 처리할 수 있습니다. 이 접근 방식은 이후 마이그레이션에 대한 소스로 S3 대상 데이터 사용을 지원합니다. 이 접근 방식을 사용하면 이후 S3 소스의 작업 열에 나타나는 키워드 초기 값의 형식을 변경할 필요가 없습니다.

  • 테이블 이름 - 소스 테이블의 이름.

  • 스키마 이름 - 소스 스키마의 이름.

  • 데이터 - 변경할 데이터를 나타내는 하나 이상의 열.

다음은 employee 이름의 테이블에 대한 예제 CDC 파일입니다.

INSERT,employee,hr,101,Smith,Bob,2014-06-04,New York UPDATE,employee,hr,101,Smith,Bob,2015-10-08,Los Angeles UPDATE,employee,hr,101,Smith,Bob,2017-03-13,Dallas DELETE,employee,hr,101,Smith,Bob,2017-03-13,Dallas

Amazon S3를 AWS DMS 소스로 사용 시 사전 요구 사항

Amazon S3를 AWS DMS 소스로 사용하려면 데이터를 마이그레이션하는 DMS 복제 인스턴스와 동일한 AWS 리전에 소스 S3 버킷이 있어야 합니다. 또한, 마이그레이션에 사용하는 AWS 계정에 소스 버킷에 대한 읽기 액세스 권한이 있어야 합니다.

마이그레이션 작업을 생성하는 데 사용되는 사용자 계정에 할당된 AWS Identity and Access Management(IAM) 역할에는 다음 권한 집합이 있어야 합니다.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::mybucket*/*" ] }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::mybucket*" ] } ] }

Amazon S3 버킷에 버전 관리가 활성화된 경우, 마이그레이션 작업을 생성하는 데 사용되는 사용자 계정에 할당된 AWS Identity and Access Management(IAM) 역할에는 다음 권한 집합이 있어야 합니다.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "S3:GetObjectVersion" ], "Resource": [ "arn:aws:s3:::mybucket*/*" ] }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::mybucket*" ] } ] }

Amazon S3를 AWS DMS 소스로 사용 시 제한 사항

Amazon S3를 소스로 사용할 때 적용되는 제한 사항은 다음과 같습니다.

  • S3의 버전 관리를 활성화하지 마세요. S3 버전 관리가 필요한 경우, 수명 주기 정책을 사용하여 이전 버전을 적극적으로 삭제하세요. 그렇지 않으면 S3 list-object 직접 호출 시간 초과로 인해 엔드포인트 테스트 연결 실패가 발생할 수 있습니다. S3 버킷의 수명 주기 정책을 생성하려면 스토리지 수명 주기 관리를 참조하세요. S3 객체의 버전을 삭제하려면 버전 관리 활성화 버킷에서 객체 버전 삭제를 참조하세요.

  • VPC 지원(게이트웨이 VPC) S3 버킷은 버전 3.4.7 이상 버전에서 지원됩니다.

Amazon S3를 AWS DMS 소스로 사용 시 엔드포인트 설정

추가 연결 속성을 사용하는 것과 비슷하게 엔드포인트 설정을 사용하여 Amazon S3 소스 데이터베이스를 구성할 수 있습니다. AWS DMS 콘솔을 사용하거나 AWS CLI에서 create-endpoint 명령을 --s3-settings '{"EndpointSetting": "value", ...}' JSON 구문과 함께 사용하여 소스 엔드포인트를 생성할 때 설정을 지정합니다.

Amazon S3를 소스로 하여 사용할 수 있는 엔드포인트 설정이 다음 표에 나와 있습니다.

옵션 설명
BucketFolder

(선택 사항) S3 버킷의 폴더 이름. 이 속성이 지정된 경우, 소스 데이터 파일과 CDC 파일을 경로 s3://myBucket/bucketFolder/schemaName/tableName/s3://myBucket/bucketFolder/에서 각각 읽습니다. 이 속성이 지정되지 않은 경우, 사용되는 경로는 schemaName/tableName/입니다.

'{"BucketFolder": "sourceData"}'

BucketName

S3 버킷의 이름.

'{"BucketName": "myBucket"}'

CdcPath CDC 파일의 위치. 작업에서 변경 데이터를 캡처하는 경우에는 이 속성이 필수이며, 그렇지 않은 경우에는 선택 사항입니다. CdcPath가 있는 경우, AWS DMS는 이 경로에서 CDC 파일을 읽고 데이터 변경 사항을 대상 엔드포인트로 복제합니다. 자세한 내용은 AWS DMS 소스로 사용되는 Amazon S3에서 CDC 사용 섹션을 참조하세요.

'{"CdcPath": "changeData"}'

CsvDelimiter

원본 파일에서 열을 구분하는 데 사용되는 구분 기호입니다. 기본값은 쉼표입니다. 예를 들면 다음과 같습니다.

'{"CsvDelimiter": ","}'

CsvNullValue

소스에서 읽을 때 AWS DMS가 null로 취급하는 사용자 정의 문자열입니다. 기본값은 빈 문자열입니다. 이 파라미터를 설정하지 않으면 AWS DMS는 빈 문자열을 null 값으로 취급합니다. 이 파라미터를 “\N”과 같은 문자열로 설정하면 AWS DMS는 이 문자열을 null 값으로 취급하고, 빈 문자열은 빈 문자열 값으로 취급합니다.

CsvRowDelimiter

원본 파일에서 행을 구분하는 데 사용되는 구분 기호입니다. 기본값은 줄 바꿈(\n)입니다.

'{"CsvRowDelimiter": "\n"}'

IgnoreHeaderRows

이 값을 1로 설정하면 AWS DMS는 .csv 파일의 첫 행 헤더를 무시합니다. 1 값은 이 기능을 활성화하고, 0 값은 비활성화합니다.

기본값은 0입니다.

'{"IgnoreHeaderRows": 1}'

Rfc4180

이 값을 true 또는 y로 설정하면 여는 큰따옴표 뒤에 닫는 큰따옴표가 와야 합니다. 이 형식은 RFC 4180을 준수합니다. 이 값을 false 또는 n으로 설정하면 문자열 리터럴이 그대로 대상에 복사됩니다. 이 경우 구분 기호(행 또는 열)는 필드의 끝을 알립니다. 이렇게 구분 기호는 값의 끝을 알리는 것이므로 문자열의 일부로 사용할 수 없습니다.

기본값은 true입니다.

유효한 값: true, false, y, n

'{"Rfc4180": false}'

Amazon S3의 소스 데이터 형식

Amazon S3를 AWS DMS 소스로 사용하는 데이터 마이그레이션은 Amazon S3의 데이터를 AWS DMS 데이터 형식에 매핑해야 합니다. 자세한 내용은 AWS DMS 소스로 사용되는 Amazon S3 외부 테이블 정의 섹션을 참조하세요.

대상에서 매핑된 데이터 형식을 확인하는 방법에 대한 정보는 사용 중인 대상 엔드포인트에 대한 섹션을 참조하십시오.

AWS DMS 데이터 형식에 대한 추가 정보는 AWS Database Migration Service에서 사용되는 데이터 형식 단원을 참조하십시오.

다음 AWS DMS 데이터 형식은 Amazon S3에서 소스로 사용됩니다.