메뉴
Amazon Relational Database Service
사용 설명서 (API Version 2014-10-31)

Amazon S3 버킷의 텍스트 파일에서 DB 클러스터로 데이터 로드

LOAD DATA FROM S3 또는 LOAD XML FROM S3 문을 사용하여 Amazon S3 버킷에 저장된 파일에서 데이터를 로드할 수 있습니다.

참고

Amazon Aurora 버전 1.8 이상에서 Amazon S3 버킷에서는 데이터를 텍스트 파일에서 테이블로 로드할 수 있습니다. Aurora 버전에 대한 자세한 내용은 Amazon Aurora 데이터베이스 엔진 업데이트 단원을 참조하십시오.

Aurora에 Amazon S3 액세스 권한 부여

Amazon S3 버킷에서 데이터를 로드하기 전에 Aurora DB 클러스터에 Amazon S3에 액세스할 권한을 부여해야 합니다. 권한을 부여하려면 필요한 권한이 있는 AWS Identity and Access Management(IAM) 역할을 만든 다음 해당 역할을 DB 클러스터와 연결합니다. 또한 Amazon S3로의 아웃바운드 연결을 허용하도록 Aurora DB 클러스터를 구성해야 합니다. 사용자를 대신하여 Aurora DB 클러스터가 Amazon S3와 통신하도록 허용하는 방법에 대한 자세한 내용 및 지침은 사용자를 대신하여 다른 AWS 서비스에 액세스하도록 Amazon Aurora에 권한 부여 단원을 참조하십시오.

참고

aurora_load_from_s3_role 또는 aws_default_s3_role DB 클러스터 파라미터를 새 IAM 역할의 Amazon 리소스 이름(ARN)으로 설정해야 합니다. aurora_load_from_s3_role에 대해 지정된 IAM 역할이 없는 경우 aws_default_s3_role에 지정된 IAM 역할이 사용됩니다.

DB 클러스터 파라미터에 대한 자세한 내용은 DB 클러스터와 DB 인스턴스 파라미터 섹션을 참조하십시오.

Aurora에서 데이터 로드 권한 부여

LOAD DATA FROM S3 또는 LOAD XML FROM S3 문을 실행하는 데이터베이스 사용자에게는 문을 실행할 수 있도록 LOAD FROM S3 권한이 부여되어야 합니다. DB 클러스터의 마스터 사용자 이름에는 LOAD FROM S3 권한이 기본적으로 부여됩니다. 다음 문을 사용하여 다른 사용자에게 권한을 부여할 수 있습니다.

Copy
GRANT LOAD FROM S3 ON *.* TO user@domain-or-ip-address

LOAD FROM S3 권한은 Amazon Aurora에만 적용되며 MySQL 데이터베이스 또는 RDS MySQL DB 인스턴스에서는 사용할 수 없습니다. 복제 마스터인 Aurora DB 클러스터와 복제 클라이언트인 MySQL 데이터베이스 간에 복제를 설정한 경우, GRANT LOAD FROM S3 문으로 인해 오류가 생겨 복제가 중단됩니다. 오류를 건너뛰고 복제를 계속 진행하셔도 됩니다. RDS MySQL DB 인스턴스에서 오류를 건너뛰려면 mysql.rds_skip_repl_error 문을 사용합니다. 외부 MySQL 데이터베이스에서 오류를 건너뛰려면 SET GLOBAL sql_slave_skip_counter 문을 사용합니다.

Amazon S3 버킷의 경로 지정

Amazon S3 버킷에 저장된 파일의 경로를 지정하는 구문은 다음과 같습니다.

Copy
s3-region://bucket-name/file-name-or-prefix

경로에는 다음 값이 포함됩니다.

  • region(선택 사항) – 로드할 Amazon S3 버킷이 포함된 AWS 리전입니다. 이 값은 선택 사항입니다. region 값을 지정하지 않으면 Aurora는 DB 클러스터와 동일한 리전에 있는 Amazon S3에서 파일을 로드합니다.

  • bucket-name – 로드할 데이터가 포함된 Amazon S3 버킷의 이름입니다. 가상 폴더 경로를 식별하는 객체 접두사가 지원됩니다.

  • file-name-or-prefix – Amazon S3 텍스트 파일 또는 XML 파일의 이름, 또는 로드할 하나 이상의 테스트 또는 XML 파일을 식별하는 접두사입니다. 로드할 하나 이상의 텍스트 파일을 식별하는 매니페스트 파일을 지정할 수도 있습니다. Amazon S3에서 텍스트 파일을 로드하기 위해 매니페스트 파일을 사용하는 방법에 대한 자세한 내용은 매니페스트 파일을 이용해 로드할 데이터 파일 지정 섹션을 참조하십시오.

S3에서 데이터 로드

LOAD DATA FROM S3 문을 사용하여 쉼표로 구분되는 텍스트 데이터와 같이 MySQL LOAD DATA INFILE 문에서 지원하는 모든 텍스트 파일 형식의 데이터를 로드할 수 있습니다. 압축 파일은 지원되지 않습니다.

구문

Copy
LOAD DATA FROM S3 [FILE | PREFIX | MANIFEST] 'S3-URI' [REPLACE | IGNORE] INTO TABLE tbl_name [PARTITION (partition_name,...)] [CHARACTER SET charset_name] [{FIELDS | COLUMNS} [TERMINATED BY 'string'] [[OPTIONALLY] ENCLOSED BY 'char'] [ESCAPED BY 'char'] ] [LINES [STARTING BY 'string'] [TERMINATED BY 'string'] ] [IGNORE number {LINES | ROWS}] [(col_name_or_user_var,...)] [SET col_name = expr,...]

파라미터

다음은 LOAD DATA FROM S3 문에서 사용되는 필수 파라미터 및 선택 파라미터의 목록입니다. MySQL 문서의 LOAD DATA INFILE Syntax 단원에서 이러한 파라미터에 대한 자세한 내용을 볼 수 있습니다.

  • FILE | PREFIX | MANIFEST – 단일 파일에서 데이터를 로드할지, 지정된 접두사와 일치하는 모든 파일에서 데이터를 로드할지, 지정된 메니페스트의 모든 파일에서 데이터를 로드할지를 식별합니다. 기본값은 FILE입니다.

  • S3-URI – 로드할 텍스트나 메니페스트 파일의 URI를 지정하거나 사용할 Amazon S3 접두사를 지정합니다. Amazon S3 버킷의 경로 지정에서 설명하는 구문을 사용하여 URI를 지정합니다.

  • REPLACE | IGNORE – 입력 행이 데이터베이스 테이블의 기존 행과 고유 키 값이 동일한 경우 수행할 작업을 결정합니다.

    • 입력 행이 테이블의 기존 행을 대체하도록 하려면 REPLACE를 지정합니다.

    • 입력 행을 무시하려면 IGNORE를 지정합니다. 기본값은 IGNORE입니다.

  • INTO TABLE – 입력 행을 로드할 데이터베이스 테이블의 이름을 식별합니다.

  • PARTITION – 모든 입력 행을 쉼표로 구분된 지정된 파티션 이름 목록으로 식별되는 파티션으로 삽입해야 합니다. 입력 행을 지정된 파티션에 삽입할 수 없는 경우 문이 실패하며 오류가 반환됩니다.

  • CHARACTER SET – 입력 파일의 데이터 문자 세트를 식별합니다.

  • FIELDS | COLUMNS – 입력 파일의 필드 또는 열을 구분하는 방법을 식별합니다. 필드는 기본적으로 탭으로 구분됩니다.

  • LINES – 입력 파일의 줄을 구분하는 방법을 식별합니다. 줄은 기본적으로 캐리지 리턴으로 구분됩니다.

  • IGNORE number LINES | ROWS – 입력 파일의 시작 부분에서 특정 줄 또는 행 수를 무시하도록 지정합니다. 예를 들어, IGNORE 1 LINES를 사용하여 열 이름이 포함된 첫 헤더 줄을 건너뛰거나 IGNORE 2 ROWS를 사용하여 입력 파일의 첫 두 데이터 행을 건너뛸 수 있습니다.

  • col_name_or_user_var, ... – 로드할 열을 이름을 기준으로 식별하는 사용자 변수 목록 또는 쉼표로 구분된 하나 이상의 열 이름 목록을 지정합니다. 이 목적에 사용되는 사용자 변수의 이름은 @로 시작하는 텍스트 파일의 요소 이름과 일치해야 합니다. 사용자 변수를 사용하여 추후 재사용을 위해 해당 필드 값을 저장할 수 있습니다.

    예를 들어, 다음 문은 입력 파일의 첫 번째 열을 table1의 첫 번째 열로 로드하고, table1에 있는 table_column2 열의 값을 100으로 나눈 두 번째 열의 입력 값으로 설정합니다.

    Copy
    LOAD DATA FROM S3 's3://mybucket/data.txt' INTO TABLE table1 (column1, @var1) SET table_column2 = @var1/100;
  • SET – 테이블의 열 값을 입력 파일에 포함되지 않은 값으로 설정하는 쉼표로 구분된 할당 작업 목록을 지정합니다.

    예를 들어, 다음 문은 table1의 첫 두 열을 입력 파일의 첫 두 열의 값으로 설정한 다음, table1에 있는 column3의 값을 현재 타임스탬프로 설정합니다.

    Copy
    LOAD DATA FROM S3 's3://mybucket/data.txt' INTO TABLE table1 (column1, column2) SET column3 = CURRENT_TIMESTAMP;

    SET 할당의 오른쪽에서 하위 쿼리를 사용할 수 있습니다. 열에 할당될 값을 반환하는 하위 쿼리의 경우, 스칼라 하위 쿼리만 사용할 수 있습니다. 또한 로드 중인 테이블에서 선택할 때는 하위 쿼리를 사용할 수 없습니다.

Amazon S3 버킷에서 데이터를 로드 중인 경우 LOAD DATA FROM S3 문의 LOCAL 키워드를 사용할 수 없습니다.

매니페스트 파일을 이용해 로드할 데이터 파일 지정

LOAD DATA FROM S3 문과 MANIFEST 키워드를 사용하여 DB 클러스터에 있는 테이블에 로드할 텍스트 파일 목록을 표시하는 JSON 형식의 메니페스트 파일을 지정할 수 있습니다. MANIFEST 키워드와 LOAD DATA FROM S3 문을 함께 사용하려면 Aurora 버전이 1.11 이상이어야 합니다.

다음 JSON 스키마는 매니페스트 파일의 형식 및 내용을 설명합니다.

Copy
{ "$schema": "http://json-schema.org/draft-04/schema#", "additionalProperties": false, "definitions": {}, "id": "Aurora_LoadFromS3_Manifest", "properties": { "entries": { "additionalItems": false, "id": "/properties/entries", "items": { "additionalProperties": false, "id": "/properties/entries/items", "properties": { "mandatory": { "default": "false" "id": "/properties/entries/items/properties/mandatory", "type": "boolean" }, "url": { "id": "/properties/entries/items/properties/url", "maxLength": 1024, "minLength": 1, "type": "string" } }, "required": [ "url" ], "type": "object" }, "type": "array", "uniqueItems": true } }, "required": [ "entries" ], "type": "object" }

메니페스트의 각 url에는 접두사뿐 아니라 파일의 버킷 이름과 전체 객체 경로를 포함한 URL을 지정해야 합니다. 메니페스트를 이용하면 다른 버킷, 다른 리전이나 접두사가 다른 파일에서 파일을 불러올 수 있습니다. URL에서 리전이 지정되지 않았다면, 대상 Aurora DB 클러스터의 리전을 사용합니다. 다음은 다른 버킷에서 파일 4개를 로드하는 메니페스트 파일 예제입니다.

Copy
{ "entries": [ { "url":"s3://aurora-bucket/2013-10-04-customerdata", "mandatory":true }, { "url":"s3-us-west-2://aurora-bucket-usw2/2013-10-05-customerdata", "mandatory":true }, { "url":"s3://aurora-bucket/2013-10-04-customerdata", "mandatory":false }, { "url":"s3://aurora-bucket/2013-10-05-customerdata" } ] }

선택 사항인 mandatory 플래그는 파일이 없을 때 LOAD DATA FROM S3의 오류 반환 여부를 결정합니다. mandatory 플래그의 기본값은 false입니다. mandatory 설정 여부와 상관없이, 파일이 발견되지 않으면 LOAD DATA FROM S3은 종료됩니다.

메니페스트 파일은 확장자를 제한하지 않습니다. 다음은 앞 예제에서 사용한, customer.manifest라는 이름의 메니페스트를 이용해 LOAD DATA FROM S3 문을 실행하는 예제입니다.

Copy
LOAD DATA FROM S3 MANIFEST 's3-us-west-2://aurora-bucket/customer.manifest' INTO TABLE CUSTOMER FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' (ID, FIRSTNAME, LASTNAME, EMAIL);

문이 완료되면 성공적으로 로드한 각 파일이 aurora_s3_load_history에 기록됩니다.

aurora_s3_load_history 테이블을 이용해 로드 파일 확인

LOAD DATA FROM S3 문이 완료될 때마다 mysql 스키마에 있는 aurora_s3_load_history 테이블에 각 로드 파일 항목이 업데이트됩니다.

LOAD DATA FROM S3 문을 실행하면, aurora_s3_load_history 테이블을 쿼리해 로드한 파일을 확인할 수 있습니다. 문을 한 번 실행하여 로드한 파일을 확인하려면, WHERE 절로 Amazon S3 URI의 기록에서 문에 사용된 메니페스트 파일을 필터링하십시오. 이전에 같은 메니페스트 파일을 사용한 적이 있다면, timestamp 필드로 결과를 필터링하십시오.

Copy
select * from mysql.aurora_s3_load_history where load_prefix = 'S3_URI';

다음 표는 aurora_s3_load_history 테이블 필드를 설명합니다.

필드 설명

load_prefix

로드 문에 지정된 URI입니다. 이 URI은 LOAD DATA FROM S3 FILE 문으로 단일 데이터 파일에 매핑하거나, Amazon S3 접두사로 LOAD DATA FROM S3 PREFIX 문을 이용해 다수의 데이터 파일에 매핑하거나, LOAD DATA FROM S3 MANIFEST 문으로 로드할 파일 이름이 포함된 단일 메니페스트 파일에 매핑할 수 있습니다.

file_name

Amazon S3에서 Aurora로 로드한 파일 이름으로, load_prefix 필드에서 확인한 URI를 사용합니다.

version_number

Amazon S3 버킷이 버저닝되었을 경우, 로드한 file_name 필드로 확인한 파일 버전 번호입니다.

bytes_loaded

로드한 파일의 크기(바이트)입니다.

load_timestamp

LOAD DATA FROM S3 문이 완료된 시점의 타임스탬프입니다.

예제

다음 문은 Aurora DB 클러스터와 동일한 리전에 있는 Amazon S3 버킷에서 데이터를 로드합니다. 이 문은 dbbucket Amazon S3 버킷에 있는 파일 customerdata.txt에서 쉼표로 구분된 데이터를 읽은 다음 테이블 store-schema.customer-table로 해당 데이터를 로드합니다.

Copy
LOAD DATA FROM S3 's3://dbbucket/customerdata.csv' INTO TABLE store-schema.customer-table FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' (ID, FIRSTNAME, LASTNAME, ADDRESS, EMAIL, PHONE);

다음 문은 Aurora DB 클러스터와 다른 리전에 있는 Amazon S3 버킷에서 데이터를 로드합니다. 이 문은 us-west-2 리전에 있는 my-data Amazon S3 버킷의 employee-data 객체 접두사와 일치하는 모든 파일에서 쉼표로 구분된 데이터를 읽은 다음 employees 테이블로 해당 데이터를 로드합니다.

Copy
LOAD DATA FROM S3 PREFIX 's3-us-west-2://my-data/employee_data' INTO TABLE employees FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' (ID, FIRSTNAME, LASTNAME, EMAIL, SALARY);

다음 문은 q1_sales.json이라는 JSON 메니페스트 파일에서 지정한 파일의 데이터를 sales 테이블로 로드합니다.

Copy
LOAD DATA FROM S3 MANIFEST 's3-us-west-2://aurora-bucket/q1_sales.json' INTO TABLE sales FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' (MONTH, STORE, GROSS, NET);

S3에서 XML 로드

LOAD XML FROM S3 문을 사용하여 Amazon S3 버킷에 저장된 XML 파일에서 다음과 같은 세 가지 XML 형식 중 하나로 데이터를 로드할 수 있습니다.

  • 열 이름이 <row> 요소의 속성입니다. 이 속성 값은 테이블 필드의 콘텐츠를 식별합니다.

    Copy
    <row column1="value1" column2="value2" .../>
  • 열 이름이 <row> 요소의 하위 요소입니다. 이 하위 요소의 값은 테이블 필드의 콘텐츠를 식별합니다.

    Copy
    <row> <column1>value1</column1> <column2>value2</column2> </row>
  • 열 이름이 <row> 요소의 <field> 요소의 name 속성에 있습니다. 이 <field> 요소의 값은 테이블 필드의 콘텐츠를 식별합니다.

    Copy
    <row> <field name='column1'>value1</field> <field name='column2'>value2</field> </row>

구문

Copy
LOAD XML FROM S3 'S3-URI' [REPLACE | IGNORE] INTO TABLE tbl_name [PARTITION (partition_name,...)] [CHARACTER SET charset_name] [ROWS IDENTIFIED BY '<element-name>'] [IGNORE number {LINES | ROWS}] [(field_name_or_user_var,...)] [SET col_name = expr,...]

파라미터

다음은 LOAD DATA FROM S3 문에서 사용되는 필수 파라미터 및 선택 파라미터의 목록입니다. MySQL 문서의 LOAD XML Syntax 단원에서 이러한 파라미터에 대한 자세한 내용을 볼 수 있습니다.

  • FILE | PREFIX – 단일 파일에서 데이터를 로드할지, 지정된 접두사와 일치하는 모든 파일에서 데이터를 로드할지 식별합니다. 기본값은 FILE입니다.

  • REPLACE | IGNORE – 입력 행이 데이터베이스 테이블의 기존 행과 고유 키 값이 동일한 경우 수행할 작업을 결정합니다.

    • 입력 행이 테이블의 기존 행을 대체하도록 하려면 REPLACE를 지정합니다.

    • 입력 행을 무시하려면 IGNORE를 지정합니다. 기본값은 IGNORE입니다.

  • INTO TABLE – 입력 행을 로드할 데이터베이스 테이블의 이름을 식별합니다.

  • PARTITION – 모든 입력 행을 쉼표로 구분된 지정된 파티션 이름 목록으로 식별되는 파티션으로 삽입해야 합니다. 입력 행을 지정된 파티션에 삽입할 수 없는 경우 문이 실패하며 오류가 반환됩니다.

  • CHARACTER SET – 입력 파일의 데이터 문자 세트를 식별합니다.

  • ROWS IDENTIFIED BY – 입력 파일의 행을 식별하는 요소 이름을 식별합니다. 기본값은 <row>입니다.

  • IGNORE number LINES | ROWS – 입력 파일의 시작 부분에서 특정 줄 또는 행 수를 무시하도록 지정합니다. 예를 들어, IGNORE 1 LINES를 사용하여 텍스트 파일의 첫 번째 줄을 건너뛰거나 IGNORE 2 ROWS를 사용하여 입력 XML의 첫 두 데이터 행을 건너뛸 수 있습니다.

  • field_name_or_user_var, ... – 로드할 요소를 이름을 기준으로 식별하는 사용자 변수 목록 또는 쉼표로 구분된 하나 이상의 XML 요소 이름 목록을 지정합니다. 이 목적에 사용되는 사용자 변수의 이름은 @로 시작하는 XML 파일의 요소 이름과 일치해야 합니다. 사용자 변수를 사용하여 추후 재사용을 위해 해당 필드 값을 저장할 수 있습니다.

    예를 들어, 다음 문은 입력 파일의 첫 번째 열을 table1의 첫 번째 열로 로드하고, table1에 있는 table_column2 열의 값을 100으로 나눈 두 번째 열의 입력 값으로 설정합니다.

    Copy
    LOAD XML FROM S3 's3://mybucket/data.xml' INTO TABLE table1 (column1, @var1) SET table_column2 = @var1/100;
  • SET – 테이블의 열 값을 입력 파일에 포함되지 않은 값으로 설정하는 쉼표로 구분된 할당 작업 목록을 지정합니다.

    예를 들어, 다음 문은 table1의 첫 두 열을 입력 파일의 첫 두 열의 값으로 설정한 다음, table1에 있는 column3의 값을 현재 타임스탬프로 설정합니다.

    Copy
    LOAD XML FROM S3 's3://mybucket/data.xml' INTO TABLE table1 (column1, column2) SET column3 = CURRENT_TIMESTAMP;

    SET 할당의 오른쪽에서 하위 쿼리를 사용할 수 있습니다. 열에 할당될 값을 반환하는 하위 쿼리의 경우, 스칼라 하위 쿼리만 사용할 수 있습니다. 또한 로드 중인 테이블에서 선택할 때는 하위 쿼리를 사용할 수 없습니다.

관련 주제