AWS Glue Studio에 대한 설정 - AWS Glue Studio

AWS Glue Studio에 대한 설정

AWS Glue Studio를 처음 사용하는 경우 이 섹션의 태스크를 완료합니다.

전체 초기 AWS 구성 태스크

AWS Glue Studio를 사용하려면 먼저 다음 태스크를 완료해야 합니다.

AWS에 가입

AWS 계정이 없는 경우 다음 절차에 따라 계정을 생성하십시오.

AWS 계정에 가입

  1. https://portal.aws.amazon.com/billing/signup을 엽니다.

  2. 온라인 지시 사항을 따릅니다.

    등록 절차 중 전화를 받고 전화 키패드를 사용하여 확인 코드를 입력하는 과정이 있습니다.

IAM 관리자 사용자 생성

계정에 이미 전체 AWS 관리 권한이 있는 IAM 사용자가 포함되어 있는 경우 이 섹션을 건너뛸 수 있습니다.

자신을 위한 관리자 사용자를 직접 생성하여 관리자 그룹에 추가(콘솔)

  1. 루트 사용자(Root user)를 선택하고 AWS 계정 계정 이메일 주소를 입력하여 IAM 콘솔에 계정 소유자로 로그인합니다. 다음 페이지에서 암호를 입력합니다.

    참고

    Administrator IAM 사용자를 사용하는 아래 모범 사례를 준수하고, 루트 사용자 자격 증명을 안전하게 보관해 두는 것이 좋습니다. 몇 가지 계정 및 서비스 관리 태스크를 수행하려면 반드시 루트 사용자로 로그인해야 합니다.

  2. 탐색 창에서 사용자(Users)사용자 추가(Add users)를 차례로 선택합니다.

  3. 사용자 이름(User name)Administrator를 입력합니다.

  4. AWS Management Console 액세스(console access) 옆의 확인란을 선택합니다. 그런 다음 사용자 지정 암호(Custom password)를 선택하고 텍스트 상자에 새 암호를 입력합니다.

  5. (선택 사항) 기본적으로 AWS에서는 새 사용자가 처음 로그인할 때 새 암호를 생성해야 합니다. 사용자가 다음에 로그인할 때 새 암호를 생성해야 합니다(User must create a new password at next sign-in) 옆에 있는 확인란의 선택을 취소하면 새 사용자가 로그인한 후 암호를 재설정할 수 있습니다.

  6. 다음: 권한(Next: Permissions)을 선택합니다.

  7. 권한 설정(Set permissions) 아래에서 그룹에 사용자 추가(Add user to group)를 선택합니다.

  8. 그룹 생성(Create group)을 선택합니다.

  9. 그룹 생성(Create group) 대화 상자의 그룹 이름(Group name)Administrators를 입력합니다.

  10. 정책 필터링(Filter policies)을 선택한 다음 AWS 관리형 - 직무(managed - job function)를 선택하여 테이블 내용을 필터링합니다.

  11. 정책 목록에서 AdministratorAccess 확인란을 선택합니다. 그런 다음 그룹 생성(Create group)을 선택합니다.

    참고

    AdministratorAccess 권한을 사용하여 AWS Billing and Cost Management 콘솔에 액세스하려면 먼저 결제에 대한 IAM 사용자 및 역할 액세스를 활성화해야 합니다. 이를 위해 결제 콘솔에 액세스를 위임하기 위한 자습서 1단계의 지침을 따르세요.

  12. 그룹 목록으로 돌아가 새 그룹의 확인란을 선택합니다. 목록에서 그룹을 확인하기 위해 필요한 경우 새로 고침(Refresh)을 선택합니다.

  13. 다음: 태그(Next: Tags)를 선택합니다.

  14. (선택 사항) 태그를 키 값 페어로 연결하여 메타데이터를 사용자에게 추가합니다. IAM에서 태그 사용에 대한 자세한 내용은 IAM 사용 설명서IAM 엔터티 태깅을 참조하세요.

  15. 다음: 검토(Next: Review)를 선택하여 새 사용자에 추가될 그룹 멤버십의 목록을 확인합니다. 계속 진행할 준비가 되었으면 사용자 생성(Create user)을 선택합니다.

이와 동일한 절차에 따라 그룹이나 사용자를 추가로 생성하여 사용자에게 AWS 계정 리소스에 액세스할 수 있는 권한을 부여할 수 있습니다. 특정 AWS 리소스에 대한 사용자 권한을 제한하는 정책을 사용하는 방법을 알아보려면 액세스 관리정책 예제를 참조하세요.

IAM 사용자로 로그인

IAM 사용자(IAM user)를 선택하고 AWS 계정 ID 또는 계정 별칭을 입력하여 IAM 콘솔에 로그인합니다. 다음 페이지에서 IAM 사용자 이름 및 암호를 입력합니다.

참고

사용자 편의를 위해 AWS 로그인 페이지는 브라우저 쿠키를 사용하여 IAM 사용자 이름 및 계정 정보를 기억합니다. 이전에 다른 사용자로 로그인한 경우 버튼 아래의 로그인 링크를 선택하여 기본 로그인 페이지로 돌아갑니다. 여기서 AWS 계정 ID 또는 계정 별칭을 입력하면 계정의 IAM 사용자 로그인 페이지로 리디렉션됩니다.

AWS Glue Studio 사용자에게 필요한 IAM 권한 검토

AWS Glue Studio를 사용하려면 사용자가 다양한 AWS 리소스에 액세스할 수 있어야 합니다. 사용자는 Amazon S3 버킷, IAM 정책 및 역할, AWS Glue Data Catalog 객체를 보고 선택할 수 있어야 합니다.

AWS Glue 서비스 권한

AWS Glue Studio는 AWS Glue 서비스의 작업과 리소스를 사용합니다. AWS Glue Studio를 효과적으로 사용하려면 사용자에게 이러한 작업과 리소스에 대한 권한이 필요합니다. AWS Glue Studio 사용자에게 AWSGlueConsoleFullAccess 관리형 정책을 부여하거나 더 작은 권한 집합으로 사용자 지정 정책을 생성할 수 있습니다.

중요

보안 모범 사례에 따라 Amazon S3 버킷 및 Amazon CloudWatch 로그 그룹에 대한 액세스를 추가로 제한하는 정책을 강화하여 액세스를 제한하는 것이 좋습니다. Amazon S3 정책 예제는 IAM 정책 작성하기: Amazon S3 버킷으로의 액세스를 보장하는 방법을 참조하세요.

AWS Glue Studio에 대한 사용자 지정 IAM 정책 생성

AWS Glue Studio에 대한 더 작은 권한 집합을 포함하는 사용자 지정 정책을 생성할 수 있습니다. 이 정책에서는 객체 또는 작업의 하위 집합에 대한 권한을 부여할 수 있습니다. 사용자 지정 정책을 생성할 때는 다음 정보를 사용합니다.

AWS Glue Studio API를 사용하려면 IAM 권한 내의 작업 정책에 glue:UseGlueStudio를 포함합니다. glue:UseGlueStudio를 사용하면 시간이 지남에 따라 API에 더 많은 작업이 추가되는 경우에도 모든 AWS Glue Studio 작업을 수행할 수 있습니다.

작업

  • GetJob

  • CreateJob

  • DeleteJob

  • GetJobs

  • UpdateJob

작업 실행 옵션

  • StartJobRun

  • GetJobRuns

  • BatchStopJobRun

  • GetJobRun

데이터베이스 작업

  • GetDatabases

계획 작업

  • GetPlan

테이블 작업

  • SearchTables

  • GetTables

  • GetTable

연결 작업

  • CreateConnection

  • DeleteConnection

  • UpdateConnection

  • GetConnections

  • GetConnection

매핑 작업

  • GetMapping

보안 구성 작업

  • GetSecurityConfigurations

스크립트 작업

  • CreateScript(AWS Glue에서 같은 이름의 API와 다름)

AWS Glue Studio API에 액세스

AWS Glue Studio에 액세스하려면 IAM 권한 내의 작업 정책 목록에 glue:UseGlueStudio를 추가합니다.

아래 예제에서는 glue:UseGlueStudio가 작업 정책에 포함되어 있지만 AWS Glue Studio API는 개별적으로 식별되지 않습니다. 그 이유는 glue:UseGlueStudio를 포함하면 IAM 권한 내의 개별 AWS Glue Studio API를 지정하지 않아도 내부 API에 대한 액세스 권한이 사용자에게 자동으로 부여되기 때문입니다.

이 예제에서 나열된 추가 작업 정책(예: glue:SearchTables)은 AWS Glue Studio API가 아니며, 따라서 필요에 따라 IAM 권한에 포함되어야 합니다. 부여할 Amazon S3 액세스 수준을 지정할 때 Amazon S3 프록시 작업을 포함할 수도 있습니다. 아래 예제 정책에서는 AWS Glue Studio를 열고, 시각적 작업을 생성하고 선택한 IAM 역할에 충분한 액세스 권한이 있는 경우 이를 저장/실행하는 액세스 권한을 제공합니다.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "glue:UseGlueStudio", "iam:ListRoles", "iam:ListUsers", "iam:ListGroups", "iam:ListRolePolicies", "iam:GetRole", "iam:GetRolePolicy", "glue:SearchTables", "glue:GetConnections", "glue:GetJobs", "glue:GetTables", "glue:BatchStopJobRun", "glue:GetSecurityConfigurations", "glue:DeleteJob", "glue:GetDatabases", "glue:CreateConnection", "glue:GetSchema", "glue:GetTable", "glue:GetMapping", "glue:CreateJob", "glue:DeleteConnection", "glue:CreateScript", "glue:UpdateConnection", "glue:GetConnection", "glue:StartJobRun", "glue:GetJobRun", "glue:UpdateJob", "glue:GetPlan", "glue:GetJobRuns", "glue:GetTags", "glue:GetJob" ], "Resource": "*" }, { "Action": [ "iam:PassRole" ], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/AWSGlueServiceRole*", "Condition": { "StringLike": { "iam:PassedToService": [ "glue.amazonaws.com" ] } } } ] }

노트북 및 데이터 미리 보기 권한

데이터 미리 보기와 노트북을 사용하면 작업을 실행하지 않고도 작업의 모든 스테이지(읽기, 변환, 쓰기)에서 데이터 샘플을 볼 수 있습니다. 데이터에 액세스할 때 사용할 AWS Glue Studio에 대한 AWS Identity and Access Management(IAM) 역할을 지정합니다. IAM 역할은 수임 가능하도록 설계되었으며 암호 또는 액세스 키와 같은 표준 장기 자격 증명이 연결되어 있지 않습니다. 대신, AWS Glue Studio가 역할을 수임할 때 IAM은 임시 보안 자격 증명을 제공합니다.

데이터 미리 보기와 노트북 명령이 올바르게 작동하려면 이름이 AWSGlueServiceRole 문자열로 시작하는 역할을 사용합니다. 역할에 다른 이름을 사용하려는 경우 iam:passrole 권한을 추가하고 IAM에서 해당 역할에 대한 정책을 구성해야 합니다. 자세한 정보는 역할에 대해 ‘AWSGlueServiceRole*’이라는 이름이 아닌 IAM 정책 생성을 참조하십시오.

주의

역할이 노트북에 대한 iam:passrole 권한을 부여하고 역할 체인을 구현하는 경우 사용자가 의도하지 않게 노트북에 액세스하게 될 수 있습니다. 노트북에 대한 액세스 권한이 부여된 사용자를 모니터링할 수 있는 감사는 현재 구현되어 있지 않습니다.

Amazon CloudWatch 권한

AWS Glue에서 원시 데이터를 수집한 후 판독이 가능한 지표로 실시간에 가깝게 처리하는 Amazon CloudWatch를 사용하여 AWS Glue Studio 작업을 모니터링할 수 있습니다. 기본적으로 AWS Glue 지표 데이터는 CloudWatch에 자동으로 전송됩니다. 자세한 내용은 Amazon CloudWatch User GuideWhat Is Amazon CloudWatch?AWS Glue Developer GuideAWS Glue Metrics를 참조하세요.

CloudWatch 대시보드에 액세스하려면 AWS Glue Studio에 액세스하는 사용자에게 다음 중 하나가 필요합니다.

  • AdministratorAccess 정책

  • CloudWatchFullAccess 정책

  • 다음과 같은 특정 권한 중 하나 이상을 포함하는 사용자 지정 정책:

    • 대시보드 보기를 위한 cloudwatch:GetDashboardcloudwatch:ListDashboards

    • 대시보드를 생성하거나 수정하는 cloudwatch:PutDashboard

    • 대시보드를 삭제하는 cloudwatch:DeleteDashboards

정책을 사용하여 IAM 사용자의 권한 변경에 대한 자세한 내용은 IAM User GuideChanging Permissions for an IAM User를 참조하세요.

ETL 작업에 필요한 IAM 권한 검토

AWS Glue Studio를 사용하여 작업을 생성하는 경우 작업은 생성 시 지정한 IAM 역할의 권한을 갖게 됩니다. 이 IAM 역할은 데이터 원본에서 데이터를 추출하고, 대상에 데이터를 쓰고, AWS Glue 리소스에 액세스할 수 있는 권한이 있어야 합니다.

작업을 위해 생성하는 역할의 이름이 AWSGlueServiceRole 문자열로 시작해야 AWS Glue Studio에서 올바르게 사용할 수 있습니다. 예를 들어 역할 이름을 AWSGlueServiceRole-FlightDataJob으로 지정할 수 있습니다.

데이터 원본 및 데이터 대상 권한

AWS Glue Studio 작업에서 사용하는 모든 소스, 대상, 스크립트, 임시 디렉터리를 위해 작업이 Amazon S3에 액세스할 수 있어야 합니다. 특정 Amazon S3 리소스에 대한 세분화된 액세스를 제공하는 정책을 생성할 수 있습니다.

  • 데이터 원본은 s3:ListBuckets3:GetObject 권한을 요구합니다.

  • 데이터 대상은 s3:ListBucket, s3:PutObjects3:DeleteObject 권한을 요구합니다.

Amazon Redshift를 데이터 원본으로 선택하면 클러스터 권한에 대한 역할을 제공할 수 있습니다. Amazon Redshift 클러스터에 대해 실행되는 작업은 임시 자격 증명을 사용하여 임시 스토리지용 Amazon S3에 액세스하는 명령을 실행합니다. 작업이 1시간 이상 실행되면 이러한 자격 증명이 만료되어 작업이 실패합니다. 이 문제를 방지하기 위해 임시 자격 증명을 사용하여 작업에 필요한 권한을 부여하는 역할을 Amazon Redshift 클러스터 자체에 할당할 수 있습니다. 자세한 내용은 AWS Glue Developer GuideMoving Data to and from Amazon Redshift를 참조하세요.

작업이 Amazon S3 이외의 데이터 원본 또는 대상을 사용하는 경우 이러한 데이터 원본 및 대상에 액세스하기 위해 작업에서 사용하는 IAM 역할에 필요한 권한을 연결해야 합니다. 자세한 내용은 AWS Glue Developer GuideSetting Up Your Environment to Access Data Stores를 참조하세요.

데이터 스토어에 커넥터 및 연결을 사용하는 경우 커넥터 사용에 필요한 권한에 설명된 대로 추가 권한이 필요합니다.

작업 삭제에 필요한 권한

AWS Glue Studio의 콘솔에서 여러 작업을 선택하여 삭제할 수 있습니다. 이 작업을 수행하려면 glue:BatchDeleteJob 권한이 있어야 합니다. 이는 작업 삭제에 glue:DeleteJob 권한이 필요한 AWS Glue 콘솔과 다릅니다.

AWS Key Management Service 권한

AWS Key Management Service(AWS KMS)에서 서버 측 암호화를 사용하는 Amazon S3 소스 및 대상에 액세스하려는 경우 작업에 사용되는 AWS Glue Studio 역할에 작업에서 데이터를 복호화할 수 있도록 하는 정책을 연결합니다. 작업 역할에는 kms:ReEncrypt, kms:GenerateDataKeykms:DescribeKey 권한이 필요합니다. 또한 작업 역할에는 AWS KMS 고객 마스터 키(CMK)로 암호화된 Amazon S3 객체를 업로드하거나 다운로드할 수 있는 kms:Decrypt 권한이 필요합니다.

AWS KMS CMK를 사용하면 추가 요금이 부과됩니다. 자세한 내용은 AWS Key Management Service Developer GuideAWS Key Management Service Concepts - Customer Master Keys (CMKs)AWS Key Management Service Pricing을 참조하세요.

커넥터 사용에 필요한 권한

AWS Glue 사용자 정의 커넥터 및 연결을 사용하여 데이터 스토어에 액세스하는 경우 AWS Glue ETL 작업을 실행하는 데 사용되는 역할에 연결된 추가 권한이 필요합니다.

  • AWS Marketplace에서 구입한 커넥터 액세스를 위한 AWS 관리형 정책 AmazonEC2ContainerRegistryReadOnly.

  • glue:GetJobglue:GetJobs 권한.

  • 연결에 사용되는 보안 암호 액세스를 위한 AWS Secrets Manager 권한. 예제 IAM 정책을 보려면 예: 보안 암호 값을 검색할 수 있는 권한을 참조하세요.

AWS Glue ETL 작업이 Amazon VPC를 실행하는 VPC 내에서 실행되는 경우 VPC는 ETL 작업에 사용할 VPC 구성에 설명된 대로 구성되어야 합니다.

AWS Glue Studio에 대한 IAM 권한 설정

AWS 관리자 사용자를 사용하여 역할을 생성하고 사용자 및 작업 역할에 정책을 할당할 수 있습니다.

AWSGlueConsoleFullAccess AWS 관리형 정책을 사용하여 AWS Glue Studio 콘솔 사용에 필요한 권한을 제공할 수 있습니다.

자체 정책을 생성하려면 AWS Glue Developer GuideCreate an IAM Policy for the AWS Glue Service에 설명된 단계를 따릅니다. 이전에 AWS Glue Studio 사용자에게 필요한 IAM 권한 검토에서 설명한 IAM 권한을 포함합니다.

IAM 역할 생성

AWS Glue Studio에 사용자를 대신하여 다른 서비스에 액세스할 수 있는 권한이 필요합니다. IAM 역할을 생성하고 역할에 정책을 할당하여 해당 권한을 제공합니다. 작업을 생성하거나, 노트북 편집기를 사용하거나, 데이터 미리 보기를 사용할 때 이 역할을 지정합니다. 그러면 AWS Glue Studio 또는 ETL 작업이 역할을 수임하여 다른 서비스와 데이터 위치에 액세스할 수 있는 임시 권한을 얻게 됩니다.

AWS Glue Studio 및 AWS Glue가 사용자를 대신하여 다른 서비스를 호출할 때 수임할 수 있는 IAM 역할에 권한을 부여해야 합니다. 여기에는 스크립트 및 임시 파일과 AWS Glue Studio에서 사용하는 다른 모든 소스 또는 대상을 저장하기 위한 Amazon S3 액세스 권한이 포함됩니다.

ETL 작업에 대한 역할 생성

  1. AWS Management Console에 로그인하여 https://console.aws.amazon.com/iam/에서 IAM 콘솔을 엽니다.

  2. 왼쪽 탐색 창에서 역할(Roles)을 선택합니다.

  3. 역할 생성(Create role)을 선택합니다.

  4. 역할 유형의 경우, AWS 서비스(Service)를 선택하고 Glue를 찾아 선택한 후, 다음: 권한(Next: Permissions)을 선택합니다.

  5. 권한 정책 연결(Attach permissions policy) 페이지에서 필요한 권한을 포함하는 정책을 선택합니다. 예를 들어 일반적인 AWS Glue Studio 및 AWS Glue 권한의 경우 AWS 관리형 정책 AWSGlueServiceRole, Amazon S3 리소스에 대한 액세스 권한의 경우 AWS 관리형 정책 AmazonS3FullAccess를 선택할 수 있습니다.

  6. 추가 데이터 스토어나 서비스에 필요한 경우 정책을 더 추가합니다.

  7. 다음: 검토(Next: Review)를 선택합니다.

  8. [역할 이름(Role name)]에 역할 이름을 입력합니다(예: AWSGlueServiceRole-Studio). 역할이 콘솔 사용자에서 서비스로 전달될 수 있도록 AWSGlueServiceRole 문자열로 시작하는 이름을 선택합니다.

    다른 역할 이름을 선택하는 경우 이름 지정 규칙을 준수하기 위해 IAM 역할에 대한 iam:PassRole 권한을 사용자에게 허용하는 정책을 추가해야 합니다.

    역할 생성(Create Role)을 선택하여 역할 생성을 완료합니다.

AWS Glue Studio 사용자에게 정책을 연결합니다.

AWS Glue Studio 콘솔에 로그인하는 모든 AWS 사용자에게 특정 리소스에 액세스할 수 있는 권한이 있어야 합니다. 사용자에게 IAM 정책을 할당하여 해당 권한을 제공합니다.

AWSGlueConsoleFullAccess 관리형 정책을 사용자에 연결

  1. AWS Management Console에 로그인하여 https://console.aws.amazon.com/iam/에서 IAM 콘솔을 엽니다.

  2. 탐색 창에서 정책(Policies)을 선택합니다.

  3. 정책 목록에서 AWSGlueConsoleFullAccess 옆의 확인란을 선택합니다. [Filter] 메뉴와 검색 상자를 사용하여 정책 목록을 필터링할 수 있습니다.

  4. [Policy actions]를 선택한 후 [Attach]를 선택합니다.

  5. 정책을 연결하려는 사용자를 선택합니다. [Filter] 메뉴와 검색 상자를 사용하면 보안 주체 개체 목록을 필터링할 수 있습니다. 정책을 추가할 사용자를 선택한 다음 [Attach policy(정책 추가)]를 선택합니다.

  6. 필요에 따라 이전 단계를 반복하여 사용자에게 추가 정책을 연결합니다.

역할에 대해 ‘AWSGlueServiceRole*’이라는 이름이 아닌 IAM 정책 생성

AWS Glue Studio에서 사용하는 역할에 대한 IAM 정책 구성

  1. AWS Management Console에 로그인하여 https://console.aws.amazon.com/iam/에서 IAM 콘솔을 엽니다.

  2. 새 IAM 정책을 추가합니다. 기존 정책에 추가하거나 새 IAM 인라인 정책을 생성할 수 있습니다. IAM 정책 생성

    1. 정책을 선택한 후 정책 생성을 선택합니다. 시작 버튼이 표시되면 이 버튼을 선택한 다음 정책 생성을 선택합니다.

    2. [Create Your Own Policy] 옆의 [Select]를 선택합니다.

    3. 정책 이름에 나중에 쉽게 참조할 수 있는 값을 입력합니다. 선택적으로, 설명에 설명을 입력합니다.

    4. 정책 문서에 다음 형식의 정책 설명을 입력한 다음, 정책 생성을 선택합니다.

  3. 다음 블록을 복사하여 정책의 "Statement" 배열 아래에 붙여 넣습니다.

    { "Action": ["iam:PassRole"], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/AWSGlueServiceRole*", "Condition": { "StringLike": { "iam:PassedToService": ["glue.amazonaws.com"] } } }, { "Effect": "Allow", "Principal": { "Service": ["glue.amazonaws.com"] }, "Action": "sts:AssumeRole" }

    다음은 정책에 포함된 Version 및 Statement 배열의 전체 예입니다.

    { "Version": "2012-10-17", "Statement": [ { "Action": ["iam:PassRole"], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/AWSGlueServiceRole*", "Condition": { "StringLike": { "iam:PassedToService": ["glue.amazonaws.com"] } } }, { "Effect": "Allow", "Principal": { "Service": ["glue.amazonaws.com"] }, "Action": "sts:AssumeRole" } ] }
  4. 사용자에게 정책을 활성화하려면 사용자를 선택합니다.

  5. 정책을 연결하려는 IAM 사용자를 선택합니다.

ETL 작업에 사용할 VPC 구성

Amazon Virtual Private Cloud(Amazon VPC)를 사용하면 AWS 클라우드 안에서 논리적으로 격리된 자체 영역에 Virtual Private Cloud(VPC)라고 하는 가상 네트워크를 정의할 수 있습니다. 인스턴스와 같은 AWS 리소스를 VPC에서 시작할 수 있습니다. VPC는 고객의 자체 데이터 센터에서 운영하는 기존 네트워크와 매우 유사하지만 AWS의 확장 가능한 인프라를 사용한다는 이점을 제공합니다. 해당 IP 주소 범위를 선택하고, 서브넷을 만든 후 라우팅 테이블, 네트워크 게이트웨이 및 보안 설정을 구성하여 VPC를 구성할 수 있습니다. VPC의 인스턴스를 인터넷에 연결합니다. VPC를 사내 데이터 센터에 연결하여 AWS 클라우드에서 데이터 센터를 확장할 수 있습니다. 각의 서브넷에서 리소스를 보호하기 위해 보안 그룹 및 네트워크 액세스 제어 목록을 포함한 다중 보안 계층을 사용할 수 있습니다. 자세한 내용은 Amazon VPC 사용 설명서를 참조하세요.

커넥터를 사용할 때 VPC 내에서 실행되도록 AWS Glue ETL 작업을 구성할 수 있습니다. 필요에 따라 다음에 대해 VPC를 구성해야 합니다.

  • AWS에 없는 데이터 스토어에 대한 퍼블릭 네트워크 액세스. 작업이 액세스한 모든 데이터 스토어는 VPC 서브넷에서 사용 가능해야 합니다.

  • 작업에서 VPC 리소스와 퍼블릭 인터넷에 모두 액세스해야 할 경우 VPC 내부 네트워크 주소 변환(NAT) 게이트웨이가 VPC에 있어야 합니다.

    자세한 내용은 AWS Glue Developer GuideSetting Up Your Environment to Access Data Stores를 참조하세요.

AWS Glue Data Catalog 채우기

AWS Glue Studio는 에서 정의된 데이터 집합을 사용할 수 있습니다.AWS Glue Data Catalog 이러한 데이터 집합은 AWS Glue Studio에서 ETL 워크플로의 소스와 대상으로 사용됩니다. 데이터 원본 또는 대상에 대해 Data Catalog를 선택하는 경우 작업을 생성하기 전에 데이터 원본 또는 데이터 대상과 관련된 Data Catalog 테이블이 있어야 합니다.

데이터 원본에서 읽거나 쓸 때 ETL 작업은 데이터의 스키마를 알아야 합니다. ETL 작업은 AWS Glue Data Catalog의 테이블에서 이 정보를 얻을 수 있습니다. 크롤러, AWS Glue 콘솔, AWS CLI 또는 AWS CloudFormation 템플릿 파일을 사용하여 Data Catalog에 데이터베이스와 테이블을 추가할 수 있습니다. Data Catalog 채우기에 대한 자세한 내용은 AWS Glue Developer GuideData Catalog를 참조하세요.

커넥터를 사용하는 경우 AWS Glue Studio에서 ETL 작업의 데이터 원본 노드를 구성할 때 스키마 빌더를 사용하여 스키마 정보를 입력할 수 있습니다. 자세한 정보는 사용자 정의 커넥터로 작업 작성을 참조하십시오.

일부 데이터 원본의 경우 AWS Glue Studio는 지정된 위치에 있는 파일에서 읽는 데이터의 스키마를 자동으로 추론할 수 있습니다.