아마존 DataZone Redshift 데이터를 활용한 아마존 퀵스타트 - 아마존 DataZone

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

아마존 DataZone Redshift 데이터를 활용한 아마존 퀵스타트

1단계 - Amazon DataZone 도메인 및 데이터 포털 생성

Amazon DataZone 도메인을 생성하려면 다음 절차를 완료하십시오. Amazon DataZone 도메인에 대한 자세한 내용은 을 참조하십시오아마존 DataZone 용어 및 개념.

  1. https://console.aws.amazon.com/datazone 에서 Amazon DataZone 콘솔로 이동하여 로그인한 다음 도메인 생성을 선택합니다.

    참고

    이 워크플로에 기존 Amazon DataZone 도메인을 사용하려면 도메인 보기를 선택한 다음 사용할 도메인을 선택한 다음 게시 프로젝트 생성의 2단계로 진행하십시오.

  2. 도메인 생성 페이지에서 다음 필드에 값을 입력합니다.

    • 이름 - 도메인의 이름을 지정합니다. 이 워크플로의 목적에 따라 이 도메인을 호출할 수 Marketing 있습니다.

    • 설명 - 선택적 도메인 설명을 지정합니다.

    • 데이터 암호화 - 사용자 대신 AWS 소유하고 관리하는 키로 데이터가 기본적으로 암호화됩니다. 이 안내에서는 기본 데이터 암호화 설정을 그대로 둘 수 있습니다.

      고객 관리 키 사용에 대한 자세한 내용은 을 참조하십시오. Amazon의 저장 데이터 암호화 DataZone 데이터 암호화에 자체 KMS 키를 사용하는 경우 AmazonDataZoneDomainExecutionRole 기본값에 다음 설명을 포함해야 합니다.

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • 서비스 액세스 - 사용자 지정 서비스 역할 사용 옵션을 선택한 다음 AmazonDataZoneDomainExecutionRole드롭다운 메뉴에서 선택합니다.

    • 빠른 설정에서 이 계정을 데이터 사용 및 게시용으로 설정을 선택합니다. 이 옵션은 데이터 레이크 및 데이터 웨어하우스의 내장된 Amazon DataZone 블루프린트를 활성화하고 이 워크플로의 나머지 단계를 완료하는 데 필요한 권한과 리소스를 구성합니다. Amazon DataZone 블루프린트에 대한 자세한 내용은 을 참조하십시오아마존 DataZone 용어 및 개념.

    • 권한 세부 정보태그 아래의 나머지 필드를 변경하지 않고 유지한 다음 Create domain (도메인 생성) 을 선택합니다.

  3. 도메인이 성공적으로 생성되면 이 도메인을 선택하고 도메인의 요약 페이지에서 이 도메인의 데이터 포털 URL을 기록해 둡니다. 이 URL을 사용하여 Amazon DataZone 데이터 포털에 액세스하여 이 워크플로의 나머지 단계를 완료할 수 있습니다.

참고

DataZoneAmazon의 현재 릴리스에서는 도메인이 생성된 후에는 데이터 포털용으로 생성된 URL을 수정할 수 없습니다.

도메인 생성을 완료하는 데 몇 분이 걸릴 수 있습니다. 다음 단계로 진행하기 전에 도메인이 사용 가능 상태가 될 때까지 기다리십시오.

2단계 - 퍼블리싱 프로젝트 만들기

다음 섹션에서는 이 워크플로우에서 게시 프로젝트를 만드는 단계를 설명합니다.

  1. 1단계를 완료하면 데이터 포털 URL을 사용하여 Amazon DataZone 데이터 포털로 이동하고 싱글 사인온 (SSO) 또는 AWS IAM 자격 증명을 사용하여 로그인합니다.

  2. Create project (프로젝트 생성) 를 선택하고 프로젝트 이름을 지정합니다. 예를 들어 이 워크플로의 경우 이름을 지정하고 나머지 필드는 변경하지 않고 그대로 둔 다음 [Create] 를 선택합니다. SalesDataPublishingProject

3단계 - 환경 만들기

다음 섹션에서는 이 워크플로우에서 환경을 만드는 단계를 설명합니다.

  1. 2단계를 완료하면 Amazon DataZone 데이터 포털에서 이전 단계에서 생성한 SalesDataPublishingProject 프로젝트를 선택한 다음 환경 탭을 선택한 다음 환경 생성을 선택합니다.

  2. 환경 생성 페이지에서 다음을 지정한 다음 환경 생성을 선택합니다.

    • 이름 - 환경 이름을 지정합니다. 이 안내에서는 이름을 호출할 수 있습니다. Default data warehouse environment

    • 설명 - 환경에 대한 설명을 지정합니다.

    • 환경 프로필 - DataWarehouseProfile환경 프로필을 선택합니다.

    • Amazon Redshift 클러스터의 이름, 데이터베이스 이름, 그리고 데이터가 저장되어 있는 Amazon Redshift 클러스터의 보안 ARN을 제공하십시오.

      참고

      AWS Secrets Manager의 시크릿에 다음 태그 (키/값) 가 포함되어 있는지 확인하세요.

      • Amazon Redshift 클러스터의 경우 - 데이터 존.rs.cluster: <cluster_name:database name>

        Amazon Redshift 서버리스 워크그룹의 경우 - 데이터존.rs.워크그룹: <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      자세한 내용은 AWS Secrets Manager에 데이터베이스 자격 증명 저장을 참조하십시오.

      AWS Secrets Manager에서 제공하는 데이터베이스 사용자에게는 수퍼유저 권한이 있어야 합니다.

4단계 - 게시를 위한 데이터 생성

다음 섹션에서는 이 워크플로우에서 게시할 데이터를 생성하는 단계를 설명합니다.

  1. 3단계를 완료하면 Amazon DataZone 데이터 포털에서 SalesDataPublishingProject 프로젝트를 선택한 다음 오른쪽 패널의 분석 도구에서 Amazon Redshift를 선택합니다. 그러면 인증을 위해 프로젝트의 자격 증명을 사용하는 Amazon Redshift 쿼리 편집기가 열립니다.

  2. 이 안내에서는 Create as Select (Create as Select) 쿼리 스크립트를 사용하여 Amazon에 게시할 새 테이블을 생성합니다. DataZone 쿼리 편집기에서 이 CTAS 스크립트를 실행하여 게시하고 검색 및 구독에 사용할 수 있는 mkt_sls_table 테이블을 생성합니다.

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    mkt_sls_table 테이블이 성공적으로 생성되었는지 확인하십시오. 이제 Amazon DataZone 카탈로그에 게시할 수 있는 데이터 자산이 생겼습니다.

5단계 - 아마존 Redshift에서 메타데이터 수집

다음 섹션에서는 Amazon Redshift에서 메타데이터를 수집하는 단계를 설명합니다.

  1. 4단계를 완료하면 Amazon DataZone 데이터 포털에서 SalesDataPublishingProject 프로젝트를 선택하고 데이터 탭을 선택한 다음 데이터 소스를 선택합니다.

  2. 환경 생성 프로세스의 일부로 생성된 소스를 선택합니다.

  3. 작업 드롭다운 메뉴 옆의 실행을 선택한 다음 새로 고침 버튼을 선택합니다. 데이터 소스 실행이 완료되면 자산이 Amazon DataZone 인벤토리에 추가됩니다.

6단계 - 데이터 자산을 큐레이션하고 게시합니다.

다음 섹션에서는 이 워크플로우에서 데이터 자산을 큐레이션하고 게시하는 단계를 설명합니다.

  1. 5단계를 완료하면 Amazon DataZone 데이터 포털에서 SalesDataPublishingProject 프로젝트를 선택한 다음 데이터 탭을 선택하고 인벤토리 데이터를 선택한 다음 mkt_sls_table 테이블을 찾습니다.

  2. mkt_sls_table자산의 세부 정보 페이지를 열어 자동으로 생성된 비즈니스 이름을 확인하십시오. 자산 및 열에 대해 자동 생성된 이름을 보려면 자동 생성된 메타데이터 아이콘을 선택합니다. 각 이름을 개별적으로 허용 또는 거부하거나 모두 수락을 선택하여 생성된 이름을 적용할 수 있습니다. 선택적으로 사용 가능한 메타데이터 양식을 자산에 추가하고 용어집 용어를 선택하여 데이터를 분류할 수도 있습니다.

  3. [Publish] 를 선택하여 자산을 게시합니다. mkt_sls_table

7단계 - 데이터 분석을 위한 프로젝트 만들기

다음 섹션에서는 이 워크플로우에서 데이터 분석을 위한 프로젝트를 만드는 단계를 설명합니다.

  1. 6단계를 완료한 후 Amazon DataZone 데이터 포털에서 프로젝트 생성을 선택합니다.

  2. 프로젝트 생성 페이지에서 프로젝트 이름을 지정합니다. 예를 들어 이 워크플로의 경우 이름을 지정하고 나머지 필드는 변경하지 않고 그대로 둔 다음 Create를 선택할 수 있습니다. MarketingDataAnalysisProject

8단계 - 데이터 분석을 위한 환경 만들기

다음 섹션에서는 이 워크플로우에서 데이터 분석을 위한 환경을 만드는 단계를 설명합니다.

  1. 7단계를 완료하면 Amazon DataZone 데이터 포털에서 이전 단계에서 생성한 MarketingDataAnalysisProject 프로젝트를 선택한 다음 환경 탭을 선택한 다음 Add environment (환경 추가) 를 선택합니다.

  2. 환경 생성 페이지에서 다음을 지정한 다음 환경 생성을 선택합니다.

    • 이름 - 환경 이름을 지정합니다. 이 안내에서는 이름을 호출할 수 있습니다. Default data warehouse environment

    • 설명 - 환경에 대한 설명을 지정합니다.

    • 환경 프로필 - DataWarehouseProfile환경 프로필을 선택합니다.

    • Amazon Redshift 클러스터의 이름, 데이터베이스 이름, 그리고 데이터가 저장되어 있는 Amazon Redshift 클러스터의 보안 ARN을 제공하십시오.

      참고

      AWS Secrets Manager의 시크릿에 다음 태그 (키/값) 가 포함되어 있는지 확인하세요.

      • Amazon Redshift 클러스터의 경우 - 데이터 존.rs.cluster: <cluster_name:database name>

        Amazon Redshift 서버리스 워크그룹의 경우 - 데이터존.rs.워크그룹: <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      자세한 내용은 AWS Secrets Manager에 데이터베이스 자격 증명 저장을 참조하십시오.

      AWS Secrets Manager에서 제공하는 데이터베이스 사용자에게는 수퍼유저 권한이 있어야 합니다.

    • 이 연습에서는 나머지 필드는 변경하지 않고 그대로 유지하세요.

9단계 - 데이터 카탈로그 검색 및 데이터 구독

다음 섹션에서는 데이터 카탈로그를 검색하고 데이터를 구독하는 단계를 설명합니다.

  1. 8단계를 완료하면 Amazon DataZone 데이터 포털에서 데이터 포털의 검색 창에 있는 키워드 (예: '카탈로그' 또는 '판매') 를 사용하여 데이터 자산을 검색합니다.

    필요한 경우 필터 또는 정렬을 적용하고 제품 판매 데이터 자산을 찾으면 자산을 선택하여 자산의 세부 정보 페이지를 열 수 있습니다.

  2. 제품 판매 데이터 자산의 세부 정보 페이지에서 구독을 선택합니다.

  3. 대화 상자의 드롭다운에서 소비자 프로젝트를 선택하고 액세스 요청 이유를 입력한 다음 구독을 선택합니다.

10단계 - 구독 요청 승인

다음 섹션에서는 이 워크플로의 구독 요청을 승인하는 단계를 설명합니다.

  1. 9단계를 완료하면 Amazon DataZone 데이터 포털에서 자산을 게시하는 데 사용한 SalesDataPublishingProject프로젝트를 선택합니다.

  2. 데이터 탭, 게시된 데이터, 수신 요청을 차례로 선택합니다.

  3. 요청 보기 링크를 선택한 다음 승인을 선택합니다.

11단계 - Amazon Redshift에서 쿼리 작성 및 데이터 분석

Amazon DataZone 카탈로그에 자산을 성공적으로 게시하고 구독했으므로 이제 자산을 분석할 수 있습니다.

  1. 아마존 DataZone 데이터 포털의 오른쪽 패널에서 Amazon Redshift 링크를 클릭합니다. 그러면 인증을 위해 프로젝트 자격 증명을 사용하는 Amazon Redshift 쿼리 편집기가 열립니다.

  2. 이제 구독 테이블에서 쿼리 (select 명령문) 를 실행할 수 있습니다. 테이블 (three-vertical-dots 옵션) 을 클릭하고 미리보기를 선택하여 편집기 화면에서 선택 명령문을 표시할 수 있습니다. 쿼리를 실행하여 결과를 확인합니다.