Data Exchange에서 Amazon S3로의 AWS 데이터 통합 자동화 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Data Exchange에서 Amazon S3로의 AWS 데이터 통합 자동화

작성자: 아드난 알비 () 와 마니칸타 고나 () AWS AWS

기술: 애널리틱스, DataLakes

환경: 프로덕션

AWS서비스: 아마존 S3, 아마존 CloudWatch, AWS 람다, 아마존 SNS

요약

이 패턴은 데이터 거래소의 데이터를 Amazon Simple Storage Service (Amazon S3) 의 데이터 레이크로 자동 수집할 수 있는 AWS CloudFormation 템플릿을 제공합니다. AWS  

AWSData Exchange는 클라우드에서 파일 기반 데이터 세트를 쉽고 안전하게 교환할 수 있게 해주는 서비스입니다. AWS AWSData Exchange 데이터 세트는 구독 기반입니다. 구독자는 공급자가 새 데이터를 게시하면 데이터 세트 수정본에도 액세스할 수 있습니다. 

AWS CloudFormation 템플릿은 Amazon CloudWatch 이벤트 이벤트와 AWS Lambda 함수를 생성합니다. 이벤트는 구독한 데이터 세트의 모든 업데이트를 감시합니다. 업데이트가 있는 경우 지정한 S3 버킷으로 데이터를 복사하는 Lambda 함수를 CloudWatch 시작합니다. 데이터가 성공적으로 복사되면 Lambda는 Amazon 단순 알림 서비스 (AmazonSNS) 알림을 보냅니다.

사전 조건 및 제한 사항

사전 조건 

  • 활성 계정 AWS

  • Data Exchange의 AWS 데이터 세트 구독

제한 사항

  • AWS CloudFormation 템플릿은 Data Exchange의 각 구독 데이터 세트에 대해 개별적으로 배포해야 합니다. AWS

아키텍처

대상 기술 스택  

  • AWS람다

  • Amazon S3

  • AWS Data Exchange

  • 아마존 CloudWatch

  • 아마존 SNS

대상 아키텍처 

CloudWatch Lambda 함수를 시작하여 데이터를 S3 버킷으로 복사하고 Amazon 알림을 보냅니다. SNS

자동화 및 규모 조정

데이터 레이크에 수집하려는 데이터 세트에 AWS CloudFormation 템플릿을 여러 번 사용할 수 있습니다.

도구

  • AWSData Exchange — AWS 고객이 클라우드에서 파일 기반 데이터 세트를 안전하게 교환할 수 있도록 하는 서비스입니다. AWS 구독자는 자격을 갖춘 데이터 공급자의 수백 가지 제품을 찾아 구독할 수 있습니다. 그런 다음 데이터 세트를 빠르게 다운로드하거나 Amazon S3에 복사하여 다양한 AWS 분석 및 기계 학습 서비스에서 사용할 수 있습니다. AWS계정이 있는 사람은 누구나 AWS Data Exchange 구독자가 될 수 있습니다.

  • AWSLambda — 서버를 프로비저닝하거나 관리하지 않고도 코드를 실행할 수 있는 컴퓨팅 서비스입니다. AWSLambda는 필요할 때만 코드를 실행하고 하루에 몇 개의 요청에서 초당 수천 개의 요청으로 자동 확장합니다. 사용한 컴퓨팅 시간에 대해서만 요금을 지불하며 코드가 실행되지 않을 때는 요금이 부과되지 않습니다. AWSLambda를 사용하면 관리 없이 거의 모든 유형의 애플리케이션 또는 백엔드 서비스에 대한 코드를 실행할 수 있습니다. AWSLambda는 고가용성 컴퓨팅 인프라에서 코드를 실행하고 서버 및 운영 체제 유지 관리, 용량 프로비저닝 및 자동 조정, 코드 모니터링, 로깅을 비롯한 모든 컴퓨팅 리소스를 관리합니다.

  • Amazon S3 – 인터넷 스토리지입니다. Amazon S3를 사용하면 인터넷을 통해 언제 어디서든 원하는 양의 데이터를 저장하고 검색할 수 있습니다.

  • Amazon CloudWatch Events — AWS 리소스 변경을 설명하는 시스템 이벤트의 스트림을 거의 실시간으로 제공합니다. 빠르게 설정할 수 있는 간단한 규칙을 사용하여 이벤트를 매칭하고 하나 이상의 대상 함수 또는 스트림으로 라우팅할 수 있습니다. CloudWatch 이벤트는 운영상의 변화가 발생하는 즉시 이를 인지합니다. 또한 환경에 응답하기 위한 메시지를 전송하고 함수를 활성화하고 변경을 수행하고 상태 정보를 기록하는 등 이러한 운영 변경 사항에 응답하고 필요에 따라 시정 조치를 취합니다. 또한 CloudWatch 이벤트를 사용하여 cron 또는 rate 표현식을 사용하여 특정 시간에 자동으로 시작되는 자동화된 작업을 예약할 수 있습니다.

  • Amazon SNS — 애플리케이션, 최종 사용자 및 디바이스가 클라우드에서 알림을 즉시 보내고 받을 수 있게 해주는 웹 서비스입니다. SNSAmazon은 처리량이 많은 푸시 기반 메시징을 위한 주제 (통신 채널) 를 제공합니다. many-to-many 게시자는 Amazon SNS 주제를 사용하여 Amazon Simple Queue Service (AmazonSQS) 대기열, AWS Lambda 함수, /S 웹후크 등 병렬 처리를 위해 많은 구독자에게 메시지를 배포할 수 있습니다. HTTP Amazon에서 SNS 모바일, 푸시SMS, 이메일을 사용하여 최종 사용자에게 알림을 보낼 수도 있습니다.

에픽

작업설명필요한 기술

데이터 세트를 구독합니다.

AWS데이터 교환 콘솔에서 데이터세트를 구독합니다. 지침은 ‘관련 리소스’ 섹션의 링크를 참조하세요.

일반 AWS

데이터 세트 속성을 기록하세요.

데이터 세트의 AWS 지역, ID, 수정 ID를 기록해 둡니다. 다음 단계의 AWS CloudFormation 템플릿에 이 정보가 필요합니다.

일반 AWS
작업설명필요한 기술

S3 버킷 및 폴더를 생성합니다.

Amazon S3에 이미 데이터 레이크가 있는 경우, Data Exchange에서 AWS 수집할 데이터를 저장할 폴더를 생성하십시오. 테스트 목적으로 템플릿을 배포하는 경우, 새 S3 버킷을 생성하고 다음 단계를 위해 버킷 이름과 폴더 접두사를 기록하세요.

일반 AWS

AWS CloudFormation 템플릿을 배포하십시오.

이 패턴에 첨부 파일로 제공된 AWS CloudFormation 템플릿을 배포하세요. AWS계정, 데이터 세트, S3 버킷 설정에 맞게 데이터세트 AWS 지역, 데이터세트 ID, 수정 버전 ID, S3 버킷 이름 (예: DOC EXAMPLE -BUCKET), 폴더 접두사 (예: myfolder/), 알림 이메일 등의 파라미터를 구성합니다. SNS 데이터 세트 이름 파라미터를 원하는 이름으로 설정할 수 있습니다. 템플릿을 배포하면 Lambda 함수가 실행되어 데이터 세트에서 사용 가능한 첫 번째 데이터 세트를 자동으로 수집합니다. 그런 다음 새 데이터가 데이터 세트에 도착하면 후속 수집이 자동으로 수행됩니다.

일반 AWS

관련 리소스

첨부

이 문서와 관련된 추가 콘텐츠에 액세스하려면 attachment.zip 파일의 압축을 풉니다.