데이터 레이크 라이프사이클

데이터 레이크 구축에는 일반적으로 5단계가 포함됩니다.

스토리지 설정
데이터 이동
데이터 준비 및 카탈로그 작성
보안 정책 구성
데이터를 사용할 수 있게 만들기

다음 그림은 AWS 분석 및 인공 지능/기계 학습(AI/ML) 서비스와 통합되는 Amazon Connect 콜 센터 데이터 레이크의 상위 수준 아키텍처 다이어그램입니다. 다음 섹션에서는 이 그림에 표시된 시나리오와 AWS 서비스를 다룹니다.

AWS 분석 및 AI/ML 서비스를 사용하는 Amazon Connect 콜 센터 데이터 레이크

스토리지

Amazon S3는 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 스토리지 서비스입니다. S3 는 전 세계적으로 강력한 일관성과 무제한 데이터 스토리지를 통해 99.999999999%의 내구성과 99.99%의 가용성을 제공합니다. Cross-Region Replication(CRR)을 사용하여 여러 리전의 S3 버킷 간에 데이터를 복사하여 규제 준수 및 지연 시간 단축 요구 사항을 충족할 수 있습니다. S3는 성능 및 운영 효율성을 위해 처리량을 자동으로 조정합니다.

S3 버킷과 객체는 비공개이며 S3 퍼블릭 액세스 차단은 기본적으로 전 세계 모든 리전에서 활성화됩니다. 버킷 정책, AWS Identity and Access Management(IAM) 정책 및 액세스 제어 목록(ACL)을 사용하여 S3 리소스에 대한 중앙 집중식 액세스 제어를 설정할 수 있습니다. Access Analyzer for S3를 사용하여 공개 액세스가 가능한 모든 버킷을 평가하고 식별할 수 있습니다. 객체 접두사 및 태그 지정을 통해 액세스 제어, 스토리지 계층화 및 복제 규칙을 객체 수준에서 세부적으로 관리할 수 있습니다.

AWS CloudTrail은 S3 서버 액세스 로깅에 대한 모든 API 직접 호출을 기록합니다. S3 인벤토리는 데이터에 대한 복제 및 암호화 상태를 감사하고 보고합니다.

S3 Intelligent-Tiering은 액세스 패턴이 변화할 때 성능 영향 또는 운영 오버헤드 없이 빈번한 액세스 계층과 자주 사용하지 않는 액세스 계층 사이에서 데이터를 이동하여 자동 비용 절감 효과를 제공합니다. S3 Glacier Deep Archive는 장기 보존이 필요한 거의 액세스되지 않는 객체의 스토리지 비용을 최대 95% 까지 절약합니다.

Amazon Athena를 사용하여 Apache Parquet 및 Optimized Row Columnar(ORC)와 같은 열 형식 형식으로 데이터를 저장하면 쿼리 속도가 빨라지고 처리 비용이 절감됩니다. Parquet을 사용한 Snappy와 같은 압축 옵션은 용량 요구 사항과 스토리지 비용을 줄여줍니다.

S3 Select 및 S3 Glacier Select를 사용하면 객체를 다른 데이터 스토어로 이동하지 않고도 구조화된 쿼리 언어(SQL) 표현식을 사용하여 객체 메타데이터를 쿼리할 수 있습니다.

S3 배치 작업은 객체 메타데이터 및 속성 업데이트, 스토리지 관리 작업 수행, 액세스 제어 수정, S3 Glacier에서 보관된 객체 복원 등 S3 객체에 대한 대량 작업을 자동화합니다.

S3 액세스 포인트는 다양한 팀과 애플리케이션이 S3에 공유한 데이터에 대한 액세스를 단순화하고 집계합니다. 각 액세스 포인트는 단일 버킷에 대한 고유 DNS 이름과 연결됩니다. 서비스 제어 정책(SCP)을 생성하여 Amazon Virtual Private Cloud(VPC)에 대한 액세스 포인트를 제한하고 사설 네트워크 내에서 데이터를 격리할 수 있습니다.

S3 Transfer Acceleration(Amazon S3TA)을 사용하면 클라이언트와 S3 버킷 사이에서 파일을 빠르고 쉽고 안전하게 장거리 전송할 수 있습니다.

데이터 레이크가 확장됨에 따라 S3 Storage Lens는 비용 및 운영 오버헤드를 줄이기 위한 실행 가능한 권장 사항과 함께 객체 스토리지 사용 및 활동 동향에 대한 조직 전반의 가시성을 제공합니다.

수집

AWS는 기존 데이터를 중앙 집중식 데이터 레이크로 이동할 수 있는 포괄적인 데이터 전송 서비스 포트폴리오를 제공합니다. Amazon Storage Gateway 및 AWS Direct Connect는 하이브리드 클라우드 스토리지 요구 사항을 해결할 수 있습니다. 온라인 데이터 전송의 경우 AWS DataSync와 Amazon Kinesis를 사용해 보십시오. 오프라인 데이터 전송에는 AWS Snow Family를 사용하십시오.

AWS Storage Gateway는 테이프 라이브러리를 클라우드 스토리지로 대체하거나, 클라우드 스토리지 지원 파일 공유를 제공하거나, 온프레미스 환경에서 AWS의 데이터에 액세스할 수 있도록 지연 시간이 짧은 캐시를 생성하여 온프레미스 환경을 AWS 스토리지로 확장합니다.
AWS Direct Connect는 온프레미스 환경과 AWS 간에 프라이빗 연결을 구축하여 네트워크 비용을 줄이고, 처리량을 늘리고, 일관된 네트워크 경험을 제공합니다.
AWS DataSync는 네트워크 활용을 최적화하면서 수백만 개의 파일을 S3, Amazon Elastic File System(Amazon EFS) 또는 Amazon FSx for Windows File Server로 전송할 수 있습니다.
Amazon Kinesis는 스트리밍 데이터를 캡처하여 S3로 로드하는 안전한 방법을 제공합니다. Amazon Data Firehose는 실시간 스트리밍 데이터를 S3로 직접 전송하기 위한 완전 관리형 서비스입니다. Firehose는 스트리밍 데이터의 볼륨과 처리량에 맞게 자동으로 규모를 조정하므로 지속적인 관리가 필요하지 않습니다. S3에 데이터를 저장하기 전에 Firehose 내에서 압축, 암호화, 데이터 일괄 처리 또는 AWS Lambda 함수를 사용하여 스트리밍 데이터를 변환할 수 있습니다. Firehose 암호화는 AWS Key Management Service ()를 사용한 S3 서버 측 암호화를 지원합니다AWS KMS. 또는 사용자 지정 키를 사용하여 데이터를 암호화할 수 있습니다. Firehose는 여러 수신 레코드를 단일 S3 객체로 연결하고 전달하여 비용을 절감하고 처리량을 최적화할 수 있습니다.

AWS Snow Family는 오프라인 데이터 전송 메커니즘을 제공합니다. AWS Snowball Edge은 데이터 수집, 처리 및 마이그레이션을 위한 견고한 휴대용 엣지 컴퓨팅 디바이스를 제공합니다. 엑사바이트 규모의 데이터 전송의 경우 AWS Snowmobile을 사용하여 대규모 데이터 볼륨을 클라우드로 이동할 수 있습니다.

DistCp는 Hadoop 에코시스템에서 데이터를 이동할 수 있는 분산 복사 기능을 제공합니다. S3DisctCp는 DistCp의 확장 프로그램으로 Hadoop 분산 파일 시스템(HDFS)과 S3 사이에서 데이터를 이동할 수 있습니다. 이 블로그에서는 S3DistCp를 사용하여 HDFS와 S3 간에 데이터를 이동하는 방법에 대한 정보를 제공합니다.

카탈로그 작성

데이터 레이크 아키텍처의 일반적인 문제 중 하나는 데이터 레이크에 저장된 원시 데이터의 내용을 감독할 수 없다는 것입니다. 조직에서 큐레이션이 없는 데이터 늪을 만드는 위험을 피하려면 거버넌스, 의미론적 일관성, 액세스 제어가 필요합니다.

AWS Lake Formation은 데이터를 자동으로 분류하고 정의, 스키마 및 메타데이터를 중앙 데이터 카탈로그에 저장하여 AWS Glue를 통해 데이터 모으기를 관리할 수 있습니다. Lake Formation에는 데이터 중복 제거 및 일치하는 레코드 찾기를 위한 기계 학습 기능이 내장되어 있어 데이터 품질을 개선합니다. 더 빠른 분석을 위해 Lake Formation은 데이터를 Apache Parquet 및 ORC로 변환한 후 S3 데이터 레이크에 저장합니다. 테이블 및 열 수준의 액세스 제어를 비롯한 액세스 정책을 정의하거나 저장된 데이터 암호화를 적용할 수 있습니다. 일관된 보안 적용을 통해 사용자는 자신이 선택한 분석 및 기계 학습 서비스를 사용하여 선별된 중앙 집중식 데이터 세트에 액세스하고 분석할 수 있습니다.

시각적 데이터 준비 도구인 AWS Glue DataBrew를 사용하면 데이터 소유자, 주제 전문가 또는 모든 기술 세트의 사용자가 데이터 준비 프로세스에 참여할 수 있습니다. 팀에서 코드를 작성할 필요 없이 사전 구축된 250개 이상의 변환 중에서 선택하여 데이터 이상 필터링, 데이터를 표준 형식으로 변환, 잘못된 값 수정을 비롯한 데이터 준비 작업을 자동화할 수 있습니다. 변환된 데이터는 고급 분석 및 기계 학습 프로젝트에 사용할 수 있습니다.

보안

Amazon Connect는 Amazon Connect 인스턴스 수준에서 승인된 데이터 액세스를 보장하기 위해 AWS 계정 ID와 아마존 연결 인스턴스 ID별로 데이터를 분리합니다.

Amazon Connect는 Amazon Connect 인스턴스에 한정된 기간 한정 키를 사용하여 저장된 개인 식별 정보(PII) 연락처 데이터와 고객 프로필을 암호화합니다. S3 서버 측 암호화는 AWS 계정별로 고유한 KMS 데이터 키를 사용하여 저장된 음성 및 채팅 녹음을 보호합니다. 통화 녹음을 청취하거나 삭제하는 사람을 추적하는 것을 포함하여 S3 버킷의 통화 녹음에 대한 사용자 액세스를 구성할 수 있는 완전한 보안 제어를 유지합니다. Amazon Connect는 서비스 소유의 KMS 키로 고객 음성 프린트를 암호화하여 고객 ID를 보호합니다. Amazon Connect와 다른 AWS 서비스 또는 외부 애플리케이션 간에 교환되는 모든 데이터는 업계 표준 전송 계층 보안(TLS) 암호화를 사용하여 전송 중에 항상 암호화됩니다.

데이터 레이크를 보호하려면 승인된 데이터 액세스 및 사용을 보장하기 위한 세밀한 제어가 필요합니다. S3 리소스는 비공개이며 기본적으로 리소스 소유자만 액세스할 수 있습니다. 리소스 소유자는 리소스 기반 또는 ID 기반 IAM 정책을 조합하여 S3 버킷과 객체에 권한을 부여하고 관리할 수 있습니다. 버킷 정책 및 ACL과 같은 리소스 기반 정책은 리소스에 연결됩니다. 반면 ID 기반 정책은 AWS 계정의 IAM 사용자, 그룹 또는 역할에 연결됩니다.

데이터 레이크 사용자의 리소스 액세스 관리 및 서비스 권한을 단순화하기 위해 대부분의 데이터 레이크 환경에 ID 기반 정책을 사용하는 것이 좋습니다. AWS 계정으로 IAM 사용자, 그룹, 역할을 만들고 S3 리소스에 액세스할 수 있습니다.

AWS Lake Formation 권한 모델은 IAM 권한과 함께 작동하여 데이터 레이크 액세스를 제어합니다. Lake Formation 권한 모델은 데이터베이스 관리 시스템(DBMS) 스타일의 GRANT 또는 REVOKE 메커니즘을 사용합니다. IAM 정책은 자격 증명 기반 권한 정책을 포함합니다. 예를 들어, 사용자는 데이터 레이크 리소스에 액세스하기 전에 IAM 및 Lake Formation 권한 모두에 의한 권한 검사를 통과해야 합니다.

AWS CloudTrail 는 CloudTrail 이벤트 기록에서 요청자의 IP 주소 및 자격 증명과 요청의 날짜 및 시간을 포함하여 Amazon Connect API 호출을 추적합니다. AWS CloudTrail 추적을 생성하면 S3 버킷으로 AWS CloudTrail 로그를 지속적으로 전송할 수 있습니다.

Amazon Athena Workgroups는 리소스 기반 정책을 사용하여 쿼리 실행을 분리하고 사용자, 팀 또는 애플리케이션별로 액세스를 제어할 수 있습니다. Workgroups에서 데이터 사용을 제한하여 비용을 제어할 수 있습니다.

모니터링

콜 센터 및 데이터 레이크의 가용성, 신뢰성 및 성능을 보장하려면 관찰성이 필수적입니다. Amazon CloudWatch를 사용하여 시스템 전체의 리소스 사용률, 애플리케이션 성능 및 운영 상태를 파악할 수 있습니다. Amazon Connect 통화 흐름의 관련 정보를 Amazon CloudWatch에 기록하고 운영 성능이 사전 정의된 임계값 아래로 떨어지면 실시간 알림을 생성합니다.

Amazon Connect는 1분 간격으로 인스턴스의 사용 데이터를 Amazon CloudWatch 지표로 전송합니다. Amazon CloudWatch 지표의 데이터 보존 기간은 2주입니다. 로그 보존 요구 사항 및 수명 주기 정책을 조기에 정의하여 장기 데이터 보관을 위한 규제 준수 및 비용 절감을 보장합니다.

Amazon CloudWatch Logs는 로그 데이터를 필터링하고 규정 미준수 이벤트를 식별하여 사고를 조사하고 신속하게 해결하는 간단한 방법을 제공합니다. 통화 흐름을 사용자 지정하여 고위험 발신자 또는 잠재적 사기 활동을 탐지할 수 있습니다. 예를 들어, 사전 정의된 거부 목록에 있는 모든 수신 연락처의 연결을 해제할 수 있습니다.

분석

설명적이고 예측적인 실시간 분석 포트폴리오를 기반으로 구축된 콜 센터 데이터 레이크는 의미 있는 인사이트를 추출하고 중요한 비즈니스 질문에 응답하는 데 도움이 됩니다.

데이터가 S3 데이터 레이크에 도착하면, 노동 집약적인 추출, 전환, 적재(ETL) 작업 없이도 Amazon Athena 및 Amazon QuickSight와 같은 용도에 맞게 구축된 분석 서비스를 다양한 사용 사례에 사용할 수 있습니다. 또는 선호하는 분석 플랫폼을 S3 데이터 레이크의 위치로 가져올 수 있습니다. Amazon Athena, AWS Glue및 Amazon QuickSight를 사용하여 Amazon Connect 데이터를 분석하는 방법에 대한 자세한 내용은 이 블로그를 참조하십시오.

확장성이 뛰어난 데이터 웨어하우징 솔루션을 위해 Amazon Connect의 데이터 스트리밍을 활성화하여 Amazon Kinesis를 통해 고객 응대 레코드를 Amazon Redshift로 스트리밍할 수 있습니다.

기계 학습

데이터 레이크를 구축하면 고객 센터 아키텍처에 새로운 패러다임이 도입되어 기업이 기계 학습(ML) 기능을 사용하여 개선되고 개인화된 고객 서비스를 제공할 수 있게 됩니다.

기존 ML 개발은 복잡하고 비용이 많이 드는 프로세스입니다. AWS는 모든 ML 프로젝트 또는 워크로드에 대해 깊고 폭넓은 고성능, 비용 효율적이고 확장 가능한 인프라 및 유연한 ML 서비스를 제공합니다.

Amazon SageMaker AI는 데이터 과학자와 개발자가 대규모로 고객 센터 사용 사례를 위한 ML 모델을 구축, 훈련 및 배포할 수 있는 완전관리형 서비스입니다. 데이터 준비는 데이터 과학자의 시간 중 최대 80%를 차지합니다. Amazon SageMaker AI Data Wrangler는 코드를 작성하지 않고도 300개 이상의 내장 데이터 변환을 사용하여 다양한 데이터 소스의 데이터 준비 및 기능 엔지니어링을 간소화하고 가속화합니다. Amazon SageMaker AI 특성 저장소에 표준화된 기능을 저장하여 재사용하고 조직의 나머지 부분과 공유할 수 있습니다.

고객 이탈을 방지하려면 고객 여정에서 마찰을 줄이는 것이 필수적입니다. 콜 센터에 인텔리전스를 추가하려면 Amazon Lex 자동 음성 인식(ASR) 및 자연어 이해(NLU) 기능을 사용하여 AI 기반 대화형 챗봇을 구축할 수 있습니다. 고객은 에이전트와 대화하지 않고도 챗봇을 통해 암호 재설정, 계정 잔고 확인, 약속 일정 잡기와 같은 셀프 서비스 작업을 수행할 수 있습니다. 콜 센터의 자주 묻는 질문 (FAQ)을 자동화하려면 Amazon Lex 및 Amazon Kendra를 사용하여 질문 및 답변(Q&A) 챗봇을 구축하면 됩니다. Amazon CloudWatch Logs에서 텍스트 로깅을 활성화하고 S3에 오디오 입력을 저장하면 대화 흐름을 분석하고, 대화형 설계를 개선하고, 사용자 참여를 높일 수 있습니다.

전체 서비스 품질을 개선하려면 발신자-에이전트의 역학을 이해하는 것이 필수적입니다. 음성 인식을 위해 Kinesis Video Stream을 통해 음성 녹음을 Amazon Transcribe로 스트리밍하고, Amazon Comprehend를 사용하여 오디오를 텍스트로 변환하고 대본에서 감정 분석을 실행하는 방법은 이 블로그를 참조합니다.

전 세계에 진출한 조직의 경우, 언어 번역에 Amazon Polly 또는 Amazon Translate를 사용하여 Amazon Connect에서 다국어 음성 경험을 구축할 수 있습니다.

기존 재무 계획 소프트웨어는 일관되지 않은 추세와 관련 변수의 상관 관계 없이 과거 시계열 데이터를 기반으로 예측을 생성합니다. Amazon Forecast는 기계 학습을 사용하여 시계열 데이터와 기타 변수(예: 제품 기능 및 매장 위치) 간의 근본적인 관계를 발견하는 데 있어 최대 50% 더 높은 정확도를 제공합니다. 기계 학습 경험이 없어도 S3 버킷의 시계열 및 관련 데이터를 Amazon Forecast에 제공하여 에이전트 수요 또는 인벤토리 예측을 쉽게 생성할 수 있습니다. 를 사용하여 기밀 콘텐츠를 암호화 AWS KMS 하고 IAM 정책을 사용하여 Amazon Forecast에 대한 액세스를 제어할 수 있습니다. Amazon Forecast는 가용성이 높은 환경에서 사용자 지정 기계 학습 모델을 교육하고 호스팅합니다. 인프라 또는 복잡한 기계 학습 프로세스를 관리하지 않고도 매우 정확한 비즈니스 예측을 신속하게 생성할 수 있습니다.

Amazon Connect는 전화 통신 사업자의 통화 속성(예: 통화 발신 위치), 전화 디바이스 유형(예: 유선 또는 모바일), 통화가 통과한 네트워크 세그먼트 수, 기타 발신 정보 등 전화 통신 사업자의 통화 속성을 제공합니다. 종합 관리형 Amazon Fraud Detector를 사용하면 데이터 세트를 Amazon Connect 호출 속성과 결합하여 잠재적 사기 활동을 식별하는 ML 모델을 만들 수 있습니다. 예를 들어, 통화 흐름을 사용자 지정하여 사기 가능성이 있는 신호가 있는 전화 통화를 전문 에이전트에게 지능적으로 라우팅할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

데이터 타입

결론 및 추가 자료