기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
데이터 레이크 라이프사이클
데이터 레이크 구축에는 일반적으로 5단계가 포함됩니다.
-
스토리지 설정
-
데이터 이동
-
데이터 준비 및 카탈로그 작성
-
보안 정책 구성
-
데이터를 사용할 수 있게 만들기
다음 그림은 AWS 분석 및 인공 지능/기계 학습(AI/ML) 서비스와 통합되는 Amazon Connect 콜 센터 데이터 레이크의 상위 수준 아키텍처 다이어그램입니다. 다음 섹션에서는 이 그림에 표시된 시나리오와 AWS 서비스를 다룹니다.

AWS 분석 및 AI/ML 서비스를 사용하는 Amazon Connect 콜 센터 데이터 레이크
스토리지
Amazon S3
S3 버킷과 객체는 비공개이며 S3 퍼블릭 액세스 차단은 기본적으로 전 세계 모든 리전에서 활성화됩니다. 버킷 정책, AWS Identity and Access Management
AWS CloudTrail
S3 Intelligent-Tiering
Amazon Athena
S3 Select 및 S3 Glacier Select를 사용하면 객체를 다른 데이터 스토어로 이동하지 않고도 구조화된 쿼리 언어(SQL) 표현식을 사용하여 객체 메타데이터를 쿼리할 수 있습니다.
S3 배치 작업
S3 액세스 포인트
S3 Transfer Acceleration
데이터 레이크가 확장됨에 따라 S3 Storage Lens
수집
AWS는 기존 데이터를 중앙 집중식 데이터 레이크로 이동할 수 있는 포괄적인 데이터 전송 서비스 포트폴리오를 제공합니다. Amazon Storage Gateway
-
AWS Storage Gateway는 테이프 라이브러리를 클라우드 스토리지로 대체하거나, 클라우드 스토리지 지원 파일 공유를 제공하거나, 온프레미스 환경에서 AWS의 데이터에 액세스할 수 있도록 지연 시간이 짧은 캐시를 생성하여 온프레미스 환경을 AWS 스토리지로 확장합니다.
-
AWS Direct Connect는 온프레미스 환경과 AWS 간에 프라이빗 연결을 구축하여 네트워크 비용을 줄이고, 처리량을 늘리고, 일관된 네트워크 경험을 제공합니다.
-
AWS DataSync는 네트워크 활용을 최적화하면서 수백만 개의 파일을 S3, Amazon Elastic File System
(Amazon EFS) 또는 Amazon FSx for Windows File Server 로 전송할 수 있습니다. -
Amazon Kinesis는 스트리밍 데이터를 캡처하여 S3로 로드하는 안전한 방법을 제공합니다. Amazon Data Firehose
는 실시간 스트리밍 데이터를 S3로 직접 전송하기 위한 완전 관리형 서비스입니다. Firehose는 스트리밍 데이터의 볼륨과 처리량에 맞게 자동으로 규모를 조정하므로 지속적인 관리가 필요하지 않습니다. S3에 데이터를 저장하기 전에 Firehose 내에서 압축, 암호화, 데이터 일괄 처리 또는 AWS Lambda 함수를 사용하여 스트리밍 데이터를 변환할 수 있습니다. Firehose 암호화는 AWS Key Management Service ()를 사용한 S3 서버 측 암호화를 지원합니다AWS KMS. 또는 사용자 지정 키를 사용하여 데이터를 암호화할 수 있습니다. Firehose는 여러 수신 레코드를 단일 S3 객체로 연결하고 전달하여 비용을 절감하고 처리량을 최적화할 수 있습니다. AWS Snow Family는 오프라인 데이터 전송 메커니즘을 제공합니다. AWS Snowball Edge
은 데이터 수집, 처리 및 마이그레이션을 위한 견고한 휴대용 엣지 컴퓨팅 디바이스를 제공합니다. 엑사바이트 규모의 데이터 전송의 경우 AWS Snowmobile 을 사용하여 대규모 데이터 볼륨을 클라우드로 이동할 수 있습니다. DistCp
는 Hadoop 에코시스템에서 데이터를 이동할 수 있는 분산 복사 기능을 제공합니다. S3DisctCp는 DistCp의 확장 프로그램으로 Hadoop 분산 파일 시스템(HDFS)과 S3 사이에서 데이터를 이동할 수 있습니다. 이 블로그 에서는 S3DistCp를 사용하여 HDFS와 S3 간에 데이터를 이동하는 방법에 대한 정보를 제공합니다.
카탈로그 작성
데이터 레이크 아키텍처의 일반적인 문제 중 하나는 데이터 레이크에 저장된 원시 데이터의 내용을 감독할 수 없다는 것입니다. 조직에서 큐레이션이 없는 데이터 늪을 만드는 위험을 피하려면 거버넌스, 의미론적 일관성, 액세스 제어가 필요합니다.
AWS Lake Formation
시각적 데이터 준비 도구인 AWS Glue DataBrew
보안
Amazon Connect는 Amazon Connect 인스턴스 수준에서 승인된 데이터 액세스를 보장하기 위해 AWS 계정 ID와 아마존 연결 인스턴스 ID별로 데이터를 분리합니다.
Amazon Connect는 Amazon Connect 인스턴스에 한정된 기간 한정 키를 사용하여 저장된 개인 식별 정보(PII) 연락처 데이터와 고객 프로필을 암호화합니다. S3 서버 측 암호화는 AWS 계정별로 고유한 KMS 데이터 키를 사용하여 저장된 음성 및 채팅 녹음을 보호합니다. 통화 녹음을 청취하거나 삭제하는 사람을 추적하는 것을 포함하여 S3 버킷의 통화 녹음에 대한 사용자 액세스를 구성할 수 있는 완전한 보안 제어를 유지합니다. Amazon Connect는 서비스 소유의 KMS 키로 고객 음성 프린트를 암호화하여 고객 ID를 보호합니다. Amazon Connect와 다른 AWS 서비스 또는 외부 애플리케이션 간에 교환되는 모든 데이터는 업계 표준 전송 계층 보안(TLS) 암호화를 사용하여 전송 중에 항상 암호화됩니다.
데이터 레이크를 보호하려면 승인된 데이터 액세스 및 사용을 보장하기 위한 세밀한 제어가 필요합니다. S3 리소스는 비공개이며 기본적으로 리소스 소유자만 액세스할 수 있습니다. 리소스 소유자는 리소스 기반 또는 ID 기반 IAM 정책을 조합하여 S3 버킷과 객체에 권한을 부여하고 관리할 수 있습니다. 버킷 정책 및 ACL과 같은 리소스 기반 정책은 리소스에 연결됩니다. 반면 ID 기반 정책은 AWS 계정의 IAM 사용자, 그룹 또는 역할에 연결됩니다.
데이터 레이크 사용자의 리소스 액세스 관리 및 서비스 권한을 단순화하기 위해 대부분의 데이터 레이크 환경에 ID 기반 정책을 사용하는 것이 좋습니다. AWS 계정으로 IAM 사용자, 그룹, 역할을 만들고 S3 리소스에 액세스할 수 있습니다.
AWS Lake Formation 권한 모델은 IAM 권한과 함께 작동하여 데이터 레이크 액세스를 제어합니다. Lake Formation 권한 모델은 데이터베이스 관리 시스템(DBMS) 스타일의 GRANT 또는 REVOKE 메커니즘을 사용합니다. IAM 정책은 자격 증명 기반 권한 정책을 포함합니다. 예를 들어, 사용자는 데이터 레이크 리소스에 액세스하기 전에 IAM 및 Lake Formation 권한 모두에 의한 권한 검사를 통과해야 합니다.
AWS CloudTrail 는 CloudTrail 이벤트 기록에서 요청자의 IP 주소 및 자격 증명과 요청의 날짜 및 시간을 포함하여 Amazon Connect API 호출을 추적합니다. AWS CloudTrail 추적을 생성하면 S3 버킷으로 AWS CloudTrail 로그를 지속적으로 전송할 수 있습니다.
Amazon Athena Workgroups는 리소스 기반 정책을 사용하여 쿼리 실행을 분리하고 사용자, 팀 또는 애플리케이션별로 액세스를 제어할 수 있습니다. Workgroups에서 데이터 사용을 제한하여 비용을 제어할 수 있습니다.
모니터링
콜 센터 및 데이터 레이크의 가용성, 신뢰성 및 성능을 보장하려면 관찰성이 필수적입니다. Amazon CloudWatch
Amazon Connect는 1분 간격으로 인스턴스의 사용 데이터를 Amazon CloudWatch 지표로 전송합니다. Amazon CloudWatch 지표의 데이터 보존 기간은 2주입니다. 로그 보존 요구 사항 및 수명 주기 정책을 조기에 정의하여 장기 데이터 보관을 위한 규제 준수 및 비용 절감을 보장합니다.
Amazon CloudWatch Logs는 로그 데이터를 필터링하고 규정 미준수 이벤트를 식별하여 사고를 조사하고 신속하게 해결하는 간단한 방법을 제공합니다. 통화 흐름을 사용자 지정하여 고위험 발신자 또는 잠재적 사기 활동을 탐지할 수 있습니다. 예를 들어, 사전 정의된 거부 목록에 있는 모든 수신 연락처의 연결을 해제할 수 있습니다.
분석
설명적이고 예측적인 실시간 분석 포트폴리오를 기반으로 구축된 콜 센터 데이터 레이크는 의미 있는 인사이트를 추출하고 중요한 비즈니스 질문에 응답하는 데 도움이 됩니다.
데이터가 S3 데이터 레이크에 도착하면, 노동 집약적인 추출, 전환, 적재(ETL) 작업 없이도 Amazon Athena 및 Amazon QuickSight
확장성이 뛰어난 데이터 웨어하우징 솔루션을 위해 Amazon Connect의 데이터 스트리밍을 활성화하여 Amazon Kinesis를 통해 고객 응대 레코드를 Amazon Redshift
기계 학습
데이터 레이크를 구축하면 고객 센터 아키텍처에 새로운 패러다임이 도입되어 기업이 기계 학습(ML) 기능을 사용하여 개선되고 개인화된 고객 서비스를 제공할 수 있게 됩니다.
기존 ML 개발은 복잡하고 비용이 많이 드는 프로세스입니다. AWS는 모든 ML 프로젝트 또는 워크로드에 대해 깊고 폭넓은 고성능, 비용 효율적이고 확장 가능한 인프라 및 유연한 ML 서비스
Amazon SageMaker AI
고객 이탈을 방지하려면 고객 여정에서 마찰을 줄이는 것이 필수적입니다. 콜 센터에 인텔리전스를 추가하려면 Amazon Lex
전체 서비스 품질을 개선하려면 발신자-에이전트의 역학을 이해하는 것이 필수적입니다. 음성 인식을 위해 Kinesis Video Stream
전 세계에 진출한 조직의 경우, 언어 번역에 Amazon Polly
기존 재무 계획 소프트웨어는 일관되지 않은 추세와 관련 변수의 상관 관계 없이 과거 시계열 데이터를 기반으로 예측을 생성합니다. Amazon Forecast
Amazon Connect는 전화 통신 사업자의 통화 속성(예: 통화 발신 위치), 전화 디바이스 유형(예: 유선 또는 모바일), 통화가 통과한 네트워크 세그먼트 수, 기타 발신 정보 등 전화 통신 사업자의 통화 속성을 제공합니다. 종합 관리형 Amazon Fraud Detector