本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
数据湖生命周期
数据湖的构建通常包含五个阶段:
-
设置存储
-
移动数据
-
准备和编录数据
-
配置安全策略
-
提供可供使用的数据
下图是与AWS分析和人工智能/机器学习 (AI/ML) 服务集成的 Amazon Connect 联络中心数据湖的高级架构图。以下部分介绍下图所示的场景和AWS服务。
Amazon Connect 联络中心数据湖,提供AWS分析和人工智能/机器学习服务
存储
Amazon S3
S3 桶和对象是私有的,默认情况下将启用全球所有区域的 S3 屏蔽公共访问权限。您可以使用存储桶策略、AWS Identity and Access Management
AWS CloudTrail
S3 Intelligent-Tiering
使用 Amazon Athena 以 A pache Parq
借助 S3 Selec t 和 S3 Glacier Sel ect,您可以使用结构化查询语言 (SQL) 表达式查询对象元数据,而无需将对象移动到其他数据存储。
S3 批量操作
S3 接入点
S3 Transfer Acceleration
随着数据湖的增长,S3 Storage Lens
提取
AWS提供全面的数据传输服务组合,可将您的现有数据转移到集中式数据湖中。Amazon Storage Gateway
-
AWS Storage Gateway将您的本地环境扩展到AWS存储,方法是将磁带库替换为云存储,提供云存储支持的文件共享,或者创建低延迟缓存以AWS从本地环境访问您的数据。
-
AWS Direct Connect在您的本地环境之间建立私有连接,AWS从而降低网络成本、增加吞吐量并提供一致的网络体验。
-
AWS DataSync可以将数百万个文件传输到 S3、Amazon Elastic File
System(亚马逊EFS)或亚马逊 FSx Windows 文件服务器 ,同时优化网络利用率。 -
Amazon Kinesis 可提供一种安全的方式来捕获流数据并将其加载到 S3。Amazon Data Firehos
e 是一项完全托管的服务,用于将实时流数据直接传送到 S3。Firehose 会自动扩展以匹配流数据的数量和吞吐量,无需持续管理。在将数据存储到 S3 之前,您可以使用压缩、加密、数据批处理或 Firehose 中的AWS Lambda 函数来转换流数据。Firehose 加密支持使用 () 进行的 S3 服务器端加密。AWS Key Management Service AWS KMS或者,您也可以使用自定义密钥对数据进行加密。Firehose 可以连接多个传入的记录并将其作为单个 S3 对象交付,以降低成本并优化吞吐量。 AWSSnow Family 提供了一种离线数据传输机制。 AWS Snowball
提供便携且坚固耐用的边缘计算设备,用于数据收集、处理和迁移。对于艾字节级的数据传输,您可以使用 Snowmobile 将海量数据迁移到云AWS端 。 DistCp
提供分布式复制功能,用于在 Hadoop 生态系统中移动数据。S3 DisctCp 是针对在 Hadoop 分布式文件系统 (HDFS) 和 S3 之间移动数据 DistCp 进行了优化的扩展。本博客 提供有关如何使用 S3 在HDFS和 S3 之间移动数据的信息DistCp。
编录
数据湖架构的一个常见挑战是缺乏对存储在数据湖中的原始数据内容的监督。组织需要治理能力、语义一致性和访问控制,以避免出现创建未经整理的数据沼泽的错误。
AWS Lake Formation
AWS Glue DataBrew
安全性
Amazon Connect 按AWS账户 ID 和 Amazon Connect 实例 ID 隔离数据,以确保在 Amazon Connect 实例级别获得授权的数据访问。
Amazon Connect 使用特定于您的 Amazon Connect 实例的限时密钥对个人身份信息 (PII) 联系人数据和客户资料进行加密。S3 服务器端加密使用每个AWS账户唯一KMS的数据密钥保护静态语音和聊天录音。您可以保持完全的安全控制,配置用户对 S3 桶中的通话录音的访问权限,包括跟踪监听或删除了通话录音的人员。Amazon Connect 使用服务拥有的KMS密钥对客户声纹进行加密,以保护客户身份。Amazon Connect 与其他AWS服务或外部应用程序之间交换的所有数据在传输过程中始终使用行业标准的传输层安全 (TLS) 加密进行加密。
保护数据湖需要精细的控制,以确保数据访问和使用经过授权。S3 资源是私有的,默认情况下仅其资源所有者才能访问。资源所有者可以创建基于资源或基于身份的IAM策略的组合,以授予和管理对 S3 存储桶和对象的权限。基于资源的策略,例如存储桶策略和ACLs附加到资源。相比之下,基于身份的策略会附加到您IAMAWS账户中的用户、群组或角色。
我们建议在大多数数据湖环境中使用基于身份的策略,以简化面向数据湖用户的资源访问管理和服务权限。您可以在AWS账户中创建IAM用户、组和角色,并将它们与授予对 S3 资源的访问权限的基于身份的策略相关联。
AWS Lake Formation 权限模型与管理数据湖访问IAM权限的权限配合使用。Lake Formation 权限模型使用数据库管理系统 (DBMS) 样式GRANT或REVOKE机制。IAM权限包含基于身份的策略。例如,用户在访问数据湖资源之前必须通过两者的权限检查IAM和 Lake Formation 权限。
AWS CloudTrail 跟踪 Amazon Connect API 呼叫,包括请求者的 IP 地址和身份,以及CloudTrail 事件历史记录中的请求日期和时间。创建 AWS CloudTrail 跟踪可以将 AWS CloudTrail 日志持续传输到您的 S3 存储桶。
Amazon Athena 工作组可以使用基于资源的策略隔离查询执行并控制用户、团队或应用程序的访问权限。您可以通过限制工作组的数据使用强制进行成本控制。
监控
可观测性对于确保联络中心和数据湖的可用性、可靠性和性能至关重要。Amazon CloudWatch
Amazon Connect 每隔一分钟将实例的使用数据作为亚马逊 CloudWatch 指标发送。Amazon CloudWatch 指标的数据保留期为两周。尽早定义日志留存要求和生命周期策略,确保长期数据存档的监管合规性和成本节省。
Amazon Lo CloudWatch gs 提供了一种筛选日志数据和识别违规事件的简单方法,便于事件调查并加快解决速度。您可以自定义联系流,以检测高风险呼叫方或潜在的欺诈活动。例如,您可以断开预定义“拒绝”列表中的任何呼入联系人的连接。
分析
基于描述性、预测性和实时分析产品组合构建的联络中心数据湖可以帮助您提取有意义的见解并对关键业务问题作出响应。
数据存入 S3 数据湖后,您可以将任何专门构建的分析服务(例如 Amazon Athena 和 A QuickSightmazon
要获得高度可扩展的数据仓库解决方案,您可以启用 Amazon Connect 中的数据流,通过亚马逊 Kinesis 将联系人记录流式传输到亚马逊 Redshift
机器学习
构建数据湖使联络中心架构可以采用新的模式,助力贵组织使用机器学习 (ML) 功能提供增强的个性化客户服务。
传统的 ML 开发是一个复杂而昂贵的过程。AWS为任何机器学习项目或工作负载提供深度和广度的高性能、经济实惠、可扩展的基础架构和灵活的机器学习服务
Amazon SageMaker
减少客户旅程中的摩擦对于避免客户流失至关重要。要为您的联络中心增添智能,您可以使用 A mazon Lex
了解呼叫方与座席的动态对于提高整体服务质量至关重要。请参阅本博客
对于拥有国际业务的组织,您可以使用 Amazon Polly
传统的财务规划软件根据历史时间序列数据创建预测,不会关联不一致的趋势和相关变量。Amazon Forecast
Amazon Connect 提供来自电话运营商的呼叫属性,例如语音设备的地理位置(用于显示发起呼叫的位置)、电话设备类型(如固定电话或移动电话)、呼叫遍历的网段数量以及其他呼叫发起信息。使用完全托管的 Amazon Fraud Detector