Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ciclo de vida de los lagos de datos
En la creación de un lago de datos suele haber cinco etapas:
-
Configurar el almacenamiento
-
Mover los datos
-
Preparar y catalogar los datos
-
Definir las políticas de seguridad
-
Hacer que los datos estén disponibles para su consumo
La siguiente imagen es un diagrama de arquitectura de alto nivel de un lago de datos del centro de contacto de Amazon Connect que se integra con los servicios de análisis e inteligencia artificial o machine learning (IA o ML) de AWS. En la siguiente sección se describen los escenarios y los servicios de AWS que se muestran en la imagen.

Lago de datos del centro de contacto de Amazon Connect con servicios de análisis e IA o ML de AWS
Almacenamiento
Amazon S3
Los buckets y objetos de S3 son privados y tienen bloqueo de acceso público de S3 activado de forma predeterminada en todas las regiones del mundo. Puede configurar controles de acceso centralizados en los recursos de S3 mediante políticas de bucket, políticas AWS Identity and Access Management
AWS CloudTrail
S3 Intelligent-Tiering
El almacenamiento de datos en formatos de columnas, como Apache Parquet
Con S3 Select y S3 Glacier Select, puede consultar los metadatos de los objetos mediante una expresión de lenguaje de consulta estructurado (SQL) sin mover los objetos a otro almacén de datos.
Operaciones por lotes de S3
Los puntos de acceso de S3
Aceleración de transferencias de Amazon S3
A medida que su lago de datos crece, Lente de almacenamiento de S3
Ingesta
AWS ofrece una cartera integral de servicios de transferencia de datos para mover los datos existentes a un lago de datos centralizado. Amazon Storage Gateway
-
AWS Storage Gateway amplía sus entornos en las instalaciones al almacenamiento de AWS sustituyendo las bibliotecas de cintas por almacenamiento en la nube, proporcionando recursos compartidos de archivos respaldados por el almacenamiento en la nube o creando una caché de baja latencia para acceder a sus datos en AWS desde entornos en las instalaciones.
-
AWS Direct Connect establece la conectividad privada entre sus entornos en las instalaciones y AWS para reducir los costos de red, aumentar el rendimiento y ofrecer una experiencia de red coherente.
-
AWS DataSync puede transferir millones de archivos a S3, Amazon Elastic File System
(Amazon EFS) o Amazon FSx for Windows File Server a la vez que optimiza el uso de la red. -
Amazon Kinesis proporciona una forma segura de capturar y cargar datos de streaming en S3. Amazon Data Firehose
es un servicio totalmente gestionado para entregar datos de streaming en tiempo real directamente a S3. Firehose se escala automáticamente para adaptarse al volumen y el rendimiento de los datos de streaming y no requiere una administración continua. Puede transformar los datos de streaming mediante compresión, cifrado, procesamiento de datos por lotes o AWS Lambda funciones en Firehose antes de almacenar los datos en S3. El cifrado Firehose admite el cifrado S3 del lado del servidor con (). AWS Key Management Service AWS KMS Como alternativa, puede cifrar los datos con su clave personalizada. Firehose puede concatenar y entregar varios registros entrantes como un único objeto S3 para reducir los costos y optimizar el rendimiento. La familia de productos AWS Snow proporciona un mecanismo de transferencia de datos sin conexión. AWS Snowball
ofrece un dispositivo informático perimetral portátil y robusto para recopilar, procesar y migrar datos. Para la transferencia de datos a escala de exabytes, puede usar AWS Snowmobile con el fin de mover enormes volúmenes de datos a la nube. DistCp
proporciona una capacidad de copia distribuida para mover datos en el ecosistema de Hadoop. S3 DisctCp es una extensión DistCp optimizada para mover datos entre el sistema de archivos distribuido de Hadoop (HDFS) y S3. Este blog proporciona información sobre cómo mover datos entre HDFS y S3 mediante S3. DistCp
Catalogación
Un desafío común de la arquitectura de un lago de datos es la falta de supervisión del contenido de los datos sin formato almacenados en el lago de datos. Las organizaciones necesitan gobernanza, coherencia semántica y controles de acceso para evitar las dificultades de crear un pantano de datos sin un proceso de selección.
AWS Lake Formation
AWS Glue DataBrew
Seguridad
Amazon Connect segrega los datos por ID de cuenta de AWS e ID de instancia de Amazon Connect para asegurar el acceso autorizado a los datos a nivel de instancia de Amazon Connect.
Amazon Connect cifra la información de identificación personal (PII), los datos de contacto y los perfiles de los clientes en reposo mediante una clave de tiempo limitado específica para su instancia de Amazon Connect. El cifrado del servidor de S3 protege las grabaciones de voz y chat en reposo mediante una clave de datos de KMS única para cada cuenta de AWS. Así, puede mantener un control de seguridad total para configurar el acceso de los usuarios a las grabaciones de llamadas de su bucket de S3, incluido el seguimiento de quién escucha o elimina las grabaciones de llamadas. Amazon Connect cifra las huellas vocales de los clientes con una clave KMS propiedad del servicio para proteger la identidad del cliente. Todos los datos intercambiados entre Amazon Connect y otros servicios de AWS o aplicaciones externas siempre se cifran en tránsito mediante el cifrado de seguridad de la capa de transporte (TLS) estándar del sector.
Proteger un lago de datos requiere controles detallados para asegurar el acceso y el uso autorizados de los datos. De forma predeterminada, los recursos de S3 son privados y solo puede acceder a ellos el propietario del recurso. El propietario del recurso puede crear una combinación de políticas de IAM basadas en recursos o en identidades para conceder y administrar los permisos a los buckets y objetos de S3. Las políticas basadas en recursos, como las políticas agrupadas, ACLs están vinculadas a los recursos. En cambio, las políticas basadas en identidades se asocian a los usuarios de IAM, grupos o roles de su cuenta de AWS.
Recomendamos políticas basadas en identidades para la mayoría de los entornos de lagos de datos a fin de simplificar la administración del acceso a los recursos y los permisos de servicio para los usuarios de sus lagos de datos. Puede crear usuarios de IAM, grupos y roles en las cuentas de AWS y asociarlos a políticas basadas en identidades que concederán acceso a los recursos de S3.
El modelo de AWS Lake Formation permisos funciona junto con los permisos de IAM para regular el acceso a los lagos de datos. El modelo de permisos de Lake Formation utiliza un mecanismo GRANT o REVOKE similar al de un sistema de administración de bases de datos (DBMS). Los permisos de IAM contienen políticas basadas en identidades. Por ejemplo, un usuario debe pasar las comprobaciones de permisos de IAM y Lake Formation antes de acceder a un recurso de lago de datos.
AWS CloudTrail rastrea las llamadas a la API de Amazon Connect, incluidas la dirección IP y la identidad del solicitante y la fecha y hora de la solicitud en el historial de CloudTrail eventos. La creación de AWS CloudTrail un registro permite la entrega continua de AWS CloudTrail registros a su bucket de S3.
Los grupos de trabajo de Amazon Athena pueden segregar la ejecución de consultas y controlar el acceso de los usuarios, los equipos o las aplicaciones mediante políticas basadas en recursos. Puede aplicar el control de costos limitando el uso de datos en los grupos de trabajo.
Monitorización
La observabilidad es esencial para asegurar la disponibilidad, la fiabilidad y el rendimiento de un centro de contacto y un lago de datos. Amazon CloudWatch
Amazon Connect envía los datos de uso de la instancia como CloudWatch métricas de Amazon en un intervalo de un minuto. La retención de datos de CloudWatch las métricas de Amazon es de dos semanas. Defina los requisitos de retención de registros y las políticas de ciclo de vida desde el principio para asegurar el cumplimiento de las normativas y ahorrar costos en el archivado de datos a largo plazo.
Amazon CloudWatch Logs proporciona una forma sencilla de filtrar los datos de registro e identificar los eventos de incumplimiento para investigar incidentes y agilizar las resoluciones. Puede personalizar los flujos de contacto para detectar intermediarios de alto riesgo o actividades potencialmente fraudulentas. Por ejemplo, puede desconectar todos los contactos entrantes que estén en su lista de personas denegadas predefinida.
Análisis
Un lago de datos de centro de contacto basado en una cartera de análisis descriptivos, predictivos y en tiempo real le ayuda a extraer información significativa y a responder a preguntas empresariales críticas.
Una vez que sus datos lleguen al lago de datos de S3, podrá utilizar cualquier servicio de análisis diseñado específicamente, como Amazon Athena y QuickSight
Si busca una solución de almacenamiento de datos altamente escalable, puede habilitar la transmisión de datos en Amazon Connect para transmitir los registros de contactos a Amazon Redshift a través de Amazon
Machine learning
La creación de un lago de datos aporta un nuevo paradigma a la arquitectura del centro de contacto, lo que permite a su empresa ofrecer un servicio de atención al cliente mejorado y personalizado mediante capacidades de machine learning (ML).
Desarrollar el ML tradicional es un proceso complejo y costoso. AWS proporciona la profundidad y la amplitud de una infraestructura escalable, rentable y de alto rendimiento, y servicios de ML
Amazon SageMaker AI
Reducir las fricciones en el recorrido de un cliente es esencial para evitar la pérdida de clientes. Para añadir inteligencia a su centro de contacto, puede crear chatbots de conversación basados en IA
Comprender la dinámica intermediario-agente es esencial para mejorar la calidad general del servicio. Consulte este blog
En el caso de las organizaciones con presencia internacional, puede crear una experiencia de voz multilingüe
El software de planificación financiera tradicional crea pronósticos basados en datos históricos de series temporales sin correlacionar tendencias inconsistentes y variables relevantes. Amazon Forecast
Amazon Connect proporciona los atributos de las llamadas de los operadores de telefonía, como la ubicación geográfica del equipo de voz para mostrar dónde se originó la llamada, los tipos de dispositivos de teléfono, como fijos o móviles, el número de segmentos de red que ha recorrido la llamada y otra información sobre el origen de la llamada. Con Amazon Fraud Detector