Ciclo de vida de los lagos de datos - Prácticas recomendadas para los lagos de datos de Amazon Connect

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ciclo de vida de los lagos de datos

En la creación de un lago de datos suele haber cinco etapas:

  • Configurar el almacenamiento

  • Mover los datos

  • Preparar y catalogar los datos

  • Definir las políticas de seguridad

  • Hacer que los datos estén disponibles para su consumo

La siguiente imagen es un diagrama de arquitectura de alto nivel de un lago de datos del centro de contacto de Amazon Connect que se integra con los servicios de análisis e inteligencia artificial o machine learning (IA o ML) de AWS. En la siguiente sección se describen los escenarios y los servicios de AWS que se muestran en la imagen.

Un diagrama que muestra el lago de datos del centro de contacto de Amazon Connect con servicios de análisis e IA o ML de AWS

Lago de datos del centro de contacto de Amazon Connect con servicios de análisis e IA o ML de AWS

Almacenamiento

Amazon S3 es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes del sector. S3 ofrece una durabilidad del 99,999999999 % y una disponibilidad del 99,99 % con una gran consistencia y un almacenamiento de datos ilimitado en todo el mundo. Puede usar la replicación entre regiones (CRR) para copiar datos entre buckets de S3 en varias regiones para cumplir con las normativas y los requisitos de baja latencia. S3 escala el rendimiento automáticamente para mejorar el desempeño y la eficiencia operativa.

Los buckets y objetos de S3 son privados y tienen bloqueo de acceso público de S3 activado de forma predeterminada en todas las regiones del mundo. Puede configurar controles de acceso centralizados en los recursos de S3 mediante políticas de bucket, políticas AWS Identity and Access Management(IAM) y listas de control de acceso (ACLs). Puede evaluar e identificar cualquier bucket con acceso público mediante Analizador de acceso para S3. Con los prefijos y el etiquetado de los objetos, puede administrar los controles de acceso, la organización del almacenamiento en niveles y las reglas de replicación con una granularidad a nivel de objeto.

AWS CloudTrail registra todas las llamadas a la API en el registro de acceso al servidor de S3. El inventario de S3 audita e informa sobre el estado de replicación y cifrado de sus datos.

S3 Intelligent-Tiering ofrece un ahorro automático en los costos moviendo los datos entre capas de acceso frecuentes y poco frecuentes cuando los patrones de acceso cambian, sin que afecte al rendimiento ni se produzca una sobrecarga operativa. S3 Glacier Deep Archive ahorra hasta un 95 % en los costos de almacenamiento de los objetos a los que se obtiene acceso con poca frecuencia y que requieren una retención a largo plazo.

El almacenamiento de datos en formatos de columnas, como Apache Parquet y Optimized Row Columnar (ORC), permite consultas más rápidas y reduce los costos de procesamiento con Amazon Athena. Las opciones de compresión, como Snappy con Parquet, reducen los requisitos de capacidad y los costos de almacenamiento.

Con S3 Select y S3 Glacier Select, puede consultar los metadatos de los objetos mediante una expresión de lenguaje de consulta estructurado (SQL) sin mover los objetos a otro almacén de datos.

Operaciones por lotes de S3 automatiza las operaciones masivas en los objetos de S3, como la actualización de los metadatos y las propiedades de los objetos, la realización de tareas de administración del almacenamiento, la modificación de los controles de acceso y la restauración de los objetos archivados desde S3 Glacier.

Los puntos de acceso de S3 simplifican y agregan el acceso a los datos compartidos en S3 por parte de diferentes equipos y aplicaciones. Cada punto de acceso está asociado a un nombre de DNS único para un solo bucket. Puede crear políticas de control de servicios (SCPs) para restringir los puntos de acceso a una Amazon Virtual Private Cloud (Amazon VPC) y aislar los datos de sus redes privadas.

Aceleración de transferencias de Amazon S3 permite transferir archivos a través de largas distancias entre su entorno de cliente y buckets de S3.

A medida que su lago de datos crece, Lente de almacenamiento de S3 proporciona visibilidad en toda la organización sobre las tendencias de uso y actividad del almacenamiento de objetos, con recomendaciones prácticas para reducir los costos y la sobrecarga operativa.

Ingesta

AWS ofrece una cartera integral de servicios de transferencia de datos para mover los datos existentes a un lago de datos centralizado. Amazon Storage Gateway y AWS Direct Connect pueden satisfacer las necesidades de almacenamiento en la nube híbrida. Para la transferencia de datos en línea, considere la posibilidad de utilizar AWS DataSync y Amazon Kinesis. Utilice la familia de productos AWS Snow para la transferencia de datos sin conexión.

  • AWS Storage Gateway amplía sus entornos en las instalaciones al almacenamiento de AWS sustituyendo las bibliotecas de cintas por almacenamiento en la nube, proporcionando recursos compartidos de archivos respaldados por el almacenamiento en la nube o creando una caché de baja latencia para acceder a sus datos en AWS desde entornos en las instalaciones.

  • AWS Direct Connect establece la conectividad privada entre sus entornos en las instalaciones y AWS para reducir los costos de red, aumentar el rendimiento y ofrecer una experiencia de red coherente.

  • AWS DataSync puede transferir millones de archivos a S3, Amazon Elastic File System (Amazon EFS) o Amazon FSx for Windows File Server a la vez que optimiza el uso de la red.

  • Amazon Kinesis proporciona una forma segura de capturar y cargar datos de streaming en S3. Amazon Data Firehose es un servicio totalmente gestionado para entregar datos de streaming en tiempo real directamente a S3. Firehose se escala automáticamente para adaptarse al volumen y el rendimiento de los datos de streaming y no requiere una administración continua. Puede transformar los datos de streaming mediante compresión, cifrado, procesamiento de datos por lotes o AWS Lambdafunciones en Firehose antes de almacenar los datos en S3. El cifrado Firehose admite el cifrado S3 del lado del servidor con (). AWS Key Management ServiceAWS KMS Como alternativa, puede cifrar los datos con su clave personalizada. Firehose puede concatenar y entregar varios registros entrantes como un único objeto S3 para reducir los costos y optimizar el rendimiento.

    La familia de productos AWS Snow proporciona un mecanismo de transferencia de datos sin conexión. AWS Snowball ofrece un dispositivo informático perimetral portátil y robusto para recopilar, procesar y migrar datos. Para la transferencia de datos a escala de exabytes, puede usar AWS Snowmobile con el fin de mover enormes volúmenes de datos a la nube.

    DistCpproporciona una capacidad de copia distribuida para mover datos en el ecosistema de Hadoop. S3 DisctCp es una extensión DistCp optimizada para mover datos entre el sistema de archivos distribuido de Hadoop (HDFS) y S3. Este blog proporciona información sobre cómo mover datos entre HDFS y S3 mediante S3. DistCp

Catalogación

Un desafío común de la arquitectura de un lago de datos es la falta de supervisión del contenido de los datos sin formato almacenados en el lago de datos. Las organizaciones necesitan gobernanza, coherencia semántica y controles de acceso para evitar las dificultades de crear un pantano de datos sin un proceso de selección.

AWS Lake Formation puede administrar la ingesta de datos mediante AWS Glue clasificando automáticamente los datos y almacenando las definiciones, los esquemas y los metadatos en un catálogo de datos central. Lake Formation cuenta con capacidades de machine learning integradas para la desduplicación y la búsqueda de registros coincidentes con el fin de mejorar la calidad de los datos. Para un análisis más rápido, Lake Formation convierte los datos en Apache Parquet y ORC antes de almacenarlos en su lago de datos de S3. Puede definir políticas de acceso, incluidos los controles de acceso a nivel de tabla y columna, o aplicar el cifrado de datos en reposo. Con la aplicación de medidas de seguridad coherentes, sus usuarios pueden acceder a un conjunto de datos centralizado y seleccionado y analizarlo con los servicios de análisis y machine learning de su elección.

AWS Glue DataBrew, una herramienta visual de preparación de datos, permite a los propietarios de los datos, expertos en la materia o usuarios de todas las habilidades participar en el proceso de preparación de los datos. Sin necesidad de escribir ningún código, sus equipos pueden elegir entre más de 250 transformaciones prediseñadas para automatizar las tareas de preparación de datos, como filtrar las anomalías de datos, convertir los datos a formatos estándar y corregir los valores no válidos. Los datos transformados están listos para proyectos avanzados de análisis y machine learning.

Seguridad

Amazon Connect segrega los datos por ID de cuenta de AWS e ID de instancia de Amazon Connect para asegurar el acceso autorizado a los datos a nivel de instancia de Amazon Connect.

Amazon Connect cifra la información de identificación personal (PII), los datos de contacto y los perfiles de los clientes en reposo mediante una clave de tiempo limitado específica para su instancia de Amazon Connect. El cifrado del servidor de S3 protege las grabaciones de voz y chat en reposo mediante una clave de datos de KMS única para cada cuenta de AWS. Así, puede mantener un control de seguridad total para configurar el acceso de los usuarios a las grabaciones de llamadas de su bucket de S3, incluido el seguimiento de quién escucha o elimina las grabaciones de llamadas. Amazon Connect cifra las huellas vocales de los clientes con una clave KMS propiedad del servicio para proteger la identidad del cliente. Todos los datos intercambiados entre Amazon Connect y otros servicios de AWS o aplicaciones externas siempre se cifran en tránsito mediante el cifrado de seguridad de la capa de transporte (TLS) estándar del sector.

Proteger un lago de datos requiere controles detallados para asegurar el acceso y el uso autorizados de los datos. De forma predeterminada, los recursos de S3 son privados y solo puede acceder a ellos el propietario del recurso. El propietario del recurso puede crear una combinación de políticas de IAM basadas en recursos o en identidades para conceder y administrar los permisos a los buckets y objetos de S3. Las políticas basadas en recursos, como las políticas agrupadas, ACLs están vinculadas a los recursos. En cambio, las políticas basadas en identidades se asocian a los usuarios de IAM, grupos o roles de su cuenta de AWS.

Recomendamos políticas basadas en identidades para la mayoría de los entornos de lagos de datos a fin de simplificar la administración del acceso a los recursos y los permisos de servicio para los usuarios de sus lagos de datos. Puede crear usuarios de IAM, grupos y roles en las cuentas de AWS y asociarlos a políticas basadas en identidades que concederán acceso a los recursos de S3.

El modelo de AWS Lake Formation permisos funciona junto con los permisos de IAM para regular el acceso a los lagos de datos. El modelo de permisos de Lake Formation utiliza un mecanismo GRANT o REVOKE similar al de un sistema de administración de bases de datos (DBMS). Los permisos de IAM contienen políticas basadas en identidades. Por ejemplo, un usuario debe pasar las comprobaciones de permisos de IAM y Lake Formation antes de acceder a un recurso de lago de datos.

AWS CloudTrail rastrea las llamadas a la API de Amazon Connect, incluidas la dirección IP y la identidad del solicitante y la fecha y hora de la solicitud en el historial de CloudTrail eventos. La creación de AWS CloudTrail un registro permite la entrega continua de AWS CloudTrail registros a su bucket de S3.

Los grupos de trabajo de Amazon Athena pueden segregar la ejecución de consultas y controlar el acceso de los usuarios, los equipos o las aplicaciones mediante políticas basadas en recursos. Puede aplicar el control de costos limitando el uso de datos en los grupos de trabajo.

Monitorización

La observabilidad es esencial para asegurar la disponibilidad, la fiabilidad y el rendimiento de un centro de contacto y un lago de datos. Amazon CloudWatch proporciona visibilidad en todo el sistema sobre la utilización de los recursos, el rendimiento de las aplicaciones y el estado operativo. Registra la información relevante de los flujos de contactos de Amazon Connect en Amazon CloudWatch y crea notificaciones en tiempo real cuando el rendimiento operativo caiga por debajo de los umbrales predefinidos.

Amazon Connect envía los datos de uso de la instancia como CloudWatch métricas de Amazon en un intervalo de un minuto. La retención de datos de CloudWatch las métricas de Amazon es de dos semanas. Defina los requisitos de retención de registros y las políticas de ciclo de vida desde el principio para asegurar el cumplimiento de las normativas y ahorrar costos en el archivado de datos a largo plazo.

Amazon CloudWatch Logs proporciona una forma sencilla de filtrar los datos de registro e identificar los eventos de incumplimiento para investigar incidentes y agilizar las resoluciones. Puede personalizar los flujos de contacto para detectar intermediarios de alto riesgo o actividades potencialmente fraudulentas. Por ejemplo, puede desconectar todos los contactos entrantes que estén en su lista de personas denegadas predefinida.

Análisis

Un lago de datos de centro de contacto basado en una cartera de análisis descriptivos, predictivos y en tiempo real le ayuda a extraer información significativa y a responder a preguntas empresariales críticas.

Una vez que sus datos lleguen al lago de datos de S3, podrá utilizar cualquier servicio de análisis diseñado específicamente, como Amazon Athena y QuickSight Amazon, para una amplia gama de casos de uso sin tareas de extracción, transformación y carga (ETL) que requieren mucha mano de obra. Como alternativa, puede incorporar sus plataformas de análisis preferidas a su lago de datos de S3. Consulte este blog para obtener información detallada sobre el análisis de los datos de Amazon Connect con Amazon Athena AWS Glue y Amazon. QuickSight

Si busca una solución de almacenamiento de datos altamente escalable, puede habilitar la transmisión de datos en Amazon Connect para transmitir los registros de contactos a Amazon Redshift a través de Amazon Kinesis.

Machine learning

La creación de un lago de datos aporta un nuevo paradigma a la arquitectura del centro de contacto, lo que permite a su empresa ofrecer un servicio de atención al cliente mejorado y personalizado mediante capacidades de machine learning (ML).

Desarrollar el ML tradicional es un proceso complejo y costoso. AWS proporciona la profundidad y la amplitud de una infraestructura escalable, rentable y de alto rendimiento, y servicios de ML flexibles para cualquier proyecto o carga de trabajo de ML.

Amazon SageMaker AI es un servicio totalmente gestionado que permite a sus científicos de datos y desarrolladores crear, entrenar e implementar modelos de aprendizaje automático para casos de uso de centros de contacto a escala. La preparación de los datos supone hasta un 80 % del tiempo de los científicos de datos. Amazon SageMaker AI Data Wrangler simplifica y acelera la preparación de datos y la ingeniería de características a partir de diversas fuentes de datos mediante más de 300 transformaciones de datos integradas sin necesidad de escribir código. Puedes almacenar funciones estandarizadas en Amazon SageMaker AI Feature Store para poder reutilizarlas y compartirlas con el resto de tu organización.

Reducir las fricciones en el recorrido de un cliente es esencial para evitar la pérdida de clientes. Para añadir inteligencia a su centro de contacto, puede crear chatbots de conversación basados en IA usando las capacidades de reconocimiento de voz automático (ASR) y comprensión del lenguaje natural (NLU) de Amazon Lex. Los clientes pueden realizar tareas de autoservicio, como restablecer contraseñas, comprobar el saldo de las cuentas y programar citas a través de chatbots, sin necesidad de hablar con agentes humanos. Para automatizar las preguntas frecuentes (FAQs) del centro de contacto, puede crear un chatbot de preguntas y respuestas (Q&A) con Amazon Lex y Amazon Kendra. Al habilitar el registro de texto en Amazon CloudWatch Logs y guardar las entradas de audio en S3, podrá analizar el flujo de la conversación, mejorar el diseño conversacional y aumentar la participación de los usuarios.

Comprender la dinámica intermediario-agente es esencial para mejorar la calidad general del servicio. Consulte este blog para ver cómo transmitir grabaciones de voz a Amazon Transcribe mediante la transmisión de vídeo de Kinesis para el reconocimiento de voz y cómo transformar el audio en texto y ejecutar análisis de opiniones de las transcripciones con Amazon Comprehend.

En el caso de las organizaciones con presencia internacional, puede crear una experiencia de voz multilingüe en Amazon Connect mediante Amazon Polly o Amazon Translate para la traducción de idiomas.

El software de planificación financiera tradicional crea pronósticos basados en datos históricos de series temporales sin correlacionar tendencias inconsistentes y variables relevantes. Amazon Forecast proporciona hasta un 50 % más de precisión mediante el machine learning para descubrir la relación subyacente entre los datos de series temporales y otras variables, como las características de los productos y las ubicaciones de las tiendas. No necesita tener experiencia en machine learning para crear fácilmente una previsión de inventario o demanda de agentes proporcionando datos asociados y de series temporales en su bucket de S3 a Amazon Forecast. Puede cifrar el contenido confidencial mediante la política de IAM AWS KMS y controlar el acceso a Amazon Forecast mediante dicha política. Amazon Forecast entrena y aloja un modelo de machine learning personalizado en un entorno de alta disponibilidad. Puede generar pronósticos empresariales de alta precisión rápidamente sin administrar ninguna infraestructura o proceso complejo de machine learning.

Amazon Connect proporciona los atributos de las llamadas de los operadores de telefonía, como la ubicación geográfica del equipo de voz para mostrar dónde se originó la llamada, los tipos de dispositivos de teléfono, como fijos o móviles, el número de segmentos de red que ha recorrido la llamada y otra información sobre el origen de la llamada. Con Amazon Fraud Detector, que es totalmente administrado, puede crear un modelo de machine learning para identificar posibles actividades fraudulentas combinando sus conjuntos de datos con los atributos de llamada de Amazon Connect. Por ejemplo, puede personalizar el flujo de contacto para dirigir de forma inteligente las llamadas telefónicas con posibles señales de fraude a un agente especializado.