Ingeniería de datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ingeniería de datos

Automatice y organice los flujos de datos en toda su organización.

Utilice los metadatos para automatizar las canalizaciones que procesan datos sin procesar y generan resultados optimizados. Aproveche las barreras arquitectónicas y los controles de seguridad existentes, tal como se definen en la arquitectura de la plataforma y las capacidades de ingeniería de la plataforma de AWS CAF, así como desde la perspectiva de las operaciones. Trabaje con el equipo de ingeniería de plataformas para desarrollar planos reutilizables que se adapten a patrones comunes que simplifiquen el despliegue de las canalizaciones. 

Inicio

Implemente un lago de datos

Establezca las capacidades fundamentales de almacenamiento de datos mediante el uso de soluciones de almacenamiento adecuadas para datos estructurados y no estructurados. Esto le permite recopilar y almacenar datos de diversas fuentes y hace que los datos sean accesibles para su posterior procesamiento y análisis. El almacenamiento de datos es un componente fundamental de una estrategia de ingeniería de datos. Una arquitectura de almacenamiento de datos bien diseñada permite a las organizaciones almacenar, administrar y acceder a sus datos de manera eficiente y rentable. AWS ofrece una variedad de servicios de almacenamiento de datos para satisfacer necesidades empresariales específicas.

Por ejemplo, puede establecer capacidades básicas de almacenamiento de datos mediante Amazon Simple Storage Service (Amazon S3) para el almacenamiento de objetos, Amazon Relational Database Service (Amazon RDS) para las bases de datos relacionales y Amazon Redshift para el almacenamiento de datos. Estos servicios le ayudan a almacenar los datos de forma segura y rentable, y a facilitar el acceso a los datos para su posterior procesamiento y análisis. Le recomendamos que también implemente las mejores prácticas de almacenamiento de datos, como la partición y la compresión de datos, para mejorar el rendimiento y reducir los costes.

Desarrolle patrones de ingesta de datos

Para automatizar y organizar los flujos de datos, establezca procesos de ingesta de datos para recopilar datos de diversas fuentes, incluidas bases de datos, archivos y. APIs Sus procesos de ingesta de datos deben respaldar la agilidad empresarial y tener en cuenta los controles de gobierno.

El orquestador debe ser capaz de ejecutar servicios basados en la nube y proporcionar un mecanismo de programación automatizado. Debe ofrecer opciones para establecer vínculos condicionales y dependencias entre tareas, además de capacidades de sondeo y gestión de errores. Además, debe integrarse perfectamente con los sistemas de alerta y monitoreo para garantizar que las tuberías funcionen sin problemas.

Algunos de los mecanismos de orquestación más populares incluyen:

  • La orquestación basada en el tiempo inicia un flujo de trabajo en un intervalo recursivo y con una frecuencia definida.

  • La orquestación basada en eventos inicia un flujo de trabajo en función de la aparición de un evento, como la creación de un archivo o una solicitud de API.

  • El sondeo implementa un mecanismo en el que una tarea o un flujo de trabajo llama a un servicio (por ejemplo, a través de una API) y espera una respuesta definida antes de continuar con el siguiente paso.

El diseño de la arquitectura moderna hace hincapié en aprovechar los servicios gestionados que simplifican la administración de la infraestructura en la nube y reducen la carga de trabajo para los desarrolladores y los equipos de infraestructura. Este enfoque también se aplica a la ingeniería de datos. Le recomendamos que utilice servicios gestionados cuando proceda para crear canales de ingesta de datos a fin de acelerar sus procesos de ingeniería de datos. Dos ejemplos de estos tipos de servicios son Amazon Managed Workflows for Apache Airflow (Amazon MWAA) y: AWS Step Functions

  • Apache Airflow es una popular herramienta de orquestación para crear, programar y monitorear flujos de trabajo mediante programación. AWS ofrece Amazon Managed Workflows for Apache Airflow (Amazon MWAA) como un servicio gestionado que permite a los desarrolladores centrarse en crear, en lugar de gestionar, la infraestructura de la herramienta de organización. Amazon MWAA facilita la creación de flujos de trabajo mediante scripts de Python. Un gráfico acíclico dirigido (DAG) representa un flujo de trabajo como un conjunto de tareas de forma que muestra las relaciones y dependencias de cada tarea. Puede tener tantas DAGs como desee y Apache Airflow las ejecutará de acuerdo con las relaciones y dependencias de cada tarea.

  • AWS Step Functionsayuda a los desarrolladores a crear un flujo de trabajo visual con poco código para automatizar los procesos empresariales y de TI. Los flujos de trabajo que crea con Step Functions se denominan máquinas de estados y cada paso del flujo de trabajo se denomina estado. Puede usar Step Functions para crear flujos de trabajo para la gestión integrada de errores, el paso de parámetros, la configuración de seguridad recomendada y la administración del estado. Esto reduce la cantidad de código que hay que escribir y mantener. Las tareas se realizan coordinándolas con otro AWS servicio o una aplicación que usted aloje de forma local o en un entorno de nube.

Acelere el procesamiento de datos

El procesamiento de datos es un paso crucial para dar sentido a las enormes cantidades de datos que recopilan las organizaciones modernas. Para empezar con el procesamiento de datos, AWS ofrece servicios gestionados, por ejemplo AWS Glue, que proporcionan potentes capacidades de extracción, transformación y carga (ETL). Las organizaciones pueden utilizar estos servicios para empezar a procesar y transformar los datos sin procesar, incluida la limpieza, la normalización y la agregación de datos para prepararlos para el análisis.

El procesamiento de datos comienza con técnicas sencillas, como la agregación y el filtrado, para realizar las transformaciones iniciales de los datos. A medida que evolucionan las necesidades de procesamiento de datos, puede implementar procesos ETL más avanzados que le permitan extraer datos de diversas fuentes, transformarlos para adaptarlos a sus necesidades específicas y cargarlos en un almacén de datos o base de datos centralizados para un análisis unificado. Este enfoque garantiza que los datos sean precisos, completos y estén disponibles para su análisis de manera oportuna.

Al utilizar servicios AWS gestionados para el procesamiento de datos, las organizaciones pueden beneficiarse de un mayor nivel de automatización, escalabilidad y rentabilidad. Estos servicios automatizan muchas tareas rutinarias de procesamiento de datos, como el descubrimiento de esquemas, la creación de perfiles y la transformación de datos, y liberan recursos valiosos para actividades más estratégicas. Además, estos servicios se escalan automáticamente para soportar los crecientes volúmenes de datos.

Proporcione servicios de visualización de datos

Encuentre formas de poner los datos a disposición de los responsables de la toma de decisiones que utilizan la visualización de datos para interpretarlos de manera significativa y rápida. A través de las visualizaciones, puede interpretar los patrones y aumentar la participación de un conjunto diverso de partes interesadas, independientemente de sus habilidades técnicas. Una buena plataforma permite a los equipos de ingeniería de datos aprovisionar recursos que permiten visualizar los datos de forma rápida y con pocos gastos generales. También puede proporcionar funciones de autoservicio mediante el uso de herramientas que pueden consultar fácilmente los almacenes de datos sin necesidad de conocimientos de ingeniería. Considere la posibilidad de utilizar herramientas integradas que puedan proporcionar inteligencia empresarial sin servidores mediante imágenes de datos y paneles interactivos, y que puedan utilizar un lenguaje natural para consultar los datos de fondo. 

Avanzado

Implemente el procesamiento de datos casi en tiempo real

El procesamiento de datos es un componente esencial de cualquier proceso de ingeniería de datos, que permite a las organizaciones transformar los datos sin procesar en información significativa. Además del procesamiento por lotes tradicional, el procesamiento de datos en tiempo real se ha vuelto cada vez más importante en el vertiginoso entorno empresarial actual. El procesamiento de datos en tiempo real permite a las organizaciones responder a los eventos a medida que se producen y mejora la toma de decisiones y la eficiencia operativa.

Valide la calidad de los datos

La calidad de los datos afecta directamente a la precisión y la fiabilidad de la información y las decisiones que se derivan de los datos. La implementación de procesos de validación y limpieza de datos es esencial para garantizar que se utilizan datos confiables y de alta calidad para el análisis.

La validación de datos implica verificar la precisión, integridad y coherencia de los datos comparándolos con reglas y criterios predefinidos. Esto ayuda a identificar cualquier discrepancia o error en los datos y garantiza que sean adecuados para su propósito. La limpieza de datos implica la identificación y corrección de cualquier inexactitud, incoherencia o duplicación en los datos.

Al implementar procesos y herramientas de calidad de los datos, las organizaciones pueden mejorar la precisión y la confiabilidad de la información derivada de los datos, lo que se traduce en una mejor toma de decisiones y en una mayor eficiencia operativa. Esto no solo mejora el rendimiento de la organización, sino que también aumenta la confianza de las partes interesadas en los datos y los análisis producidos.

Pruebe los servicios de transformación de datos

La transformación de datos prepara los datos para modelos avanzados de análisis y aprendizaje automático. Implica el uso de técnicas como la normalización, el enriquecimiento y la deduplicación de datos para garantizar que los datos estén limpios, coherentes y listos para el análisis.

  • La normalización de los datos implica organizar los datos en un formato estándar, eliminar las redundancias y garantizar que los datos sean coherentes en las diferentes fuentes. Esto facilita el análisis y la comparación de datos de múltiples fuentes y permite a las organizaciones obtener una comprensión más completa de sus operaciones.

  • El enriquecimiento de los datos implica mejorar los datos existentes con información adicional de fuentes externas, como datos demográficos o tendencias del mercado. Esto proporciona información valiosa sobre el comportamiento de los clientes o las tendencias del sector que tal vez no se desprenda únicamente de las fuentes de datos internas.

  • La deduplicación implica identificar y eliminar las entradas de datos duplicadas y garantizar que los datos sean precisos y no contengan errores. Esto es especialmente importante cuando se trata de conjuntos de datos de gran tamaño, en los que incluso un pequeño porcentaje de duplicación podría sesgar los resultados del análisis.

Al utilizar técnicas avanzadas de transformación de datos, las organizaciones se aseguran de que sus datos sean de alta calidad, precisos y estén listos para análisis más complejos. Esto conduce a una mejor toma de decisiones, a una mayor eficiencia operativa y a una ventaja competitiva en el mercado.

Permita la democratización de los datos

Promueva una cultura de democratización de los datos haciendo que los datos sean accesibles, comprensibles y utilizables para todos los empleados. La democratización de los datos ayuda a los empleados a tomar decisiones basadas en los datos y contribuye a la cultura basada en los datos de la organización. Esto significa eliminar los silos y crear una cultura en la que todos los empleados compartan y utilicen los datos para impulsar la toma de decisiones.

En general, la democratización de los datos consiste en crear una cultura en la que los datos sean valorados, accesibles y comprensibles para todos los miembros de la organización. Al permitir la democratización de los datos, las organizaciones fomentan una cultura basada en los datos que impulsa la innovación, mejora la toma de decisiones y, en última instancia, conduce al éxito empresarial.

Excel

Proporcione una orquestación basada en la interfaz de usuario

Para crear organizaciones que sean ágiles y utilicen enfoques eficaces, es importante planificar una plataforma de orquestación moderna que utilicen los recursos de desarrollo y operaciones de todas las líneas de negocio. El objetivo es desarrollar, implementar y compartir flujos de datos y flujos de trabajo sin depender de un solo equipo, tecnología o modelo de soporte. Esto se logra mediante capacidades como la orquestación basada en la interfaz de usuario. Características como drag-and-drop la interacción permiten a los usuarios con pocos conocimientos técnicos crear DAGs y organizar flujos de datos de máquinas. A continuación, estos componentes pueden generar código ejecutable que organice las canalizaciones de datos. 

DataOps ayuda a superar las complejidades de la administración de datos y garantiza un flujo de datos fluido entre las organizaciones. Un enfoque basado en los metadatos garantiza la calidad y el cumplimiento de los datos de acuerdo con los mandatos de su organización. La inversión en conjuntos de herramientas como los microservicios, la contenedorización y las funciones sin servidor mejora la escalabilidad y la agilidad.

Confiar en los equipos de ingeniería de datos para generar valor a partir de los datos y dejar las tareas de day-to-day infraestructura en manos de la automatización permite a las organizaciones alcanzar la excelencia en la automatización y la organización. La supervisión y el registro prácticamente en tiempo real de las tareas de gestión del flujo de datos permiten adoptar medidas correctivas inmediatas y mejoran el rendimiento y la seguridad del flujo de datos. Estos principios ayudan a lograr la escalabilidad y el rendimiento, a la vez que garantizan un modelo seguro de intercambio de datos y preparan a las organizaciones para el éxito en el futuro.

Integre DataOps

DataOps es un enfoque moderno de la ingeniería de datos que hace hincapié en la integración de los procesos de desarrollo y operaciones para agilizar la creación, las pruebas y el despliegue de las canalizaciones de datos. Para implementar las DataOps mejores prácticas, las organizaciones utilizan la infraestructura como código (IaC) y las herramientas de integración y entrega continuas (CI/CD). Estas herramientas permiten la creación, las pruebas y el despliegue automatizados de canalizaciones, lo que mejora significativamente la eficiencia y reduce los errores. DataOps Los equipos trabajan con los equipos de habilitación de ingeniería de plataformas para crear estas automatizaciones, de modo que cada equipo pueda centrarse en lo que mejor sabe hacer. 

La implementación de DataOps metodologías ayuda a fomentar un entorno de colaboración para los ingenieros de datos, los científicos de datos y los usuarios empresariales, y permite desarrollar, implementar y monitorear rápidamente las canalizaciones de datos y las soluciones de análisis. Este enfoque proporciona una comunicación y una colaboración más fluidas entre los equipos, lo que se traduce en una innovación más rápida y mejores resultados.

Para aprovechar al máximo los beneficios de DataOps, es importante optimizar los procesos de ingeniería de datos. Esto se logra mediante el uso de las mejores prácticas de los equipos de ingeniería de plataformas, que incluyen la revisión del código, la integración continua y las pruebas automatizadas. Al implementar estas prácticas, las organizaciones se aseguran de que las canalizaciones de datos sean confiables, escalables y seguras, y de que satisfagan las necesidades de las partes interesadas técnicas y empresariales.