Diseñar un lago de datos para crecer y escalar en el Nube de AWS - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Diseñar un lago de datos para crecer y escalar en el Nube de AWS

Wei Shao, Amazon Web Services ()AWS

Octubre de 2021 (historial del documento)

Las organizaciones diseñan y crean cada vez más lagos de datos en la nube de Amazon Web Services (AWS) como parte de su estrategia de modernización de datos. Los lagos de datos pueden ser repositorios que almacenan sus datos estructurados y no estructurados a cualquier escala y los ponen a disposición de una amplia gama de usuarios internos y externos.

Sin embargo, incorporar datos en lagos de datos que sirvan para sus crecientes casos de uso empresarial puede llevar mucho tiempo y esfuerzo. Para ayudar a reducir los costos y maximizar el valor que se genera a partir de los datos, muchas organizaciones planifican una sola ingesta de datos en su lago de datos y, después, los consumen varias veces. Diseñar una arquitectura de lago de datos que se adapte a la producción, el intercambio y el consumo de datos es fundamental para ofrecer valor a las partes interesadas de la empresa cuando su lago de datos crece.

Una arquitectura de lago de datos escalable proporciona a su organización una base sólida para obtener valor de su lago de datos y, al mismo tiempo, incorporar más datos al mismo. Al obtener información sobre los datos de forma continua sin ralentizarse ni interrumpirse debido a las limitaciones de escalabilidad, un lago de datos escalable también ayuda a su organización a seguir siendo competitiva.

Por lo general, un lago de datos tiene productores y consumidores de datos. Los productores de datos crean activos de datos mediante la recopilación, el procesamiento y el almacenamiento de datos de su dominio de datos. Estos activos de datos colectivos forman el contenido de su lago de datos. Los productores de datos pueden optar por compartir sus activos de datos de forma selectiva con los consumidores de datos del lago de datos.

Los consumidores de datos necesitan los datos de los productores de datos para cumplir con sus casos de uso empresarial y, en ocasiones, también pueden combinar estos datos con los suyos propios. Los productores y consumidores de datos suelen formar parte de su organización, aunque no siempre. Y lo que es más importante, ambos pueden ser productores o consumidores de datos al mismo tiempo.

Una arquitectura de lago de datos escalable le ayuda a lograr los siguientes resultados:

  • Incorpore productores de datos a escala sin necesidad de que mantengan todo el proceso de intercambio de datos. Esto ayuda a los productores de datos a incorporar sus datos al lago de datos y a centrarse en la recopilación, el procesamiento y el almacenamiento de los datos de su dominio de datos.

  • Permita que los consumidores de datos accedan a los datos de varios productores de datos sin aumentar los costes generales ni los gastos generales de gestión.

Esta guía describe los desafíos de escalamiento más comunes que pueden surgir cuando las organizaciones amplían sus lagos de datos, proporciona una arquitectura de referencia para los lagos de datos y describe los enfoques para incorporar y conceder acceso a los productores y consumidores de datos. La arquitectura de referencia del lago de datos de esta guía aprovecha las diferentes funciones y capacidades que ofrece. AWS Lake Formation La guía está destinada a los equipos responsables del diseño de los lagos de datos Nube de AWS, incluidos los arquitectos de datos empresariales, los arquitectos de plataformas de datos, los diseñadores o los líderes del dominio de datos.

Resultados empresariales específicos

Tras diseñar un lago de datos que permita crecer y escalar en Nube de AWS:

  • Reduzca los gastos generales de uso compartido y consumo de datos en las distintas líneas de negocio de su organización.

  • Un enfoque seguro y coherente que ayuda a su organización a incluir productores de datos externos y a compartir datos con ellos en su lago de datos.

  • Obtenga información sobre los datos de forma continua sin ralentizarse ni interrumpirse debido a las limitaciones de escalabilidad.