Prácticas recomendadas - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prácticas recomendadas

Le recomendamos que siga las mejores prácticas técnicas y de almacenamiento. Estas prácticas recomendadas pueden ayudarlo a aprovechar al máximo su arquitectura centrada en los datos.

Prácticas recomendadas de almacenamiento para macrodatos

En la siguiente tabla se describe una práctica recomendada común para almacenar archivos para una carga de procesamiento de big data en Amazon S3. La última columna es un ejemplo de una política de ciclo de vida que puede establecer. Si Amazon S3 Intelligent-Tiering está activado (lo que ofrece un ahorro automático en los costes de almacenamiento cuando los patrones de acceso a los datos cambian automáticamente), no tendrá que configurar la política manualmente.

Nombre de la capa de datos

Descripción

Ejemplo de estrategia de política de ciclo de vida

Raw

Contiene datos sin procesar y sin procesar

Nota: En el caso de una fuente de datos externa, la capa de datos sin procesar suele ser una copia 1:1 de los datos, pero en AWS los datos se pueden dividir por claves en función de la región de AWS o de la fecha durante el proceso de ingesta.

Transcurrido un año, transfiera los archivos a la clase de almacenamiento S3 Standard-IA. Tras dos años en S3 Standard-IA, archive los archivos en Amazon Simple Storage Service Glacier (Amazon S3 Glacier).

Escenario

Contiene datos procesados de forma intermedia que están optimizados para el consumo

Ejemplo: archivos sin procesar o transformaciones de datos convertidos de CSV a Apache Parquet

Puede eliminar los datos después de un período de tiempo definido o según los requisitos de su organización.

Puede eliminar algunos derivados de datos (por ejemplo, una transformación de Apache Avro de un formato JSON original) del lago de datos después de un período de tiempo más corto (por ejemplo, después de 90 días).

Análisis

Contiene los datos agregados para sus casos de uso específicos en un formato listo para el consumo

Ejemplo: Apache Parquet

Puede mover los datos a S3 Standard-IA y, después, eliminarlos después de un período de tiempo definido o según los requisitos de su organización.

El siguiente diagrama muestra un ejemplo de una estrategia de partición (correspondiente a una carpeta o prefijo de S3) que puede utilizar en todas las capas de datos. Le recomendamos que elija una estrategia de particionamiento en función de cómo se usen sus datos en sentido descendente. Por ejemplo, si los informes se basan en sus datos (donde las consultas más comunes del informe filtran los resultados en función de la región y las fechas), asegúrese de incluir las regiones y las fechas como particiones para mejorar el rendimiento y el tiempo de ejecución de las consultas.

Diagrama de estrategia de particionamiento

Mejores prácticas técnicas

Las mejores prácticas técnicas dependen de los servicios y tecnologías de procesamiento específicos de AWS que utilice para diseñar su arquitectura centrada en los datos. Sin embargo, le recomendamos que tenga en cuenta las siguientes prácticas recomendadas. Estas prácticas recomendadas se aplican a los casos de uso típicos del procesamiento de datos.

Área

Práctica recomendada

SQL

Reduzca la cantidad de datos que deben consultarse proyectando los atributos en los datos. En lugar de analizar toda la tabla, puede utilizar la proyección de datos para escanear y devolver solo determinadas columnas obligatorias de la tabla.

Si es posible, evite las uniones grandes, ya que las uniones entre varias tablas pueden afectar significativamente al rendimiento debido a que requieren muchos recursos.

Apache Spark

Optimice las aplicaciones de Spark con la partición de las cargas de trabajo en AWS Glue (blog sobre macrodatos de AWS).

Optimice la administración de memoria en AWS Glue (blog sobre macrodatos de AWS).

Diseño de bases de datos

Siga las prácticas recomendadas de arquitectura para bases de datos (AWS Architecture Center).

Depuración de datos

Utilice la depuración de particiones del lado del servidor con. catalogPartitionPredicate

Escalado

Comprenda e implemente el escalado horizontal.