Prácticas recomendadas

Le recomendamos que siga las mejores prácticas técnicas y de almacenamiento. Estas prácticas recomendadas pueden ayudarlo a aprovechar al máximo su arquitectura centrada en los datos.

Prácticas recomendadas de almacenamiento para macrodatos

En la siguiente tabla se describe una práctica recomendada común para almacenar archivos para una carga de procesamiento de big data en Amazon S3. La última columna es un ejemplo de una política de ciclo de vida que puede establecer. Si Amazon S3 Intelligent-Tiering está activado (lo que ofrece un ahorro automático en los costes de almacenamiento cuando los patrones de acceso a los datos cambian automáticamente), no tendrá que configurar la política manualmente.

Nombre de la capa de datos	Descripción	Ejemplo de estrategia de política de ciclo de vida
Raw	Contiene datos sin procesar y sin procesar Nota: En el caso de una fuente de datos externa, la capa de datos sin procesar suele ser una copia 1:1 de los datos, pero en AWS los datos se pueden dividir por claves en función de la región de AWS o de la fecha durante el proceso de ingesta.	Transcurrido un año, transfiera los archivos a la clase de almacenamiento S3 Standard-IA. Tras dos años en S3 Standard-IA, archive los archivos en Amazon Simple Storage Service Glacier (Amazon S3 Glacier).
Escenario	Contiene datos procesados de forma intermedia que están optimizados para el consumo Ejemplo: archivos sin procesar o transformaciones de datos convertidos de CSV a Apache Parquet	Puede eliminar los datos después de un período de tiempo definido o según los requisitos de su organización. Puede eliminar algunos derivados de datos (por ejemplo, una transformación de Apache Avro de un formato JSON original) del lago de datos después de un período de tiempo más corto (por ejemplo, después de 90 días).
Análisis	Contiene los datos agregados para sus casos de uso específicos en un formato listo para el consumo Ejemplo: Apache Parquet	Puede mover los datos a S3 Standard-IA y, después, eliminarlos después de un período de tiempo definido o según los requisitos de su organización.

El siguiente diagrama muestra un ejemplo de una estrategia de partición (correspondiente a una carpeta o prefijo de S3) que puede utilizar en todas las capas de datos. Le recomendamos que elija una estrategia de particionamiento en función de cómo se usen sus datos en sentido descendente. Por ejemplo, si los informes se basan en sus datos (donde las consultas más comunes del informe filtran los resultados en función de la región y las fechas), asegúrese de incluir las regiones y las fechas como particiones para mejorar el rendimiento y el tiempo de ejecución de las consultas.

Diagrama de estrategia de particionamiento

Mejores prácticas técnicas

Las mejores prácticas técnicas dependen de los servicios y tecnologías de procesamiento específicos de AWS que utilice para diseñar su arquitectura centrada en los datos. Sin embargo, le recomendamos que tenga en cuenta las siguientes prácticas recomendadas. Estas prácticas recomendadas se aplican a los casos de uso típicos del procesamiento de datos.

Área	Práctica recomendada
SQL	Reduzca la cantidad de datos que deben consultarse proyectando los atributos en los datos. En lugar de analizar toda la tabla, puede utilizar la proyección de datos para escanear y devolver solo determinadas columnas obligatorias de la tabla. Si es posible, evite las uniones grandes, ya que las uniones entre varias tablas pueden afectar significativamente al rendimiento debido a que requieren muchos recursos.
Apache Spark	Optimice las aplicaciones de Spark con la partición de las cargas de trabajo en AWS Glue (blog sobre macrodatos de AWS). Optimice la administración de memoria en AWS Glue (blog sobre macrodatos de AWS).
Diseño de bases de datos	Siga las prácticas recomendadas de arquitectura para bases de datos (AWS Architecture Center).
Depuración de datos	Utilice la depuración de particiones del lado del servidor con. `catalogPartitionPredicate`
Escalado	Comprenda e implemente el escalado horizontal.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Automatización y control de acceso

Preguntas frecuentes