Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Preparación y limpieza
La preparación y la limpieza de los datos son una de las etapas más importantes del ciclo de vida de los datos, pero que consumen más tiempo. El siguiente diagrama muestra cómo la etapa de preparación y limpieza de datos encaja en el ciclo de vida de la automatización de la ingeniería de datos y el control de acceso.
A continuación, se muestran algunos ejemplos de preparación o limpieza de datos:
Asignación de columnas de texto a códigos
Omitir columnas vacías
Rellenar campos de datos vacíos con
0
None
, o''
Anonimización o enmascaramiento de la información de identificación personal (PII)
Si tiene una gran carga de trabajo con una variedad de datos, le recomendamos que utilice Amazon EMRDataFrame
o DynamicFrame
trabajar con él. Además, puede utilizar AWS Glue DataBrew
Para cargas de trabajo más pequeñas que no requieran procesamiento distribuido y que se puedan completar en menos de 15 minutos, le recomendamos que utilice AWS Lambda
Es fundamental elegir el servicio de AWS adecuado para la preparación y limpieza de datos y comprender las ventajas y desventajas que implica su elección. Por ejemplo, considere un escenario en el que elija entre AWS Glue y Amazon EMR. DataBrew AWS Glue es ideal si el trabajo de ETL no es frecuente. Un trabajo poco frecuente se realiza una vez al día, una vez a la semana o una vez al mes. Además, puedes suponer que tus ingenieros de datos son expertos en escribir código de Spark (para casos de uso de macrodatos) o en crear scripts en general. Si el trabajo es más frecuente, ejecutar AWS Glue constantemente puede resultar caro. En este caso, Amazon EMR proporciona capacidades de procesamiento distribuido y ofrece tanto una versión sin servidor como una basada en el servidor. Si sus ingenieros de datos no tienen las habilidades adecuadas o si debe entregar resultados rápidamente, entonces DataBrew es una buena opción. DataBrewpuede reducir el esfuerzo de desarrollar código y acelerar el proceso de preparación y limpieza de datos.
Una vez finalizado el procesamiento, los datos del proceso ETL se almacenan en AWS. La elección del almacenamiento depende del tipo de datos que se trate. Por ejemplo, podría trabajar con datos no relacionales, como datos de gráficos, datos de pares clave-valor, imágenes, archivos de texto o datos estructurados relacionales.
Como se muestra en el diagrama siguiente, puede utilizar los siguientes servicios de AWS para el almacenamiento de datos:
Amazon S3
almacena datos no estructurados o semiestructurados (por ejemplo, archivos, imágenes y vídeos de Apache Parquet). Amazon Neptune
almacena conjuntos de datos gráficos que puede consultar mediante SPARQL o GREMLIN. Amazon Keyspaces (para Apache Cassandra)
almacena conjuntos de datos que son compatibles con Apache Cassandra. Amazon QLDB
almacena los conjuntos de datos del libro mayor. Amazon Aurora
almacena conjuntos de datos relacionales. Amazon DynamoDB
almacena datos de documentos o valores clave en una base de datos NoSQL. Amazon Redshift
almacena las cargas de trabajo de los datos estructurados en un almacén de datos.
Al utilizar el servicio adecuado con las configuraciones correctas, puede almacenar sus datos de la manera más eficiente y eficaz. Esto minimiza el esfuerzo que implica la recuperación de datos.