Calidad de los datos en Amazon DataZone - Amazon DataZone

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Calidad de los datos en Amazon DataZone

Las métricas de calidad de los datos de Amazon te DataZone ayudan a entender las diferentes métricas de calidad, como la integridad, la puntualidad y la precisión de tus fuentes de datos. Amazon DataZone se integra con AWS Glue Data Quality y ofrece API para integrar métricas de calidad de datos de soluciones de calidad de datos de terceros. Los usuarios de datos pueden ver cómo las métricas de calidad de los datos cambian a lo largo del tiempo para sus activos suscritos. Para crear y ejecutar las reglas de calidad de los datos, puede utilizar la herramienta de calidad de datos que prefiera, como AWS Glue Data Quality. Con las métricas de calidad de los datos de Amazon DataZone, los consumidores de datos pueden visualizar las puntuaciones de calidad de los datos de los activos y las columnas, lo que ayuda a generar confianza en los datos que utilizan para tomar decisiones.

Requisitos previos y cambios en las funciones de IAM

Si utilizas las políticas AWS gestionadas DataZone de Amazon, no hay pasos de configuración adicionales y estas políticas gestionadas se actualizan automáticamente para garantizar la calidad de los datos. Si utilizas tus propias políticas para las funciones que otorgan a Amazon DataZone los permisos necesarios para interoperar con los servicios compatibles, debes actualizar las políticas adjuntas a estas funciones para permitir la lectura de la información sobre la calidad de los datos de AWS Glue en el AWS política gestionada: AmazonDataZoneGlueManageAccessRolePolicy y habilitar el soporte para las API de series temporales en el AWS política gestionada: AmazonDataZoneDomainExecutionRolePolicy y en elAWS política gestionada: AmazonDataZoneFullUserAccess.

Habilitar la calidad de los datos para los activos de AWS Glue

Amazon DataZone extrae las métricas de calidad de los datos de AWS Glue para proporcionar contexto durante un momento determinado, por ejemplo, durante una búsqueda en un catálogo de datos empresariales. Los usuarios de datos pueden ver cómo cambian las métricas de calidad de los datos a lo largo del tiempo para sus activos suscritos. Los productores de datos pueden asimilar las puntuaciones de calidad de los datos de AWS Glue según un cronograma. El catálogo de datos DataZone empresariales de Amazon también puede mostrar métricas de calidad de datos de sistemas de terceros a través de API de calidad de datos. Para obtener más información, consulte AWS Glue Data Quality y Introducción a AWS Glue Data Quality para el catálogo de datos.

Puedes habilitar las métricas de calidad de los datos para tus DataZone activos de Amazon de las siguientes maneras:

  • Utilice el portal de datos o DataZone las API de Amazon para mejorar la calidad de los datos de su fuente de datos de AWS Glue a través del portal de DataZone datos de Amazon, ya sea al crear una nueva fuente de datos de AWS Glue o al editar la existente.

    Para obtener más información sobre cómo habilitar la calidad de los datos para una fuente de datos a través del portal, consulte Cree y ejecute una fuente DataZone de datos de Amazon para AWS Glue Data Catalog yGestiona las fuentes de DataZone datos de Amazon existentes.

    nota

    Puede usar el portal de datos para habilitar la calidad de los datos solo para sus activos de inventario de AWS Glue. En esta versión de Amazon, no se admite la DataZone habilitación de la calidad de los datos para activos de Amazon Redshift o de tipos personalizados a través del portal de datos.

    También puede utilizar las API para mejorar la calidad de los datos de sus fuentes de datos nuevas o existentes. Para ello, invoca CreateDataSourceo UpdateDataSourcey establece el autoImportDataQualityResult parámetro en «Verdadero».

    Una vez habilitada la calidad de los datos, puede ejecutar la fuente de datos a pedido o según lo programado. Cada ejecución puede generar hasta 100 métricas por activo. No es necesario crear formularios ni añadir métricas manualmente cuando se utiliza la fuente de datos para garantizar la calidad de los datos. Cuando se publica el activo, las actualizaciones realizadas en el formulario de calidad de los datos (hasta 30 puntos de datos por regla histórica) se reflejan en el anuncio para los consumidores. Posteriormente, cada nueva incorporación de métricas al activo se añade automáticamente al anuncio. No es necesario volver a publicar el activo para que las puntuaciones más recientes estén disponibles para los consumidores.

Habilitar la calidad de los datos para los tipos de activos personalizados

Puede usar las DataZone API de Amazon para habilitar la calidad de los datos para cualquiera de sus activos de tipo personalizado. Para más información, consulte los siguientes temas:

Los siguientes pasos proporcionan un ejemplo del uso de las API o la CLI para importar métricas de terceros para sus activos en Amazon DataZone:

  1. Invoca la PostTimeSeriesDataPoints API de la siguiente manera:

    aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \

    con la siguiente carga útil:

    { "domainIdentifier": "dzd_bqqlk3nz21zp2f", "entityIdentifier": "4nwl5ew0dsu27b", "entityType": "ASSET", "forms": [ { "content": "{\n \"evaluationsCount\" : 11,\n \"evaluations\" : [ {\n \"description\" : \"IsComplete \\\"Id\\\"\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"Id\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"Uniqueness \\\"Id\\\" > 0.95\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Uniqueness\",\n \"COLUMN_NAME\" : \"Id\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnLength \\\"Id\\\" = 18\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"MinimumLength,MaximumLength\",\n \"COLUMN_NAME\" : \"Id,Id\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"IsComplete \\\"IsDeleted\\\"\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"IsDeleted\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"Completeness \\\"Type\\\" >= 0.59\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"Type\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnValues \\\"Type\\\" in [\\\"Customer - Direct\\\",\\\"Customer - Channel\\\"] with threshold >= 0.8\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"\",\n \"COLUMN_NAME\" : \"\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnLength \\\"Type\\\" <= 18\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"MaximumLength\",\n \"COLUMN_NAME\" : \"Type\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnLength \\\"ParentId\\\" <= 18\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"MaximumLength\",\n \"COLUMN_NAME\" : \"ParentId\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"Completeness \\\"AnnualRevenue\\\" >= 0.28\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"AnnualRevenue\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"StandardDeviation \\\"AnnualRevenue\\\" between 1658483123.39 and 1833060294.28\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"StandardDeviation\",\n \"COLUMN_NAME\" : \"AnnualRevenue\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnValues \\\"AnnualRevenue\\\" between 29999999 and 5600000001\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Minimum,Maximum\",\n \"COLUMN_NAME\" : \"AnnualRevenue,AnnualRevenue\"\n },\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 1.0\n}", "formName": "GREAT_EXPECTATION_NEW", "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "timestamp": 1608969556 } ] }
  2. Invoca la DeleteTimeSeriesDataPoints API de la siguiente manera:

    aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \