Qualidade de dados na Amazon DataZone - Amazon DataZone

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Qualidade de dados na Amazon DataZone

As métricas de qualidade de dados na Amazon DataZone ajudam você a entender as diferentes métricas de qualidade, como integridade, pontualidade e precisão de suas fontes de dados. A Amazon DataZone se integra ao AWS Glue Data Quality e oferece APIs para integrar métricas de qualidade de dados de soluções de qualidade de dados de terceiros. Os usuários de dados podem ver como as métricas de qualidade de dados mudam com o tempo para seus ativos inscritos. Para criar e executar as regras de qualidade de dados, você pode usar sua ferramenta de qualidade de dados preferida, como a qualidade de dados AWS Glue. Com as métricas de qualidade de dados na Amazon DataZone, os consumidores de dados podem visualizar as pontuações de qualidade dos dados dos ativos e das colunas, ajudando a criar confiança nos dados que usam para tomar decisões.

Pré-requisitos e mudanças na função do IAM

Se você estiver usando as políticas AWS gerenciadas DataZone da Amazon, não há etapas adicionais de configuração e essas políticas gerenciadas são atualizadas automaticamente para oferecer suporte à qualidade dos dados. Se você estiver usando suas próprias políticas para as funções que concedem à Amazon DataZone as permissões necessárias para interoperar com os serviços suportados, você deve atualizar as políticas anexadas a essas funções para permitir o suporte à leitura das informações de qualidade de dados do AWS Glue no AWS política gerenciada: AmazonDataZoneGlueManageAccessRolePolicy e habilitar o suporte para as APIs de séries temporais no AWS política gerenciada: AmazonDataZoneDomainExecutionRolePolicy e no. AWS política gerenciada: AmazonDataZoneFullUserAccess

Habilitando a qualidade dos dados para ativos do AWS Glue

A Amazon DataZone extrai as métricas de qualidade de dados do AWS Glue para fornecer contexto em um determinado momento, por exemplo, durante uma pesquisa no catálogo de dados corporativos. Os usuários de dados podem ver como as métricas de qualidade de dados mudam com o tempo para seus ativos inscritos. Os produtores de dados podem ingerir as pontuações de qualidade de dados do AWS Glue de acordo com um cronograma. O catálogo de dados DataZone comerciais da Amazon também pode exibir métricas de qualidade de dados de sistemas de terceiros por meio de APIs de qualidade de dados. Para obter mais informações, consulte AWS Glue Data Quality e Introdução ao AWS Glue Data Quality for the Data Catalog.

Você pode habilitar métricas de qualidade de dados para seus DataZone ativos da Amazon das seguintes formas:

  • Use o Portal de Dados ou as DataZone APIs da Amazon para habilitar a qualidade dos dados da sua fonte de dados AWS Glue por meio do portal de dados da Amazon ao criar uma nova fonte de DataZone dados Glue ou editar uma fonte de dados AWS Glue existente.

    Para obter mais informações sobre como habilitar a qualidade de dados para uma fonte de dados por meio do portal, consulte Crie e execute uma fonte de DataZone dados da Amazon para o AWS Glue Data Catalog Gerencie fontes de DataZone dados existentes da Amazon e.

    nota

    Você pode usar o Portal de Dados para habilitar a qualidade dos dados somente para seus ativos de inventário do AWS Glue. Nesta versão da Amazon, a DataZone habilitação da qualidade de dados para o Amazon Redshift ou tipos personalizados de ativos por meio do portal de dados não é suportada.

    Você também pode usar as APIs para habilitar a qualidade dos dados para suas fontes de dados novas ou existentes. Você pode fazer isso invocando CreateDataSourceou UpdateDataSourcee definindo o autoImportDataQualityResult parâmetro como 'True'.

    Depois que a qualidade dos dados estiver ativada, você poderá executar a fonte de dados sob demanda ou dentro do cronograma. Cada execução pode gerar até 100 métricas por ativo. Não há necessidade de criar formulários ou adicionar métricas manualmente ao usar a fonte de dados para qualidade dos dados. Quando o ativo é publicado, as atualizações feitas no formulário de qualidade de dados (até 30 pontos de dados por regra do histórico) são refletidas na listagem para os consumidores. Posteriormente, cada nova adição de métricas ao ativo é adicionada automaticamente à listagem. Não há necessidade de republicar o ativo para disponibilizar as pontuações mais recentes aos consumidores.

Habilitando a qualidade dos dados para tipos de ativos personalizados

Você pode usar as DataZone APIs da Amazon para habilitar a qualidade dos dados para qualquer um dos seus ativos de tipo personalizado. Para obter mais informações, consulte as informações a seguir.

As etapas a seguir fornecem um exemplo do uso de APIs ou CLI para importar métricas de terceiros para seus ativos na Amazon: DataZone

  1. Invoque a PostTimeSeriesDataPoints API da seguinte forma:

    aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \

    com a seguinte carga útil:

    "domainId": "dzd_5oo7xzoqltu8mf", "entityId": "4wyh64k2n8czaf", "entityType": "ASSET", "form": { "content": "{\n \"evaluations\" : [ {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingState\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCity\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"BillingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n \"details\" : {\n \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n },\n \"applicableFields\" : [ \"biLlingcountry\" ],\n \"status\" : \"FAIL\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n \"details\" : { },\n \"applicableFields\" : [ \"Billingstreet\" ],\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 88.0,\n \"evaluationsCount\" : 8\n}", "formName": "shortschemaruleset", "id": "athp9dyw75gzhj", "timestamp": 1.71700477757E9, "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "typeRevision": "8" }, "formName": "shortschemaruleset" }

    Você pode obter essa carga ao invocar a GetFormType ação:

    aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
  2. Invoque a DeleteTimeSeriesDataPoints API da seguinte forma:

    aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \