Linaje de datos en Amazon DataZone (versión preliminar) - Amazon DataZone

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Linaje de datos en Amazon DataZone (versión preliminar)

importante

Actualmente, la funcionalidad de linaje de datos de Amazon DataZone se encuentra en una versión preliminar.

El linaje de datos de Amazon DataZone es una función OpenLineage compatible con API que puede ayudarlo a capturar y visualizar eventos de linaje, desde sistemas OpenLineage habilitados o mediante API, para rastrear los orígenes de los datos, rastrear las transformaciones y ver el consumo de datos en todas las organizaciones. Le proporciona una visión global de sus activos de datos para ver el origen de los activos y su cadena de conexiones. Los datos de linaje incluyen información sobre las actividades incluidas en el catálogo DataZone de datos empresariales de Amazon, incluida información sobre los activos catalogados, los suscriptores de esos activos y las actividades que tienen lugar fuera del catálogo de datos empresariales capturados mediante programación mediante las API.

Con las API OpenLineage compatibles con Amazon DataZone, los administradores de dominios y los productores de datos pueden capturar y almacenar eventos de linaje más allá de lo que está disponible en Amazon DataZone, incluidas las transformaciones en Amazon S3, AWS Glue y otros servicios. Esto proporciona una visión integral a los consumidores de datos y les ayuda a ganar confianza en el origen del activo, mientras que los productores de datos pueden evaluar el impacto de los cambios en un activo al comprender su uso. Además, Amazon DataZone versiona el linaje con cada evento, lo que permite a los usuarios visualizar el linaje en cualquier momento o comparar las transformaciones en el historial de un activo o trabajo. Este linaje histórico proporciona una comprensión más profunda de la evolución de los datos, algo esencial para solucionar problemas, auditar y garantizar la integridad de los activos de datos.

Con el linaje de datos, puede lograr lo siguiente en Amazon DataZone:

  • Comprenda la procedencia de los datos: saber dónde se originaron los datos fomenta la confianza en los datos al proporcionarle una comprensión clara de sus orígenes, dependencias y transformaciones. Esta transparencia ayuda a tomar decisiones fiables basadas en los datos.

  • Comprenda el impacto de los cambios en las canalizaciones de datos: cuando se realizan cambios en las canalizaciones de datos, se puede utilizar el linaje para identificar a todos los consumidores intermedios que se van a ver afectados. Esto ayuda a garantizar que los cambios se realicen sin interrumpir los flujos de datos críticos.

  • Identifique la causa raíz de los problemas de calidad de los datos: si se detecta un problema de calidad de los datos en un informe posterior, se puede utilizar el linaje, especialmente el linaje a nivel de columna, para rastrear los datos (a nivel de columna) e identificar el problema hasta su origen. Esto puede ayudar a los ingenieros de datos a identificar y solucionar el problema.

  • Mejore la gobernanza y el cumplimiento de los datos: el linaje a nivel de columna se puede utilizar para demostrar el cumplimiento de las normas de gobernanza y privacidad de los datos. Por ejemplo, el linaje a nivel de columna se puede utilizar para mostrar dónde se almacenan los datos confidenciales (como la información de identificación personal) y cómo se procesan en las actividades posteriores.

Tipos de nodos de linaje en Amazon DataZone

en Amazon DataZone, la información del linaje de datos se presenta en nodos que representan tablas y vistas. Según el contexto del proyecto, por ejemplo, un proyecto seleccionado en la parte superior izquierda del portal de datos, los productores pueden ver tanto el inventario como los activos publicados, mientras que los consumidores solo pueden ver los activos publicados. Al abrir por primera vez la pestaña de linaje en la página de detalles del activo, el nodo del conjunto de datos catalogado es el punto de partida para navegar en sentido ascendente o descendente por los nodos de linaje del gráfico de linaje.

Los siguientes son los tipos de nodos de linaje de datos compatibles con Amazon DataZone:

  • Nodo de conjunto de datos: este tipo de nodo incluye información sobre el linaje de datos sobre un activo de datos específico.

    • Los nodos de conjuntos de datos que incluyen información sobre los activos de AWS Glue o Amazon Redshift publicados en el DataZone catálogo de Amazon se generan automáticamente e incluyen el icono correspondiente de AWS Glue o Amazon Redshift en el nodo.

    • Los nodos de conjuntos de datos que incluyen información sobre activos que no están publicados en el DataZone catálogo de Amazon los crean manualmente los administradores de dominio (productores) y se representan mediante un icono de activo personalizado predeterminado dentro del nodo.

  • Nodo de trabajo (ejecución): este tipo de nodo muestra los detalles del trabajo, incluida la última ejecución de un trabajo concreto y los detalles de la ejecución. Este nodo también captura varias ejecuciones del trabajo y se puede ver en la pestaña Historial de los detalles del nodo. Puede ver los detalles del nodo seleccionando el icono del nodo.

Atributos clave en los nodos de linaje

El sourceIdentifier atributo de un nodo de linaje representa los eventos que ocurren en un conjunto de datos. El nodo sourceIdentifier de linaje es el identificador del conjunto de datos (tabla/vista, etc.). Se usa para garantizar la unicidad en los nodos del linaje. Por ejemplo, no puede haber dos nodos de linaje con el mismo nombre. sourceIdentifier A continuación se muestran ejemplos de sourceIdentifier valores para distintos tipos de nodos:

  • Para el nodo de conjunto de datos con el tipo de conjunto de datos respectivo:

    • Activo: amazon.datazone.asset/ <assetId>

    • Listado (activo publicado): amazon.datazone.listing/ <listingId>

    • AWS <region><account-id><database>Mesa adhesiva: arn:aws:glue: :table//<table-name>

    • <redshift/redshift-serverless> <region><account-id><table-type (table/view etc) ><clusterIdentifier/workgroupName> <database><schema>Tabla/vista de Amazon Redshift: arn:aws:: :////<table-name>

    • Para cualquier otro tipo de nodo de conjunto de datos importado mediante eventos de ejecución de linaje abierto, se utiliza<namespace>/<name>del conjunto de datos de entrada/salida como del nodo. sourceIdentifier

  • Para trabajos:

    • <jobs_namespace>Para los nodos de trabajo importados mediante eventos de ejecución de linaje abierto,. <job_name>se utiliza como SourceIdentifier.

  • Para ejecutar un trabajo:

    • <jobs_namespace>Para los nodos de ejecución de tareas importados mediante eventos de ejecución de linaje abierto,. <job_name>/<run_id>se usa como SourceIdentifier.

En el caso de los activos creados mediante la createAsset API, sourceIdentifier deben actualizarse mediante la createAssetRevision API para permitir la asignación del activo a los recursos iniciales.

Visualización del linaje de datos

La página DataZone de detalles de los activos de Amazon proporciona una representación gráfica del linaje de datos, lo que facilita la visualización de las relaciones de datos en sentido ascendente o descendente. La página de detalles de los activos ofrece las siguientes funciones para navegar por el gráfico:

  • Linaje a nivel de columna: amplíe el linaje a nivel de columna cuando esté disponible en los nodos del conjunto de datos. Esto muestra automáticamente las relaciones con los nodos del conjunto de datos ascendentes o descendentes si la información de la columna de origen está disponible.

  • Búsqueda de columnas: cuando la visualización predeterminada para el número de columnas es 10. Si hay más de 10 columnas, se activa la paginación para navegar al resto de las columnas. Para ver rápidamente una columna en particular, puedes buscar en el nodo del conjunto de datos que muestre solo la columna buscada.

  • Ver solo los nodos del conjunto de datos: si desea pasar a ver solo los nodos del linaje del conjunto de datos y filtrar los nodos de trabajo, puede elegir el icono de control Abrir vista en la parte superior izquierda del visor de gráficos y activar la opción Mostrar solo los nodos del conjunto de datos. Esto eliminará todos los nodos de trabajo del gráfico y le permitirá navegar solo por los nodos del conjunto de datos. Tenga en cuenta que cuando está activada la visualización exclusiva de los nodos del conjunto de datos, el gráfico no se puede expandir hacia arriba ni hacia abajo.

  • Panel de detalles: cada nodo de linaje tiene detalles capturados y mostrados cuando se selecciona.

    • El nodo del conjunto de datos tiene un panel de detalles para mostrar todos los detalles capturados para ese nodo en una marca de tiempo determinada. Cada nodo del conjunto de datos tiene 3 pestañas, a saber: información de linaje, esquema e historial. La pestaña del historial muestra las diferentes versiones del evento de linaje capturadas para ese nodo. Todos los detalles capturados de la API se muestran mediante formularios de metadatos o un visor JSON.

    • El nodo Job tiene un panel de detalles para mostrar los detalles del trabajo con pestañas, a saber: Información del trabajo e Historial. El panel de detalles también captura las consultas o expresiones capturadas como parte de la ejecución del trabajo. La pestaña de historial muestra las diferentes versiones del evento de ejecución de un trabajo capturado para ese trabajo. Todos los detalles capturados de la API se muestran mediante formularios de metadatos o un visor JSON.

  • Pestañas de versión: todos los nodos de linaje del linaje de DataZone datos de Amazon tienen control de versiones. Para cada nodo del conjunto de datos o nodo de trabajo, las versiones se capturan como historial, lo que le permite navegar entre las distintas versiones para identificar qué ha cambiado con el tiempo. Cada versión abre una nueva pestaña en la página de linaje para facilitar la comparación o el contraste.

Autorización de linaje de datos en Amazon DataZone

Permisos de escritura: para publicar datos de linaje en Amazon DataZone, debes tener un rol de IAM con una política de permisos que incluya una ALLOW acción en la PostLineageEvent API. Esta autorización de IAM se produce en la capa API Gateway.

Permisos de lectura: hay dos operaciones: GetLineageNode y ListLineageNodeHistory están incluidas en la política AmazonDataZoneDomainExecutionRolePolicy gestionada y, por lo tanto, todos los usuarios del DataZone dominio de Amazon pueden invocarlas para recorrer el gráfico de linaje de datos.

Experiencia con muestras de linaje de datos en Amazon DataZone

Puede utilizar la experiencia de muestreo de linaje de datos para buscar y comprender el linaje de datos en Amazon DataZone, lo que incluye recorrer el gráfico de linaje de datos en sentido ascendente o descendente y explorar las versiones y el linaje a nivel de columna.

Complete el siguiente procedimiento para probar el ejemplo de experiencia de linaje de datos en Amazon: DataZone

  1. Ve a la URL del portal de DataZone datos de Amazon e inicia sesión con el inicio de sesión único (SSO) o con tus credenciales. AWS Si eres DataZone administrador de Amazon, puedes ir a la DataZone consola de Amazon en https://console.aws.amazon.com/datazone e iniciar sesión con el Cuenta de AWS lugar donde se creó el dominio y, a continuación, elegir Open data portal.

  2. Elige cualquier activo de datos disponible para abrir la página de detalles del activo.

  3. En la página de detalles del activo, elija la pestaña Linaje y, a continuación, elija Vista previa y, a continuación, elija Probar linaje de muestra.

  4. En la ventana emergente sobre el linaje de datos, selecciona Iniciar un recorrido guiado por el linaje de datos.

    En este punto, se muestra una pestaña a pantalla completa que proporciona todo el espacio de información sobre el linaje. El gráfico de linaje de datos de muestra se muestra inicialmente con un nodo base con 1 profundidad en cada extremo, aguas arriba y aguas abajo. Puede expandir el gráfico en sentido ascendente o descendente. La información de las columnas también está disponible para que pueda elegir y ver cómo fluye el linaje a través de los nodos.

Uso programático del linaje DataZone de datos de Amazon

Para usar la funcionalidad de linaje de datos en Amazon DataZone, puedes invocar las siguientes API: