Cree y ejecute una fuente DataZone de datos de Amazon para AWS Glue Data Catalog - Amazon DataZone

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cree y ejecute una fuente DataZone de datos de Amazon para AWS Glue Data Catalog

En Amazon DataZone, puedes crear una fuente de AWS Glue Data Catalog datos desde la que importar metadatos técnicos de tablas de bases de datos AWS Glue. Para añadir una fuente de datos para la AWS Glue Data Catalog, la base de datos de origen debe existir ya en AWS Glue.

Cuando creas y ejecutas una fuente de AWS Glue datos, añades activos de la AWS Glue base de datos de origen al inventario de tu DataZone proyecto de Amazon. Puede ejecutar sus fuentes de AWS Glue datos según un cronograma establecido o bajo demanda para crear o actualizar los metadatos técnicos de sus activos. Durante la ejecución de la fuente de datos, si lo desea, puede optar por publicar sus activos en el DataZone catálogo de Amazon y, de este modo, hacer que todos los usuarios del dominio puedan descubrirlos. También puedes publicar los activos del inventario de tu proyecto después de editar sus metadatos empresariales. Los usuarios del dominio pueden buscar y descubrir tus activos publicados y solicitar suscripciones a estos activos.

Para añadir una fuente AWS Glue de datos
  1. Ve a la URL del portal de DataZone datos de Amazon e inicia sesión con el inicio de sesión único (SSO) o con tus credenciales. AWS Si eres DataZone administrador de Amazon, puedes ir a la DataZone consola de Amazon en https://console.aws.amazon.com/datazone e iniciar sesión con el Cuenta de AWS lugar donde se creó el dominio y, a continuación, elegir Open data portal.

  2. Selecciona Seleccionar proyecto en el panel de navegación superior y selecciona el proyecto al que quieres añadir la fuente de datos.

  3. Navegue hasta la pestaña Datos del proyecto.

  4. Selecciona Fuentes de datos en el panel de navegación izquierdo y, a continuación, selecciona Crear fuente de datos.

  5. Configure los siguientes campos:

    • Nombre: el nombre de la fuente de datos.

    • Descripción: descripción de la fuente de datos.

  6. En Tipo de fuente de datos, elija AWS Glue.

  7. En Seleccione un entorno, especifique un entorno en el que publicar las AWS Glue tablas.

  8. En Selección de datos, proporcione una AWS Glue base de datos e introduzca los criterios de selección de la tabla. Por ejemplo, si selecciona Incluir e introducir*corporate, la base de datos incluirá todas las tablas de origen que terminen con la palabracorporate.

    Puede elegir una AWS Glue base de datos en el menú desplegable o escribir un nombre para la base de datos. El menú desplegable incluye dos bases de datos: la base de datos de publicación y la base de datos de suscripciones del entorno. Si desea extraer activos de una base de datos que no ha sido creada por el entorno, debe escribir el nombre de la base de datos en lugar de seleccionarla en el menú desplegable.

    Puede añadir varias reglas de inclusión y exclusión para las tablas de una sola base de datos. También puede agregar varias bases de datos mediante el botón Agregar otra base de datos.

  9. En Calidad de los datos, puede optar por habilitar la calidad de los datos para esta fuente de datos. Si lo haces, Amazon DataZone importará tu salida de calidad de datos de AWS Glue existente a tu DataZone catálogo de Amazon. De forma predeterminada, Amazon DataZone importa de AWS Glue los últimos 100 informes de calidad existentes sin fecha de caducidad.

    Las métricas de calidad de los datos de Amazon te DataZone ayudan a entender la integridad y precisión de tus fuentes de datos. Amazon DataZone extrae estas métricas de calidad de datos de AWS Glue para proporcionar contexto en un momento dado, por ejemplo, durante una búsqueda en un catálogo de datos empresariales. Los usuarios de datos pueden ver cómo cambian las métricas de calidad de los datos a lo largo del tiempo para sus activos suscritos. Los productores de datos pueden asimilar las puntuaciones de calidad de los datos de AWS Glue según un cronograma. El catálogo de datos DataZone empresariales de Amazon también puede mostrar métricas de calidad de datos de sistemas de terceros a través de API de calidad de datos. Para obtener más información, consulte Calidad de los datos en Amazon DataZone.

  10. Elija Siguiente.

  11. En la configuración de publicación, elija si los activos se pueden detectar inmediatamente en el catálogo de datos empresariales. Si solo los agrega al inventario, puede elegir las condiciones de suscripción más adelante y publicarlos en el catálogo de datos empresariales. Para obtener más información, consulte Gestiona las fuentes de DataZone datos de Amazon existentes.

  12. Para la generación automática de nombres comerciales, elija si desea generar automáticamente los metadatos de los activos a medida que se importan de la fuente.

  13. (Opcional) En el caso de los formularios de metadatos, añade formularios para definir los metadatos que se recopilan y guardan al importar los activos a Amazon DataZone. Para obtener más información, consulte Cree, edite o elimine formularios de metadatos.

  14. En Preferencia de ejecución, elija cuándo ejecutar la fuente de datos.

    • Ejecutar según una programación: especifique las fechas y la hora para ejecutar la fuente de datos.

    • Ejecutar bajo demanda: puede iniciar manualmente la ejecución de la fuente de datos.

  15. Elija Siguiente.

  16. Revise la configuración de la fuente de datos y seleccione Crear.