Creación de un flujo de trabajo - AWS Lake Formation

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de un flujo de trabajo

Antes de empezar, asegúrese de que ha concedido los permisos de datos y de ubicación de datos necesarios al rol LakeFormationWorkflowRole. Esto es para que el flujo de trabajo pueda crear tablas de metadatos en el Catálogo de datos y escribir datos en ubicaciones de destino en Amazon S3. Para obtener más información, consulte (Opcional) Cree un IAM rol para los flujos de trabajo y Descripción general de los permisos de Lake Formation .

nota

Lake Formation usa GetTemplateInstance y GetTemplateInstances InstantiateTemplate opera para crear flujos de trabajo a partir de planos. Estas operaciones no están disponibles públicamente y solo se utilizan internamente para crear recursos en su nombre. Recibe CloudTrail eventos para crear flujos de trabajo.

Para crear un flujo de trabajo a partir de un esquema
  1. Abre la AWS Lake Formation consola en https://console.aws.amazon.com/lakeformation/. Inicie sesión como administrador del lago de datos o como usuario con permisos de ingeniero de datos. Para obtener más información, consulte Referencia de personas y IAM permisos de Lake Formation.

  2. En el panel de navegación, seleccione Esquemas y, a continuación, seleccione Utilizar esquema.

  3. En la página Usar un esquema, elija un mosaico para seleccionar el tipo de esquema.

  4. En Origen de importación, especifique el origen de datos.

    Si va a importar desde una JDBC fuente, especifique lo siguiente:

    • Conexión a la base de datos. Elija una conexión de la lista. Cree conexiones adicionales mediante el AWS Glue console. El nombre JDBC de usuario y la contraseña de la conexión determinan los objetos de la base de datos a los que tiene acceso el flujo de trabajo.

    • Ruta de datos de origen: introduzca <database>/<schema>/<table> o <database>/<table>, según el producto de la base de datos. Oracle Database y My SQL no admiten el esquema en la ruta. Puede sustituir el carácter de porcentaje (%) por <schema> o <table>. Por ejemplo, en el caso de una base de datos Oracle con un identificador de sistema (SID)orcl, introduzca orcl/% para importar todas las tablas a las que tenga acceso el usuario mencionado en la conexión.

      importante

      Este campo distingue entre mayúsculas y minúsculas. El flujo de trabajo fallará si no coincide entre mayúsculas y minúsculas en alguno de los componentes.

      Si especifica una SQL base de datos My, AWS Glue ETL utiliza el JDBC controlador Mysql5 de forma predeterminada, por lo que My no SQL8 se admite de forma nativa. Puede editar el script de ETL trabajo para usar un customJdbcDriverS3Path parámetro, tal como se describe en la sección JDBC connectionType Valores de la Guía para AWS Glue desarrolladores, a fin de usar un JDBC controlador diferente que sea compatible con My. SQL8

    Si va a importar desde un archivo de registro, asegúrese de que la función que especifique para el flujo de trabajo (la «función de flujo de trabajo») tenga los IAM permisos necesarios para acceder a la fuente de datos. Por ejemplo, para importar AWS CloudTrail registros, el usuario debe tener los cloudtrail:LookupEvents permisos cloudtrail:DescribeTrails y para ver la lista de CloudTrail registros al crear el flujo de trabajo, y el rol del flujo de trabajo debe tener permisos en la CloudTrail ubicación de Amazon S3.

  5. Realice una de las siguientes acciones siguientes:

    • Para el tipo de esquema Instantánea de base de datos, identifique de forma opcional un subconjunto de datos a importar especificando uno o varios patrones de exclusión. Estos patrones de exclusión son patrones glob de estilo Unix. Se almacenan como una propiedad de las tablas creadas por el flujo de trabajo.

      Para obtener más información sobre los patrones de exclusión disponibles, consulte Incluir y excluir patrones en la Guía para desarrolladores de AWS Glue .

    • Para el tipo de esquema de base de datos incremental, especifique los siguientes campos. Agregue una fila para cada tabla que desee importar.

      Nombre de la tabla

      Tabla que se va a importar. Debe estar en minúscula.

      Claves de marcadores

      Lista de nombres de columnas delimitados por comas que definen las claves de los marcadores. Si está en blanco, la clave principal se utiliza para determinar los datos nuevos. Las mayúsculas y minúsculas de cada columna deben coincidir con las definidas en los orígenes de datos.

      nota

      La clave principal se califica como clave marcadora predeterminada solo si es secuencialmente creciente o decreciente (sin huecos). Si desea utilizar la clave principal como clave de marcador y tiene huecos, debe nombrar la columna de clave principal como clave de marcador.

      Orden de los marcadores

      Si elige Ascendente, las filas con valores superiores a los marcados se identifican como nuevas filas. Si elige Descendente, las filas con valores inferiores a los marcados se identifican como nuevas filas.

      Esquema de partición

      (Opcional) Lista de columnas de claves de partición, delimitadas por barras (/). Ejemplo: year/month/day.

      La sección Datos incrementales de la consola incluye estos campos: Nombre de la tabla, Claves de marcadores, Orden de marcadores, Esquema de partición. Puede añadir o eliminar filas, donde cada fila corresponde a una tabla diferente.

      Para más información, consulte Seguimiento de los datos procesados mediante marcadores de trabajo en la Guía para desarrolladores de AWS Glue .

  6. En Importar destino, especifique la base de datos de destino, la ubicación de Amazon S3 de destino y el formato de datos.

    Asegúrese de que el rol de flujo de trabajo tenga los permisos de Lake Formation necesarios en la base de datos y en la ubicación de destino de Amazon S3.

    nota

    Actualmente, los esquemas no admiten el cifrado de datos en el destino.

  7. Elija una frecuencia de importación.

    Puede especificar una expresión cron con la opción Personalizada.

  8. En Opciones de importación:

    1. Introduzca un nombre de flujo de trabajo.

    2. Para el rol, elija el rol LakeFormationWorkflowRole, que creó en (Opcional) Cree un IAM rol para los flujos de trabajo.

    3. Si lo desea, especifique un prefijo de tabla. El prefijo se antepone a los nombres de las tablas del Catálogo de datos que crea el flujo de trabajo.

  9. Seleccione Crear y espere a que la consola informe de que el flujo de trabajo se ha creado correctamente.

    sugerencia

    ¿Ha recibido este mensaje de error?

    User: arn:aws:iam::<account-id>:user/<username> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/<rolename>...

    Si es así, compruebe que lo ha reemplazado <account-id> con un número de AWS cuenta válido en todas las pólizas.