Résoudre les erreurs du Crawler d'exploration lorsque le Crawler utilise les informations d'identification de Lake Formation - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résoudre les erreurs du Crawler d'exploration lorsque le Crawler utilise les informations d'identification de Lake Formation

Utilisez les informations ci-dessous pour diagnostiquer et résoudre divers problèmes lors de la configuration du Crawler à l'aide des informations d'identification de Lake Formation.

Erreur : l'emplacement S3 : s3://examplepath n'est pas enregistré

Pour qu'un Crawler puisse s'exécuter à l'aide des informations d'identification de Lake Formation, vous devez d'abord configurer les autorisations Lake Formation. Pour résoudre cette erreur, veuillez enregistrer l'emplacement Amazon S3 cible dans Lake Formation. Pour plus d'informations, consultez la rubrique Enregistrement d'un emplacement Amazon S3.

Erreur : l'utilisateur/le rôle n'est pas autorisé à exécuter : lakeformation:GetDataAccess sur la ressource

Veuillez ajouter la permission lakeformation:GetDataAccess au rôle crawler à l'aide de la console IAM ou AWS CLI. Avec cette autorisation, Lake Formation accède à la demande d'informations d'identification temporaires pour accéder aux données. Consultez la politique ci-dessous :

{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess" ], "Resource": "*" } }

Erreur : autorisation(s) insuffisante(s) sur Lake Formation (nom de la base de données : ExampleDatabase, nom de la table : ExampleTable)

Dans la console Lake Formation (https://console.aws.amazon.com/lakeformation/), accordez des autorisations d'accès au rôle crawler ( Create, Describe, Alter) à la base de données, qui est spécifiée comme base de données de sortie. Vous pouvez également accorder des autorisations sur le tableau. Pour plus d'informations, consultez la rubrique Octroi d'autorisations de base de données via la méthode de ressource nommée.

Erreur : autorisation(s) insuffisante(s) pour Lake Formation sur s3://examplepath

  1. Indexation de site web intercompte

    1. Connectez-vous à la console Lake Formation (https://console.aws.amazon.com/lakeformation/) en utilisant le compte dans lequel le compartiment Amazon S3 est enregistré (compte B). Accordez des autorisations d'emplacement des données au compte sur lequel le crawler sera exécuté. Cela permettra au crawler de lire les données depuis l'emplacement Amazon S3 cible.

    2. Dans le compte où le crawler est créé (compte A), accordez des autorisations emplacement des données sur l'emplacement Amazon S3 cible au rôle IAM utilisé pour l'exécution du crawler afin que le crawler puisse lire les données depuis la destination dans Lake Formation. Pour plus d'informations, consultez la rubrique Octroi d'autorisations d'emplacement de données (compte externe).

  2. Indexation de site web dans le compte (le crawler et l'emplacement Amazon S3 enregistré sont dans le même compte) : accordez des autorisations d'emplacement de données au rôle IAM utilisé pour l'exécution du crawler à l'emplacement Amazon S3 pour que le crawler puisse lire les données de la cible dans Lake Formation. Pour plus d'informations, consultez la rubrique Octroi d'autorisations d'emplacement de données (même compte).

Questions fréquemment posées sur la configuration du crawler à l'aide des informations d'identification Lake Formation

  1. Comment configurer un crawler pour qu'il fonctionne à l'aide des informations d'identification Lake Formation en utilisant la AWS Console ?

    Dans la console AWS Glue (https://console.aws.amazon.com/glue/), lors de la configuration du crawler, sélectionnez l'option Use Lake Formation credentials for crawling Amazon S3 data source (Utiliser les informations d'identification Lake Formation pour explorer la source de données Amazon S3). Pour l'indexation de site web entre comptes, spécifiez l'ID du Compte AWS où l'emplacement Amazon S3 cible est enregistré dans Lake Formation. Le champ accountId est facultatif pour l'indexation de site web intégrée au compte.

  2. Comment configurer un crawler pour qu'il fonctionne à l'aide des informations d'identification Lake Formation en utilisant AWS CLI ?

    Lors de l'appel de l'API CreateCrawler, ajoutez LakeFormationConfiguration :

    "LakeFormationConfiguration": { "UseLakeFormationCredentials": true, "AccountId": "111111111111" (AWS account ID where the target Amazon S3 location is registered with Lake Formation) }
  3. Quelles sont les cibles prises en charge pour Crawler à l'aide des informations d'identification Lake Formation ?

    Un Crawler utilisant les informations d'identification Lake Formation n'est pris en charge que pour Amazon S3 (indexation de site web dans le compte et entre comptes) et pour les cibles de catalogue de données dans le compte (où l'emplacement sous-jacent est Amazon S3), et dans les cibles Apache Iceberg.

  4. Puis-je crawler plusieurs compartiments Amazon S3 au sein crawler à l'aide des informations d'identification Lake Formation ?

    Non. Pour les cibles d'indexation de site web utilisant le distributeur d'informations d'identification Lake Formation, les emplacements Amazon S3 sous-jacents doivent appartenir au même compartiment. Par exemple, les clients peuvent utiliser plusieurs sites cibles (s3://bucket1/folder1, s3://bucket1/folder2) s'ils se trouvent sous le même compartiment (bucket1). La spécification de différents compartiments (s3://bucket1/folder1, s3://bucket2/folder2) n'est pas prise en charge.