Génération de statistiques de colonne - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Génération de statistiques de colonne

Procédez comme suit pour gérer la génération de statistiques dans le catalogue de données à l'aide de AWS Glue la console ou AWS CLI.

Console
Pour générer des statistiques de colonne à l'aide de la console
  1. Connectez-vous à la AWS Glue console à l'adresse https://console.aws.amazon.com/glue/.

  2. Choisissez des tables du catalogue de donnée.

  3. Choisissez une table dans la liste.

  4. Choisissez Statistiques de colonne, Générer à la demande, dans le menu Actions.

    Vous pouvez également choisir le bouton Générer des statistiques sous l'onglet Statistiques de colonne dans la section inférieure de la page Tables.

  5. Sur la page Générer des statistiques, spécifiez les options suivantes :

    La capture d'écran montre les options disponibles pour générer des statistiques de colonne.
    • Table (toutes les colonnes) : choisissez cette option pour générer des statistiques pour toutes les colonnes de la table.

    • Colonnes sélectionnées : choisissez cette option pour générer des statistiques pour des colonnes spécifiques. Vous pouvez sélectionner les colonnes dans la liste déroulante.

    • Toutes les lignes : choisissez toutes les lignes de la table pour générer des statistiques précises.

    • Exemples de lignes : choisissez uniquement un pourcentage spécifique de lignes dans la table pour générer des statistiques. La valeur par défaut est toutes les lignes. Utilisez les flèches haut et bas pour augmenter ou diminuer la valeur en pourcentage.

      Note

      Nous vous recommandons d'inclure toutes les lignes de la table pour calculer des statistiques précises. Utilisez des exemples de lignes pour générer des statistiques de colonne uniquement lorsque des valeurs approximatives sont acceptables.

  6. (Facultatif) Choisissez ensuite une configuration de sécurité pour activer le chiffrement au repos des journaux.

  7. Choisissez Générer des statistiques pour exécuter la tâche.

AWS CLI

Dans l'exemple suivant, remplacez les valeurs pour DatabaseName, TableName et ColumnNameList par les noms de base de données, de tables et de colonnes réels. Remplacez l'ID de compte par un Compte AWS valide et le nom du rôle par le nom du rôle IAM que vous utilisez pour générer des statistiques.

aws glue start-column-statistics-task-run --input-cli-json file://input.json { "DatabaseName": "<test-db>", "TableName": "<test-table>", "ColumnNameList": [ "<column1>", "<column2>", ], "Role": "arn:aws:iam::<123456789012>:role/<Stats-Role>", "SampleSize": 10.0 }

Vous pouvez également générer des statistiques de colonne en appelant l'StartColumnStatisticsTaskRunopération.