Étape 7 : Examiner les données d'entrée - Amazon EMR

Étape 7 : Examiner les données d'entrée

Observez vos données d'entrée. Sont-elles réparties de manière uniforme sur vos valeurs de clés ? Si vos données sont majoritairement réparties vers une ou seulement quelques valeurs clés, la charge de traitement peut être mappée à un petit nombre de nœuds alors que d'autres nœuds sont inutilisés. Cette distribution déséquilibrée du travail peut entraîner un ralentissement de traitement.

Voici un exemple d'ensemble de données déséquilibré : un cluster est exécuté pour trier des mots par ordre alphabétique, mais l'ensemble de données contient uniquement des mots commençant par la lettre « a ». Le nœud qui traite les valeurs commençant par « a » est surchargé, tandis que les nœuds qui traitent les mots commençant par d'autres lettres sont inactifs.