Choix du matériel pour votre cluster Amazon EMR - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Choix du matériel pour votre cluster Amazon EMR

Sayde Aguilar, Amiin Samatar et Diego Valencia, d'Amazon Web Services (AWS)

août 2023(historique du document)

Amazon EMR est un outil de traitement des mégadonnées. Il utilise des logiciels open source, en particulier des outils Apache tels qu'Apache Spark et Apache Hudi. En outre, il offre plusieurs options pour configurer et utiliser une solution peu coûteuse,pay-as-you-gomodèle.

Ce guide explique comment concevoir votre cluster Amazon EMR en fonction de cette élasticité et fournit les meilleures pratiques à suivre lors du choix du matériel.

Présentation

Amazon EMR est créé à l'aide d'Apache HadoopMapReduce, un cadre permettant de traiter de grandes quantités de données. HadoopMapReducetraite simultanément les données dans des clusters distribués à l'aide d'une logique parallèle, ce qui signifie que chaque processus possède son propre processeur. Amazon EMR utilise un cluster Hadoop de serveurs virtuels structurés sur Amazon Elastic Compute Cloud (Amazon EC2). Cela signifie que tous les processus parallèles sont effectués sur des ordinateurs autonomes exécutés sur Amazon Web Services (AWS).

Un cluster Hadoop est un type spécifique de cluster informatique utilisé pour traiter de grandes quantités de données non structurées à l'aide d'environnements parallèles ou distribués. L'une des principales caractéristiques d'un cluster Hadoop est qu'il est hautement évolutif et qu'il peut être configuré pour augmenter la vitesse du traitement des données. L'évolutivité est atteinte en ajoutant ou en supprimant des nœuds pour augmenter ou diminuer le débit. Sur les clusters Hadoop, chaque élément de données est copié entre les nœuds du cluster, de sorte qu'il n'y a quasiment aucune perte de données en cas de défaillance d'un nœud.

Sur Amazon EMR,élasticitéfait référence à la capacité de redimensionnement dynamique. Vous pouvez redimensionner automatiquement le cluster et apporter les modifications nécessaires. Vous n'avez pas à vous fier à la conception initiale de votre matériel.

Ce guide explique comment concevoir votre cluster Amazon EMR en fonction de cette élasticité et fournit les meilleures pratiques à suivre lors du choix du matériel.