Préparation des données d'entrée - Amazon EMR

Préparation des données d'entrée

La plupart des clusters chargent les données d'entrée, puis traitent ces données. Pour pouvoir être chargées, les données doivent être dans un emplacement auquel le cluster peut accéder et dans un format que le cluster peut traiter. Le scénario le plus courant consiste à charger les données d'entrée dans Amazon S3. Amazon EMR fournit des outils permettant à votre cluster d'importer ou de lire des données depuis Amazon S3.

Le format d'entrée par défaut dans Hadoop correspond à des fichiers texte, mais vous pouvez personnaliser Hadoop et utiliser des outils pour importer des données stockées dans d'autres formats.