Créer des fichiers binaires à l'aide d'Amazon EMR - Amazon EMR

Créer des fichiers binaires à l'aide d'Amazon EMR

Vous pouvez utiliser Amazon EMR comme un environnement de génération pour compiler les programmes à utiliser dans votre cluster. Les programmes que vous utilisez avec Amazon EMR doivent être compilés sur un système exécutant la même version de Linux que celle utilisée par Amazon EMR. Pour une version 32 bits, les options de compilation sur un ordinateur 32 bits ou de compilation croisée 32 bits doivent être activées. Pour une version 64 bits, les options de compilation sur un ordinateur 64 bits ou de compilation croisée 64 bits doivent être activées. Pour plus de plus amples informations sur les versions d'instance EC2, consultez Planification et configuration des instances dans le Guide de gestion d'Amazon EMR. Les langages de programmation pris en charge incluent C++, Python et C#.

Le tableau suivant décrit les étapes nécessaires pour générer et tester votre application à l'aide d'Amazon EMR.

1 Connectez-vous au nœud maître de votre cluster.
2 Copiez les fichiers source dans le nœud principal.
3 Créez des fichiers binaires avec les optimisations nécessaires.
4 Copiez des fichiers binaires à partir du nœud principal dans Amazon S3.

Chacune de ces étapes est détaillée dans les sections suivantes.

Pour vous connecter au nœud principal du cluster
Pour copier les fichiers source dans le nœud principal
  1. Placez vos fichiers source dans un compartiment Amazon S3. Pour savoir comment créer des compartiments et comment transférer des données vers Amazon S3, consultez le Guide du l'utilisateur Amazon Simple Storage Service.

  2. Créez un dossier sur votre cluster Hadoop pour vos fichiers source en entrant une commande similaire à celle qui suit :

    mkdir SourceFiles
  3. Copiez vos fichiers source à partir d'Amazon S3 vers le nœud principal en tapant une commande similaire à celle qui suit :

    hadoop fs -get s3://mybucket/SourceFiles SourceFiles
Pour créer des fichiers binaires avec les optimisations nécessaires

La façon dont vous créez vos fichiers binaires dépend de plusieurs facteurs. Suivez les instructions correspondant aux outils d'installation que vous utilisez pour installer et configurer votre environnement. Vous pouvez utiliser les commandes de spécification du système Hadoop pour obtenir les informations relatives au cluster, afin de déterminer comment installer votre environnement.

Pour identifier les spécifications du système
  • Utilisez les commandes suivantes pour vérifier l'architecture que vous utilisez pour créer vos fichiers binaires.

    1. Pour afficher la version de Debian, saisissez la commande suivante :

      master$ cat /etc/issue

      La sortie ressemble à ce qui suit.

      Debian GNU/Linux 5.0
    2. Pour afficher le nom DNS public et la taille du processeur, saisissez la commande suivante :

      master$ uname -a

      La sortie ressemble à ce qui suit.

      Linux domU-12-31-39-17-29-39.compute-1.internal 2.6.21.7-2.fc8xen #1 SMP Fri Feb 15 12:34:28 EST 2008 x86_64 GNU/Linux
    3. Pour afficher la vitesse du processeur, saisissez la commande suivante :

      master$ cat /proc/cpuinfo

      La sortie ressemble à ce qui suit.

      processor : 0 vendor_id : GenuineIntel model name : Intel(R) Xeon(R) CPU E5430 @ 2.66GHz flags : fpu tsc msr pae mce cx8 apic mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm syscall nx lm constant_tsc pni monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr cda lahf_lm ...

Une fois que vos fichiers binaires sont créés, vous pouvez copier les fichiers dans Amazon S3.

Pour copier des fichiers binaires à partir du nœud principal dans Amazon S3
  • Entrez la commande suivante pour copier les fichiers binaires dans votre compartiment Amazon S3 :

    hadoop fs -put BinaryFiles s3://mybucket/BinaryDestination