Creazione di file binari con Amazon EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di file binari con Amazon EMR

Puoi utilizzare Amazon EMR come ambiente di compilazione di programmi da utilizzare nel tuo cluster. I programmi utilizzati con Amazon EMR devono essere compilati su un sistema che esegue la stessa versione di Linux utilizzata da Amazon EMR. Per una versione a 32 bit, la compilazione deve avvenire su un computer a 32 bit o con le opzioni di compilazione incrociata a 32 bit attivate. Per una versione a 64 bit, la compilazione deve avvenire su un computer a 64 bit o con le opzioni di compilazione incrociata a 64 bit attivate. Per ulteriori informazioni sulle versioni di istanze EC2, consulta Pianificazione e configurazione di istanze EC2 nella Guida alla gestione di Amazon EMR. I linguaggi di programmazione supportati includono C++, Python e C#.

La seguente tabella illustra i passaggi necessari per sviluppare e testare la tua applicazione utilizzando Amazon EMR.

1 Connessione al nodo master del cluster.
2 Copia dei file di origine sul nodo master.
3 Creazione di file binari con le ottimizzazioni necessarie.
4 Copia i file binari dal nodo master su Amazon S3.

Ciascuna di queste fasi è trattata nel dettaglio nelle sezioni che seguono.

Per connettersi al nodo master del cluster
Per copiare i file di origine sul nodo master
  1. Inserisci i file di origine in un bucket Amazon S3. Per ulteriori informazioni su come creare i bucket e spostare i dati in Amazon S3, consulta Guida per l'utente di Amazon Simple Storage Service.

  2. Creare una cartella sul cluster Hadoop per i file di origine immettendo un comando simile al seguente:

    mkdir SourceFiles
  3. Copia i file di origine da Amazon S3 sul nodo master digitando un comando simile al seguente:

    hadoop fs -get s3://mybucket/SourceFiles SourceFiles
Creazione di file binari con le ottimizzazioni necessarie

La modalità di creazione dei file binari dipende da molti fattori. Segui le istruzioni per i tuoi specifici strumenti di creazione per impostare e configurare il tuo ambiente. Puoi utilizzare i comandi di specifica del sistema di Hadoop per ottenere informazioni sul cluster e determinare come installare il tuo ambiente di compilazione.

Per identificare le specifiche di sistema
  • Utilizzare i seguenti comandi per verificare l'architettura utilizzata per creare il file binari.

    1. Per visualizzare la versione di Debian, immettere il comando seguente:

      master$ cat /etc/issue

      L'output è simile al seguente.

      Debian GNU/Linux 5.0
    2. Per visualizzare il nome DNS pubblico e la dimensione del processore, immettere il comando seguente:

      master$ uname -a

      L'output è simile al seguente.

      Linux domU-12-31-39-17-29-39.compute-1.internal 2.6.21.7-2.fc8xen #1 SMP Fri Feb 15 12:34:28 EST 2008 x86_64 GNU/Linux
    3. Per visualizzare la velocità del processore, immettere il comando seguente:

      master$ cat /proc/cpuinfo

      L'output è simile al seguente.

      processor : 0 vendor_id : GenuineIntel model name : Intel(R) Xeon(R) CPU E5430 @ 2.66GHz flags : fpu tsc msr pae mce cx8 apic mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm syscall nx lm constant_tsc pni monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr cda lahf_lm ...

Una volta creati i file binari, è possibile copiare i file su Amazon S3.

Copia dei file binari dal nodo master su Amazon S3
  • Per copiare i file nel bucket Amazon S3, digita il comando seguente:

    hadoop fs -put BinaryFiles s3://mybucket/BinaryDestination