Creazione di file binari con Amazon EMR

Puoi utilizzare Amazon EMR come ambiente di compilazione di programmi da utilizzare nel tuo cluster. I programmi utilizzati con Amazon EMR devono essere compilati su un sistema che esegue la stessa versione di Linux utilizzata da Amazon EMR. Per una versione a 32 bit, la compilazione deve avvenire su un computer a 32 bit o con le opzioni di compilazione incrociata a 32 bit attivate. Per una versione a 64 bit, la compilazione deve avvenire su un computer a 64 bit o con le opzioni di compilazione incrociata a 64 bit attivate. Per ulteriori informazioni sulle versioni delle EC2 istanze, consulta Pianificare e configurare EC2 le istanze nella Amazon EMR Management Guide. I linguaggi di programmazione supportati includono C++, Python e C#.

La seguente tabella illustra i passaggi necessari per sviluppare e testare la tua applicazione utilizzando Amazon EMR.

Processo per la creazione di un modulo
1	Connessione al nodo master del cluster.
2	Copia dei file di origine sul nodo master.
3	Creazione di file binari con le ottimizzazioni necessarie.
4	Copia i file binari dal nodo master su Amazon S3.

Ciascuna di queste fasi è trattata nel dettaglio nelle sezioni che seguono.

Per connettersi al nodo master del cluster

Segui le istruzioni riportate nella sezione relativa alla Connessione al nodo principale tramite SSH nella Guida alla gestione di Amazon EMR.

Per copiare i file di origine sul nodo master

Inserisci i file di origine in un bucket Amazon S3. Per ulteriori informazioni su come creare i bucket e spostare i dati in Amazon S3, consulta Guida per l'utente di Amazon Simple Storage Service.
Creare una cartella sul cluster Hadoop per i file di origine immettendo un comando simile al seguente:
```
mkdir SourceFiles
```
Copia i file di origine da Amazon S3 sul nodo master digitando un comando simile al seguente:
```
hadoop fs -get s3://amzn-s3-demo-bucket/SourceFiles SourceFiles
```

Creazione di file binari con le ottimizzazioni necessarie

La modalità di creazione dei file binari dipende da molti fattori. Segui le istruzioni per i tuoi specifici strumenti di creazione per impostare e configurare il tuo ambiente. Puoi utilizzare i comandi di specifica del sistema di Hadoop per ottenere informazioni sul cluster e determinare come installare il tuo ambiente di compilazione.

Per identificare le specifiche di sistema

Utilizzare i seguenti comandi per verificare l'architettura utilizzata per creare il file binari.

Per visualizzare la versione di Debian, immettere il comando seguente:
```
master$ cat /etc/issue
```
L'output è simile al seguente.
```
Debian GNU/Linux 5.0
```

Per visualizzare il nome DNS pubblico e la dimensione del processore, immettere il comando seguente:


master$ uname -a

L'output è simile al seguente.


Linux domU-12-31-39-17-29-39.compute-1.internal 2.6.21.7-2.fc8xen #1 SMP Fri Feb 15 12:34:28 EST 2008 x86_64 GNU/Linux

Per visualizzare la velocità del processore, immettere il comando seguente:


master$ cat /proc/cpuinfo

L'output è simile al seguente.


processor : 0
vendor_id : GenuineIntel
model name : Intel(R) Xeon(R) CPU E5430 @ 2.66GHz
flags : fpu tsc msr pae mce cx8 apic mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm syscall nx lm constant_tsc pni monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr cda lahf_lm
...

Una volta creati i file binari, è possibile copiare i file su Amazon S3.

Copia dei file binari dal nodo master su Amazon S3

Per copiare i file nel bucket Amazon S3, digita il comando seguente:


hadoop fs -put BinaryFiles s3://amzn-s3-demo-bucket/BinaryDestination

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Creazione ed esecuzione di un'applicazione Hadoop

Elaborazione di dati con lo streaming