Apache Pig - Amazon EMR

Apache Pig

Apache Pig è una libreria Apache open source eseguibile in Hadoop. Fornisce un linguaggio di script che puoi utilizzare per trasformare set di dati di grandi dimensioni senza dover scrivere codice complesso in un linguaggio di programmazione di livello inferiore come Java. La libreria accetta i comandi di tipo SQL scritti in un linguaggio denominato Pig Latin e li converte in processi Tez basati su grafi aciclici diretti (DAG) o programmi MapReduce. Pig utilizza dati strutturati e non strutturati in vari formati. Per ulteriori informazioni su Pig, visita la pagina Web all'indirizzo http://pig.apache.org/.

Puoi eseguire i comandi Pig in modalità interattiva o batch. Per utilizzare Pig in modalità interattivo, crea una connessione SSH al nodo master e invia i comandi utilizzando la shell Grunt. Per utilizzare Pig in modalità batch, scrivi script Pig, caricali in Amazon S3 e inviali come fasi del cluster. Per ulteriori informazioni sull'invio di lavoro a un cluster, consulta Invio di lavoro a un cluster nella Guida alla gestione di Amazon EMR.

Quando utilizzi Pig per scrivere l'output in una tabella HCatalog in Amazon S3, disabilita la scrittura diretta Amazon EMR impostando le proprietà mapred.output.direct.NativeS3FileSystem e mapred.output.direct.EmrFileSystem su false. Per ulteriori informazioni, consulta Uso di HCatalog. In uno script Pig, puoi utilizzare i comandi SET mapred.output.direct.NativeS3FileSystem false e SET mapred.output.direct.EmrFileSystem false.

La seguente tabella indica la versione di Pig inclusa nell'ultimo rilascio della serie Amazon EMR 6.x insieme ai componenti che Amazon EMR installa con Pig.

Per la versione dei componenti installati con Pig in questo rilascio, consulta Versioni dei componenti del rilascio 6.13.0.

Informazioni sulla versione di Pig per emr-6.13.0
Etichetta di rilascio di Amazon EMR Version di Pig Componenti installati con Pig

emr-6.13.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

La seguente tabella indica la versione di Pig inclusa nell'ultimo rilascio della serie Amazon EMR 5.x insieme ai componenti che Amazon EMR installa con Pig.

Per la versione dei componenti installati con Pig in questo rilascio, consulta Versioni dei componenti del rilascio 5.36.1.

Informazioni sulla versione di Pig per emr-5.36.1
Etichetta di rilascio di Amazon EMR Version di Pig Componenti installati con Pig

emr-5.36.1

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn