Apache Pig - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Apache Pig

Apache Pig è una libreria Apache open source eseguibile in Hadoop. Fornisce un linguaggio di script che puoi utilizzare per trasformare set di dati di grandi dimensioni senza dover scrivere codice complesso in un linguaggio di programmazione di livello inferiore come Java. La libreria accetta comandi simili a SQL scritti in un linguaggio chiamato Pig Latin e converte tali comandi in lavori Tez basati su grafici aciclici diretti (DAG) o programmi. MapReduce Pig utilizza dati strutturati e non strutturati in vari formati. Per ulteriori informazioni su Pig, visita la pagina Web all'indirizzo http://pig.apache.org/.

Puoi eseguire i comandi Pig in modalità interattiva o batch. Per utilizzare Pig in modalità interattivo, crea una connessione SSH al nodo master e invia i comandi utilizzando la shell Grunt. Per utilizzare Pig in modalità batch, scrivi script Pig, caricali in Amazon S3 e inviali come fasi del cluster. Per ulteriori informazioni sull'invio di lavoro a un cluster, consulta Invio di lavoro a un cluster nella Guida alla gestione di Amazon EMR.

Quando utilizzi Pig per scrivere l'output in una tabella HCatalog in Amazon S3, disabilita la scrittura diretta Amazon EMR impostando le proprietà mapred.output.direct.NativeS3FileSystem e mapred.output.direct.EmrFileSystem su false. Per ulteriori informazioni, consulta Uso di HCatalog. In uno script Pig, puoi utilizzare i comandi SET mapred.output.direct.NativeS3FileSystem false e SET mapred.output.direct.EmrFileSystem false.

La seguente tabella indica la versione di Pig inclusa nell'ultimo rilascio della serie Amazon EMR 7.x insieme ai componenti che Amazon EMR installa con Pig.

Per la versione dei componenti installati con Pig in questa versione, vedi Versioni dei componenti della release 7.1.0.

Informazioni sulla versione di Pig per emr-7.1.0
Etichetta di rilascio di Amazon EMR Version di Pig Componenti installati con Pig

emr-7.1.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

La seguente tabella indica la versione di Pig inclusa nell'ultimo rilascio della serie Amazon EMR 6.x insieme ai componenti che Amazon EMR installa con Pig.

Per la versione dei componenti installati con Pig in questo rilascio, consulta Versioni dei componenti del rilascio 6.15.0.

Informazioni sulla versione di Pig per emr-6.15.0
Etichetta di rilascio di Amazon EMR Version di Pig Componenti installati con Pig

emr-6.15.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

La seguente tabella indica la versione di Pig inclusa nell'ultimo rilascio della serie Amazon EMR 5.x insieme ai componenti che Amazon EMR installa con Pig.

Per la versione dei componenti installati con Pig in questa versione, vedere Versioni dei componenti della release 5.36.2.

Informazioni sulla versione di Pig per emr-5.36.2
Etichetta di rilascio di Amazon EMR Version di Pig Componenti installati con Pig

emr-5.36.2

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn