Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Apache Pig
Apache Pig è una libreria Apache open source eseguibile in Hadoop. Fornisce un linguaggio di script che puoi utilizzare per trasformare set di dati di grandi dimensioni senza dover scrivere codice complesso in un linguaggio di programmazione di livello inferiore come Java. La libreria accetta comandi simili a SQL scritti in un linguaggio chiamato Pig Latin e converte tali comandi in lavori Tez basati su grafici aciclici diretti () o programmi. DAGs MapReduce Pig utilizza dati strutturati e non strutturati in vari formati. Per ulteriori informazioni su Pig, visita la pagina Web all'indirizzo http://pig.apache.org/
Puoi eseguire i comandi Pig in modalità interattiva o batch. Per utilizzare Pig in modalità interattivo, crea una connessione SSH al nodo master e invia i comandi utilizzando la shell Grunt. Per utilizzare Pig in modalità batch, scrivi script Pig, caricali in Amazon S3 e inviali come fasi del cluster. Per ulteriori informazioni sull'invio di lavoro a un cluster, consulta Invio di lavoro a un cluster nella Guida alla gestione di Amazon EMR.
Quando usi Pig per scrivere l'output su una HCatalog tabella in Amazon S3, disabilita la scrittura diretta di Amazon EMR mapred.output.direct.NativeS3FileSystem
impostando le proprietà and su. mapred.output.direct.EmrFileSystem
false
Per ulteriori informazioni, consulta Usando HCatalog. In uno script Pig, puoi utilizzare i comandi SET mapred.output.direct.NativeS3FileSystem false
e SET mapred.output.direct.EmrFileSystem false
.
La seguente tabella indica la versione di Pig inclusa nell'ultimo rilascio della serie Amazon EMR 7.x insieme ai componenti che Amazon EMR installa con Pig.
Etichetta di rilascio di Amazon EMR | Version di Pig | Componenti installati con Pig |
---|---|---|
emr-7.7.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
La seguente tabella indica la versione di Pig inclusa nell'ultimo rilascio della serie Amazon EMR 6.x insieme ai componenti che Amazon EMR installa con Pig.
Per la versione dei componenti installati con Pig in questo rilascio, consulta Versioni dei componenti del rilascio 6.15.0.
Etichetta di rilascio di Amazon EMR | Version di Pig | Componenti installati con Pig |
---|---|---|
emr-6.15.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
La seguente tabella indica la versione di Pig inclusa nell'ultimo rilascio della serie Amazon EMR 5.x insieme ai componenti che Amazon EMR installa con Pig.
Etichetta di rilascio di Amazon EMR | Version di Pig | Componenti installati con Pig |
---|---|---|
emr-5.36.2 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn |