Specifiche dell'applicazione Pig per le AMI versioni precedenti di Amazon EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Specifiche dell'applicazione Pig per le AMI versioni precedenti di Amazon EMR

Versioni di Pig supportate

La versione di Pig che puoi aggiungere al tuo cluster dipende dalla versione di Amazon EMR AMI e dalla versione di Hadoop che stai utilizzando. La tabella seguente mostra quali AMI versioni e versioni di Hadoop sono compatibili con le diverse versioni di Pig. Ti consigliamo di utilizzare la versione disponibile più recente di Pig per sfruttare i miglioramenti delle prestazioni e le nuove funzionalità.

Quando si utilizza API per installare Pig, viene utilizzata la versione predefinita a meno che non si specifichi --pig-versions come argomento il passaggio che carica Pig sul cluster durante la chiamata a. RunJobFlow

Versione di Pig AMIversione Parametri di configurazione Dettagli della versione di Pig
0.12.0

Note di rilascio

Documentazione

versioni 3.1.0 e successive

--ami-version 3.1

--ami-version 3.2

--ami-version 3.3

Aggiunge il supporto per:

  • Streaming UDFs senza JVM implementazioni

  • ASSERTe operatori IN

  • CASEespressione

  • AvroStorage come funzione integrata in Pig.

  • ParquetLoader e ParquetStorer come funzioni integrate

  • BigInteger e BigDecimal tipi

0.11.1.1

Note di rilascio

Documentazione

versioni 2.2 e successive

--pig-versions 0.11.1.1

--ami-version 2.2

Migliora le prestazioni del LOAD comando PigStorage se l'input risiede in Amazon S3.

0.11.1

Note di rilascio

Documentazione

versioni 2.2 e successive

--pig-versions 0.11.1

--ami-version 2.2

Aggiunge il supporto per JDK 7, Hadoop 2, Groovy, funzioni definite dall'utente, SchemaTuple ottimizzazione, nuovi operatori e altro ancora. Per ulteriori informazioni, consulta Pig 0.11.1 Change Log.

0.9.2.2

Note di rilascio

Documentazione

versioni 2.2 e successive

--pig-versions 0.9.2.2

--ami-version 2.2

Aggiunge il supporto per Hadoop 1.0.3.

0.9.2.1

Note di rilascio

Documentazione

versioni 2.2 e successive

--pig-versions 0.9.2.1

--ami-version 2.2

Aggiunge supporto per MapR.

0.9.2

Note di rilascio

Documentazione

versioni 2.2 e successive

--pig-versions 0.9.2

--ami-version 2.2

Include vari miglioramenti delle prestazioni e correzioni di bug. Per informazioni complete sulle modifiche per Pig 0.9.2, consulta Pig 0.9.2 Change Log.

0.9.1

Note di rilascio

Documentazione

2.0

--pig-versions 0.9.1

--ami-version 2.0

0.6

Note di rilascio

1

--pig-versions 0.6

--ami-version 1.0

0.3

Note di rilascio

1

--pig-versions 0.3

--ami-version 1.0

Dettagli della versione di Pig

Amazon EMR supporta alcune versioni di Pig a cui potrebbero essere applicate EMR patch Amazon aggiuntive. Puoi configurare quale versione di Pig eseguire sui EMR cluster Amazon. Per ulteriori informazioni su come effettuare tale operazione, consulta Apache Pig. Le sezioni seguenti descrivono le diverse versioni di Pig e le patch applicate alle versioni caricate su Amazon. EMR

Patch Pig

Questa sezione descrive le patch personalizzate applicate alle versioni di Pig disponibili con Amazon. EMR

Patch di Pig 0.11.1.1

La EMR versione Amazon di Pig 0.11.1.1 è una versione di manutenzione che migliora le prestazioni di LOAD comando PigStorage se l'input risiede in Amazon S3.

Patch di Pig 0.11.1

La EMR versione Amazon di Pig 0.11.1 contiene tutti gli aggiornamenti forniti da Apache Software Foundation e le patch Amazon EMR cumulative della versione 0.9.2.2 di Pig. Tuttavia, non ci sono nuove patch EMR specifiche per Amazon in Pig 0.11.1.

Patch di Pig 0.9.2

Apache Pig 0.9.2 è una versione di manutenzione di Pig. Il EMR team di Amazon ha applicato le seguenti patch alla EMR versione Amazon di Pig 0.9.2.

Patch Descrizione
PIG-1429

Aggiunta del tipo di dati booleano a Pig come tipo di dati di prima classe. Per ulteriori informazioni, visita https://issues.apache.org/jira/browse/ PIG -1429.

Stato: confermata

Corretto in Apache Pig versione: 0.10

PIG-1824

Supporta i moduli di importazione in JythonUDF. Per ulteriori informazioni, vai a https://issues.apache.org/jira/browse/ PIG -1824.

Stato: confermata

Corretto in Apache Pig versione: 0.10

PIG-2010

Pacchetto registrato JARs nella cache distribuita. Per ulteriori informazioni, visitate https://issues.apache.org/jira/browse/ PIG -2010.

Stato: confermata

Corretto in Apache Pig versione: 0.11

PIG-2456

Aggiunta di un file ~ /.pigbootup in cui l'utente può specificare istruzioni Pig di default. Per ulteriori informazioni, visita https://issues.apache.org/jira/browse/ PIG -2456.

Stato: confermata

Corretto in Apache Pig versione: 0.11

PIG-2623

Supporta l'utilizzo dei percorsi Amazon S3 per la registrazione. UDFs Per ulteriori informazioni, vai a https://issues.apache.org/jira/browse/ PIG -2623.

Stato: confermata

Corretto in Apache Pig versione: 0.10, 0.11

Patch di Pig 0.9.1

Il EMR team di Amazon ha applicato le seguenti patch alla EMR versione Amazon di Pig 0.9.1.

Patch Descrizione
JARFile di supporto e script Pig in formato dfs

Aggiungi il supporto per l'esecuzione di script e la registrazione di JAR file archiviati in HDFS Amazon S3 o altri file system distribuiti. Per ulteriori informazioni, vai a https://issues.apache.org/jira/browse/ -1505. PIG

Stato: confermata

Corretto in Apache Pig versione: 0.8.0

Supporto per più file system in Pig

Aggiunta del supporto per script Pig per la lettura di dati da un file system e la scrittura su un altro. Per ulteriori informazioni, consulta https://issues.apache.org/jira/browse/ PIG -1564.

Stato: non confermata

Corretto in Apache Pig versione: n/d

Aggiungi la data, l'ora e la stringa di Piggybank UDFs

Aggiungi datetime e string UDFs per supportare gli script Pig personalizzati. Per ulteriori informazioni, vai a https://issues.apache.org/jira/browse/ -1565. PIG

Stato: non confermata

Corretto in Apache Pig versione: n/d

Cluster Pig in modalità interattiva o batch

Amazon ti EMR consente di eseguire gli script Pig in due modalità:

  • Interactive

  • Archiviazione

Quando avvii un cluster di lunga durata utilizzando la console o il AWS CLI, puoi connetterti utilizzando ssh il nodo master come utente Hadoop e utilizzare la shell Grunt per sviluppare ed eseguire gli script Pig in modo interattivo. L'utilizzo di Pig in modalità interattiva ti consente di rivedere lo script Pig più facilmente rispetto alle modalità batch. Dopo aver verificato lo script Pig in modalità interattiva, puoi caricarlo in Amazon S3 e utilizzare la modalità batch per eseguire lo script in produzione. Puoi inoltre inviare comandi Pig in modalità interattiva su un cluster in esecuzione per analizzare e trasformare i dati come desiderato.

In modalità batch, carichi lo script Pig in Amazon S3 e invii il lavoro al cluster come fase. Le fasi Pig possono essere inviate a un cluster di lunga durata o a un cluster transitorio.