Pig Application Specifics for Earlier AMI Versions of Amazon EMR - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Pig Application Specifics for Earlier AMI Versions of Amazon EMR

Supported Pig Versions

Welche Pig-Version Sie zu Ihrem Cluster hinzufügen können, hängt von der verwendeten Amazon EMR-AMI-Version und der Hadoop-Version ab. Die folgende Tabelle zeigt, welche AMI- und Hadoop-Versionen mit den verschiedenen Pig-Versionen kompatibel sind. Wir empfehlen die Verwendung der neuesten Pig-Version, um die Vorteile der Leistungsverbesserungen und neuen Funktionen zu nutzen.

Wenn Sie die API zur Installation von Pig verwenden, wird die Standardversion verwendet (es sei denn, Sie legen --pig-versions als Argument für den Schritt fest, der Pig im Rahmen des RunJobFlow-Aufrufs auf den Cluster lädt).

Pig-Version AMI-Version Konfigurationsparameter Details zur Pig-Version
0.12.0

Versionshinweise:

Dokumentation:

3.1.0 und höher

--ami-version 3.1

--ami-version 3.2

--ami-version 3.3

Implementiert die Unterstützung der folgenden Elemente:

  • Streaming UDFs without JVM implementations

  • ASSERT and IN operators

  • CASE expression

  • AvroStorage as a Pig built-in function.

  • ParquetLoader and ParquetStorer as built-in functions

  • BigInteger and BigDecimal types

0.11.1.1

Versionshinweise:

Dokumentation:

2.2 und höher

--pig-versions 0.11.1.1

--ami-version 2.2

Verbessert die Leistung des LOAD-Befehls mit PigStorage, wenn sich die Eingabe in Amazon S3 befindet.

0.11.1

Versionshinweise:

Dokumentation:

2.2 und höher

--pig-versions 0.11.1

--ami-version 2.2

Implementiert eine Unterstützung für JDK 7, Hadoop 2, Groovy User Defined-Funktionen, eine SchemaTuple-Optimierung, neue Operatoren und vieles mehr. Weitere Informationen finden Sie im Pig 0.11.1 Change Log.

0.9.2.2

Versionshinweise:

Dokumentation:

2.2 und höher

--pig-versions 0.9.2.2

--ami-version 2.2

Implementiert die Unterstützung von Hadoop 1.0.3.

0.9.2.1

Versionshinweise:

Dokumentation:

2.2 und höher

--pig-versions 0.9.2.1

--ami-version 2.2

Implementiert die Unterstützung von MapR.

0.9.2

Versionshinweise:

Dokumentation:

2.2 und höher

--pig-versions 0.9.2

--ami-version 2.2

Umfasst mehrere Leistungsverbesserungen und Fehlerkorrekturen. Die vollständigen Informationen zu den Änderungen mit Pig 0.9.2 finden Sie im Pig 0.9.2 Change Log.

0.9.1

Versionshinweise:

Dokumentation:

2,0

--pig-versions 0.9.1

--ami-version 2.0

0.6

Versionshinweise:

1,0

--pig-versions 0.6

--ami-version 1.0

0.3

Versionshinweise:

1,0

--pig-versions 0.3

--ami-version 1.0

Pig Version Details

Amazon EMR unterstützt bestimmte Pig-Versionen, auf die möglicherweise zusätzliche Amazon EMR-Patches angewendet wurden. Sie können konfigurieren, welche Pig-Version auf den Amazon EMR-Clustern ausgeführt wird. Weitere Information dazu finden Sie unter Apache Pig. In den folgenden Abschnitten werden die verschiedenen Pig-Versionen und die auf die in Amazon EMR geladenen Versionen angewendeten Patches beschrieben.

Pig Patches

Dieser Abschnitt beschreibt die benutzerdefinierten Patches, die auf die in Amazon EMR verfügbaren Pig-Versionen anwendet werden.

Pig 0.11.1.1 Patches

Die Amazon EMR-Version von Pig 0.11.1.1 ist eine Wartungsversion, die die Leistung des LOAD-Befehls bei PigStorage verbessert, wenn sich die Eingabe in Amazon S3 befindet.

Pig 0.11.1 Patches

Die Amazon EMR-Version von Pig 0.11.1 enthält alle Aktualisierungen der Apache Software Foundation und die kumulativen Amazon EMR-Patches aus Pig Version 0.9.2.2. Es gibt jedoch keine neuen Amazon EMR-spezifischen Patches in Pig 0.11.1.

Pig 0.9.2 Patches

Apache Pig 0.9.2 ist eine Wartungsversion von Pig. Das Amazon EMR-Team hat die folgenden Patches auf die Amazon EMR-Version von Pig 0.9.2 angewendet.

Patch Description (Beschreibung)
PIG-1429

Fügt den Datentyp Boolean als Pig-Datentyp als primären Datentyp zu Pig hinzu. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/PIG-1429.

Status Verpflichtet

In Apache Pig Version fixiert: $0.10

PIG-1824

Unterstützung von Import-Module in Jython UDF. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/PIG-1824.

Status Verpflichtet

In Apache Pig Version fixiert: $0.10

PIG-2010

Im Paket registrierte JARs im verteilten Cache. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/PIG-2010.

Status Verpflichtet

In Apache Pig Version fixiert: 0,11

PIG-2456

~/.pigbootup-Datei hinzugefügt, über die Benutzer Standard-Pig-Anweisungen angeben können. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/PIG-2456.

Status Verpflichtet

In Apache Pig Version fixiert: 0,11

PIG-2623

Unterstützung für die Verwendung von Amazon S3-Pfaden zur Registrierung von UDFs. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/PIG-2623.

Status Verpflichtet

In Apache Pig Version fixiert: 0,10, 0,11

Pig 0.9.1 Patches

Das Amazon EMR-Team hat die folgenden Patches auf die Amazon EMR-Version von Pig 0.9.1 angewendet.

Patch Description (Beschreibung)
Unterstützung für JAR-Dateien und Pig-Skripts in DFS

Fügt Unterstützung zur Ausführung von Skripts und zur Registrierung von JAR-Dateien, die in HDFS, Amazon S3 oder anderen verteilten Dateisystemen gespeichert sind, hinzu. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/PIG-1505.

Status Verpflichtet

In Apache Pig Version fixiert: 0.8.0

Unterstützung mehrerer Dateisysteme in Pig

Fügt Unterstützung für Pig-Skripts zum Lesen von Daten aus einem Dateisystem und Schreiben in einem anderen hinzu. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/PIG-1564.

Status Nicht verpflichtet

Fixed in Apache Pig Version: (In Apache Pig-Version behoben:)

Piggybank-Datetime- und String-UDFs hinzugefügt

Datetime- und String-UDFs für benutzerdefinierte Pig-Skripts hinzugefügt. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/PIG-1565.

Status Nicht verpflichtet

Fixed in Apache Pig Version: (In Apache Pig-Version behoben:)

Interactive and Batch Pig Clusters

Amazon EMR ermöglicht die Ausführung von Pig-Skripts in zwei Modi:

  • Interactive

  • Batch

Wenn Sie einen langlebigen Cluster mithilfe der Konsole oder der AWS CLI starten, können Sie sich als Hadoop-Benutzer per ssh mit dem Master-Knoten verbinden und mithilfe der Grunt-Shell Pig-Skripts interaktiv entwickeln und ausführen. Durch die interaktive Verwendung von Pig können Sie Pig-Skripts einfacher überarbeiten als im Batch-Modus. Nachdem Sie das Pig-Skript im interaktiven Modus erfolgreich überarbeitet haben, können Sie das Skript in Amazon S3 hochladen und den Batch-Modus nutzen, um das Skript in der Produktionsumgebung auszuführen. Sie können außerdem interaktiv Pig-Befehle an einen aktuell ausgeführten Cluster senden, um Daten bei Bedarf zu analysieren und zu transformieren.

Im Batch-Modus laden Sie in einem einzigen Schritt Ihr Pig-Skript in Amazon S3 hoch und senden gleichzeitig den Auftrag an den Cluster. Pig-Schritte können an lang- oder kurzlebige Cluster und an Übergangs-Cluster gesendet werden.