Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Pig-Anwendungsspezifikationen für frühere AMI Versionen von Amazon EMR
Unterstützte Pig-Versionen
Die Pig-Version, die Sie Ihrem Cluster hinzufügen können, hängt von der Version von Amazon EMR AMI und der Version von Hadoop ab, die Sie verwenden. Die folgende Tabelle zeigt, welche AMI Versionen und Versionen von Hadoop mit den verschiedenen Versionen von Pig kompatibel sind. Wir empfehlen die Verwendung der neuesten Pig-Version, um die Vorteile der Leistungsverbesserungen und neuen Funktionen zu nutzen.
Wenn Sie Pig API zur Installation von verwenden, wird die Standardversion verwendet, sofern Sie nicht --pig-versions
als Argument für den Schritt angeben, der Pig während des Aufrufs von in den Cluster lädt. RunJobFlow
Pig-Version | AMIVersion | Konfigurationsparameter | Details zur Pig-Version |
---|---|---|---|
0.12.0 | 3.1.0 und höher |
|
Implementiert die Unterstützung der folgenden Elemente:
|
0.11.1.1 | 2.2 und höher |
|
Verbessert die LOAD Befehlsleistung, PigStorage wenn sich die Eingabe in Amazon S3 befindet. |
0.11.1 | 2.2 und höher |
|
Integriert die Unterstützung für JDK 7, Hadoop 2, benutzerdefinierte Groovy-Funktionen, SchemaTuple Optimierung, neue Operatoren und mehr. Weitere Informationen finden Sie im Veränderungsprotokoll für Pig 0.11.1 |
0.9.2.2 | 2.2 und höher |
|
Implementiert die Unterstützung von Hadoop 1.0.3. |
0.9.2.1 | 2.2 und höher |
|
Implementiert die Unterstützung von MapR. |
0.9.2 | 2.2 und höher |
|
Umfasst mehrere Leistungsverbesserungen und Fehlerkorrekturen. Die vollständigen Informationen zu den Änderungen mit Pig 0.9.2 finden Sie im Veränderungsprotokoll für Pig 0.9.2 |
0.9.1 | 2.0 |
|
|
0.6 | 1,0 |
|
|
0.3 | 1,0 |
|
Details zur Pig-Version
Amazon EMR unterstützt bestimmte Pig-Versionen, für die möglicherweise zusätzliche EMR Amazon-Patches angewendet wurden. Sie können konfigurieren, welche Version von Pig auf EMR Amazon-Clustern ausgeführt werden soll. Weitere Information dazu finden Sie unter Apache Pig. In den folgenden Abschnitten werden verschiedene Pig-Versionen und die Patches beschrieben, die auf die auf Amazon geladenen Versionen angewendet wurdenEMR.
Pig-Patches
In diesem Abschnitt werden die benutzerdefinierten Patches beschrieben, die auf die bei Amazon verfügbaren Pig-Versionen angewendet wurdenEMR.
Pig-0.11.1.1-Patches
Die EMR Amazon-Version von Pig 0.11.1.1 ist eine Wartungsversion, die die LOAD Befehlsleistung verbessert, PigStorage wenn sich die Eingabe in Amazon S3 befindet.
Pig 0.11.1-Patches
Die EMR Amazon-Version von Pig 0.11.1 enthält alle von der Apache Software Foundation bereitgestellten Updates und die kumulativen EMR Amazon-Patches von Pig Version 0.9.2.2. In Pig 0.11.1 gibt es jedoch keine neuen EMR Amazon-spezifischen Patches.
Pig-0.9.2-Patches
Apache Pig 0.9.2 ist eine Wartungsversion von Pig. Das EMR Amazon-Team hat die folgenden Patches auf die EMR Amazon-Version von Pig 0.9.2 angewendet.
Patch | Beschreibung |
---|---|
PIG-1429 |
Fügt den Datentyp Boolean als Pig-Datentyp als primären Datentyp zu Pig hinzu. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/ PIG Status: Ausgeführt Fixed in Apache Pig Version: (In Apache Pig-Version behoben:) 0.10 |
PIG-1824 |
Support Importmodule in JythonUDF. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/ PIG Status: Ausgeführt Fixed in Apache Pig Version: (In Apache Pig-Version behoben:) 0.10 |
PIG-2010 |
Das Paket ist JARs im verteilten Cache registriert. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/ PIG -2010 Status: Ausgeführt Fixed in Apache Pig Version: (In Apache Pig-Version behoben:) 0.11 |
PIG-2456 |
~/.pigbootup-Datei hinzugefügt, über die Benutzer Standard-Pig-Anweisungen angeben können. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/ PIG Status: Ausgeführt Fixed in Apache Pig Version: (In Apache Pig-Version behoben:) 0.11 |
PIG-2623 |
Support der Verwendung von Amazon S3 S3-Pfaden zur RegistrierungUDFs. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/ PIG -2623 Status: Ausgeführt Fixed in Apache Pig Version: (In Apache Pig-Version behoben:) 0.10, 0.11 |
Pig-0.9.1-Patches
Das EMR Amazon-Team hat die folgenden Patches auf die EMR Amazon-Version von Pig 0.9.1 angewendet.
Patch | Beschreibung |
---|---|
JARUnterstützungsdateien und Pig-Skripte in DFS |
Fügen Sie Unterstützung für das Ausführen von Skripten und das Registrieren von JAR Dateien hinzuHDFS, die in Amazon S3 oder anderen verteilten Dateisystemen gespeichert sind. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/ PIG -1505 Status: Ausgeführt Fixed in Apache Pig Version: (In Apache Pig-Version behoben:) 0.8.0 |
Unterstützung mehrerer Dateisysteme in Pig |
Fügt Unterstützung für Pig-Skripts zum Lesen von Daten aus einem Dateisystem und Schreiben in einem anderen hinzu. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/ PIG Status: Nicht ausgeführt Fixed in Apache Pig Version: (In Apache Pig-Version behoben:) – |
Fügen Sie Piggybank Datetime und Zeichenfolge hinzu UDFs |
Fügen Sie Datetime und Zeichenfolge hinzu, um benutzerdefinierte Pig-Skripte UDFs zu unterstützen. Weitere Informationen finden Sie unter https://issues.apache.org/jira/browse/ PIG -1565 Status: Nicht ausgeführt Fixed in Apache Pig Version: (In Apache Pig-Version behoben:) – |
Interaktive Pig-Cluster und Batch-Pig-Cluster
Amazon EMR ermöglicht es Ihnen, Pig-Skripte in zwei Modi auszuführen:
-
Interactive
-
Stapel
Wenn Sie einen Cluster mit langer Laufzeit über die Konsole oder die starten AWS CLI, können Sie eine Verbindung ssh zum Master-Knoten als Hadoop-Benutzer herstellen und die Grunt-Shell verwenden, um Ihre Pig-Skripte interaktiv zu entwickeln und auszuführen. Durch die interaktive Verwendung von Pig können Sie Pig-Skripts einfacher überarbeiten als im Batch-Modus. Nachdem Sie das Pig-Skript im interaktiven Modus erfolgreich überarbeitet haben, können Sie das Skript in Amazon S3 hochladen und den Batch-Modus nutzen, um das Skript in der Produktionsumgebung auszuführen. Sie können außerdem interaktiv Pig-Befehle an einen aktuell ausgeführten Cluster senden, um Daten bei Bedarf zu analysieren und zu transformieren.
Im Batch-Modus laden Sie in einem einzigen Schritt Ihr Pig-Skript in Amazon S3 hoch und senden gleichzeitig den Auftrag an den Cluster. Pig-Schritte können an lang- oder kurzlebige Cluster und an Übergangs-Cluster gesendet werden.