Caractéristiques de l'application Pig pour les versions AMI antérieures d'Amazon EMR - Amazon EMR

Caractéristiques de l'application Pig pour les versions AMI antérieures d'Amazon EMR

Versions de Pig prises en charge

La version de Pig que vous pouvez ajouter à votre cluster dépend de la version d'AMI Amazon EMR et de la version de Hadoop que vous utilisez. Le tableau ci-dessous montre les versions d'AMI et les versions de Hadoop compatibles avec les différentes versions de Pig. Nous recommandons d'utiliser la dernière version de Pig disponible pour tirer parti des améliorations de performances et des nouvelles fonctionnalités.

Lorsque vous utilisez l'API pour installer Pig, la version par défaut est utilisée, sauf si vous spécifiez --pig-versions comme argument à l'étape qui charge Pig sur le cluster pendant l'appel de RunJobFlow.

Version de Pig Version d'AMI Paramètres de configuration Détails de la version de Pig
0.12.0

Notes de mise à jour

Documentation

3.1.0 et ultérieures

--ami-version 3.1

--ami-version 3.2

--ami-version 3.3

Ajoute la prise en charge des éléments suivants :

  • Diffusion en continu des fonctions UDF sans implémentation de la JVM

  • Opérateurs ASSERT et IN

  • Expression CASE

  • AvroStorage en tant que fonction intégrée Pig.

  • ParquetLoader et ParquetStorer en tant que fonctions intégrées

  • Types BigInteger et BigDecimal

0.11.1.1

Notes de mise à jour

Documentation

2.2 et ultérieures

--pig-versions 0.11.1.1

--ami-version 2.2

Améliore les performances de la commande LOAD avec PigStorage si l'entrée se trouve dans Amazon S3.

0.11.1

Notes de mise à jour

Documentation

2.2 et ultérieures

--pig-versions 0.11.1

--ami-version 2.2

Ajoute la prise en charge de JDK 7, Hadoop 2, des fonctions Groovy définies par l'utilisateur, de l'optimisation SchemaTuple, de nouveaux opérateurs, etc. Pour plus d'informations, consultez Journal de modifications Pig 0.11.1.

0.9.2.2

Notes de mise à jour

Documentation

2.2 et ultérieures

--pig-versions 0.9.2.2

--ami-version 2.2

Ajoute une prise en charge pour Hadoop 1.0.3.

0.9.2.1

Notes de mise à jour

Documentation

2.2 et ultérieures

--pig-versions 0.9.2.1

--ami-version 2.2

Ajoute la prise en charge de MapR.

0.9.2

Notes de mise à jour

Documentation

2.2 et ultérieures

--pig-versions 0.9.2

--ami-version 2.2

Inclut plusieurs améliorations de performances et correctifs. Pour obtenir des informations détaillées sur les modifications apportées dans la version Pig 0.9.2, consultez Journal de modifications Pig 0.9.2.

0.9.1

Notes de mise à jour

Documentation

2.0

--pig-versions 0.9.1

--ami-version 2.0

0.6

Notes de mise à jour

1.0

--pig-versions 0.6

--ami-version 1.0

0.3

Notes de mise à jour

1.0

--pig-versions 0.3

--ami-version 1.0

Détails de la version de Pig

Amazon EMR prend en charge certaines versions de Pig auxquelles des correctifs Amazon EMR supplémentaires sont appliqués. Vous pouvez configurer la version de Pig à exécuter sur les clusters Amazon EMR. Pour plus d'informations sur cette étape, consultez Apache Pig. Les sections suivantes décrivent les différentes versions de Pig et les correctifs appliqués aux versions chargées sur Amazon EMR.

Correctifs Pig

Cette section décrit les correctifs personnalisés appliqués aux versions de Pig disponibles avec Amazon EMR.

Correctifs Pig 0.11.1.1

La version Amazon EMR de Pig 0.11.1.1 est une version de maintenance qui améliore les performances de la commande LOAD avec PigStorage, si les données d'entrée se trouvent dans Amazon S3.

Correctifs Pig 0.11.1

La version Amazon EMR de Pig 0.11.1 contient toutes les mises à jour fournies par l'Apache Software Foundation et les correctifs Amazon EMR cumulés depuis la version Pig 0.9.2.2. Il n'y a cependant pas de nouveaux correctifs spécifiques à Amazon EMR dans Pig 0.11.1.

Correctifs Pig 0.9.2

Apache Pig 0.9.2 est une version de maintenance de Pig. L'équipe Amazon EMR a appliqué les correctifs suivants à la version Amazon EMR de Pig 0.9.2.

Correctif Description
PIG-1429

Ajout du type de données Boolean à Pig en tant que type de données de première classe. Pour plus d'informations, consultez https://issues.apache.org/jira/browse/PIG-1429.

Statut : validé

Correction dans la version Apache Pig : 0.10

PIG-1824

Prise en charge des modules d'importation dans Jython UDF. Pour plus d'informations, consultez https://issues.apache.org/jira/browse/PIG-1824.

Statut : validé

Correction dans la version Apache Pig : 0.10

PIG-2010

Fichiers JAR enregistrés en bundle sur le cache distribué. Pour plus d'informations, consultez https://issues.apache.org/jira/browse/PIG-2010.

Statut : validé

Correction dans la version Apache Pig : 0.11

PIG-2456

Ajout d'un fichier ~/.pigbootup dans lequel l'utilisateur peut spécifier des déclarations Pig par défaut. Pour plus d'informations, consultez https://issues.apache.org/jira/browse/PIG-2456.

Statut : validé

Correction dans la version Apache Pig : 0.11

PIG-2623

Prise en charge de l'utilisation des chemins vers Amazon S3 pour l'enregistrement des UDF. Pour plus d'informations, consultez https://issues.apache.org/jira/browse/PIG-2623.

Statut : validé

Correction dans les versions Apache Pig : 0.10, 0.11

Correctifs Pig 0.9.1

L'équipe Amazon EMR a appliqué les correctifs suivants à la version Amazon EMR de Pig 0.9.1.

Correctif Description
Prise en charge des fichiers JAR et des scripts Pig dans les systèmes de fichiers distribués

Ajout de la prise en charge de l'exécution de scripts et de l'enregistrement de fichiers JAR stockés dans HDFS, Amazon S3 ou d'autres systèmes de fichiers distribués. Pour plus d'informations, consultez https://issues.apache.org/jira/browse/PIG-1505.

Statut : validé

Correction dans la version Apache Pig : 0.8.0

Prise en charge de plusieurs systèmes de fichiers dans Pig

Ajout de la prise en charge des scripts Pig pour lire les données d'un système de fichiers et les écrire dans un autre. Pour plus d'informations, consultez https://issues.apache.org/jira/browse/PIG-1564.

Statut : non validé

Correction dans la version Apache Pig : non applicable

Ajout des fonctions UDF datetime et string Piggybank

Ajout des fonctions UDF datetime et string pour prendre en charge les scripts Pig personnalisés. Pour plus d'informations, consultez https://issues.apache.org/jira/browse/PIG-1565.

Statut : non validé

Correction dans la version Apache Pig : non applicable

Clusters Pig en mode interactif ou en mode de traitement par lots

Amazon EMR vous permet d'exécuter des scripts Pig dans deux modes :

  • Interactive

  • Par lots

Lorsque vous lancez un cluster de longue durée à l'aide de la console ou de l'AWS CLI, vous pouvez vous connecter à l'aide de la ssh dans le nœud principal en tant qu'utilisateur Hadoop et utiliser l'invite Grunt pour développer et exécuter vos scripts Pig de façon interactive. Utiliser Pig de façon interactive vous permet de réviser plus facilement le script Pig qu'en mode de traitement par lots. Lorsque vous avez révisé le script Pig en mode interactif et que tout est correct, vous pouvez charger le script dans Amazon S3 et utiliser le mode de traitement par lots pour exécuter le script en production. Vous pouvez également soumettre des commandes Pig de façon interactive sur un cluster en cours d'exécution pour analyser et transformer les données en fonction des besoins.

En mode de traitement par lots, vous chargez votre script Pig dans Amazon S3, puis soumettez le travail au cluster dans le cadre d'une étape. Les étapes Pig peuvent être soumises à un cluster de longue durée ou à un cluster transitoire.