Apache Pig - Amazon EMR

Apache Pig

O Apache Pig é uma biblioteca Apache de código aberto que é executada sobre o Hadoop, fornecendo uma linguagem de scripts que você pode usar para transformar grandes conjuntos de dados sem precisar gravar códigos complexos em uma linguagem de computação de nível inferior, como Java. A biblioteca usa comandos semelhantes aos do SQL, escritos em uma linguagem chamada de Pig Latin, e converte esses comandos em trabalhos do Tez com base em gráficos acíclicos dirigidos (DAGs) ou programas MapReduce. O Pig funciona com dados estruturados e não estruturados em vários formatos. Para obter mais informações sobre o Pig, consulte http://pig.apache.org/.

Você pode executar comandos do Pig interativamente ou no modo em lote. Para usar o Pig interativamente, crie uma conexão SSH com o nó principal e envie os comandos usando o shell do Grunt. Para usar o Pig no modo em lote, escreva os scripts do Pig, carregue-os no Amazon S3 e envie-os como etapas do cluster. Para obter mais informações sobre como enviar trabalhos para um cluster, consulte Enviar trabalhos para um cluster no Guia de gerenciamento do Amazon EMR.

Ao usar o Pig para gravar a saída em uma tabela do HCatalog no Amazon S3, desabilite a gravação direta do Amazon EMR definindo as propriedades mapred.output.direct.NativeS3FileSystem e mapred.output.direct.EmrFileSystem como false. Para obter mais informações, consulte Uso do HCatalog. Dentro de um script do Pig, você pode usar os comandos SET mapred.output.direct.NativeS3FileSystem false e SET mapred.output.direct.EmrFileSystem false.

A tabela a seguir lista a versão do Pig incluída na versão mais recente da série 6.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Pig.

Para obter a versão dos componentes instalados com o Pig nessa versão, consulte Versões dos componentes da versão 6.14.0.

Informações sobre versões do Pig para o emr-6.14.0
Rótulo de versão do Amazon EMR Versão do Pig Componentes instalados com o Pig

emr-6.14.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

A tabela a seguir lista a versão do Pig incluída na versão mais recente da série 5.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Pig.

Para obter a versão dos componentes instalados com o Pig nessa versão, consulte Versões dos componentes da versão 6.14.0.

Informações sobre versões do Pig para o emr-5.36.1
Rótulo de versão do Amazon EMR Versão do Pig Componentes instalados com o Pig

emr-5.36.1

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn