Apache Hadoop - Amazon EMR

Apache Hadoop

O Apache Hadoop é uma estrutura de software Java de código aberto compatível com processamento de dados em massa por todo um cluster de instâncias. Ele também pode ser executado em uma única instância ou em milhares de instâncias. O Hadoop usa vários modelos de processamento, como MapReduce e Tez, para distribuir o processamento entre várias instâncias e também usa um sistema de arquivos distribuído chamado HDFS para armazenar dados em várias instâncias. O Hadoop monitora a integridade das instâncias no cluster e pode fazer a recuperação de falha em um ou mais nós. Dessa maneira, o Hadoop proporciona o aumento do processamento e da capacidade de armazenamento, bem como a alta disponibilidade. Para obter mais informações, consulte a documentação do Hadoop.

A tabela a seguir lista a versão do Hadoop incluída na versão mais recente da série 7.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hadoop.

Para obter a versão dos componentes instalados com o Hadoop nesse lançamento, consulte Release 7.3.0 Component Versions.

Informações de versão do Hadoop para o emr-7.3.0
Rótulo de versão do Amazon EMR Versão do Hadoop Componentes instalados com o Hadoop

emr-7.3.0

Hadoop 3.3.6

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server

A tabela a seguir lista a versão do Hadoop incluída na versão mais recente da série 6.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hadoop.

Para obter a versão dos componentes instalados com o Hadoop nessa versão, consulte Release 6.15.0 Component Versions.

Informações de versão do Hadoop para o emr-6.15.0
Rótulo de versão do Amazon EMR Versão do Hadoop Componentes instalados com o Hadoop

emr-6.15.0

Hadoop 3.3.6

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server

A tabela a seguir lista a versão do Hadoop incluída na versão mais recente da série 5.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hadoop.

Para obter a versão dos componentes instalados com o Hadoop nesse lançamento, consulte Release 5.36.2 Component Versions.

Informações de versão do Hadoop para o emr-5.36.2
Rótulo de versão do Amazon EMR Versão do Hadoop Componentes instalados com o Hadoop

emr-5.36.2

Hadoop 2.10.1

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server

Desde a versão 5.18.0 do Amazon EMR, você pode usar o repositório de artefatos do Amazon EMR para criar o código de trabalho em comparação com as versões exatas de bibliotecas e dependências disponíveis com versões específicas do Amazon EMR. Para ter mais informações, consulte Verificar dependências usando o repositório de artefatos do Amazon EMR.