Hudi - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Hudi

O Apache Hudi é uma estrutura de gerenciamento de dados de código aberto usada para simplificar o processamento incremental de dados e o desenvolvimento de pipelines de dados ao fornecer recursos de inserção, atualização, upsert e exclusão em nível de registro. Upsert refere-se à capacidade de inserir registros em um conjunto de dados existente se eles ainda não existirem ou atualizá-los se existirem. Ao gerenciar eficientemente a forma como os dados são apresentados no Amazon S3, o Hudi permite que os dados sejam ingeridos e atualizados quase em tempo real. O Hudi mantém cuidadosamente metadados das ações realizadas no conjunto de dados para ajudar a garantir que as ações sejam atômicas e consistentes.

O Hudi é integrado ao Apache Spark, ao Apache Hive e ao Presto. Nas versões 6.1.0 e posteriores da AmazonEMR, o Hudi também está integrado ao Trino (Presto). SQL

Com a EMR versão 5.28.0 e posterior da Amazon, EMR instala os componentes Hudi por padrão quando o Spark, o Hive, o Presto ou o Flink são instalados. Você pode usar o Spark ou o DeltaStreamer utilitário Hudi para criar ou atualizar conjuntos de dados Hudi. É possível usar o Hive, o Spark, o Presto ou o Flink para consultar um conjunto de dados do Hudi interativamente ou criar pipelines de processamento de dados usando extração incremental. Extração incremental refere-se à capacidade de extrair apenas os dados que foram alterados entre duas ações.

Esses atributos tornam o Hudi adequado para os seguintes casos de uso:

  • Trabalhar com dados de streaming de sensores e outros dispositivos da Internet das Coisas (IoT) que exigem eventos específicos de inserção e atualização de dados.

  • Cumprir os regulamentos de privacidade de dados em aplicativos em que os usuários possam optar por serem esquecidos ou modificar seu consentimento para a forma como os dados podem ser utilizados.

  • Implementar um sistema de captura de dados de alteração (CDC) que permite aplicar alterações em um conjunto de dados ao longo do tempo.

A tabela a seguir lista a versão do Hudi incluída na versão mais recente da série Amazon EMR 7.x, junto com os componentes que a Amazon EMR instala com o Hudi.

Para a versão dos componentes instalados com o Hudi nesta versão, consulte Versões de componentes da versão 7.2.0.

Informações sobre a versão Hudi para emr-7.2.0
Gravadora EMR de lançamento da Amazon Versão do Hudi Componentes instalados com o Hudi

emr-7.2.0

Hudi 0.14.1-amzn-1

Not available.

A tabela a seguir lista a versão do Hudi incluída na versão mais recente da série EMR 6.x da Amazon, junto com os componentes que a Amazon EMR instala com o Hudi.

Para obter a versão dos componentes instalados com o Hudi nessa versão, consulte Release 6.15.0 Component Versions.

Informações de versão do Hudi para o emr-6.15.0
Gravadora EMR de lançamento da Amazon Versão do Hudi Componentes instalados com o Hudi

emr-6.15.0

Hudi 0.14.0-amzn-0

Not available.

nota

A EMR versão 6.8.0 da Amazon vem com o Apache Hudi 0.11.1; no entanto, os clusters da EMR Amazon 6.8.0 também são compatíveis com o código aberto do Hudi 0.12.0. hudi-spark3.3-bundle_2.12

A tabela a seguir lista a versão do Hudi incluída na versão mais recente da série Amazon EMR 5.x, junto com os componentes que a Amazon EMR instala com o Hudi.

Para a versão dos componentes instalados com o Hudi nesta versão, consulte Versões de componentes da versão 5.36.2.

Informações sobre a versão Hudi para emr-5.36.2
Gravadora EMR de lançamento da Amazon Versão do Hudi Componentes instalados com o Hudi

emr-5.36.2

Hudi 0.10.1-amzn-1

Not available.