Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Hudi - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Hudi

Apache Hudi es un marco de administración de datos de código abierto que se utiliza para simplificar el procesamiento incremental de los datos y el desarrollo de canalizaciones de datos, porque proporciona, en el nivel de registro, prestaciones de inserción, actualización, upsert y eliminación. Upsert se refiere a la capacidad de insertar registros en un dataset si aún no existen o de actualizarlos en caso de que ya estén presentes. Al administrar de manera eficiente la forma en que se establecen los datos en Amazon S3, Hudi permite que los datos se inserten y actualicen prácticamente en tiempo real. Hudi mantiene cuidadosamente los metadatos de las acciones realizadas en el conjunto de datos para ayudar a garantizar que las acciones sean atómicas y coherentes.

Hudi está integrado con Apache Spark, Apache Hive y Presto. En las versiones 6.1.0 y posteriores de Amazon EMR, Hudi también está integrado con Trino (PrestoSQL).

Con la versión 5.28.0 y posteriores de Amazon EMR, EMR instala los componentes de Hudi de forma predeterminada cuando se instalan Spark, Hive, Presto o Flink. Puedes usar Spark o la DeltaStreamer utilidad Hudi para crear o actualizar conjuntos de datos Hudi. Puede utilizar Hive, Spark, Presto o Flink para consultar un conjunto de datos de Hudi de forma interactiva o crear canalizaciones de procesamiento de datos mediante la extracción incremental. La extracción incremental se refiere a la capacidad de extraer únicamente los datos que han cambiado entre dos acciones.

Estas características hacen que Hudi sea adecuado para los siguientes casos de uso:

  • Trabajo con datos de transmisión desde sensores y otros dispositivos del Internet de las cosas (IoT) que requieren eventos específicos de inserción y actualización de datos.

  • Cumplimiento de la normativa de privacidad de datos en aplicaciones cuyos usuarios pueden ejercer su derecho al olvido o modificar su consentimiento para el uso de sus datos.

  • Implementación de un sistema de captura de datos de cambio (CDC) que permita aplicar cambios a un dataset a lo largo del tiempo.

En la siguiente tabla, se muestra la versión de Hudi incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Hudi.

Para ver la versión de los componentes instalados con Hudi en esta versión, consulta las versiones de componentes de la versión 7.7.0.

Información sobre la versión de Hudi para emr-7.7.0
Etiqueta de versión de Amazon EMR Versión de Hudi Componentes instalados con Hudi

emr-7.7.0

Hudi 0.15.0-amzn-4

Not available.

En la tabla siguiente, se muestra la versión de Hudi incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes que Amazon EMR instala con Hudi.

Para ver la versión de los componentes instalados con Hudi en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de Hudi para emr-6.15.0
Etiqueta de versión de Amazon EMR Versión de Hudi Componentes instalados con Hudi

emr-6.15.0

Hudi 0.14.0-amzn-0

Not available.

nota

Amazon EMR 6.8.0 viene con Apache Hudi 0.11.1; sin embargo, los clústeres de Amazon EMR 6.8.0 también son compatibles con el código abierto hudi-spark3.3-bundle_2.12 de Hudi 0.12.0.

En la tabla siguiente, se muestra la versión de Hudi incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes que Amazon EMR instala con Hudi.

Para ver la versión de los componentes instalados con Hudi en esta versión, consulte Versiones del componente de la versión 5.36.2.

Información de la versión de Hudi para emr-5.36.2
Etiqueta de versión de Amazon EMR Versión de Hudi Componentes instalados con Hudi

emr-5.36.2

Hudi 0.10.1-amzn-1

Not available.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.