Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Migre datos de un entorno Hadoop local a Amazon S3 DistCp mediante AWS PrivateLink Amazon S3
Creado por Jason Owens (AWS), Andres Cantor (), Jeff Klopfenstein (AWS), Bruno Rocha Oliveira (AWS) y Samuel Schmidt () AWS AWS
Entorno: producción | Origen: Hadoop | Destino: cualquiera |
Tipo R: redefinir la plataforma | Carga de trabajo: código abierto | Tecnologías: almacenamiento y copia de seguridad; análisis |
AWSservicios: Amazon S3; Amazon EMR |
Resumen
Este patrón demuestra cómo migrar prácticamente cualquier cantidad de datos de un entorno Apache Hadoop local a la nube de Amazon Web Services (AWS) mediante la herramienta de código abierto Apache DistCp
Esta guía proporciona instrucciones de uso para migrar datos a la DistCp nube. AWS DistCp es la herramienta más utilizada, pero hay otras herramientas de migración disponibles. Por ejemplo, puede usar AWS herramientas sin conexión como AWSSnowball o AWSSnowmobile, o herramientas en línea como AWS Storage Gateway AWS o. AWS DataSync
Requisitos previos y limitaciones
Requisitos previos
Una AWS cuenta activa con una conexión de red privada entre su centro de datos local y la nube AWS
Un usuario de Hadoop con acceso a los datos de migración en el sistema de archivos distribuido de Hadoop () HDFS
AWSInterfaz de línea de comandos (AWSCLI), instalada y configurada
Permisos para colocar objetos en un bucket de S3
Limitaciones
Se aplican limitaciones a la nube privada virtual (VPC) AWS PrivateLink para Amazon S3. Para obtener más información, consulte las propiedades, limitaciones y AWS PrivateLink cuotas de los puntos de conexión de la interfaz (AWS PrivateLink documentación).
AWS PrivateLink para Amazon S3 no admite lo siguiente:
Arquitectura
Pila de tecnología de origen
Clúster Hadoop con instalado DistCp
Pila de tecnología de destino
Amazon S3
Amazon VPC
Arquitectura de destino
El diagrama muestra cómo el administrador de Hadoop copia datos desde un entorno local DistCp a través de una conexión de red privada, como Direct AWS Connect, a Amazon S3 a través de un punto de enlace de la interfaz Amazon S3.
Herramientas
AWSservicios
AWSIdentity and Access Management (IAM) le ayuda a administrar de forma segura el acceso a sus AWS recursos al controlar quién está autenticado y autorizado a usarlos.
Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos basado en la nube que le ayuda a almacenar, proteger y recuperar cualquier cantidad de datos.
Amazon Virtual Private Cloud (AmazonVPC) le ayuda a lanzar AWS recursos en una red virtual que haya definido. Esta red virtual se parece a una red tradicional que utilizaría en su propio centro de datos, con las ventajas de utilizar la infraestructura escalable que ofreceAWS.
Otras herramientas
Apache Hadoop DistCp
(copia distribuida) es una herramienta que se utiliza para copiar grandes clústeres e intracústeres. DistCp utiliza Apache MapReduce para la distribución, la gestión y recuperación de errores y la elaboración de informes.
Epics
Tarea | Descripción | Habilidades requeridas |
---|---|---|
Cree un punto de conexión AWS PrivateLink para Amazon S3. |
| AWSadministrador |
Compruebe los puntos finales y busque las DNS entradas. |
| AWSadministrador |
Compruebe las reglas del firewall y las configuraciones de enrutamiento. | Para confirmar que las reglas del firewall están abiertas y que la red está configurada correctamente, use Telnet para probar el punto de conexión en el puerto 443. Por ejemplo:
Nota: Si utilizas la entrada regional, una prueba satisfactoria mostrará que DNS se alterna entre las dos direcciones IP que puedes ver en la pestaña Subredes del punto de conexión seleccionado en la VPC consola de Amazon. | Administrador de red, AWS administrador |
Configure la resolución de nombres. | Debe configurar la resolución de nombres para permitir que Hadoop acceda al punto de conexión de la interfaz Amazon S3. No puede usar el nombre del punto de conexión como tal. En su lugar, debe resolver Elija una de las siguientes opciones de configuración:
| AWSadministrador |
Configure la autenticación para Amazon S3. | Para autenticarse en Amazon S3 a través de Hadoop, le recomendamos que exporte las credenciales de rol temporales al entorno de Hadoop. Para obtener más información, consulte Autenticación con S3 Para usar credenciales temporales, añada las credenciales temporales a su archivo de credenciales o ejecute los siguientes comandos para exportar las credenciales a su entorno:
Si tiene una combinación de clave de acceso y clave secreta tradicional, ejecute los siguientes comandos:
Nota: Si utiliza una combinación de clave de acceso y clave secreta, cambie el proveedor de credenciales en los DistCp comandos de a | AWSadministrador |
Transfiera datos mediante DistCp. | Para usarlo DistCp para transferir datos, ejecute los siguientes comandos:
Nota: La AWS región del punto de conexión no se descubre automáticamente cuando se utiliza el DistCp comando con AWS PrivateLink Amazon S3. Hadoop 3.3.2 y las versiones posteriores resuelven este problema al habilitar la opción de establecer de forma explícita la AWS región del bucket de S3. Para obtener más información, consulte la sección S3A para añadir la opción fs.s3a.endpoint.region para Para obtener más información sobre otros proveedores de S3A, consulte Configuración general de cliente S3A
Nota: Para usar el punto final de la interfaz con el S3A, debe crear una entrada de DNS alias para el nombre regional del S3 (por ejemplo) en el punto final de la interfaz. Si tiene problemas de firma con Amazon S3, añada una opción para usar Signature Version 4 (SigV4):
| Ingeniero de migración, administrador AWS |