Migre las cargas de trabajo de Cloudera locales a Cloudera Data Platform en AWS - Recomendaciones de AWS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Migre las cargas de trabajo de Cloudera locales a Cloudera Data Platform en AWS

Creado por Battulga Purevragchaa (AWS), Nijjwol Lamsal (socio) y Nidhi Gupta () AWS

Entorno: PoC o piloto

Origen: Cargas de trabajo de Cloudera

Objetivo: Plataforma de datos Cloudera () Nube pública CDP

Tipo R: N/D

Carga de trabajo: todas las demás cargas de trabajo

Tecnologías: migración; macrodatos; bases de datos; análisis

AWSservicios: AmazonEC2; AmazonEKS; AWS Identity and Access Management; Amazon S3; Amazon RDS

Resumen

Este patrón describe los pasos de alto nivel para migrar sus cargas de trabajo locales de Cloudera Distributed Hadoop (CDH), Hortonworks Data Platform (HDP) y Cloudera Data Platform () a Public Cloud on. CDP CDP AWS Le recomendamos que se asocie con los servicios profesionales de Cloudera y con un integrador de sistemas (SI) para implementar estos pasos.

Hay muchos motivos por los que los clientes de Cloudera quieren trasladar sus cargas de trabajo y locales a la nube. CDH HDP CDP Algunas de las razones más habituales son las siguientes:

  • Optimizar la adopción de nuevos paradigmas de plataformas de datos, como Data Lakehouse o Data Mesh

  • Aumentar la agilidad empresarial, democratice el acceso y la inferencia sobre los activos de datos existentes

  • Reduzca el coste total de propiedad () TCO

  • Mejorar la elasticidad de la carga

  • Permitir una mayor escalabilidad; reducir drásticamente el tiempo de aprovisionamiento de los servicios de datos en comparación con la base de instalación en las instalaciones heredada

  • Eliminar el hardware heredado y reducir significativamente los ciclos de actualización del hardware

  • Aproveche los precios pay-as-you listos para usar, que se extienden a las cargas de trabajo de Cloudera AWS con el modelo de licencias de Cloudera () CCU

  • Aprovechar una implementación más rápida y una mejor integración con las plataformas de integración continua y entrega continua (CI/CD)

  • Utilice una única plataforma unificada () CDP para múltiples cargas de trabajo

Cloudera es compatible con las principales cargas de trabajo, incluidas Machine Learning, Data Engineering, Data Warehouse, Operational Database, Stream Processing (CSP) y seguridad y gobierno de los datos. Cloudera lleva muchos años ofreciendo estas cargas de trabajo de forma local, y usted puede migrarlas a la AWS nube utilizando la nube CDP pública con Workload Manager y Replication Manager. 

Cloudera Shared Data Experience (SDX) proporciona un catálogo de metadatos compartido entre estas cargas de trabajo para facilitar la gestión y las operaciones de datos coherentes. SDXtambién incluye una seguridad integral y granular para protegerse contra las amenazas y una gobernanza unificada para las capacidades de auditoría y búsqueda a fin de cumplir con estándares como el Estándar de Seguridad de Datos del Sector de Tarjetas de Pago (PCIDSS) y. GDPR 

CDPmigración de un vistazo

 

 

 

Carga de trabajo

Carga de trabajo de origen

CDHHDP, y nube CDP privada

Entorno de origen

  • Windows, Linux

  • En las instalaciones, en un mismo lugar o en cualquier otro entorno AWS

Carga de trabajo del destino

CDPNube pública activada AWS

Entorno de destino

  • Modelo de implementación: cuenta de cliente

  • Modelo operativo: plano de control cliente/Cloudera

 

 

Migración

Estrategia de migración (7Rs)

Volver a alojar, redefinir la plataforma o refactorizar

¿Se trata de una actualización de la versión de carga de trabajo?

Duración de la migración

  • Implementación: aproximadamente 1 semana para crear una cuenta de cliente, una nube privada virtual (VPC) y un entorno de nube CDP pública administrado por el cliente.

  • Duración de la migración: de 1 a 4 meses, según la complejidad y el tamaño de la carga de trabajo.

Costo

Coste de ejecutar la carga de trabajo en AWS

  • A un nivel alto, el costo de una migración de la CDH carga de trabajo AWS supone que se establecerá un nuevo entornoAWS. Incluye el cálculo de tiempo y esfuerzo del personal, así como el aprovisionamiento de los recursos informáticos y las licencias de software para el nuevo entorno.

  • El modelo de precios de Cloudera basado en el consumo de la nube le ofrece la flexibilidad necesaria para aprovechar las amplias capacidades de escalado automático. Para obtener más información, consulte las tarifas de los servicios de CDP Public Cloud en el sitio web de Cloudera.

  • Cloudera Enterprise Data Hub se basa en Amazon Elastic Compute Cloud (AmazonEC2) y modela fielmente los clústeres tradicionales. Data Hub se puede personalizar, pero esto repercutirá en los costos.

  • CDPPublic Cloud Data Warehouse, Cloudera Machine Learning y Cloudera Data Engineering (CDE) están basados en contenedores y se pueden configurar para que escalen automáticamente.

 

 

Marco y acuerdos de infraestructura

Requisitos del sistema

Consulte la sección Requisitos previos.

SLA

Consulte el acuerdo de nivel de servicio de Cloudera para la nube pública. CDP

DR

Consulte la recuperación de desastres en la documentación de Cloudera.

Modelo operativo y de licencia (para la AWS cuenta de destino)

Modelo Bring Your Own License (BYOL)

 

Conformidad

Requisitos de seguridad

Consulte la descripción general de seguridad de Cloudera en la documentación de Cloudera.

Otras certificaciones de conformidad

Consulte la información en el sitio web de Cloudera sobre el cumplimiento del Reglamento general de protección de datos (GDPR) y el Centro de CDP confianza.

Requisitos previos y limitaciones

Requisitos previos 

La migración requiere los siguientes roles y experiencia:

Rol

Habilidades y responsabilidades

Líder de migración

Garantiza el apoyo ejecutivo, la colaboración en equipo, la planificación, la implementación y la evaluación

Cloudera SME

Conocimientos especializados en CDH CDP administración, administración de sistemas y arquitectura HDP

Arquitecto AWS

Habilidades en AWS servicios, redes, seguridad y arquitecturas

Arquitectura

Construir según la arquitectura adecuada es un paso fundamental para garantizar que la migración y el rendimiento satisfagan sus expectativas. Para que su esfuerzo de migración cumpla con las suposiciones de este manual, su entorno de datos de destino en la AWS nube, ya sea en instancias alojadas en la nube privada virtual (VPC) oCDP, debe ser equivalente al entorno de origen en términos de versiones del sistema operativo y software, así como de las principales especificaciones de las máquinas.

El siguiente diagrama (reproducido con permiso de la hoja de datos de Cloudera Shared Data Experience) muestra los componentes de infraestructura del CDP entorno y la forma en que interactúan los niveles o los componentes de la infraestructura.

CDPcomponentes del entorno

La arquitectura incluye los siguientes CDP componentes:

  • Data Hub es un servicio para lanzar y gestionar clústeres de cargas de trabajo con tecnología Cloudera Runtime. Puede usar las definiciones de clústeres de Data Hub para aprovisionar clústeres de carga de trabajo y acceder a ellos para casos de uso personalizados y definir configuraciones de clústeres personalizadas. Para obtener más información, consulte el sitio web de Cloudera.

  • El flujo y la transmisión de datos abordan los principales desafíos a los que se enfrentan las empresas con los datos en movimiento. Gestiona lo siguiente:

    • Procesamiento del flujo de datos en tiempo real a gran volumen y a gran escala

    • Seguimiento de la procedencia de los datos y del linaje de los datos de streaming

    • Gestión y supervisión de las aplicaciones periféricas y las fuentes de streaming

    Para obtener más información, consulte Cloudera DataFlow y CSPen el sitio web de Cloudera.

  • La ingeniería de datos incluye la integración, la calidad y el gobierno de los datos, lo que ayuda a las organizaciones a crear y mantener flujos de trabajo y flujos de datos. Para obtener más información, consulte el sitio web de Cloudera. Obtenga información sobre la compatibilidad con instancias puntuales para facilitar el ahorro de costes en las cargas de trabajo de AWS ingeniería de datos de Cloudera.

  • Data Warehouse le permite crear data warehouses y data marts independientes que se escalan automáticamente para satisfacer las demandas de carga de trabajo. Este servicio proporciona instancias informáticas aisladas y una optimización automatizada para cada almacén de datos y mercado de datos, y le ayuda a ahorrar costes durante las reuniones. SLAs Para obtener más información, consulte el sitio web de Cloudera. Obtenga información sobre la gestión de costes y el autoscalamiento de Cloudera Data Warehouse en. AWS

  • Operational Database in CDP proporciona una base fiable y flexible para aplicaciones escalables y de alto rendimiento. Ofrece una base de datos escalable, siempre disponible y en tiempo real que proporciona datos estructurados tradicionales junto con datos nuevos y no estructurados dentro de una plataforma operativa y de almacenamiento unificada. Para obtener más información, consulte el sitio web de Cloudera.

  • Machine Learning es una plataforma de machine learning nativa de la nube que combina las capacidades de autoservicio de ciencia de datos e ingeniería de datos en un único servicio portátil dentro de una nube de datos empresarial. Permite la implementación escalable del machine learning y la inteligencia artificial (IA) en los datos en cualquier lugar. Para obtener más información, consulte el sitio web de Cloudera.

CDPen AWS

El siguiente diagrama (adaptado con permiso del sitio web de Cloudera) muestra la arquitectura de alto nivel de CDP onAWS. CDPimplementa su propio modelo de seguridad para gestionar tanto las cuentas como el flujo de datos. Se integran IAMmediante el uso de funciones multicuentas

CDPen una arquitectura de AWS alto nivel

El plano CDP de control reside en una cuenta maestra propia VPC de Cloudera. Cada cuenta de cliente tiene su propia subcuenta y es única. VPC Las IAM funciones y SSL tecnologías entre cuentas dirigen el tráfico de administración hacia y desde el plano de control a los servicios de atención al cliente, que residen en las subredes públicas enrutables por Internet de cada cliente. VPC En el caso del clienteVPC, la experiencia de datos compartidos de Cloudera (SDX) proporciona una seguridad empresarial sólida con una gobernanza y un cumplimiento unificados para que pueda obtener información a partir de sus datos con mayor rapidez. SDXes una filosofía de diseño incorporada en todos los productos de Cloudera. Para obtener más información sobre la arquitectura de red de CDP Public Cloud SDXy su arquitectura AWS, consulte la documentación de Cloudera.

Herramientas

AWSservicios

Automatizar y herramientas

Epics

TareaDescripciónHabilidades requeridas

Involucre al equipo de Cloudera.

Cloudera sigue un modelo de interacción estandarizado con sus clientes y puede trabajar con su integrador de sistemas (SI) para promover el mismo enfoque. Póngase en contacto con el equipo de atención al cliente de Cloudera para que le brinden orientación y los recursos técnicos necesarios para iniciar el proyecto. Ponerse en contacto con el equipo de Cloudera garantiza que todos los equipos necesarios puedan prepararse para la migración a medida que se acerque su fecha. 

Puede ponerse en contacto con los servicios profesionales de Cloudera para que su implementación de Cloudera pase de la fase piloto a la fase de producción rápidamente, a un costo menor y con el máximo rendimiento. Para obtener una lista completa de ofertas, consulte el sitio web de Cloudera.

Líder de migración

Cree un entorno de nube CDP pública AWS para su. VPC

Trabaje con los servicios profesionales de Cloudera o con su SI para planificar e implementar la nube CDP pública VPC en AWS una sola.

Arquitecto de nube, Cloudera SME

Priorice y evalúe las cargas de trabajo para la migración.

Evalúe todas sus cargas de trabajo en las instalaciones para determinar cuáles son las más fáciles de migrar. Es mejor migrar primero a las aplicaciones que no son esenciales para la misión, ya que tendrán un impacto mínimo en sus clientes. Guarde las cargas de trabajo esenciales para el final, después de migrar correctamente otras cargas de trabajo.

Nota: Las cargas de trabajo transitorias (ingeniería de CDP datos) son más fáciles de migrar que las cargas de trabajo persistentes (almacén de CDP datos). También es importante tener en cuenta el volumen y las ubicaciones de los datos al migrar. Los desafíos pueden incluir replicar los datos de forma continua desde un entorno en las instalaciones a la nube y cambiar los procesos de ingesta de datos para importarlos directamente a la nube.

Líder de migración

Analice las CDH actividades de HDP migración CDP de aplicaciones antiguas y las ya existentes.

Considere y comience a planificar las siguientes actividades con Cloudera Workload Manager:

  • Datos y cargas de trabajo para copiar a su entorno AWS

  • Datos listos para la nube

  • Vecinos ruidosos, que consumen recursos y crean problemas a otros inquilinos

  • Cargas de trabajo elásticas

  • Clústeres pequeños con una elevada sobrecarga operativa

Líder de migración

Complete los requisitos y recomendaciones de Cloudera Replication Manager.

Trabaje con Cloudera Professional Services y su SI para prepararse para migrar las cargas de trabajo a su entorno de nube CDP pública. AWS Comprender los siguientes requisitos y recomendaciones puede ayudarle a evitar problemas comunes durante y después de instalar el servicio Replication Manager.

  • Revise los documentos de respaldo de Replication Manager para confirmar que cumple con los requisitos del entorno y del sistema. Para obtener más información, consulte la matriz de soporte para CDP Public Cloud Replication Manager en el sitio web de Cloudera.

  • No necesita acceso root a los nodos en los que se instalarán la aplicación Replication Manager y el motor Data Lifecycle Manager (DLM).

  • Instale Apache Hive durante la instalación inicial de Replication Manager, a menos que esté seguro de que no utilizará la replicación de Hive en el futuro. Si decide instalar Hive después de crear las políticas de HDFS replicación en Replication Manager, tendrá que eliminar y volver a crear todas las políticas de HDFS replicación después de agregar Hive.

  • Los clústeres utilizados en Replication Manager deben tener configuraciones simétricas. Cada clúster de una relación de replicación debe estar configurado exactamente de la misma manera en cuanto a seguridad (Kerberos), administración de usuarios (LDAP/AD) y Knox Proxy. Los servicios de clúster, como Hadoop Distributed File System (HDFS), Apache Hive, Apache Knox, Apache Ranger y Apache Atlas, pueden tener diferentes configuraciones para una alta disponibilidad (HA). Por ejemplo, los clústeres de origen y de destino pueden tener configuraciones de alta y de baja disponibilidad independientes.

Líder de migración
TareaDescripciónHabilidades requeridas

Migre la primera carga de trabajo para entornos de desarrollo/pruebas con Cloudera Workload Manager.

Su SI puede ayudarlo a migrar su primera carga de trabajo a la AWS nube. Debe ser una aplicación que no esté orientada al cliente ni sea esencial para la misión. Las aplicaciones que contienen datos que la nube puede ingerir fácilmente, como las cargas de trabajo de ingeniería de datos, son las candidatas CDP ideales para la migración de desarrollo y pruebas. Se trata de una carga de trabajo transitoria a la que, por lo general, acceden menos usuarios, en comparación con una carga de trabajo persistente, como una carga de trabajo de almacén de CDP datos, que podría tener muchos usuarios que necesitan un acceso ininterrumpido. Las cargas de trabajo de ingeniería de datos no son persistentes, lo que minimiza el impacto empresarial en caso de que algo vaya mal. Sin embargo, estas tareas pueden ser fundamentales para los informes de producción, así que priorice primero las cargas de trabajo de ingeniería de datos de bajo impacto.

Líder de migración

Repita los pasos de migración según sea necesario.

Cloudera Workload Manager ayuda a identificar las cargas de trabajo que mejor se adaptan a la nube. Proporciona métricas como las calificaciones de rendimiento de la nube, los planes de tamaño y capacidad para el entorno objetivo y los planes de replicación. Los mejores candidatos para la migración son las cargas de trabajo estacionales, los informes ad hoc y los trabajos intermitentes que no consumen muchos recursos.

Cloudera Replication Manager mueve los datos en las instalaciones a la nube y de la nube a las instalaciones.

Optimice de forma proactiva las cargas de trabajo, las aplicaciones, el rendimiento y la capacidad de la infraestructura para el almacenamiento de datos, la ingeniería de datos y el machine learning mediante Workload Manager. Para obtener una guía completa sobre cómo modernizar un data warehouse, consulte el sitio web de Cloudera.

Cloudera SME

Recursos relacionados

Documentación de Cloudera:

AWSdocumentación: