As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Migre workloads on-premises da Cloudera para a Cloudera Data Platform na AWS
Criado por Battulga Purevragchaa (AWS), Nijjwol Lamsal (parceiro) e Nidhi Gupta (AWS)
Resumo
Esse padrão descreve as etapas de alto nível para migrar suas workloads on-premises do Cloudera Distributed Hadoop (CDH), da Hortonworks Data Platform (HDP) e do Cloudera Data Platform (CDP) para o CDP Public Cloud na AWS. Recomendamos que você faça parceria com o Cloudera Professional Services e um integrador de sistemas (SI) para implementar essas etapas.
Há muitos motivos pelos quais os clientes da Cloudera desejam mover suas workloads on-premises de CDH, HDP e CDP para a nuvem. Alguns motivos típicos incluem:
Simplificar a adoção de novos paradigmas de plataforma de dados, como data lakehouse ou data mesh
Aumentar a agilidade dos negócios, democratizar o acesso e a inferência sobre os ativos de dados existentes
Reduzir o custo total de propriedade (TCO)
Melhorar a elasticidade da workload
Permitir maior escalabilidade; reduzir drasticamente o tempo de provisionamento de serviços de dados em comparação com a base de instalação legada no on-premises
Remover o hardware antigo; reduzir significativamente os ciclos de atualização de hardware
Aproveite os pay-as-you-go preços, que são estendidos às cargas de trabalho da Cloudera na AWS com o modelo de licenciamento da Cloudera (CCU)
Aproveite a implantação mais rápida e a integração aprimorada com plataformas de integração contínua e entrega contínua (CI/CD)
Usar uma única plataforma unificada (CDP) para várias workloads
A Cloudera suporta todas as principais workloads, incluindo Machine Learning, Engenharia de Dados, Data Warehouse, Banco de Dados Operacional, Processamento de Stream (CSP) e segurança e governança de dados. A Cloudera oferece essas workloads on-premises há muitos anos, e você pode migrar essas workloads para a Nuvem AWS usando o CDP Public Cloud com o Workload Manager e o Replication Manager.
O Cloudera Shared Data Experience (SDX) fornece um catálogo compartilhado de metadados entre essas workloads para facilitar o gerenciamento e as operações consistentes de dados. O SDX também inclui segurança abrangente e granular para proteção contra ameaças e governança unificada para recursos de auditoria e pesquisa para conformidade com padrões como o Payment Card Industry Data Security Standard (PCI DSS) e o GDPR.
Visão geral da migração do CDP
Workload | Workload de origem | Nuvem privada CDH, HDP e CDP |
Ambiente de origem |
| |
Workload de destino | Nuvem pública CDP na AWS | |
Ambiente do destino |
| |
Migração | Estratégia de migração (7Rs) | Redefinir a hospedagem, redefinir a plataforma ou refatorar |
Isso é um upgrade na versão da workload? | Sim | |
Duração da migração |
| |
Custos | Custo da execução da workload na AWS |
|
Acordos e estrutura de infraestrutura | Requisitos do sistema | Consulte a seção Pré-requisitos. |
SLA | Consulte o Acordo de Nível de Serviço da Cloudera para CDP Public Cloud | |
DR | Consulte Recuperação de desastres | |
Modelo operacional e de licenciamento (para a conta de destino da AWS) | Modelo “Traga a sua própria licença” (BYOL) | |
Conformidade | Requisitos de segurança | Consulte Visão geral da segurança da Cloudera |
Outras | Veja as informações no site da Cloudera sobre a conformidade com o Regulamento Geral de Proteção de Dados (GDPR |
Pré-requisitos e limitações
Pré-requisitos
Requisitos de conta da AWS
, incluindo contas, recursos, serviços e permissões, como a configuração de políticas e perfis do (IAM) do AWS Identity and Access Management Pré-requisitos para implantar o CDP
a partir do site da Cloudera
A migração exige as seguintes funções e conhecimentos:
Função | Habilidades e responsabilidades |
Líder de migração | Garante suporte executivo, colaboração em equipe, planejamento, implementação e avaliação |
Cloudera PME | Habilidades especializadas em administração de CDH, HDP e CDP, administração de sistemas e arquitetura |
Arquiteto da AWS | Habilidades em serviços, redes, segurança e arquiteturas da AWS |
Arquitetura
Desenvolver a arquitetura adequada é uma etapa essencial para garantir que a migração e o desempenho atendam às suas expectativas. Para que seu esforço de migração atenda às suposições desse manual, seu ambiente de dados de destino na Nuvem AWS, seja em instâncias hospedadas em nuvem privada virtual (VPC) ou CDP, deve ser equivalente ao seu ambiente de origem em termos de sistema operacional e versões de software, bem como das principais especificações da máquina.
O diagrama a seguir (reproduzido com permissão da planilha de dados do Cloudera Shared Data Experience

Essa arquitetura inclui os seguintes componentes CDP:
O Data Hub é um serviço para lançar e gerenciar clusters de workload desenvolvido pelo Cloudera Runtime. Você pode usar as definições de cluster no Data Hub para provisionar e acessar clusters de workload para casos de uso personalizados e definir configurações de cluster personalizadas. ,Para obter mais informações, consulte o site da Cloudera
. O fluxo e o streaming de dados abordam os principais desafios que as empresas enfrentam com os dados em movimento. Ele gerencia o seguinte:
Processamento de fluxo de dados em tempo real em alto volume e alta escala
Rastreando a proveniência dos dados e a linhagem dos dados de streaming
Gerenciando e monitorando aplicativos periféricos e fontes de streaming
Para obter mais informações, consulte Cloudera DataFlow
e CSP no site da Cloudera . A engenharia de dados inclui integração de dados, qualidade de dados e governança de dados, que ajudam as organizações a criar e manter fluxos de trabalho e pipelines de dados. ,Para obter mais informações, consulte o site da Cloudera
. Saiba mais sobre o suporte para instâncias spot para facilitar a redução de custos na AWS para workloads de engenharia de dados da Cloudera. O Data Warehouse permite que você crie data warehouses e data marts independentes que se escalam automaticamente para atender às demandas de workload. Esse serviço fornece instâncias de computação isoladas e otimização automatizada para cada data warehouse e data mart, além de ajudar você a economizar custos durante as reuniões SLAs. ,Para obter mais informações, consulte o site da Cloudera
. Saiba mais sobre o gerenciamento de custos e o ajuste de escala automático do Cloudera Data Warehouse na AWS. O banco de dados operacional no CDP fornece uma base confiável e flexível para aplicativos escaláveis e de alto desempenho. Ele fornece um banco de dados escalável, sempre disponível e em tempo real, que serve dados estruturados tradicionais, juntamente com dados novos e não estruturados, em uma plataforma operacional e de armazenamento unificada. ,Para obter mais informações, consulte o site da Cloudera
. O Machine Learning é uma plataforma de machine learning nativa de nuvem que combina recursos de autoatendimento de ciência de dados e engenharia de dados em um único serviço portátil em uma nuvem de dados corporativa. Ele permite a implantação escalável de machine learning e inteligência artificial (IA) em dados em qualquer lugar. ,Para obter mais informações, consulte o site da Cloudera
.
CDP na AWS
O diagrama a seguir (adaptado com permissão do site da Cloudera) mostra a arquitetura de alto nível do CDP na AWS. O CDP implementa seu próprio modelo de segurança

O ambiente de gerenciamento do CDP reside em uma conta principal da Cloudera em sua própria VPC. Cada conta de cliente tem sua própria subconta e uma VPC exclusiva. Os perfis do IAM entre contas e as tecnologias SSL direcionam o tráfego de gerenciamento de e para o ambiente de gerenciamento para os serviços ao cliente que residem em sub-redes públicas roteáveis pela Internet dentro de cada VPC do cliente. Na VPC do cliente, a Cloudera Shared Data Experience (SDX) fornece segurança corporativa com governança e conformidade unificadas para que você possa obter insights de seus dados com mais rapidez. A SDX é uma filosofia de design incorporada a todos os produtos da Cloudera. Para obter mais informações sobre SDX
Ferramentas
Serviços da AWS
A Amazon Elastic Compute Cloud (Amazon EC2) fornece capacidade de computação escalável na Nuvem AWS. Você poderá iniciar quantos servidores virtuais precisar e escalá-los na vertical rapidamente.
O Amazon Elastic Kubernetes Service (Amazon EKS) ajuda você a executar o Kubernetes na AWS sem precisar instalar e manter seus próprios nós ou ambiente de gerenciamento do Kubernetes.
O AWS Identity and Access Management (IAM) ajuda você a gerenciar com segurança o acesso aos seus recursos da AWS, controlando quem está autenticado e autorizado a usá-los.
O Amazon Relational Database Service (Amazon RDS) ajuda você a configurar, operar e escalar um banco de dados relacional na Nuvem AWS.
O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos baseado na nuvem que ajuda você a armazenar, proteger e recuperar qualquer quantidade de dados.
Automação e ferramentas
Para obter ferramentas adicionais, você pode usar o Cloudera Backup Data Recovery (BDR)
, o AWS Snowball e o AWS Snowmobile para ajudar a migrar dados da CDH, HDP e CDP on-premises para a CDP hospedada pela AWS. Para novas implantações, recomendamos que você use a solução de parceiros da AWS para CDP
.
Épicos
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Envolva a equipe da Cloudera. | A Cloudera busca um modelo padronizado de engajamento com seus clientes e pode trabalhar com seu integrador de sistemas (SI) para promover a mesma abordagem. Entre em contato com a equipe de clientes da Cloudera para que eles possam fornecer orientações e os recursos técnicos necessários para iniciar o projeto. Entrar em contato com a equipe da Cloudera garante que todas as equipes necessárias possam se preparar para a migração à medida que a data se aproxima. Você pode entrar em contato com os Serviços Profissionais da Cloudera para mover sua implantação do Cloudera do piloto para a produção rapidamente, a um custo menor e com desempenho máximo. Para obter uma lista completa de ofertas, consulte o site da Cloudera | Líder de migração |
Crie um ambiente de nuvem pública CDP na AWS para sua VPC. | Trabalhe com o Cloudera Professional Services ou com seu SI para planejar e implantar a nuvem pública CDP em uma VPC na AWS. | Arquiteto de nuvem, Cloudera SME |
Priorize e avalie as workloads para migração. | Avalie todas as suas workloads on-premises para determinar as workloads mais fáceis de migrar. Os aplicativos que não são essenciais são os melhores a serem implantados primeiro, pois terão um impacto mínimo em seus clientes. Guarde as workloads essenciais para o final, depois de migrar com sucesso outras workloads. notaCargas de trabalho transitórias (CDP Data Engineering) são mais fáceis de migrar do que cargas de trabalho persistentes (CDP Data Warehouse). Também é importante considerar o volume e os locais dos dados ao migrar. Os desafios podem incluir a replicação contínua de dados de um ambiente on-premises para a nuvem e a alteração dos canais de ingestão de dados para importar dados diretamente para a nuvem. | Líder de migração |
Discuta as atividades de CDH, HDP, CDP e migração de aplicativos legados. | Considere e comece a planejar as seguintes atividades com o Cloudera Workload Manager:
| Líder de migração |
Preencha os requisitos e recomendações do Cloudera Replication Manager. | Trabalhe com o Cloudera Professional Services e seu SI para se preparar para migrar workloads para seu ambiente de nuvem pública CDP na AWS. Compreender os requisitos e recomendações a seguir pode ajudá-lo a evitar problemas comuns durante e após a instalação do serviço Replication Manager.
| Líder de migração |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Migre a primeira workload para ambientes de dev/teste usando o Cloudera Workload Manager. | Seu SI pode ajudá-lo a migrar sua primeira workload para a nuvem AWS. Esse deve ser um aplicativo que não seja voltado para o cliente nem essencial. Os candidatos ideais para a migração de dev/teste são aplicativos que têm dados que a nuvem pode ingerir facilmente, como workloads de engenharia de dados do CDP. Essa é uma workload transitória que geralmente tem menos usuários acessando-a, em comparação com uma workload persistente, como uma workload do CDP Data Warehouse, que pode ter muitos usuários que precisam de acesso ininterrupto. As workloads de engenharia de dados não são persistentes, o que minimiza o impacto nos negócios se algo der errado. No entanto, esses trabalhos podem ser essenciais para a geração de relatórios de produção, portanto, priorize as workloads de engenharia de dados de baixo impacto. | Líder de migração |
Repita as etapas de migração conforme necessário. | O Cloudera Workload Manager ajuda a identificar as workloads mais adequadas para a nuvem. Ele fornece métricas como classificações de desempenho da nuvem, planos de tamanho/capacidade para o ambiente de destino e planos de replicação. Os melhores candidatos para migração são workloads sazonais, relatórios ad hoc e trabalhos intermitentes que não consomem muitos recursos. O Cloudera Replication Manager move dados on-premises para a nuvem e da nuvem para on-premises. Otimize proativamente workloads, aplicativos, desempenho e capacidade de infraestrutura para armazenamento de dados, engenharia de dados e machine learning usando o Workload Manager. Para obter um guia completo sobre como modernizar um data warehouse, consulte o site da Cloudera | Cloudera PME |
Recursos relacionados
Documentação da Cloudera:
Documentação da AWS: