Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Migre workloads on-premises da Cloudera para a Cloudera Data Platform na AWS - Recomendações da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Migre workloads on-premises da Cloudera para a Cloudera Data Platform na AWS

Criado por Battulga Purevragchaa (AWS), Nijjwol Lamsal (parceiro) e Nidhi Gupta (AWS)

Resumo

Esse padrão descreve as etapas de alto nível para migrar suas workloads on-premises do Cloudera Distributed Hadoop (CDH), da Hortonworks Data Platform (HDP) e do Cloudera Data Platform (CDP) para o CDP Public Cloud na AWS. Recomendamos que você faça parceria com o Cloudera Professional Services e um integrador de sistemas (SI) para implementar essas etapas.

Há muitos motivos pelos quais os clientes da Cloudera desejam mover suas workloads on-premises de CDH, HDP e CDP para a nuvem. Alguns motivos típicos incluem:

  • Simplificar a adoção de novos paradigmas de plataforma de dados, como data lakehouse ou data mesh

  • Aumentar a agilidade dos negócios, democratizar o acesso e a inferência sobre os ativos de dados existentes

  • Reduzir o custo total de propriedade (TCO)

  • Melhorar a elasticidade da workload

  • Permitir maior escalabilidade; reduzir drasticamente o tempo de provisionamento de serviços de dados em comparação com a base de instalação legada no on-premises

  • Remover o hardware antigo; reduzir significativamente os ciclos de atualização de hardware

  • Aproveite os pay-as-you-go preços, que são estendidos às cargas de trabalho da Cloudera na AWS com o modelo de licenciamento da Cloudera (CCU)

  • Aproveite a implantação mais rápida e a integração aprimorada com plataformas de integração contínua e entrega contínua (CI/CD)

  • Usar uma única plataforma unificada (CDP) para várias workloads

A Cloudera suporta todas as principais workloads, incluindo Machine Learning, Engenharia de Dados, Data Warehouse, Banco de Dados Operacional, Processamento de Stream (CSP) e segurança e governança de dados. A Cloudera oferece essas workloads on-premises há muitos anos, e você pode migrar essas workloads para a Nuvem AWS usando o CDP Public Cloud com o Workload Manager e o Replication Manager. 

O Cloudera Shared Data Experience (SDX) fornece um catálogo compartilhado de metadados entre essas workloads para facilitar o gerenciamento e as operações consistentes de dados. O SDX também inclui segurança abrangente e granular para proteção contra ameaças e governança unificada para recursos de auditoria e pesquisa para conformidade com padrões como o Payment Card Industry Data Security Standard (PCI DSS) e o GDPR. 

Visão geral da migração do CDP

 

 

 

Workload

Workload de origem

Nuvem privada CDH, HDP e CDP

Ambiente de origem

  • Windows, Linux

  • On-premises, colocalização ou em qualquer ambiente que não seja da AWS

Workload de destino

Nuvem pública CDP na AWS

Ambiente do destino

  • Modelo de implantação: conta de cliente

  • Modelo operacional: ambiente de gerenciamento Cliente/Cloudera

 

 

Migração

Estratégia de migração (7Rs)

Redefinir a hospedagem, redefinir a plataforma ou refatorar

Isso é um upgrade na versão da workload?

Sim

Duração da migração

  • Implantação: cerca de uma semana para criar uma conta de cliente, uma nuvem privada virtual (VPC) e um ambiente gerenciado pelo cliente da CDP Public Cloud.

  • Duração da migração: de 1 a 4 meses, dependendo da complexidade e do tamanho da workload.

Custos

Custo da execução da workload na AWS

  • Em um alto nível, o custo de uma migração da workload da CDH para a AWS pressupõe que você estabelecerá um novo ambiente na AWS. Isso inclui a contabilização do tempo e do esforço da equipe, bem como o provisionamento de recursos de computação e software de licenciamento para o novo ambiente.

  • O modelo de preços baseado no consumo de nuvem Cloudera oferece a flexibilidade de aproveitar os recursos de escalabilidade automática e de intermitência. Para obter mais informações, consulte as taxas de serviço do CDP Public Cloud no site da Cloudera.

  • O Cloudera Enterprise Data Hub é baseado no Amazon Elastic Compute Cloud (Amazon EC2) e modela de perto os clusters tradicionais. O Data Hub pode ser personalizado, mas isso afetará os custos.

  • O CDP Public Cloud Data Warehouse, o Cloudera Machine Learning e o Cloudera Data Engineering (CDE) são baseados em contêineres e podem ser configurados para escalar automaticamente.

 

 

Acordos e estrutura de infraestrutura

Requisitos do sistema

Consulte a seção Pré-requisitos.

SLA

Consulte o Acordo de Nível de Serviço da Cloudera para CDP Public Cloud.

DR

Consulte Recuperação de desastres na documentação da Cloudera.

Modelo operacional e de licenciamento (para a conta de destino da AWS)

Modelo “Traga a sua própria licença” (BYOL)

 

Conformidade

Requisitos de segurança

Consulte Visão geral da segurança da Cloudera na documentação da Cloudera.

Outras certificações de conformidade

Veja as informações no site da Cloudera sobre a conformidade com o Regulamento Geral de Proteção de Dados (GDPR) e o CDP Trust Center.

Pré-requisitos e limitações

Pré-requisitos

A migração exige as seguintes funções e conhecimentos:

Função

Habilidades e responsabilidades

Líder de migração

Garante suporte executivo, colaboração em equipe, planejamento, implementação e avaliação

Cloudera PME

Habilidades especializadas em administração de CDH, HDP e CDP, administração de sistemas e arquitetura

Arquiteto da AWS

Habilidades em serviços, redes, segurança e arquiteturas da AWS

Arquitetura

Desenvolver a arquitetura adequada é uma etapa essencial para garantir que a migração e o desempenho atendam às suas expectativas. Para que seu esforço de migração atenda às suposições desse manual, seu ambiente de dados de destino na Nuvem AWS, seja em instâncias hospedadas em nuvem privada virtual (VPC) ou CDP, deve ser equivalente ao seu ambiente de origem em termos de sistema operacional e versões de software, bem como das principais especificações da máquina.

O diagrama a seguir (reproduzido com permissão da planilha de dados do Cloudera Shared Data Experience) mostra os componentes de infraestrutura para o ambiente de CDP e como os níveis ou componentes da infraestrutura interagem.

Componentes do ambiente CDP

Essa arquitetura inclui os seguintes componentes CDP:

  • O Data Hub é um serviço para lançar e gerenciar clusters de workload desenvolvido pelo Cloudera Runtime. Você pode usar as definições de cluster no Data Hub para provisionar e acessar clusters de workload para casos de uso personalizados e definir configurações de cluster personalizadas. ,Para obter mais informações, consulte o site da Cloudera.

  • O fluxo e o streaming de dados abordam os principais desafios que as empresas enfrentam com os dados em movimento. Ele gerencia o seguinte:

    • Processamento de fluxo de dados em tempo real em alto volume e alta escala

    • Rastreando a proveniência dos dados e a linhagem dos dados de streaming

    • Gerenciando e monitorando aplicativos periféricos e fontes de streaming

    Para obter mais informações, consulte Cloudera DataFlow e CSP no site da Cloudera.

  • A engenharia de dados inclui integração de dados, qualidade de dados e governança de dados, que ajudam as organizações a criar e manter fluxos de trabalho e pipelines de dados. ,Para obter mais informações, consulte o site da Cloudera. Saiba mais sobre o suporte para instâncias spot para facilitar a redução de custos na AWS para workloads de engenharia de dados da Cloudera.

  • O Data Warehouse permite que você crie data warehouses e data marts independentes que se escalam automaticamente para atender às demandas de workload. Esse serviço fornece instâncias de computação isoladas e otimização automatizada para cada data warehouse e data mart, além de ajudar você a economizar custos durante as reuniões SLAs. ,Para obter mais informações, consulte o site da Cloudera. Saiba mais sobre o gerenciamento de custos e o ajuste de escala automático do Cloudera Data Warehouse na AWS.

  • O banco de dados operacional no CDP fornece uma base confiável e flexível para aplicativos escaláveis e de alto desempenho. Ele fornece um banco de dados escalável, sempre disponível e em tempo real, que serve dados estruturados tradicionais, juntamente com dados novos e não estruturados, em uma plataforma operacional e de armazenamento unificada. ,Para obter mais informações, consulte o site da Cloudera.

  • O Machine Learning é uma plataforma de machine learning nativa de nuvem que combina recursos de autoatendimento de ciência de dados e engenharia de dados em um único serviço portátil em uma nuvem de dados corporativa. Ele permite a implantação escalável de machine learning e inteligência artificial (IA) em dados em qualquer lugar. ,Para obter mais informações, consulte o site da Cloudera.

CDP na AWS

O diagrama a seguir (adaptado com permissão do site da Cloudera) mostra a arquitetura de alto nível do CDP na AWS. O CDP implementa seu próprio modelo de segurança para gerenciar contas e fluxo de dados. Eles são integrados ao IAM por meio do uso de funções entre contas

CDP na arquitetura de alto nível da AWS

O ambiente de gerenciamento do CDP reside em uma conta principal da Cloudera em sua própria VPC. Cada conta de cliente tem sua própria subconta e uma VPC exclusiva. Os perfis do IAM entre contas e as tecnologias SSL direcionam o tráfego de gerenciamento de e para o ambiente de gerenciamento para os serviços ao cliente que residem em sub-redes públicas roteáveis pela Internet dentro de cada VPC do cliente. Na VPC do cliente, a Cloudera Shared Data Experience (SDX) fornece segurança corporativa com governança e conformidade unificadas para que você possa obter insights de seus dados com mais rapidez. A SDX é uma filosofia de design incorporada a todos os produtos da Cloudera. Para obter mais informações sobre SDX e a arquitetura de rede CDP Public Cloud para AWS, consulte a documentação da Cloudera.

Ferramentas

Serviços da AWS

Automação e ferramentas

Épicos

TarefaDescriçãoHabilidades necessárias

Envolva a equipe da Cloudera.

A Cloudera busca um modelo padronizado de engajamento com seus clientes e pode trabalhar com seu integrador de sistemas (SI) para promover a mesma abordagem. Entre em contato com a equipe de clientes da Cloudera para que eles possam fornecer orientações e os recursos técnicos necessários para iniciar o projeto. Entrar em contato com a equipe da Cloudera garante que todas as equipes necessárias possam se preparar para a migração à medida que a data se aproxima. 

Você pode entrar em contato com os Serviços Profissionais da Cloudera para mover sua implantação do Cloudera do piloto para a produção rapidamente, a um custo menor e com desempenho máximo. Para obter uma lista completa de ofertas, consulte o site da Cloudera.

Líder de migração

Crie um ambiente de nuvem pública CDP na AWS para sua VPC.

Trabalhe com o Cloudera Professional Services ou com seu SI para planejar e implantar a nuvem pública CDP em uma VPC na AWS.

Arquiteto de nuvem, Cloudera SME

Priorize e avalie as workloads para migração.

Avalie todas as suas workloads on-premises para determinar as workloads mais fáceis de migrar. Os aplicativos que não são essenciais são os melhores a serem implantados primeiro, pois terão um impacto mínimo em seus clientes. Guarde as workloads essenciais para o final, depois de migrar com sucesso outras workloads.

nota

Cargas de trabalho transitórias (CDP Data Engineering) são mais fáceis de migrar do que cargas de trabalho persistentes (CDP Data Warehouse). Também é importante considerar o volume e os locais dos dados ao migrar. Os desafios podem incluir a replicação contínua de dados de um ambiente on-premises para a nuvem e a alteração dos canais de ingestão de dados para importar dados diretamente para a nuvem.

Líder de migração

Discuta as atividades de CDH, HDP, CDP e migração de aplicativos legados.

Considere e comece a planejar as seguintes atividades com o Cloudera Workload Manager:

  • Dados e workloads para copiar para seu ambiente da AWS

  • Dados prontos para a nuvem

  • Vizinhos barulhentos, que consomem recursos e criam problemas para outros inquilinos

  • workloads elásticas

  • Clusters pequenos com alta sobrecarga operacional

Líder de migração

Preencha os requisitos e recomendações do Cloudera Replication Manager.

Trabalhe com o Cloudera Professional Services e seu SI para se preparar para migrar workloads para seu ambiente de nuvem pública CDP na AWS. Compreender os requisitos e recomendações a seguir pode ajudá-lo a evitar problemas comuns durante e após a instalação do serviço Replication Manager.

  • Analise os documentos de suporte do Replication Manager para confirmar se você atende aos requisitos do ambiente e do sistema. Para obter mais informações, consulte a matriz de suporte do CDP Public Cloud Replication Manager no site da Cloudera.

  • Você não precisa de acesso root aos nós nos quais o aplicativo Replication Manager e o mecanismo Data Lifecycle Manager (DLM) serão instalados.

  • Instale o Apache Hive durante a instalação inicial do Replication Manager, a menos que tenha certeza de que não usará a replicação do Hive no futuro. Se você decidir instalar o Hive depois de criar políticas de replicação do HDFS no Replication Manager, precisará excluir e recriar todas as políticas de replicação do HDFS depois de adicionar o Hive.

  • Os clusters usados no Replication Manager devem ter configurações simétricas. Cada cluster em uma relação de replicação deve ser configurado exatamente da mesma forma para segurança (Kerberos), gerenciamento de usuários (LDAP/AD) e Knox Proxy. Serviços de cluster, como Sistema de Arquivos Distribuído do Hadoop (HDFS), Apache Hive, Apache Knox, Apache Ranger e Apache Atlas, podem ter configurações diferentes para alta disponibilidade (HA). Por exemplo, os clusters de origem e de destino podem ter configurações separadas de HA e não HA.

Líder de migração

Preparo para a migração

TarefaDescriçãoHabilidades necessárias

Envolva a equipe da Cloudera.

A Cloudera busca um modelo padronizado de engajamento com seus clientes e pode trabalhar com seu integrador de sistemas (SI) para promover a mesma abordagem. Entre em contato com a equipe de clientes da Cloudera para que eles possam fornecer orientações e os recursos técnicos necessários para iniciar o projeto. Entrar em contato com a equipe da Cloudera garante que todas as equipes necessárias possam se preparar para a migração à medida que a data se aproxima. 

Você pode entrar em contato com os Serviços Profissionais da Cloudera para mover sua implantação do Cloudera do piloto para a produção rapidamente, a um custo menor e com desempenho máximo. Para obter uma lista completa de ofertas, consulte o site da Cloudera.

Líder de migração

Crie um ambiente de nuvem pública CDP na AWS para sua VPC.

Trabalhe com o Cloudera Professional Services ou com seu SI para planejar e implantar a nuvem pública CDP em uma VPC na AWS.

Arquiteto de nuvem, Cloudera SME

Priorize e avalie as workloads para migração.

Avalie todas as suas workloads on-premises para determinar as workloads mais fáceis de migrar. Os aplicativos que não são essenciais são os melhores a serem implantados primeiro, pois terão um impacto mínimo em seus clientes. Guarde as workloads essenciais para o final, depois de migrar com sucesso outras workloads.

nota

Cargas de trabalho transitórias (CDP Data Engineering) são mais fáceis de migrar do que cargas de trabalho persistentes (CDP Data Warehouse). Também é importante considerar o volume e os locais dos dados ao migrar. Os desafios podem incluir a replicação contínua de dados de um ambiente on-premises para a nuvem e a alteração dos canais de ingestão de dados para importar dados diretamente para a nuvem.

Líder de migração

Discuta as atividades de CDH, HDP, CDP e migração de aplicativos legados.

Considere e comece a planejar as seguintes atividades com o Cloudera Workload Manager:

  • Dados e workloads para copiar para seu ambiente da AWS

  • Dados prontos para a nuvem

  • Vizinhos barulhentos, que consomem recursos e criam problemas para outros inquilinos

  • workloads elásticas

  • Clusters pequenos com alta sobrecarga operacional

Líder de migração

Preencha os requisitos e recomendações do Cloudera Replication Manager.

Trabalhe com o Cloudera Professional Services e seu SI para se preparar para migrar workloads para seu ambiente de nuvem pública CDP na AWS. Compreender os requisitos e recomendações a seguir pode ajudá-lo a evitar problemas comuns durante e após a instalação do serviço Replication Manager.

  • Analise os documentos de suporte do Replication Manager para confirmar se você atende aos requisitos do ambiente e do sistema. Para obter mais informações, consulte a matriz de suporte do CDP Public Cloud Replication Manager no site da Cloudera.

  • Você não precisa de acesso root aos nós nos quais o aplicativo Replication Manager e o mecanismo Data Lifecycle Manager (DLM) serão instalados.

  • Instale o Apache Hive durante a instalação inicial do Replication Manager, a menos que tenha certeza de que não usará a replicação do Hive no futuro. Se você decidir instalar o Hive depois de criar políticas de replicação do HDFS no Replication Manager, precisará excluir e recriar todas as políticas de replicação do HDFS depois de adicionar o Hive.

  • Os clusters usados no Replication Manager devem ter configurações simétricas. Cada cluster em uma relação de replicação deve ser configurado exatamente da mesma forma para segurança (Kerberos), gerenciamento de usuários (LDAP/AD) e Knox Proxy. Serviços de cluster, como Sistema de Arquivos Distribuído do Hadoop (HDFS), Apache Hive, Apache Knox, Apache Ranger e Apache Atlas, podem ter configurações diferentes para alta disponibilidade (HA). Por exemplo, os clusters de origem e de destino podem ter configurações separadas de HA e não HA.

Líder de migração
TarefaDescriçãoHabilidades necessárias

Migre a primeira workload para ambientes de dev/teste usando o Cloudera Workload Manager.

Seu SI pode ajudá-lo a migrar sua primeira workload para a nuvem AWS. Esse deve ser um aplicativo que não seja voltado para o cliente nem essencial. Os candidatos ideais para a migração de dev/teste são aplicativos que têm dados que a nuvem pode ingerir facilmente, como workloads de engenharia de dados do CDP. Essa é uma workload transitória que geralmente tem menos usuários acessando-a, em comparação com uma workload persistente, como uma workload do CDP Data Warehouse, que pode ter muitos usuários que precisam de acesso ininterrupto. As workloads de engenharia de dados não são persistentes, o que minimiza o impacto nos negócios se algo der errado. No entanto, esses trabalhos podem ser essenciais para a geração de relatórios de produção, portanto, priorize as workloads de engenharia de dados de baixo impacto.

Líder de migração

Repita as etapas de migração conforme necessário.

O Cloudera Workload Manager ajuda a identificar as workloads mais adequadas para a nuvem. Ele fornece métricas como classificações de desempenho da nuvem, planos de tamanho/capacidade para o ambiente de destino e planos de replicação. Os melhores candidatos para migração são workloads sazonais, relatórios ad hoc e trabalhos intermitentes que não consomem muitos recursos.

O Cloudera Replication Manager move dados on-premises para a nuvem e da nuvem para on-premises.

Otimize proativamente workloads, aplicativos, desempenho e capacidade de infraestrutura para armazenamento de dados, engenharia de dados e machine learning usando o Workload Manager. Para obter um guia completo sobre como modernizar um data warehouse, consulte o site da Cloudera.

Cloudera PME

Migre a CDP para a AWS

TarefaDescriçãoHabilidades necessárias

Migre a primeira workload para ambientes de dev/teste usando o Cloudera Workload Manager.

Seu SI pode ajudá-lo a migrar sua primeira workload para a nuvem AWS. Esse deve ser um aplicativo que não seja voltado para o cliente nem essencial. Os candidatos ideais para a migração de dev/teste são aplicativos que têm dados que a nuvem pode ingerir facilmente, como workloads de engenharia de dados do CDP. Essa é uma workload transitória que geralmente tem menos usuários acessando-a, em comparação com uma workload persistente, como uma workload do CDP Data Warehouse, que pode ter muitos usuários que precisam de acesso ininterrupto. As workloads de engenharia de dados não são persistentes, o que minimiza o impacto nos negócios se algo der errado. No entanto, esses trabalhos podem ser essenciais para a geração de relatórios de produção, portanto, priorize as workloads de engenharia de dados de baixo impacto.

Líder de migração

Repita as etapas de migração conforme necessário.

O Cloudera Workload Manager ajuda a identificar as workloads mais adequadas para a nuvem. Ele fornece métricas como classificações de desempenho da nuvem, planos de tamanho/capacidade para o ambiente de destino e planos de replicação. Os melhores candidatos para migração são workloads sazonais, relatórios ad hoc e trabalhos intermitentes que não consomem muitos recursos.

O Cloudera Replication Manager move dados on-premises para a nuvem e da nuvem para on-premises.

Otimize proativamente workloads, aplicativos, desempenho e capacidade de infraestrutura para armazenamento de dados, engenharia de dados e machine learning usando o Workload Manager. Para obter um guia completo sobre como modernizar um data warehouse, consulte o site da Cloudera.

Cloudera PME

Recursos relacionados

Documentação da Cloudera:

Documentação da AWS:

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.