As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Migre cargas de trabalho locais da Cloudera para a Cloudera Data Platform em AWS
Criado por Battulga Purevragchaa (AWS), Nijjwol Lamsal (sócio) e Nidhi Gupta () AWS
Ambiente: PoC ou piloto | Origem: workloads da Cloudera | Alvo: Cloudera Data Platform (CDP) Nuvem pública |
Tipo R: N/A | Workload: todas as outras workloads | Tecnologias: migração; big data; bancos de dados; análise |
AWSserviços: AmazonEC2; AmazonEKS; AWS Identity and Access Management; Amazon S3; Amazon RDS |
Resumo
Esse padrão descreve as etapas de alto nível para migrar suas cargas de trabalho locais do Cloudera Distributed Hadoop (CDH), Hortonworks Data Platform () e Cloudera Data Platform (HDP) para o Public Cloud on. CDP CDP AWS Recomendamos que você faça parceria com o Cloudera Professional Services e um integrador de sistemas (SI) para implementar essas etapas.
Há muitos motivos pelos quais os clientes da Cloudera desejam mover suas CDP cargas de trabalho e locais CDH para a nuvem. HDP Alguns motivos típicos incluem:
Simplificar a adoção de novos paradigmas de plataforma de dados, como data lakehouse ou data mesh
Aumentar a agilidade dos negócios, democratizar o acesso e a inferência sobre os ativos de dados existentes
Reduza o custo total de propriedade (TCO)
Melhorar a elasticidade da workload
Permitir maior escalabilidade; reduzir drasticamente o tempo de provisionamento de serviços de dados em comparação com a base de instalação legada no on-premises
Remover o hardware antigo; reduzir significativamente os ciclos de atualização de hardware
Aproveite o preço pay-as-you -go, que é estendido às cargas de trabalho da Cloudera AWS com o modelo de licenciamento da Cloudera () CCU
Aproveite a implantação mais rápida e a integração aprimorada com plataformas de integração contínua e entrega contínua (CI/CD)
Use uma única plataforma unificada (CDP) para várias cargas de trabalho
O Cloudera oferece suporte a todas as principais cargas de trabalho, incluindo Machine Learning, Data Engineering, Data Warehouse, Operational Database, Stream Processing (CSP) e segurança e governança de dados. A Cloudera oferece essas cargas de trabalho no local há muitos anos, e você pode migrá-las para a AWS nuvem usando a nuvem CDP pública com o Workload Manager e o Replication Manager.
O Cloudera Shared Data Experience (SDX) fornece um catálogo compartilhado de metadados entre essas cargas de trabalho para facilitar o gerenciamento e as operações consistentes de dados. SDXtambém inclui segurança abrangente e granular para proteção contra ameaças e governança unificada para recursos de auditoria e pesquisa para conformidade com padrões como Payment Card Industry Data Security Standard (PCIDSS) e. GDPR
CDPmigração em um piscar de olhos
Workload | Workload de origem | CDH,HDP, e nuvem CDP privada |
Ambiente de origem |
| |
Workload de destino | CDPNuvem pública ativada AWS | |
Ambiente do destino |
| |
Migração | Estratégia de migração (7Rs) | Redefinir a hospedagem, redefinir a plataforma ou refatorar |
Isso é um upgrade na versão da workload? | Sim | |
Duração da migração |
| |
Custos | Custo da execução da carga de trabalho em AWS |
|
Acordos e estrutura de infraestrutura | Requisitos do sistema | Consulte a seção Pré-requisitos. |
SLA | Consulte o Acordo de Nível de Serviço da Cloudera para nuvem CDP pública | |
DR | Consulte Recuperação de desastres | |
Modelo operacional e de licenciamento (para a AWS conta de destino) | Modelo Bring Your Own License (BYOL) | |
Conformidade | Requisitos de segurança | Consulte Visão geral da segurança da Cloudera |
Outras | Veja as informações no site da Cloudera sobre a conformidade com o Regulamento Geral de Proteção de Dados (GDPR |
Pré-requisitos e limitações
Pré-requisitos
AWSrequisitos de conta
, incluindo contas, recursos, serviços e permissões, como configuração de políticas e funções do AWS Identity and Access Management (IAM) Pré-requisitos para implantação CDP
a partir do site da Cloudera
A migração exige as seguintes funções e conhecimentos:
Função | Habilidades e responsabilidades |
Líder de migração | Garante suporte executivo, colaboração em equipe, planejamento, implementação e avaliação |
Cloudera SME | Habilidades especializadas em CDH CDP administração, administração de sistemas e arquitetura HDP |
Arquiteto AWS | Habilidades em AWS serviços, redes, segurança e arquiteturas |
Arquitetura
Desenvolver a arquitetura adequada é uma etapa essencial para garantir que a migração e o desempenho atendam às suas expectativas. Para que seu esforço de migração atenda às suposições desse manual, seu ambiente de dados de destino na AWS nuvem, seja em instâncias hospedadas na nuvem privada virtual (VPC) ouCDP, deve ser equivalente ao seu ambiente de origem em termos de sistema operacional e versões de software, bem como das principais especificações da máquina.
O diagrama a seguir (reproduzido com permissão da planilha de dados do Cloudera Shared Data Experience
A arquitetura inclui os seguintes CDP componentes:
O Data Hub é um serviço para lançar e gerenciar clusters de workload desenvolvido pelo Cloudera Runtime. Você pode usar as definições de cluster no Data Hub para provisionar e acessar clusters de workload para casos de uso personalizados e definir configurações de cluster personalizadas. ,Para obter mais informações, consulte o site da Cloudera
. O fluxo e o streaming de dados abordam os principais desafios que as empresas enfrentam com os dados em movimento. Ele gerencia o seguinte:
Processamento de fluxo de dados em tempo real em alto volume e alta escala
Rastreando a proveniência dos dados e a linhagem dos dados de streaming
Gerenciando e monitorando aplicativos periféricos e fontes de streaming
Para obter mais informações, consulte Cloudera DataFlow e CSP
no site da Cloudera. A engenharia de dados inclui integração de dados, qualidade de dados e governança de dados, que ajudam as organizações a criar e manter fluxos de trabalho e pipelines de dados. ,Para obter mais informações, consulte o site da Cloudera
. Saiba mais sobre o suporte para instâncias spot para facilitar a redução de custos nas AWS cargas de trabalho da Cloudera Data Engineering. O Data Warehouse permite que você crie data warehouses e data marts independentes que se escalam automaticamente para atender às demandas de workload. Esse serviço fornece instâncias de computação isoladas e otimização automatizada para cada data warehouse e data mart, além de ajudar você a economizar custos durante as reuniõesSLAs. ,Para obter mais informações, consulte o site da Cloudera
. Saiba mais sobre o gerenciamento de custos e o auto-scaling do Cloudera Data Warehouse em. AWS O banco de dados operacional CDP fornece uma base confiável e flexível para aplicativos escaláveis e de alto desempenho. Ele fornece um banco de dados escalável, sempre disponível e em tempo real, que serve dados estruturados tradicionais, juntamente com dados novos e não estruturados, em uma plataforma operacional e de armazenamento unificada. ,Para obter mais informações, consulte o site da Cloudera
. O Machine Learning é uma plataforma de machine learning nativa de nuvem que combina recursos de autoatendimento de ciência de dados e engenharia de dados em um único serviço portátil em uma nuvem de dados corporativa. Ele permite a implantação escalável de machine learning e inteligência artificial (IA) em dados em qualquer lugar. ,Para obter mais informações, consulte o site da Cloudera
.
CDPem AWS
O diagrama a seguir (adaptado com permissão do site da Cloudera) mostra a arquitetura de alto nível do on. CDP AWS CDPimplementa seu próprio modelo de segurança
O plano CDP de controle reside em uma conta principal própria da Cloudera. VPC Cada conta de cliente tem sua própria subconta e é exclusivaVPC. As IAM funções e SSL tecnologias entre contas direcionam o tráfego de gerenciamento de e para o plano de controle para os serviços ao cliente que residem em sub-redes públicas roteáveis pela Internet dentro de cada cliente. VPC Para o clienteVPC, o Cloudera Shared Data Experience (SDX) fornece segurança corporativa com governança e conformidade unificadas para que você possa obter insights de seus dados com mais rapidez. SDXé uma filosofia de design incorporada a todos os produtos da Cloudera. Para obter mais informações sobre SDX
Ferramentas
AWSserviços
O Amazon Elastic Compute Cloud (AmazonEC2) fornece capacidade de computação escalável na AWS nuvem. Você poderá iniciar quantos servidores virtuais precisar e escalá-los na vertical rapidamente.
O Amazon Elastic Kubernetes Service (EKSAmazon) ajuda você a executar o AWS Kubernetes sem precisar instalar ou manter seu próprio plano de controle ou nós do Kubernetes.
AWSO Identity and Access Management (IAM) ajuda você a gerenciar com segurança o acesso aos seus AWS recursos controlando quem está autenticado e autorizado a usá-los.
O Amazon Relational Database Service (RDSAmazon) ajuda você a configurar, operar e escalar um banco de dados relacional na AWS nuvem.
O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos baseado na nuvem que ajuda você a armazenar, proteger e recuperar qualquer quantidade de dados.
Automação e ferramentas
Para ferramentas adicionais, você pode usar o Cloudera Backup Data Recovery BDR ()
, o AWSSnowball AWS e o Snowmobile para ajudar a migrar dados CDH do local para o hospedado. HDP CDP AWS CDP Para novas implantações, recomendamos que você use a AWSPartner Solution for CDP
.
Épicos
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Envolva a equipe da Cloudera. | A Cloudera busca um modelo padronizado de engajamento com seus clientes e pode trabalhar com seu integrador de sistemas (SI) para promover a mesma abordagem. Entre em contato com a equipe de clientes da Cloudera para que eles possam fornecer orientações e os recursos técnicos necessários para iniciar o projeto. Entrar em contato com a equipe da Cloudera garante que todas as equipes necessárias possam se preparar para a migração à medida que a data se aproxima. Você pode entrar em contato com os Serviços Profissionais da Cloudera para mover sua implantação do Cloudera do piloto para a produção rapidamente, a um custo menor e com desempenho máximo. Para obter uma lista completa de ofertas, consulte o site da Cloudera | Líder de migração |
Crie um ambiente de nuvem CDP pública AWS para vocêVPC. | Trabalhe com o Cloudera Professional Services ou com seu SI para planejar e implantar a nuvem CDP pública em umVPC. AWS | Arquiteto de nuvem, Cloudera SME |
Priorize e avalie as workloads para migração. | Avalie todas as suas workloads on-premises para determinar as workloads mais fáceis de migrar. Os aplicativos que não são essenciais são os melhores a serem implantados primeiro, pois terão um impacto mínimo em seus clientes. Guarde as workloads essenciais para o final, depois de migrar com sucesso outras workloads. Observação: cargas de trabalho transitórias (engenharia de CDP dados) são mais fáceis de migrar do que cargas de trabalho persistentes (CDPData Warehouse). Também é importante considerar o volume e os locais dos dados ao migrar. Os desafios podem incluir a replicação contínua de dados de um ambiente on-premises para a nuvem e a alteração dos canais de ingestão de dados para importar dados diretamente para a nuvem. | Líder de migração |
DiscutaCDH,HDP,CDP, e as atividades de migração de aplicativos legados. | Considere e comece a planejar as seguintes atividades com o Cloudera Workload Manager:
| Líder de migração |
Preencha os requisitos e recomendações do Cloudera Replication Manager. | Trabalhe com o Cloudera Professional Services e seu SI para se preparar para migrar cargas de trabalho para seu ambiente de nuvem CDP pública em. AWS Compreender os requisitos e recomendações a seguir pode ajudá-lo a evitar problemas comuns durante e após a instalação do serviço Replication Manager.
| Líder de migração |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Migre a primeira workload para ambientes de dev/teste usando o Cloudera Workload Manager. | Seu SI pode ajudá-lo a migrar sua primeira carga de trabalho para a AWS nuvem. Esse deve ser um aplicativo que não seja voltado para o cliente nem essencial. Os candidatos ideais para a migração de desenvolvimento/teste são aplicativos que têm dados que a nuvem pode ingerir facilmente, como cargas de trabalho de engenharia de CDP dados. Essa é uma carga de trabalho transitória que geralmente tem menos usuários acessando-a, em comparação com uma carga de trabalho persistente, como uma carga de trabalho do CDP Data Warehouse, que pode ter muitos usuários que precisam de acesso ininterrupto. As workloads de engenharia de dados não são persistentes, o que minimiza o impacto nos negócios se algo der errado. No entanto, esses trabalhos podem ser essenciais para a geração de relatórios de produção, portanto, priorize as workloads de engenharia de dados de baixo impacto. | Líder de migração |
Repita as etapas de migração conforme necessário. | O Cloudera Workload Manager ajuda a identificar as workloads mais adequadas para a nuvem. Ele fornece métricas como classificações de desempenho da nuvem, planos de tamanho/capacidade para o ambiente de destino e planos de replicação. Os melhores candidatos para migração são workloads sazonais, relatórios ad hoc e trabalhos intermitentes que não consomem muitos recursos. O Cloudera Replication Manager move dados on-premises para a nuvem e da nuvem para on-premises. Otimize proativamente workloads, aplicativos, desempenho e capacidade de infraestrutura para armazenamento de dados, engenharia de dados e machine learning usando o Workload Manager. Para obter um guia completo sobre como modernizar um data warehouse, consulte o site da Cloudera | Cloudera SME |
Recursos relacionados
Documentação da Cloudera:
AWSdocumentação: