Preparação de dados em grande escala usando aplicaçãos do Amazon EMR Sem Servidor ou clusters do Amazon EMR no Studio

O Amazon SageMaker Studio e sua versão antiga, o Studio Classic, fornecem aos cientistas de dados e engenheiros de aprendizado de máquina (ML) ferramentas para realizar análises e preparação de dados em grande escala. Analisar, transformar e preparar grandes quantidades de dados é uma etapa fundamental de qualquer fluxo de trabalho de ciência de dados e ML. Tanto o Studio quanto o Studio Classic vêm com integração integrada com o Amazon EMR, permitindo que os usuários gerenciem fluxos de trabalho interativos de preparação de dados e aprendizado de máquina em grande escala em seus notebooks. JupyterLab

O Amazon EMR é uma plataforma gerenciada de big data com recursos para ajudá-lo a executar trabalhos de processamento de dados distribuídos em escala de petabytes usando estruturas de análise de código aberto, AWS como Apache Spark, Apache Hive, Presto e Flink, entre outras. HBase Com a integração do Studio e do Studio Classic com o Amazon EMR, você pode criar, navegar, descobrir e se conectar aos clusters do Amazon EMR sem sair do seu notebook JupyterLab ou do Studio Classic. Você também pode monitorar e depurar suas workloads do Spark acessando a interface de usuário do Spark com um clique, diretamente de seu caderno.

Você deve considerar os clusters do Amazon EMR para suas workloads de preparação de dados se tiver requisitos de processamento de dados em grande escala, de longa duração ou complexos que envolvam grandes quantidades de dados, exijam ampla personalização e integração com outros serviços, precise executar aplicações personalizados ou planeje executar uma variedade diversificada de estruturas de processamento de dados distribuídas além do Apache Spark.

Usando imagem SageMaker de distribuição 1.10 ou superior, você pode se conectar alternativamente a aplicativos EMR Serverless interativos diretamente de seus JupyterLab notebooks no AI Studio. SageMaker A integração do Studio com o EMR Sem Servidor permite que você execute frameworks de big data analytics de código aberto, como Apache Spark e Apache Hive, sem configurar, gerenciar ou escalar clusters do Amazon EMR. O EMR Sem Servidor provisiona e gerencia automaticamente os recursos de computação e memória subjacentes com base nas necessidades da aplicação do EMR Sem Servidor. Ele aumenta e reduz a escala dos recursos verticalmente e dinamicamente, cobrando você ou a quantidade de recursos de vCPU, memória e armazenamento consumidos por suas aplicações. Essa abordagem sem servidor permite que você execute cargas de trabalho interativas de preparação de dados a partir de seus JupyterLab notebooks sem se preocupar com o gerenciamento de clusters, ao mesmo tempo em que obtém alta utilização de instâncias e eficiência de custos.

Você deve considerar o EMR Sem Servidor para suas workloads de preparação de dados interativos se elas forem de curta duração ou intermitentes e não exigirem um cluster persistente; se você preferir uma experiência sem servidor com provisionamento e encerramento automáticos de recursos, evitando a sobrecarga de gerenciar a infraestrutura; ou se suas tarefas de preparação de dados interativos girarem principalmente em torno do Apache Spark.

Conteúdo

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Parâmetros de conexão

Configurar acesso à rede