As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Preparação de dados em grande escala usando aplicaçãos do Amazon EMR Sem Servidor ou clusters do Amazon EMR no Studio
O Amazon SageMaker Studio e sua versão antiga, o Studio Classic, fornecem aos cientistas de dados e engenheiros de aprendizado de máquina (ML) ferramentas para realizar análises e preparação de dados em grande escala. Analisar, transformar e preparar grandes quantidades de dados é uma etapa fundamental de qualquer fluxo de trabalho de ciência de dados e ML. Tanto o Studio quanto o Studio Classic vêm com integração integrada com o Amazon EMR, permitindo que os usuários gerenciem fluxos de trabalho interativos de preparação de dados e aprendizado de máquina em grande escala em seus notebooks. JupyterLab
O Amazon EMR é uma plataforma gerenciada de big data com recursos para ajudá-lo a executar trabalhos de processamento de dados distribuídos em escala de petabytes usando estruturas de análise de código aberto, AWS como Apache Spark, Apache
Você deve considerar os clusters do Amazon EMR para suas workloads de preparação de dados se tiver requisitos de processamento de dados em grande escala, de longa duração ou complexos que envolvam grandes quantidades de dados, exijam ampla personalização e integração com outros serviços, precise executar aplicações personalizados ou planeje executar uma variedade diversificada de estruturas de processamento de dados distribuídas além do Apache Spark.
Usando imagem SageMaker de distribuição 1.10
ou superior, você pode se conectar alternativamente a aplicativos EMR Serverless interativos diretamente de seus JupyterLab notebooks no AI Studio. SageMaker A integração do Studio com o EMR Sem Servidor permite que você execute frameworks de big data analytics de código aberto, como Apache Spark
Você deve considerar o EMR Sem Servidor para suas workloads de preparação de dados interativos se elas forem de curta duração ou intermitentes e não exigirem um cluster persistente; se você preferir uma experiência sem servidor com provisionamento e encerramento automáticos de recursos, evitando a sobrecarga de gerenciar a infraestrutura; ou se suas tarefas de preparação de dados interativos girarem principalmente em torno do Apache Spark.