Prepare dados usando sessões AWS Glue interativas - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Prepare dados usando sessões AWS Glue interativas

AWS Glue as sessões interativas são um ambiente de execução Apache Spark sob demanda e sem servidor que cientistas e engenheiros de dados podem usar para criar, testar e executar rapidamente aplicativos de preparação e análise de dados.

Você pode iniciar uma sessão AWS Glue interativa iniciando um JupyterLab notebook no Studio ou no Studio Classic. Ao iniciar seu notebook, escolha o integrado Glue PySpark and Ray ou o Glue Spark kernel. Isso inicia automaticamente uma sessão interativa sem servidor do Spark. Não é necessário provisionar nem gerenciar nenhum cluster ou infraestrutura de computação. Após a inicialização, você pode explorar AWS Glue Data Catalog, executar consultas complexas e analisar e preparar dados de forma interativa usando o Spark em seus notebooks Studio ou Studio Classic. Em seguida, você pode usar os dados preparados para criar, treinar, ajustar e implantar modelos usando as ferramentas de ML desenvolvidas especificamente. SageMaker

Antes de iniciar sua sessão AWS Glue interativa no Studio ou no Studio Classic, você precisa definir as funções e políticas apropriadas. Além disso, talvez seja necessário fornecer acesso a recursos adicionais, como um bucket de armazenamento do Amazon S3. Para obter mais informações sobre as políticas obrigatórias do IAM, consultePermissões para sessões AWS Glue interativas no Studio ou no Studio Classic.

O Studio e o Studio Classic fornecem uma configuração padrão para sua sessão AWS Glue interativa, no entanto, você pode usar o catálogo completo AWS Glue de comandos mágicos do Jupyter para personalizar ainda mais seu ambiente. Para obter informações sobre as magias padrão e adicionais do Jupyter que você pode usar em sua sessão AWS Glue interativa, consulte. Configure sua sessão AWS Glue interativa no Studio ou no Studio Classic

  • Para usuários do Studio Classic que iniciam uma sessão AWS Glue interativa, eles podem selecionar entre as seguintes imagens e kernels:

    • Imagens:SparkAnalytics 1.0, SparkAnalytics 2.0

    • Kernel: Glue Python [PySpark and Ray] e Glue Spark

  • Para usuários do Studio, use a imagem SageMaker de distribuição padrão e selecione um Glue Python [PySpark and Ray] ou um Glue Spark kernel.