Configuração da representação do usuário do Spark Uso do widget de monitoramento de trabalhos do Spark

Habilitação da representação do usuário para monitorar a atividade de usuários e trabalhos do Spark

nota

EMROs notebooks estão disponíveis como espaços de trabalho do EMR Studio no console. O botão Criar espaço de trabalho no console permite criar novos cadernos. Para acessar ou criar espaços de trabalho, os usuários do EMR Notebooks precisam de permissões adicionais de IAM função. Para obter mais informações, consulte Amazon EMR Notebooks são espaços de trabalho do Amazon EMR Studio no console e no console da Amazon EMR.

EMROs notebooks permitem que você configure a representação do usuário em um cluster do Spark. Esse recurso ajuda a rastrear a atividade do trabalho iniciado no editor de blocos de anotações. Além disso, o EMR Notebooks tem um widget Jupyter Notebook integrado para visualizar os detalhes do trabalho do Spark junto com a saída da consulta no editor do notebook. O widget está disponível por padrão e não requer configuração especial. No entanto, para visualizar os servidores de histórico, seu cliente deve estar configurado para visualizar as interfaces EMR web da Amazon que estão hospedadas no nó primário.

Configuração da representação do usuário do Spark

Por padrão, os trabalhos do Spark que os usuários enviam usando o editor de blocos de anotações parecem se originar de uma identidade de usuário livy indiscriminada. Você pode configurar a representação do usuário para o cluster para que esses trabalhos sejam associados à identidade de usuário que executou o código. HDFSdiretórios de usuário no nó primário são criados para cada identidade de usuário que executa código no notebook. Por exemplo, se o usuário NbUser1 executar o código do editor de cadernos, é possível se conectar ao nó primário e ver que hadoop fs -ls /user mostra o diretório /user/user_NbUser1.

Para habilitar esse recurso, configure as propriedades nas classificações de configuração livy-conf e core-site. Esse recurso não está disponível por padrão quando você faz com que a Amazon EMR crie um cluster junto com um notebook. Para obter mais informações sobre o uso de classificações de configuração para personalizar aplicativos, consulte Configuração de aplicativos no Amazon EMR Release Guide.

Use as seguintes classificações e valores de configuração para permitir a representação do usuário em Notebooks: EMR


[
    {
        "Classification": "core-site",
        "Properties": {
          "hadoop.proxyuser.livy.groups": "*",
          "hadoop.proxyuser.livy.hosts": "*"
        }
    },
    {
        "Classification": "livy-conf",
        "Properties": {
          "livy.impersonation.enabled": "true"
        }
    }
]

Quando você executa um código no editor do notebook que executa trabalhos do Spark no EMR cluster, a saída inclui um widget do Jupyter Notebook para monitoramento de trabalhos do Spark. O widget fornece detalhes do trabalho e links úteis para a página do servidor de histórico do Spark e para a página de histórico de trabalhos do Hadoop, além de links convenientes para logs de trabalho no Amazon S3 para todos os trabalhos com falha.

Para visualizar as páginas do servidor de histórico no nó primário do cluster, você deve configurar um SSH cliente e um proxy conforme apropriado. Para obter mais informações, consulte Visualize interfaces web hospedadas em EMR clusters da Amazon. Para visualizar os logs no Amazon S3, o registro em log do cluster deve estar habilitado, que é o padrão para os novos clusters. Para obter mais informações, consulte Visualizar arquivos de log arquivados no Amazon S3.

A seguir é apresentado um exemplo de monitoramento de trabalhos do Spark.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Script de exemplo do Ruby

Segurança