Adicionar arquivos JAR e configuração personalizada do Spark - Amazon Athena

Adicionar arquivos JAR e configuração personalizada do Spark

Ao criar ou editar uma sessão no Amazon Athena para Apache Spark, você pode usar as propriedades do Spark para especificar arquivos .jar, pacotes ou outra configuração personalizada para a sessão. Para especificar propriedades do Spark, use o console do Athena, a AWS CLI ou a API do Athena.

Usar o console do Athena para especificar propriedades do Spark

No console do Athena, é possível especificar as propriedades do Spark ao criar um caderno ou editar uma sessão atual.

Para adicionar propriedades na caixa de diálogo Criar caderno ou Editar detalhes da sessão
  1. Expanda as propriedades do Spark.

  2. Para adicionar propriedades, use a opção Editar na tabela ou Editar em JSON.

    • Para a opção Editar na tabela, escolha Adicionar propriedade para adicionar uma propriedade, ou escolha Remover para remover uma propriedade. Use as caixas Chave e Valor para inserir os nomes das propriedades e os respectivos valores.

      • Para adicionar um arquivo .jar personalizado, use a propriedade spark.jars.

      • Para especificar um arquivo de pacote, especifique a propriedade spark.jars.packages.

    • Para inserir e editar sua configuração diretamente, escolha a opção Editar em JSON. No editor de texto JSON, você pode executar as seguintes tarefas:

      • Escolha Copiar para copiar o texto JSON para a área de transferência.

      • Escolha Limpar para remover todo o texto do editor JSON.

      • Escolha o ícone de configurações (engrenagem) para configurar a quebra de linha ou escolha um tema de cores para o editor JSON.

Observações

  • É possível definir propriedades no Athena para Spark, que é o mesmo que definir as propriedades do Spark diretamente em um objeto SparkConf.

  • Inicie todas as propriedades do Spark com o prefixo spark.. As propriedades com outros prefixos são ignoradas.

  • Nem todas as propriedades do Spark estão disponíveis para configuração personalizada no Athena. Se você enviar uma solicitação StartSession com uma configuração restrita, a sessão não será iniciada.

    • Não é possível usar o prefixo spark.athena. porque ele é reservado.

Usar a AWS CLI ou API do Athena para fornecer uma configuração personalizada

Para usar a AWS CLI ou a API do Athena para fornecer sua configuração de sessão, use a ação de API StartSession ou o comando start-session da CLI. Em sua solicitação StartSession, use o campo SparkProperties do objeto EngineConfiguration para passar suas informações de configuração no formato JSON. Isso iniciará uma sessão com a configuração especificada. Para obter a sintaxe da solicitação, consulte StartSession na Amazon Athena API Reference.

Solução de erros de início de sessão

Quando ocorre um erro de configuração personalizada durante o início da sessão, o console do Athena para Spark mostra um banner de mensagem de erro. Para solucionar erros de início de sessão, verifique a alteração do estado da sessão ou as informações de registro.

Visualizar informações de alteração do estado da sessão

Você pode obter detalhes sobre uma alteração no estado da sessão no editor do caderno do Athena ou na API do Athena.

Para visualizar as informações do estado da sessão no console do Athena
  1. No editor de cadernos do Athena, no menu Sessão no canto superior direito, escolha Visualizar detalhes.

  2. Visualize a guia Sessão atual. A seção Informações da sessão exibe informações como ID da sessão, grupo de trabalho, status e motivo da mudança de estado.

    O exemplo de captura de tela a seguir mostra informações na seção Motivo da mudança de estado da caixa de diálogo Informações da sessão para um erro de sessão do Spark no Athena.

    Visualizar as informações do estado da sessão no console do Athena para Spark.
Para visualizar as informações do estado da sessão usando a API do Athena
  • Na API do Athena, você pode encontrar informações sobre alteração do estado da sessão no campo StateChangeReason do objeto SessionStatus.

nota

Após interromper manualmente uma sessão ou se a sessão for interrompida após um tempo limite de inatividade (o padrão é 20 minutos), o valor de StateChangeReason é alterado para A sessão foi encerrada por solicitação.

Usar registro em log para solucionar erros de início de sessão

Os erros de configuração personalizada que ocorrem durante o início da sessão são registrados em log pelo Amazon CloudWatch. No CloudWatch Logs, pesquise mensagens de erro de AthenaSparkSessionErrorLogger para solucionar uma falha no início da sessão.

Para obter mais informações sobre registro em log do Spark, consulte Registro em log de eventos da aplicação Spark no Athena.

Para obter mais informações sobre sessões de solução de problemas no Athena para Spark, consulte Solução de problemas de sessões.