Permissões obrigatórias Etapa 1: Criar a função de pipeline Etapa 2: Criar um domínio Etapa 3: Criar um pipeline Etapa 4: ingestão de dados de exemplo Corrigindo problemas de permissão Recursos relacionados

Tutorial: Ingestão de dados em um domínio usando o Amazon OpenSearch Ingestion

Este tutorial mostra como usar o Amazon OpenSearch Ingestion para configurar um pipeline simples e ingerir dados em um domínio do Amazon OpenSearch Service. Um pipeline é um recurso que o OpenSearch Ingestion provisiona e gerencia. Você pode usar um pipeline para filtrar, enriquecer, transformar, normalizar e agregar dados para análises e visualizações posteriores no Service. OpenSearch

Este tutorial orienta você pelas etapas básicas de como conseguir montar um pipeline rapidamente. Para obter instruções mais abrangentes, consulteComo criar pipelines.

Você concluirá as seguintes etapas neste tutorial:

Crie um domínio.
Crie um pipeline.
Ingira alguns dados de amostra.

Neste tutorial, você vai criar os recursos a seguir:

Um domínio chamado no ingestion-domain qual o pipeline grava
Um pipeline chamado ingestion-pipeline

Permissões obrigatórias

Para concluir este tutorial, seu usuário ou função deve ter uma política baseada em identidade anexada com as seguintes permissões mínimas. Essas permissões permitem que você crie uma função de pipeline e anexe uma política (iam:Create*eiam:Attach*), crie ou modifique um domínio (es:*) e trabalhe com pipelines (osis:*).

Etapa 1: Criar a função de pipeline

Primeiro, crie uma função que o pipeline assumirá para acessar o coletor OpenSearch de domínio do serviço. Neste tutorial, você incluirá esse perfil posteriormente na configuração do pipeline.

Para criar a função de pipeline

Abra o AWS Identity and Access Management console em https://console.aws.amazon.com/iamv2/.
Escolha Políticas e, depois, Criar política.
Neste tutorial, você consumirá dados em um domínio chamado ingestion-domain, que você criará na próxima etapa. Selecione JSON e cole a política a seguir no editor. Substitua your-account-id pelo ID da sua conta e modifique a região, se necessário.
JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "es:DescribeDomain", "Resource": "arn:aws:es:us-east-1:111122223333:domain/ingestion-domain" }, { "Effect": "Allow", "Action": "es:ESHttp*", "Resource": "arn:aws:es:us-east-1:111122223333:domain/ingestion-domain/*" } ] }
Se quiser gravar dados em um domínio existente, ingestion-domain substitua pelo nome do seu domínio.

nota
Para simplificar este tutorial, usamos uma política de acesso ampla. Em ambientes de produção, no entanto, recomendamos que você aplique uma política de acesso mais restritiva à sua função de pipeline. Para obter um exemplo de política que fornece as permissões mínimas necessárias, consulte Concedendo acesso aos pipelines OpenSearch do Amazon Ingestion aos domínios.
Escolha Próximo, então Próximo, e nomeie sua política pipeline-policy.
Escolha Criar política.
Depois, crie um perfil e anexe a política à ele. Selecione Funções e, depois, Criar função.

Escolha Política de confiança personalizada e cole a política a seguir no editor:

Escolha Próximo. Em seguida, pesquise e selecione pipeline-policy (que você acabou de criar).
Escolha Avançar e nomeie a função PipelineRole.
Selecione Criar função.

Lembre-se do nome do recurso da Amazon (ARN) do perfil (por exemplo, arn:aws:iam::your-account-id:role/PipelineRole). Você precisará dele quando criar seu pipeline.

Etapa 2: Criar um domínio

Primeiro, crie um domínio chamado ingestion-domain para ingerir dados.

Navegue até o console do Amazon OpenSearch Service em https://console.aws.amazon.com/aos/casa e crie um domínio que atenda aos seguintes requisitos:

Está executando OpenSearch 1.0 ou posterior, ou Elasticsearch 7.4 ou posterior
Usa o acesso público
Não use controle de acesso detalhado.

nota

Esses requisitos têm como objetivo garantir a simplicidade deste tutorial. Em ambientes de produção, você pode configurar um domínio com acesso à VPC and/or usando controle de acesso refinado. Para usar controle de acesso refinado, consulte Mapear a função do pipeline.

O domínio deve ter uma política de acesso que conceda permissão à função OpenSearchIngestion-PipelineRole do IAM, que o OpenSearch Serviço criará para você na próxima etapa. O pipeline assumirá essa função para enviar dados para o coletor do domínio.

Certifique-se de que o domínio tenha a seguinte política de acesso em nível de domínio, que concede à função de pipeline acesso ao domínio. Substitua a região e a ID da conta com seus dados:

Para obter mais informações sobre a criação de políticas de acesso em nível de domínio, consulte. Políticas baseadas em recursos

Se você já tiver um domínio criado, modifique sua política de acesso existente para fornecer as permissões acima para a OpenSearchIngestion-PipelineRole.

Etapa 3: Criar um pipeline

Agora que você tem um domínio, pode criar um pipeline.

Para criar um pipeline

No console do Amazon OpenSearch Service, escolha Pipelines no painel de navegação esquerdo.
Selecione Criar pipeline.
Selecione o pipeline em branco e, em seguida, escolha Selecionar blueprint.
Neste tutorial, criaremos um pipeline simples que usa o plug-in de origem HTTP. O plug-in aceita dados de log em formato de matriz JSON. Vamos especificar um único domínio OpenSearch de serviço como coletor e ingerir todos os dados no application_logs índice.

No menu Fonte, escolha HTTP. Para o Caminho, insira /logs.
Para simplificar neste tutorial, configuraremos o acesso público do pipeline. Para opções de rede de origem, escolha Acesso público. Para obter mais informações sobre como configurar VPC, consulte Como configurar o acesso à VPC para os pipelines da Amazon OpenSearch Ingestion.
Escolha Próximo.
Em Processador, insira Data e escolha Adicionar.
Ativar A partir do momento do recebimento. Deixe todas as outras configurações como padrão.
Escolha Próximo.
Configure os detalhes do coletor. Para tipo OpenSearch de recurso, escolha Cluster gerenciado. Em seguida, escolha o domínio do OpenSearch serviço que você criou na seção anterior.

Em Nome do índice, insira application_logs. OpenSearch A ingestão cria automaticamente esse índice no domínio, caso ele ainda não exista.
Escolha Próximo.
Nomeie o pipeline de ingestão-pipeline. Deixe as configurações de capacidade como padrão.
Em Função de pipeline, selecione Criar e usar uma nova função de serviço. A função de pipeline fornece as permissões necessárias para que um pipeline grave no coletor de domínio e leia de fontes baseadas em pull. Ao selecionar essa opção, você permite que o OpenSearch Inestion crie a função para você, em vez de criá-la manualmente no IAM. Para obter mais informações, consulte Configurando funções e usuários na Amazon OpenSearch Ingestion.
Em Sufixo do nome da função de serviço, insira PipelineRole. No IAM, a função terá o formatoarn:aws:iam::your-account-id:role/OpenSearchIngestion-PipelineRole.
Escolha Próximo. Revise sua configuração do pipeline e escolha Criar pipeline. O pipeline leva de 5 a 10 minutos para se tornar ativo.

Etapa 4: ingestão de dados de exemplo

Quando o status do pipeline é Active, você pode começar a ingerir dados nele. Você deve assinar todas as solicitações HTTP no pipeline usando o Signature Version 4. Use uma ferramenta HTTP, como o Postman ou awscurl, para enviar alguns dados para o pipeline. Assim como acontece com a indexação de dados diretamente em um domínio, a ingestão de dados em um pipeline sempre exige um perfil do IAM ou uma chave de acesso e chave secreta do IAM.

nota

A entidade principal responsável pela assinatura da solicitação deve ter a permissão osis:Ingest do IAM.

Primeiro, obtenha o URL de ingestão na página Configurações do Pipeline:

Pipeline settings page showing ingestion URL and other configuration details.

Em seguida, faça a ingestão de alguns dados de exemplo. A solicitação a seguir usa awscurl para enviar um único arquivo de log para o pipeline:


awscurl --service osis --region us-east-1 \
    -X POST \
    -H "Content-Type: application/json" \
    -d '[{"time":"2014-08-11T11:40:13+00:00","remote_addr":"122.226.223.69","status":"404","request":"GET http://www.k2proxy.com//hello.html HTTP/1.1","http_user_agent":"Mozilla/4.0 (compatible; WOW64; SLCC2;)"}]' \
    https://pipeline-endpoint.us-east-1.osis.amazonaws.com/logs

Você obterá uma resposta 200 OK. Se você receber um erro de autenticação, pode ser porque está ingerindo dados de uma conta diferente daquela em que o pipeline está. Consulte Corrigindo problemas de permissão.

Agora, consulte o índice application_logs para garantir que sua entrada de log tenha sido ingerida com sucesso:


awscurl --service es --region us-east-1 \
     -X GET \
     https://search-ingestion-domain.us-east-1.es.amazonaws.com/application_logs/_search | json_pp

Resposta de exemplo:


{
   "took":984,
   "timed_out":false,
   "_shards":{
      "total":1,
      "successful":5,
      "skipped":0,
      "failed":0
   },
   "hits":{
      "total":{
         "value":1,
         "relation":"eq"
      },
      "max_score":1.0,
      "hits":[
         {
            "_index":"application_logs",
            "_type":"_doc",
            "_id":"z6VY_IMBRpceX-DU6V4O",
            "_score":1.0,
            "_source":{
               "time":"2014-08-11T11:40:13+00:00",
               "remote_addr":"122.226.223.69",
               "status":"404",
               "request":"GET http://www.k2proxy.com//hello.html HTTP/1.1",
               "http_user_agent":"Mozilla/4.0 (compatible; WOW64; SLCC2;)",
               "@timestamp":"2022-10-21T21:00:25.502Z"
            }
         }
      ]
   }
}

Corrigindo problemas de permissão

Se você seguiu as etapas do tutorial e ainda vê erros de autenticação ao tentar ingerir dados, talvez seja porque a função que está gravando em um pipeline é Conta da AWS diferente do próprio pipeline. Nesse caso, você precisa criar e assumir uma função que permita especificamente a ingestão de dados. Para instruções, consulte Concessão de acesso de ingestão entre contas.

Recursos relacionados

Este tutorial apresentou um caso de uso simples de ingestão de um único documento via HTTP. Em cenários de produção, você configurará seus aplicativos cliente (como Fluent Bit, Kubernetes ou OpenTelemetry Collector) para enviar dados para um ou mais pipelines. Seus pipelines provavelmente serão mais complexos do que o exemplo simples deste tutorial.

Para começar a configurar seus clientes e ingerir dados, consulte os seguintes recursos:

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Começando com a OpenSearch ingestão

Tutorial: Ingestão de dados em uma coleção