Conditions préalables et rôle IAM requis Autorisations IAM requises Spécification de la version du pipeline Spécification du chemin d'ingestion Création de pipelines Suivi de l'état de la création du pipeline

Création de pipelines OpenSearch Amazon Ingestion

Un pipeline est le mécanisme utilisé OpenSearch par Amazon Ingestion pour déplacer les données de leur source (d'où proviennent les données) vers leur récepteur (où les données sont acheminées). Dans OpenSearch Ingestion, le récepteur sera toujours un domaine Amazon OpenSearch Service unique, tandis que la source de vos données peut être des clients tels qu'Amazon S3, Fluent Bit ou le OpenTelemetry Collector.

Pour plus d'informations, consultez la section Pipelines dans la OpenSearch documentation.

Rubriques

Conditions préalables et rôle IAM requis
Autorisations IAM requises
Spécification de la version du pipeline
Spécification du chemin d'ingestion
Création de pipelines
Suivi de l'état de la création du pipeline
Travailler avec des plans

Conditions préalables et rôle IAM requis

Pour créer un pipeline d' OpenSearch ingestion, vous devez disposer des ressources suivantes :

Rôle IAM, appelé rôle de pipeline, assumé OpenSearch par Ingestion pour écrire sur le récepteur. Vous pouvez créer ce rôle à l'avance ou demander à OpenSearch Ingestion de le créer automatiquement pendant que vous créez le pipeline.
Un domaine de OpenSearch service ou une collection OpenSearch sans serveur servant de récepteur. Si vous écrivez sur un domaine, celui-ci doit exécuter la OpenSearch version 1.0 ou une version ultérieure, ou Elasticsearch 7.4 ou une version ultérieure. Le récepteur doit disposer d'une politique d'accès qui accorde les autorisations appropriées à votre rôle de pipeline IAM.

Pour obtenir des instructions sur la création de ces ressources, consultez les rubriques suivantes :

Note

Si vous écrivez sur un domaine qui utilise un contrôle d'accès précis, vous devez effectuer des étapes supplémentaires. Consultez Cartographier le rôle du pipeline (uniquement pour les domaines qui utilisent un contrôle d'accès précis).

Autorisations IAM requises

OpenSearch L'ingestion utilise les autorisations IAM suivantes pour créer des pipelines :

osis:CreatePipeline— Créez un pipeline.
osis:ValidatePipeline— Vérifiez si une configuration de pipeline est valide.
iam:CreateRoleet iam:AttachPolicy — Demandez à OpenSearch Ingestion de créer automatiquement le rôle de pipeline pour vous.
iam:PassRole— Transmettez le rôle de pipeline à OpenSearch Ingestion afin qu'elle puisse écrire des données dans le domaine. Cette autorisation doit porter sur la ressource de rôle du pipeline, ou simplement * si vous prévoyez d'utiliser des rôles différents dans chaque pipeline.

Par exemple, la politique suivante autorise la création d'un pipeline :

OpenSearch L'ingestion inclut également une autorisation appeléeosis:Ingest, qui est requise pour envoyer des demandes signées au pipeline à l'aide de Signature Version 4. Pour de plus amples informations, veuillez consulter Création d'un rôle d'ingestion.

Note

En outre, le premier utilisateur à créer un pipeline dans un compte doit disposer des autorisations nécessaires pour effectuer cette iam:CreateServiceLinkedRole action. Pour plus d'informations, consultez la section ressource du rôle du pipeline.

Pour plus d'informations sur chaque autorisation, consultez la section Actions, ressources et clés de condition pour OpenSearch l'ingestion dans la référence d'autorisation de service.

Spécification de la version du pipeline

Lorsque vous créez un pipeline à l'aide de l'éditeur de configuration, vous devez spécifier la version principale de Data Prepper que le pipeline exécutera. Pour spécifier la version, incluez l'versionoption dans la configuration de votre pipeline :


version: "2"
log-pipeline:
  source:
    ...

Lorsque vous choisissez Create, OpenSearch Ingestion détermine la dernière version mineure disponible de la version principale que vous spécifiez et approvisionne le pipeline avec cette version. Par exemple, si vous spécifiez version: "2" que la dernière version prise en charge de Data Prepper est 2.1.1, OpenSearch Ingestion approvisionne votre pipeline avec la version 2.1.1. Nous n'affichons pas publiquement la version mineure que votre pipeline exécute.

Afin de mettre à niveau votre pipeline lorsqu'une nouvelle version majeure de Data Prepper est disponible, modifiez la configuration du pipeline et spécifiez la nouvelle version. Vous ne pouvez pas rétrograder un pipeline vers une version antérieure.

Note

OpenSearch Ingestion ne prend pas immédiatement en charge les nouvelles versions de Data Prepper dès leur sortie. Il y aura un certain décalage entre le moment où une nouvelle version sera accessible au public et le moment où elle sera prise en charge dans OpenSearch Ingestion. En outre, OpenSearch Ingestion peut explicitement ne pas prendre en charge complètement certaines versions majeures ou mineures. Pour obtenir la liste complète, consultez Versions de Data Prepper prises en charge.

Chaque fois que vous apportez une modification à votre pipeline qui lance un blue/green déploiement, OpenSearch Ingestion peut le mettre à niveau vers la dernière version mineure de la version majeure actuellement configurée pour le pipeline. Pour plus d'informations, consultezDéploiements bleu/vert pour les mises à jour du pipeline. OpenSearch L'ingestion ne peut pas modifier la version principale de votre pipeline à moins que vous ne mettiez explicitement à jour l'versionoption dans la configuration du pipeline.

Spécification du chemin d'ingestion

Pour les sources basées sur le pull, telles que le OTel traçage et OTel les métriques, OpenSearch l'ingestion nécessite l'pathoption supplémentaire dans votre configuration source. Le chemin est une chaîne telle que/log/ingest, qui représente le chemin de l'URI pour l'ingestion. Ce chemin définit l'URI que vous utilisez pour envoyer des données au pipeline.

Supposons, par exemple, que vous spécifiez le chemin suivant pour un pipeline avec une source HTTP :

Input field for specifying the path for ingestion, with an example path entered.

Lorsque vous ingérez des données dans le pipeline, vous devez spécifier le point de terminaison suivant dans la configuration de votre client :https://pipeline-name-abc123.us-west-2.osis.amazonaws.com/my/test_path.

Le chemin doit commencer par une barre oblique (/) et peut contenir les caractères spéciaux « - », « _ », « . ', et'/', ainsi que l'${pipelineName}espace réservé. Si vous utilisez ${pipelineName} (tel que/${pipelineName}/test_path), OpenSearch Ingestion remplace la variable par le nom du sous-pipeline associé.

Création de pipelines

Cette section décrit comment créer des pipelines d' OpenSearch ingestion à l'aide de la console de OpenSearch service et du AWS CLI.

Pour créer un pipeline, connectez-vous à la console Amazon OpenSearch Service depuis votre https://console.aws.amazon.com/aos/domicile et choisissez Create pipeline.

Sélectionnez un pipeline vide ou choisissez un plan de configuration. Les plans incluent un pipeline préconfiguré pour une variété de cas d'utilisation courants. Pour de plus amples informations, veuillez consulter Travailler avec des plans.

Choisissez Select Blueprint.

Configuration de la source

Si vous partez d'un pipeline vide, sélectionnez une source dans le menu déroulant. Les sources disponibles peuvent inclure Services AWS d' OpenTelemetryautres sources ou HTTP. Pour de plus amples informations, veuillez consulter Intégration des pipelines OpenSearch Amazon Ingestion à d'autres services et applications.
En fonction de la source que vous choisissez, configurez des paramètres supplémentaires pour la source. Par exemple, pour utiliser Amazon S3 comme source, vous devez spécifier l'URL de la file d'attente Amazon SQS à partir du pipeline de réception des messages. Pour obtenir la liste des plug-ins sources pris en charge et des liens vers leur documentation, consultezPlug-ins et options pris en charge pour les pipelines OpenSearch Amazon Ingestion.

Pour certaines sources, vous devez spécifier les options du réseau source. Choisissez l'accès VPC ou l'accès public. Si vous choisissez Public access (Accès public), passez à l'étape suivante. Si vous choisissez l'accès VPC, configurez les paramètres suivants :

Paramètre	Description
Gestion des terminaux	Choisissez si vous souhaitez créer vous-même vos points de terminaison de cloud privé virtuel (VPC) ou laisser Ingestion les créer OpenSearch pour vous. La gestion des terminaux est par défaut celle des points de terminaison gérés par OpenSearch Ingestion.
VPC	Choisissez l'ID du VPC que vous souhaitez utiliser. Le VPC et le pipeline doivent être identiques. Région AWS
Sous-réseaux	Choisissez un ou plusieurs sous-réseaux. OpenSearch Le service placera un point de terminaison VPC et des interfaces réseau élastiques dans les sous-réseaux.
Groupes de sécurité	Choisissez un ou plusieurs groupes de sécurité VPC qui permettent à l'application requise d'atteindre le pipeline d' OpenSearch ingestion sur les ports (80 ou 443) et les protocoles (HTTP ou HTTPs) exposés par le pipeline.
Options de fixation en VPC	Si votre source est un point de terminaison autogéré, attachez votre pipeline à un VPC. Choisissez l'une des options CIDR par défaut fournies ou utilisez un CIDR personnalisé.

Pour de plus amples informations, veuillez consulter Configuration de l'accès VPC pour les pipelines Amazon Ingestion OpenSearch .

Choisissez Suivant.

Configuration du processeur

Ajoutez un ou plusieurs processeurs à votre pipeline. Les processeurs sont des composants d'un sous-pipeline qui vous permettent de filtrer, de transformer et d'enrichir les événements avant de publier des enregistrements dans le domaine ou le collecteur de collection. Pour obtenir la liste des processeurs pris en charge et les liens vers leur documentation, consultezPlug-ins et options pris en charge pour les pipelines OpenSearch Amazon Ingestion.

Vous pouvez sélectionner Actions et ajouter les éléments suivants :

Routage conditionnel — Achemine les événements vers différents puits en fonction de conditions spécifiques. Pour plus d'informations, consultez la section Routage conditionnel.
Sous-pipeline : chaque sous-pipeline est une combinaison d'une source unique, de zéro ou plusieurs processeurs et d'un seul récepteur. Un seul sous-pipeline peut avoir une source externe. Tous les autres doivent avoir des sources qui sont d'autres sous-pipelines dans la configuration globale du pipeline. Une configuration de pipeline unique peut contenir de 1 à 10 sous-pipelines.

Choisissez Suivant.

Configurer le lavabo

Sélectionnez la destination où le pipeline publie les enregistrements. Chaque sous-pipeline doit contenir au moins un puits. Vous pouvez ajouter un maximum de 10 cuves à un pipeline.

Pour les OpenSearch éviers, configurez les champs suivants :

Paramètre	Description
Nom de la politique réseau (récepteurs sans serveur uniquement)	Si vous avez sélectionné une collection OpenSearch sans serveur, entrez un nom de politique réseau. OpenSearch L'ingestion crée la politique si elle n'existe pas ou la met à jour avec une règle qui accorde l'accès au point de terminaison VPC connectant le pipeline et la collection. Pour de plus amples informations, veuillez consulter Autoriser les pipelines OpenSearch Amazon Ingestion à accéder aux collections.
Nom de l'index	Nom de l'index dans lequel le pipeline envoie les données. OpenSearch L'ingestion crée cet index s'il n'existe pas déjà.
Options de mappage d'index	Choisissez la manière dont le pipeline stocke et indexe les documents et leurs champs dans le OpenSearch récepteur. Si vous sélectionnez le mappage dynamique, OpenSearch des champs sont automatiquement ajoutés lorsque vous indexez un document. Si vous sélectionnez Personnaliser le mappage, entrez un modèle de mappage d'index. Pour plus d'informations, consultez la section Modèles d'index.
Activer DLQ	Configurez une file d'attente de lettres mortes (DLQ) Amazon S3 pour le pipeline. Pour de plus amples informations, veuillez consulter Files d’attente de lettres mortes.
Réglages supplémentaires	Configurez les options avancées pour le OpenSearch lavabo. Pour plus d'informations, consultez la section Options de configuration dans la documentation de Data Prepper.

Pour ajouter un récepteur Amazon S3, choisissez Ajouter un récepteur et Amazon S3. Pour de plus amples informations, veuillez consulter Amazon S3 en tant que destination.

Choisissez Suivant.

Configurer le pipeline

Configurez les paramètres de pipeline supplémentaires suivants :

Paramètre	Description
Nom du pipeline	Nom unique pour le pipeline.
Tampon persistant	Une mémoire tampon persistante stocke vos données dans une mémoire tampon sur disque dans plusieurs zones de disponibilité. Pour de plus amples informations, veuillez consulter Mise en mémoire tampon persistante. Si vous activez la mise en mémoire tampon persistante, sélectionnez la AWS Key Management Service clé pour chiffrer les données de la mémoire tampon.
Capacité du pipeline	La capacité minimale et maximale du pipeline, en unités de OpenSearch calcul d'ingestion (OCUs). Pour de plus amples informations, veuillez consulter Dimensionnement des pipelines dans Amazon OpenSearch Ingestion.
Rôle du pipeline	Rôle IAM qui fournit les autorisations requises pour que le pipeline puisse écrire sur le récepteur et lire à partir de sources basées sur le pull. Vous pouvez créer le rôle vous-même ou demander à Ingestion de OpenSearch le créer pour vous en fonction du cas d'utilisation que vous avez sélectionné. Pour de plus amples informations, veuillez consulter Configuration des rôles et des utilisateurs dans Amazon OpenSearch Ingestion.
Balises	Ajoutez une ou plusieurs balises à votre pipeline. Pour de plus amples informations, veuillez consulter Marquage des pipelines Amazon OpenSearch Ingestion.
Options de publication des journaux	Activez la publication des journaux du pipeline sur Amazon CloudWatch Logs. Nous vous recommandons d'activer la publication des journaux afin de pouvoir résoudre plus facilement les problèmes liés au pipeline. Pour de plus amples informations, veuillez consulter Surveillance des journaux du pipeline.

Choisissez Next., puis passez en revue la configuration de votre pipeline et choisissez Create pipeline.

OpenSearch Ingestion exécute un processus asynchrone pour créer le pipeline. Une fois que l'état du pipeline est Active atteint, vous pouvez commencer à ingérer des données.

La commande create-pipeline accepte la configuration du pipeline sous forme de chaîne ou dans un fichier .yaml ou .json. Si vous fournissez la configuration sous forme de chaîne, chaque nouvelle ligne doit être supprimée avec\n. Par exemple, "log-pipeline:\n source:\n http:\n processor:\n - grok:\n ...

L'exemple de commande suivant crée un pipeline avec la configuration suivante :

Minimum de 4 OCUs ingestions, maximum de 10 ingestions OCUs
Provisionné dans un cloud privé virtuel (VPC)
Publication de journaux activée


aws osis create-pipeline \
  --pipeline-name my-pipeline \
  --min-units 4 \
  --max-units 10 \
  --log-publishing-options  IsLoggingEnabled=true,CloudWatchLogDestination={LogGroup="MyLogGroup"} \
  --vpc-options SecurityGroupIds={sg-12345678,sg-9012345},SubnetIds=subnet-1212234567834asdf \
  --pipeline-configuration-body "file://pipeline-config.yaml" \
  --pipeline-role-arn  arn:aws:iam::1234456789012:role/pipeline-role

OpenSearch Ingestion exécute un processus asynchrone pour créer le pipeline. Une fois que l'état du pipeline est Active atteint, vous pouvez commencer à ingérer des données. Pour vérifier l'état du pipeline, utilisez la GetPipelinecommande.

Pour créer un pipeline d' OpenSearch ingestion à l'aide de OpenSearch l'API d'ingestion, appelez l'CreatePipelineopération.

Une fois votre pipeline créé avec succès, vous pouvez configurer votre client et commencer à ingérer des données dans votre domaine OpenSearch de service. Pour de plus amples informations, veuillez consulter Intégration des pipelines OpenSearch Amazon Ingestion à d'autres services et applications.

Suivi de l'état de la création du pipeline

Vous pouvez suivre l'état d'un pipeline au fur et à mesure qu' OpenSearch Ingestion le provisionne et le prépare à ingérer des données.

Une fois que vous avez initialement créé un pipeline, celui-ci passe par plusieurs étapes car OpenSearch Ingestion le prépare à ingérer des données. Pour visualiser les différentes étapes de création du pipeline, choisissez le nom du pipeline pour voir sa page de paramètres du pipeline. Sous État, choisissez Afficher les détails.

Un pipeline passe par les étapes suivantes avant d'être disponible pour l'ingestion de données :

Validation — Validation de la configuration du pipeline. Lorsque cette étape est terminée, toutes les validations sont réussies.
Création d'un environnement : préparation et approvisionnement des ressources. Lorsque cette étape est terminée, le nouvel environnement de pipeline a été créé.
Déployer le pipeline : déploiement du pipeline. Lorsque cette étape est terminée, le pipeline a été déployé avec succès.
Vérifier l'état du pipeline : vérification de l'état du pipeline. Lorsque cette étape est terminée, tous les bilans de santé sont passés avec succès.
Activer le trafic — Permettre au pipeline d'ingérer des données. Lorsque cette étape est terminée, vous pouvez commencer à ingérer des données dans le pipeline.

Utilisez la get-pipeline-change-progresscommande pour vérifier l'état d'un pipeline. La AWS CLI demande suivante vérifie l'état d'un pipeline nommé my-pipeline :


aws osis get-pipeline-change-progress \
    --pipeline-name my-pipeline

Réponse :


{
   "ChangeProgressStatuses": {
      "ChangeProgressStages": [ 
         { 
            "Description": "Validating pipeline configuration",
            "LastUpdated": 1.671055851E9,
            "Name": "VALIDATION",
            "Status": "PENDING"
         }
      ],
      "StartTime": 1.671055851E9,
      "Status": "PROCESSING",
      "TotalNumberOfStages": 5
   }
}

Pour suivre l'état de la création du pipeline à l'aide de OpenSearch l'API Ingestion, appelez l'GetPipelineChangeProgressopération.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Caractéristiques du pipeline

Travailler avec des plans