Utilisation de l'état de la carte en mode distribué pour des charges de travail parallèles à grande échelle dans Step Functions - AWS Step Functions

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de l'état de la carte en mode distribué pour des charges de travail parallèles à grande échelle dans Step Functions

Avec Step Functions, vous pouvez orchestrer des charges de travail parallèles à grande échelle pour effectuer des tâches telles que le traitement à la demande de données semi-structurées. Ces charges de travail parallèles vous permettent de traiter simultanément des sources de données à grande échelle stockées dans Amazon S3. Par exemple, vous pouvez traiter un fichier unique JSON ou un CSV fichier contenant de grandes quantités de données. Vous pouvez également traiter un grand nombre d'objets Amazon S3.

Pour configurer une charge de travail parallèle à grande échelle dans vos flux de travail, incluez un Map état en mode distribué. L'état de la carte traite les éléments d'un jeu de données simultanément. Un Map état défini sur Distribué est appelé état de carte distribuée. En mode distribué, l'Mapétat autorise un traitement à haute simultanéité. En mode distribué, l'MapÉtat traite les éléments de l'ensemble de données par itérations appelées exécutions de flux de travail secondaires. Vous pouvez spécifier le nombre d'exécutions de flux de travail enfants qui peuvent être exécutées en parallèle. Chaque exécution de flux de travail enfant possède son propre historique d'exécution distinct de celui du flux de travail parent. Si vous ne le spécifiez pas, Step Functions exécute 10 000 workflows enfants parallèles en parallèle.

L'illustration suivante explique comment configurer des charges de travail parallèles à grande échelle dans vos flux de travail.

Schéma illustrant le concept d'orchestration de charges de travail parallèles à grande échelle.
Apprenez dans un atelier

Découvrez comment les technologies sans serveur telles que Step Functions et Lambda peuvent simplifier la gestion et le dimensionnement, décharger des tâches indifférenciées et relever les défis du traitement distribué des données à grande échelle. En cours de route, vous travaillerez avec une carte distribuée pour un traitement à haute simultanéité. L'atelier présente également les meilleures pratiques pour optimiser vos flux de travail, ainsi que des cas d'utilisation pratiques pour le traitement des réclamations, l'analyse des vulnérabilités et la simulation de Monte Carlo.

Atelier : Traitement de données à grande échelle avec Step Functions

Termes clés

Mode distribué

Mode de traitement de l'état de la carte. Dans ce mode, chaque itération de l'Mapétat s'exécute comme une exécution de flux de travail secondaire qui permet une simultanéité élevée. Chaque exécution de flux de travail enfant possède son propre historique d'exécution, distinct de l'historique d'exécution du flux de travail parent. Ce mode prend en charge la lecture des entrées provenant de sources de données Amazon S3 à grande échelle.

État de la carte distribuée

État de la carte défini sur Mode de traitement distribué.

Flux de travail cartographique

Ensemble d'étapes exécutées par un Map État.

Flux de travail parent

Un flux de travail qui contient un ou plusieurs états de cartes distribuées.

Exécution du workflow pour enfants

Une itération de l'état de la carte distribuée. L'exécution d'un flux de travail enfant possède son propre historique d'exécution, distinct de l'historique d'exécution du flux de travail parent.

Map Run

Lorsque vous exécutez un Map état en mode distribué, Step Functions crée une ressource Map Run. Une exécution de carte fait référence à un ensemble d'exécutions de flux de travail enfants lancées par un état de carte distribuée, ainsi qu'aux paramètres d'exécution qui contrôlent ces exécutions. Step Functions attribue un nom de ressource Amazon (ARN) à votre Map Run. Vous pouvez examiner un Map Run dans la console Step Functions. Vous pouvez également invoquer l'DescribeMapRunAPIaction. Un Map Run envoie également des métriques à. CloudWatch

Pour de plus amples informations, veuillez consulter Affichage des séries de cartes.

Exemple de définition de l'état d'une carte distribuée

Utilisez l'Mapétat en mode distribué lorsque vous devez orchestrer des charges de travail parallèles à grande échelle répondant à une combinaison des conditions suivantes :

  • La taille de votre jeu de données dépasse 256 Ko.

  • L'historique des événements d'exécution du flux de travail dépasse 25 000 entrées.

  • Vous avez besoin d'une simultanéité de plus de 40 itérations parallèles.

L'exemple de définition d'état de carte distribuée suivant spécifie l'ensemble de données sous la forme d'un CSV fichier stocké dans un compartiment Amazon S3. Elle spécifie également une fonction Lambda qui traite les données de chaque ligne du CSV fichier. Comme cet exemple utilise un CSV fichier, il indique également l'emplacement des en-têtes de CSV colonne. Pour voir la définition complète de la machine à états de cet exemple, consultez le didacticiel Copier des CSV données à grande échelle à l'aide d'une carte distribuée.

{ "Map": { "Type": "Map", "ItemReader": { "ReaderConfig": { "InputType": "CSV", "CSVHeaderLocation": "FIRST_ROW" }, "Resource": "arn:aws:states:::s3:getObject", "Parameters": { "Bucket": "amzn-s3-demo-bucket", "Key": "csv-dataset/ratings.csv" } }, "ItemProcessor": { "ProcessorConfig": { "Mode": "DISTRIBUTED", "ExecutionType": "EXPRESS" }, "StartAt": "LambdaTask", "States": { "LambdaTask": { "Type": "Task", "Resource": "arn:aws:states:::lambda:invoke", "OutputPath": "$.Payload", "Parameters": { "Payload.$": "$", "FunctionName": "arn:aws:lambda:us-east-2:123456789012:function:processCSVData" }, "End": true } } }, "Label": "Map", "End": true, "ResultWriter": { "Resource": "arn:aws:states:::s3:putObject", "Parameters": { "Bucket": "amzn-s3-demo-destination-bucket", "Prefix": "csvProcessJobs" } } } }

Autorisations pour exécuter une carte distribuée

Lorsque vous incluez un état de carte distribuée dans vos flux de travail, Step Functions a besoin des autorisations appropriées pour permettre au rôle de machine à états d'invoquer l'StartExecutionAPIaction pour l'état de carte distribuée.

L'exemple IAM de politique suivant accorde le minimum de privilèges requis à votre rôle de machine d'état pour exécuter l'état de carte distribuée.

Note

Assurez-vous de stateMachineName remplacer par le nom de la machine à états dans laquelle vous utilisez l'état Distributed Map. Par exemple, arn:aws:states:us-east-2:123456789012:stateMachine:mystateMachine.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "states:StartExecution" ], "Resource": [ "arn:aws:states:region:accountID:stateMachine:stateMachineName" ] }, { "Effect": "Allow", "Action": [ "states:DescribeExecution", "states:StopExecution" ], "Resource": "arn:aws:states:region:accountID:execution:stateMachineName:*" } ] }

En outre, vous devez vous assurer que vous disposez du minimum de privilèges nécessaires pour accéder au AWS les ressources utilisées dans l'état de la carte distribuée, telles que les compartiments Amazon S3. Pour plus d’informations, veuillez consulter IAMpolitiques relatives à l'utilisation des états cartographiques distribués.

Champs d'état de la carte distribuée

Pour utiliser l'état de la carte distribuée dans vos flux de travail, spécifiez un ou plusieurs de ces champs. Vous spécifiez ces champs en plus des champs d'état courants.

Type (Obligatoire)

Définit le type d'état, tel queMap.

ItemProcessor (Obligatoire)

Contient les JSON objets suivants qui spécifient le mode et la définition de traitement de Map l'état.

  • ProcessorConfig— JSON objet qui spécifie le mode de traitement des éléments, avec les sous-champs suivants :

    • Mode— Paramétré DISTRIBUTED pour utiliser l'Mapétat en mode distribué.

      Avertissement

      Le mode distribué est pris en charge dans les flux de travail standard, mais pas dans les flux de travail Express.

    • ExecutionType— Spécifie le type d'exécution du flux de travail cartographique comme étant STANDARDou EXPRESS. Vous devez fournir ce champ si vous l'avez spécifié DISTRIBUTED pour le Mode sous-champ. Pour plus d'informations sur les types de flux de travail, consultezChoix du type de flux de travail dans Step Functions.

  • StartAt— Spécifie une chaîne qui indique le premier état d'un flux de travail. Cette chaîne distingue les majuscules et minuscules et doit correspondre au nom de l'un des objets d'état. Cet état s'exécute d'abord pour chaque élément de l'ensemble de données. Toute entrée d'exécution que vous fournissez à l'Mapétat passe d'abord à l'StartAtétat.

  • States— JSON Objet contenant un ensemble d'états séparés par des virgules. Dans cet objet, vous définissez leMap workflow.

ItemReader

Spécifie un ensemble de données et son emplacement. L'MapÉtat reçoit ses données d'entrée à partir de l'ensemble de données spécifié.

En mode distribué, vous pouvez utiliser soit une JSON charge utile transmise depuis un état précédent, soit une source de données Amazon S3 à grande échelle comme ensemble de données. Pour de plus amples informations, veuillez consulter ItemReader (Carte).

ItemsPath (facultatif)

Spécifie un chemin de référence à l'aide de la JsonPathsyntaxe permettant de sélectionner le JSON nœud contenant un tableau d'éléments dans l'entrée d'état.

En mode distribué, vous ne spécifiez ce champ que lorsque vous utilisez un JSON tableau d'une étape précédente comme entrée d'état. Pour de plus amples informations, veuillez consulter ItemsPath (Carte).

ItemSelector (facultatif)

Remplace les valeurs des éléments individuels de l'ensemble de données avant qu'elles ne soient transmises à chaque itération Map d'état.

Dans ce champ, vous spécifiez une JSON entrée valide contenant une collection de paires clé-valeur. Ces paires peuvent être soit des valeurs statiques que vous définissez dans la définition de votre machine à états, soit des valeurs sélectionnées à partir de l'entrée d'état à l'aide d'un chemin, soit des valeurs accessibles depuis l'objet de contexte. Pour de plus amples informations, veuillez consulter ItemSelector (Carte).

ItemBatcher (facultatif)

Spécifie de traiter les éléments du jeu de données par lots. Chaque exécution du flux de travail enfant reçoit ensuite un lot de ces éléments en entrée. Pour de plus amples informations, veuillez consulter ItemBatcher (Carte).

MaxConcurrency (facultatif)

Spécifie le nombre d'exécutions de flux de travail enfants qui peuvent être exécutées en parallèle. L'interpréteur n'autorise que le nombre spécifié d'exécutions parallèles de flux de travail enfants. Si vous ne spécifiez pas de valeur de simultanéité ou si vous la définissez sur zéro, Step Functions ne limite pas la simultanéité et exécute 10 000 exécutions parallèles de flux de travail enfants.

Note

Bien que vous puissiez spécifier une limite de simultanéité plus élevée pour les exécutions de flux de travail secondaires parallèles, nous vous recommandons de ne pas dépasser la capacité d'un flux en aval AWS service, tel que AWS Lambda.

MaxConcurrencyPath (facultatif)

Si vous souhaitez fournir une valeur de simultanéité maximale de manière dynamique à partir de l'entrée d'état à l'aide d'un chemin de référence, utilisezMaxConcurrencyPath. Une fois résolu, le chemin de référence doit sélectionner un champ dont la valeur est un entier non négatif.

Note

Un Map état ne peut pas inclure à la fois MaxConcurrency etMaxConcurrencyPath.

ToleratedFailurePercentage (facultatif)

Définit le pourcentage d'objets ayant échoué à tolérer lors d'une exécution cartographique. Le Map Run échoue automatiquement s'il dépasse ce pourcentage. Step Functions calcule le pourcentage d'éléments ayant échoué en divisant le nombre total d'éléments défaillants ou ayant dépassé le délai imparti par le nombre total d'éléments. Vous devez spécifier une valeur comprise entre zéro et 100. Pour de plus amples informations, veuillez consulter Définition de seuils de défaillance pour les états des cartes distribuées dans Step Functions.

ToleratedFailurePercentagePath (facultatif)

Si vous souhaitez fournir une valeur de pourcentage de défaillance tolérée de manière dynamique à partir de l'entrée d'état en utilisant un chemin de référence, utilisezToleratedFailurePercentagePath. Une fois résolu, le chemin de référence doit sélectionner un champ dont la valeur est comprise entre zéro et 100.

ToleratedFailureCount (facultatif)

Définit le nombre d'objets ayant échoué à tolérer lors d'une exécution de carte. Le Map Run échoue automatiquement s'il dépasse ce nombre. Pour de plus amples informations, veuillez consulter Définition de seuils de défaillance pour les états des cartes distribuées dans Step Functions.

ToleratedFailureCountPath (facultatif)

Si vous souhaitez fournir une valeur de nombre de défaillances tolérées de manière dynamique à partir de l'entrée d'état en utilisant un chemin de référence, utilisezToleratedFailureCountPath. Une fois résolu, le chemin de référence doit sélectionner un champ dont la valeur est un entier non négatif.

Label (facultatif)

Chaîne qui identifie un Map état de manière unique. Pour chaque Map Run, Step Functions ajoute l'étiquette à la Map RunARN. Voici un exemple de Map Run ARN avec une étiquette personnalisée nommée demoLabel :

arn:aws:states:us-east-1:123456789012:mapRun:demoWorkflow/demoLabel:3c39a231-69bb-3d89-8607-9e124eddbb0b

Si vous ne spécifiez aucune étiquette, Step Functions génère automatiquement une étiquette unique.

Note

Les étiquettes ne peuvent pas dépasser 40 caractères, doivent être uniques au sein d'une définition de machine à états et ne peuvent contenir aucun des caractères suivants :

  • Espace blanc

  • Caractères génériques () ? *

  • Caractères entre crochets (< > { } [ ])

  • Caractères spéciaux (: ; , \ | ^ ~ $ # % & ` ")

  • Caractères de contrôle (\\u0000- \\u001f ou \\u007f -\\u009f).

Step Functions accepte les noms des machines d'état, des exécutions, des activités et des étiquettes contenant des caractères autres que des ASCII caractères. Comme ces caractères ne fonctionneront pas avec Amazon CloudWatch, nous vous recommandons de n'utiliser que des ASCII caractères afin de pouvoir suivre les statistiques CloudWatch.

ResultWriter (facultatif)

Spécifie l'emplacement Amazon S3 où Step Functions écrit tous les résultats d'exécution du flux de travail enfant.

Step Functions consolide toutes les données d'exécution du flux de travail enfant, telles que les entrées et sorties d'exécutionARN, et le statut d'exécution. Il exporte ensuite les exécutions avec le même statut vers leurs fichiers respectifs à l'emplacement Amazon S3 spécifié. Pour de plus amples informations, veuillez consulter ResultWriter (Carte).

Si vous n'exportez pas les résultats de Map l'état, il renvoie un tableau de tous les résultats d'exécution du flux de travail enfant. Par exemple :

[1, 2, 3, 4, 5]
ResultPath (facultatif)

Spécifie où placer dans l'entrée la sortie des itérations. L'entrée est ensuite filtrée comme spécifié par le OutputPathchamp s'il est présent, avant d'être transmise comme sortie de l'état. Pour plus d'informations, consultez Traitement des entrées et des sorties.

ResultSelector (facultatif)

Transmettez une collection de paires clé-valeur, dont les valeurs sont statiques ou sélectionnées à partir du résultat. Pour de plus amples informations, veuillez consulter ResultSelector.

Astuce

Si l'état Parallel ou Map que vous utilisez dans vos machines d'état renvoie un tableau de tableaux, vous pouvez les transformer en tableau plat avec le ResultSelector champ. Pour de plus amples informations, veuillez consulter Aplatir un tableau de tableaux.

Retry (facultatif)

Tableau d'objets, appelés Retriers, qui définit une politique de nouvelle tentative. Une exécution utilise la politique de nouvelle tentative si l'état rencontre des erreurs d'exécution. Pour de plus amples informations, veuillez consulter Exemples de machines à états utilisant Retry et Catch.

Note

Si vous définissez des récupérateurs pour l'état de la carte distribuée, la politique de nouvelles tentatives s'applique à toutes les exécutions de flux de travail enfants lancées par l'Mapétat. Par exemple, imaginez que votre Map État a lancé trois exécutions de flux de travail secondaires, dont une échoue. Lorsque l'échec se produit, l'exécution utilise le Retry champ, s'il est défini, pour l'Mapétat. La politique de nouvelle tentative s'applique à toutes les exécutions de flux de travail secondaires et pas seulement à celles qui ont échoué. Si une ou plusieurs exécutions de flux de travail enfants échouent, le Map Run échoue.

Lorsque vous réessayez un Map état, il crée un nouveau Map Run.

Catch (facultatif)

Tableau d'objets, nommés Receveurs, qui définissent un état de secours. Step Functions utilise les Catchers définis dans Catch si l'état rencontre des erreurs d'exécution. Lorsqu'une erreur se produit, l'exécution utilise d'abord les récupérateurs définis dansRetry. Si la politique de nouvelle tentative n'est pas définie ou est épuisée, l'exécution utilise ses Catchers, s'ils sont définis. Pour plus d'informations, consultez États de secours.

Définition de seuils de défaillance pour les états des cartes distribuées dans Step Functions

Lorsque vous orchestrez des charges de travail parallèles à grande échelle, vous pouvez également définir un seuil de défaillance toléré. Cette valeur vous permet de spécifier le nombre maximum ou le pourcentage d'éléments ayant échoué comme seuil d'échec pour une exécution cartographique. En fonction de la valeur que vous spécifiez, votre Map Run échoue automatiquement si elle dépasse le seuil. Si vous spécifiez les deux valeurs, le flux de travail échoue lorsqu'il dépasse l'une ou l'autre de ces valeurs.

La spécification d'un seuil vous permet d'échouer à un certain nombre d'éléments avant que la totalité de la Map Run échoue. Step Functions renvoie une States.ExceedToleratedFailureThreshold erreur lorsque le Map Run échoue parce que le seuil spécifié est dépassé.

Note

Step Functions peut continuer à exécuter des flux de travail secondaires dans un Map Run même après le dépassement du seuil d'échec toléré, mais avant que le Map Run échoue.

Pour spécifier la valeur du seuil dans Workflow Studio, sélectionnez Définir un seuil d'échec toléré dans Configuration supplémentaire dans le champ Paramètres d'exécution.

Pourcentage de défaillances tolérées

Définit le pourcentage d'éléments défaillants à tolérer. Votre Map Run échoue si cette valeur est dépassée. Step Functions calcule le pourcentage d'éléments ayant échoué en divisant le nombre total d'éléments défaillants ou ayant dépassé le délai imparti par le nombre total d'éléments. Vous devez spécifier une valeur comprise entre zéro et 100. La valeur en pourcentage par défaut est zéro, ce qui signifie que le flux de travail échoue si l'une de ses exécutions de flux de travail enfant échoue ou expire. Si vous spécifiez le pourcentage comme 100, le flux de travail n'échouera pas même si toutes les exécutions de flux de travail enfants échouent.

Vous pouvez également spécifier le pourcentage comme chemin de référence vers une paire clé-valeur existante dans l'entrée d'état de votre carte distribuée. Ce chemin doit être résolu en un entier positif compris entre 0 et 100 au moment de l'exécution. Vous spécifiez le chemin de référence dans le ToleratedFailurePercentagePath sous-champ.

Par exemple, avec les données d'entrée suivantes :

{ "percentage": 15 }

Vous pouvez spécifier le pourcentage en utilisant un chemin de référence vers cette entrée comme suit :

{ ... "Map": { "Type": "Map", ... "ToleratedFailurePercentagePath": "$.percentage" ... } }
Important

Vous pouvez spécifier l'un ToleratedFailurePercentage ou l'autreToleratedFailurePercentagePath, mais pas les deux dans la définition de l'état de votre carte distribuée.

Nombre de défaillances tolérées

Définit le nombre d'éléments défaillants à tolérer. Votre Map Run échoue si cette valeur est dépassée.

Vous pouvez également spécifier le nombre comme chemin de référence vers une paire clé-valeur existante dans l'entrée d'état de votre carte distribuée. Ce chemin doit être résolu en un entier positif au moment de l'exécution. Vous spécifiez le chemin de référence dans le ToleratedFailureCountPath sous-champ.

Par exemple, avec les données d'entrée suivantes :

{ "count": 10 }

Vous pouvez spécifier le nombre à l'aide d'un chemin de référence vers cette entrée comme suit :

{ ... "Map": { "Type": "Map", ... "ToleratedFailureCountPath": "$.count" ... } }
Important

Vous pouvez spécifier l'un ToleratedFailureCount ou l'autreToleratedFailureCountPath, mais pas les deux dans la définition de l'état de votre carte distribuée.

En savoir plus sur les cartes distribuées

Pour en savoir plus sur l'état des cartes distribuées, consultez les ressources suivantes :