Contenu du ItemReader champ Exemples de jeux de données Politiques IAM pour les ensembles de données

ItemReader (Carte)

Le ItemReader champ est un objet JSON qui spécifie un ensemble de données et son emplacement. L'état d'une carte distribuée utilise ce jeu de données comme entrée.

L'exemple suivant montre la syntaxe du ItemReader champ dans un flux de travail JSONPathbasé, pour un ensemble de données dans un fichier délimité par du texte stocké dans un compartiment Amazon S3.


"ItemReader": {
    "ReaderConfig": {
        "InputType": "CSV",
        "CSVHeaderLocation": "FIRST_ROW"
    },
    "Resource": "arn:aws:states:::s3:getObject",
    "Parameters": {
        "Bucket": "myBucket",
        "Key": "csvDataset/ratings.csv",
        "VersionId": "BcK42coT2jE1234VHLUvBV1yLNod2OEt"
    }
}

L'exemple suivant montre que dans les flux de travail JSONata basés, Parameters il est remplacé par Arguments.


"ItemReader": {
    "ReaderConfig": {
        "InputType": "CSV",
        "CSVHeaderLocation": "FIRST_ROW"
    },
    "Resource": "arn:aws:states:::s3:getObject",
    "Arguments": {
        "Bucket": "amzn-s3-demo-bucket",
        "Key": "csvDataset/ratings.csv"
    }
}

Astuce

Dans Workflow Studio, vous spécifiez le jeu de données et son emplacement dans le champ Source de l'élément.

Table des matières

Contenu du ItemReader champ
Exemples de jeux de données
Politiques IAM pour les ensembles de données

Contenu du ItemReader champ

Le contenu du ItemReader champ varie en fonction de votre jeu de données. Par exemple, si votre ensemble de données est un tableau JSON transmis lors d'une étape précédente du flux de travail, le ItemReader champ est omis. Si votre ensemble de données est une source de données Amazon S3, ce champ contient les sous-champs suivants.

ReaderConfig

Un objet JSON qui spécifie les détails suivants :

InputType

Accepte l'une des valeurs suivantes :CSV,JSON,JSONL,MANIFEST.

Spécifie le type de source de données Amazon S3, comme un fichier délimité par du texte (CSV), un objet, un fichier JSON, des lignes JSON ou une liste d'inventaire Amazon S3. Dans Workflow Studio, vous pouvez sélectionner un type d'entrée dans la liste déroulante des sources d'articles Amazon S3 sous le champ Source de l'article.
CSVDelimiter

Spécifiez ce champ uniquement si vous utilisez CSV asInputType, qui indique un fichier délimité par du texte. Accepte l'une des valeurs suivantes : COMMA (par défaut)PIPE,SEMICOLON,SPACE,TAB.

Note
Le CSVDelimiter champ offre une ItemReader plus grande flexibilité pour prendre en charge les fichiers délimités par d'autres caractères que la virgule. Supposons donc que nos références aux fichiers CSV incluent ItemReader également les fichiers utilisant des délimiteurs acceptés par le CSVDelimiter champ.
CSVHeaderLocation

Obligatoire dans InputType l'CSVaffirmative, ce qui indique un fichier délimité par du texte dont les délimiteurs sont acceptés par le CSVDelimiter champ.

Accepte l'une des valeurs suivantes pour spécifier l'emplacement de l'en-tête de colonne :
- FIRST_ROW— Utilisez cette option si la première ligne du fichier est l'en-tête.
- GIVEN— Utilisez cette option pour spécifier l'en-tête dans la définition de la machine à états. Par exemple, si votre fichier contient les données suivantes.
```
1,307,3.5,1256677221
1,481,3.5,1256677456
1,1091,1.5,1256677471
...
```
  Fournissez le tableau JSON suivant sous forme d'en-tête CSV.
```
"ItemReader": {
    "ReaderConfig": {
        "InputType": "CSV",
        "CSVHeaderLocation": "GIVEN",
        "CSVHeaders": [
            "userId",
            "movieId",
            "rating",
            "timestamp"
        ]
    }
}
```
Important
À l'heure actuelle, Step Functions prend en charge des en-têtes allant jusqu'à 10 KiB pour les fichiers délimités par du texte.

Astuce
Dans Workflow Studio, vous pouvez trouver cette option sous Configuration supplémentaire dans le champ Source de l'élément.
MaxItems

Limite le nombre d'éléments de données transmis à l'Mapétat. Supposons, par exemple, que vous fournissiez un fichier délimité par du texte contenant 1 000 lignes et que vous spécifiiez une limite de 100. Ensuite, l'interpréteur ne transmet que 100 lignes à l'Mapétat. L'Mapétat traite les éléments dans un ordre séquentiel, en commençant après la ligne d'en-tête.

Par défaut, l'Mapétat itère sur tous les éléments de l'ensemble de données spécifié.

Note
À l'heure actuelle, vous pouvez définir une limite maximale de 100 000 000. L'état de la carte distribuée arrête de lire les éléments au-delà de cette limite.

Astuce
Dans Workflow Studio, vous pouvez trouver cette option sous Configuration supplémentaire dans le champ Source de l'élément.

Vous pouvez également spécifier un chemin de référence vers une paire clé-valeur existante dans l'entrée d'état de votre carte distribuée. Ce chemin doit être résolu en un entier positif. Vous spécifiez le chemin de référence dans le MaxItemsPath sous-champ.

Important
Vous pouvez spécifier le champ MaxItems ou le MaxItemsPath sous-champ, mais pas les deux.

Resource

L'action d'API Amazon S3 que Step Functions doit invoquer en fonction de l'ensemble de données spécifié.

Parameters

Objet JSON qui spécifie le nom du compartiment Amazon S3 et la clé d'objet dans lesquels l'ensemble de données est stocké. Dans ce champ, vous pouvez également fournir la version de l'objet Amazon S3, si le contrôle de version est activé sur le compartiment.

Important

Assurez-vous que vos compartiments Amazon S3 se trouvent dans le même Compte AWS emplacement Région AWS que votre machine à états.

Notez que même si votre machine à états peut accéder à des fichiers dans des compartiments situés dans différents compartiments se trouvant dans Comptes AWS les mêmes compartiments Région AWS, Step Functions prend uniquement en charge les machines à états pour répertorier les objets dans les compartiments S3 qui se trouvent à la fois dans la même Compte AWS machine Région AWS que la machine à états.

Exemples de jeux de données

Vous pouvez définir l'une des options suivantes comme jeu de données :

Tableau JSON d'une étape précédente
Liste des objets Amazon S3
Fichier JSON dans un compartiment Amazon S3
Fichier JSON Lines dans un compartiment Amazon S3
Fichier CSV dans un compartiment Amazon S3
Liste d'inventaire Amazon S3

Important

Step Functions a besoin des autorisations appropriées pour accéder aux ensembles de données Amazon S3 que vous utilisez. Pour plus d'informations sur les politiques IAM relatives aux ensembles de données, consultez. Politiques IAM pour les ensembles de données

L'état d'une carte distribuée peut accepter une entrée JSON transmise depuis une étape précédente du flux de travail. Cette entrée doit être soit un tableau, soit contenir un tableau au sein d'un nœud spécifique. Pour sélectionner un nœud contenant le tableau, vous pouvez utiliser le ItemsPath (Carte, JSONPath uniquement) champ.

Pour traiter les éléments individuels du tableau, l'état de la carte distribuée lance l'exécution d'un flux de travail enfant pour chaque élément du tableau. Les onglets suivants présentent des exemples d'entrée transmise à l'Mapétat et d'entrée correspondante à l'exécution d'un flux de travail enfant.

Note

Step Functions omet le ItemReader champ lorsque votre ensemble de données est un tableau JSON issu d'une étape précédente.

L'état d'une carte distribuée peut être itéré sur les objets stockés dans un compartiment Amazon S3. Lorsque l'exécution du flux de travail atteint Map cet état, Step Functions invoque l'action API ListObjectsV2, qui renvoie un tableau des métadonnées de l'objet Amazon S3. Dans ce tableau, chaque élément contient des données, telles que ETaget Key, pour les données stockées dans le compartiment.

Pour traiter les éléments individuels du tableau, l'état de la carte distribuée lance l'exécution d'un flux de travail enfant. Supposons, par exemple, que votre compartiment Amazon S3 contienne 100 images. Ensuite, le tableau renvoyé après avoir appelé l'action d'ListObjectsV2API contient 100 éléments. L'état de la carte distribuée lance ensuite 100 exécutions de flux de travail secondaires pour traiter chaque élément du tableau.

Note

Actuellement, Step Functions inclut également un élément pour chaque dossier que vous créez dans un compartiment Amazon S3 spécifique à l'aide de la console Amazon S3. Cela entraîne l'exécution d'un flux de travail secondaire supplémentaire lancé par l'état de la carte distribuée. Pour éviter de créer une exécution de flux de travail secondaire supplémentaire pour le dossier, nous vous recommandons d'utiliser le AWS CLI pour créer des dossiers. Pour plus d'informations, consultez la section Commandes Amazon S3 de haut niveau dans le guide de AWS Command Line Interface l'utilisateur.
Step Functions a besoin des autorisations appropriées pour accéder aux ensembles de données Amazon S3 que vous utilisez. Pour plus d'informations sur les politiques IAM relatives aux ensembles de données, consultez. Politiques IAM pour les ensembles de données

Les onglets suivants présentent des exemples de syntaxe de ItemReader champ et d'entrée transmise à l'exécution d'un flux de travail enfant pour cet ensemble de données.

L'état d'une carte distribuée peut accepter un fichier JSON stocké dans un compartiment Amazon S3 en tant que jeu de données. Le fichier JSON doit contenir un tableau.

Lorsque l'exécution du flux de travail atteint Map cet état, Step Functions invoque l'action GetObjectAPI pour récupérer le fichier JSON spécifié. L'Mapétat itère ensuite sur chaque élément du tableau et lance l'exécution d'un flux de travail secondaire pour chaque élément. Par exemple, si votre fichier JSON contient 1 000 éléments de tableau, l'Mapétat lance 1 000 exécutions de flux de travail enfants.

Note

L'entrée d'exécution utilisée pour démarrer l'exécution d'un flux de travail enfant ne peut pas dépasser 256 KiB. Step Functions permet toutefois de lire un élément d'une taille maximale de 8 Mo à partir d'un fichier délimité par du texte, d'un fichier JSON ou d'un fichier JSON Lines si vous appliquez ensuite le ItemSelector champ facultatif pour réduire la taille de l'élément.
Actuellement, Step Functions prend en charge 10 Go comme taille maximale d'un fichier individuel dans Amazon S3.
Step Functions a besoin des autorisations appropriées pour accéder aux ensembles de données Amazon S3 que vous utilisez. Pour plus d'informations sur les politiques IAM relatives aux ensembles de données, consultez. Politiques IAM pour les ensembles de données

Les onglets suivants présentent des exemples de syntaxe de ItemReader champ et d'entrée transmise à l'exécution d'un flux de travail enfant pour cet ensemble de données.

Pour cet exemple, imaginez que vous avez un fichier JSON nomméfactcheck.json. Vous avez stocké ce fichier dans un préfixe nommé jsonDataset dans un compartiment Amazon S3. Voici un exemple de jeu de données JSON.


[
  {
    "verdict": "true",
    "statement_date": "6/11/2008",
    "statement_source": "speech"
  },
  {
    "verdict": "false",
    "statement_date": "6/7/2022",
    "statement_source": "television"
  },
  {
    "verdict": "mostly-true",
    "statement_date": "5/18/2016",
    "statement_source": "news"
  },
  ...
]

L'état d'une carte distribuée peut accepter un fichier JSON Lines stocké dans un compartiment Amazon S3 en tant que jeu de données.

Note

L'entrée d'exécution utilisée pour démarrer l'exécution d'un flux de travail enfant ne peut pas dépasser 256 KiB. Step Functions permet toutefois de lire un élément d'une taille maximale de 8 Mo à partir d'un fichier délimité par du texte, d'un fichier JSON ou d'un fichier JSON Lines si vous appliquez ensuite le ItemSelector champ facultatif pour réduire la taille de l'élément.
Actuellement, Step Functions prend en charge 10 Go comme taille maximale d'un fichier individuel dans Amazon S3.
Step Functions a besoin des autorisations appropriées pour accéder aux ensembles de données Amazon S3 que vous utilisez. Pour plus d'informations sur les politiques IAM relatives aux ensembles de données, consultez. Politiques IAM pour les ensembles de données

Les onglets suivants présentent des exemples de syntaxe de ItemReader champ et d'entrée transmise à l'exécution d'un flux de travail enfant pour cet ensemble de données.

Pour cet exemple, imaginez que vous avez un fichier JSON Lines nomméfactcheck.jsonl. Vous avez stocké ce fichier dans un préfixe nommé jsonlDataset dans un compartiment Amazon S3. Voici un exemple du contenu du fichier.


{"verdict": "true", "statement_date": "6/11/2008", "statement_source": "speech"} 
{"verdict": "false", "statement_date": "6/7/2022", "statement_source": "television"}
{"verdict": "mostly-true", "statement_date": "5/18/2016", "statement_source": "news"}

Note

Le CSVDelimiter champ offre une ItemReader plus grande flexibilité pour prendre en charge les fichiers délimités par d'autres caractères que la virgule. Supposons donc que nos références aux fichiers CSV incluent ItemReader également les fichiers utilisant des délimiteurs acceptés par le CSVDelimiter champ.

L'état d'une carte distribuée peut accepter un fichier délimité par du texte stocké dans un compartiment Amazon S3 en tant que jeu de données. Si vous utilisez un fichier délimité par du texte comme ensemble de données, vous devez spécifier un en-tête de colonne. Pour plus d'informations sur la manière de spécifier un en-tête, consultezContenu du ItemReader champ.

Step Functions analyse les fichiers délimités par du texte selon les règles suivantes :

Le délimiteur qui sépare les champs est spécifié par CSVDelimiter in ReaderConfig. Le délimiteur est défini par défaut sur. COMMA
Les nouvelles lignes sont un séparateur qui sépare les enregistrements.
Les champs sont traités comme des chaînes. Pour les conversions de type de données, utilisez la fonction States.StringToJson intrinsèque dansItemSelector (Carte).
Les guillemets doubles (» «) ne sont pas obligatoires pour entourer les chaînes. Toutefois, les chaînes placées entre guillemets doubles peuvent contenir des virgules et des nouvelles lignes sans agir comme des délimiteurs d'enregistrement.
Vous pouvez conserver les guillemets doubles en les répétant.
Si le nombre de champs d'une ligne est inférieur au nombre de champs de l'en-tête, Step Functions fournit des chaînes vides pour les valeurs manquantes.
Si le nombre de champs d'une ligne est supérieur au nombre de champs de l'en-tête, Step Functions ignore les champs supplémentaires.

Pour plus d'informations sur la façon dont Step Functions analyse un fichier délimité par du texte, consultez. Example of parsing an input CSV file

Lorsque l'exécution du flux de travail atteint Map cet état, Step Functions invoque l'action GetObjectAPI pour récupérer le fichier spécifié. L'Mapétat itère ensuite sur chaque ligne du fichier et lance l'exécution d'un flux de travail enfant pour traiter les éléments de chaque ligne. Supposons, par exemple, que vous fournissiez un fichier délimité par du texte contenant 100 lignes en entrée. Ensuite, l'interpréteur passe chaque ligne à l'Mapétat. L'Mapétat traite les éléments par ordre de série, en commençant après la ligne d'en-tête.

Note

L'entrée d'exécution utilisée pour démarrer l'exécution d'un flux de travail enfant ne peut pas dépasser 256 KiB. Step Functions permet toutefois de lire un élément d'une taille maximale de 8 Mo à partir d'un fichier délimité par du texte, d'un fichier JSON ou d'un fichier JSON Lines si vous appliquez ensuite le ItemSelector champ facultatif pour réduire la taille de l'élément.
Actuellement, Step Functions prend en charge 10 Go comme taille maximale d'un fichier individuel dans Amazon S3.
Step Functions a besoin des autorisations appropriées pour accéder aux ensembles de données Amazon S3 que vous utilisez. Pour plus d'informations sur les politiques IAM relatives aux ensembles de données, consultez. Politiques IAM pour les ensembles de données

Les onglets suivants présentent des exemples de syntaxe de ItemReader champ et d'entrée transmise à l'exécution d'un flux de travail enfant pour cet ensemble de données.

Un état de carte distribuée peut accepter un fichier manifeste d'inventaire Amazon S3 stocké dans un compartiment Amazon S3 en tant que jeu de données.

Lorsque l'exécution du flux de travail atteint son Map état, Step Functions invoque l'action GetObjectAPI pour récupérer le fichier manifeste d'inventaire Amazon S3 spécifié. L'Mapétat passe ensuite en revue les objets de l'inventaire pour renvoyer un tableau de métadonnées des objets d'inventaire Amazon S3.

Note

Actuellement, Step Functions prend en charge 10 Go comme taille maximale d'un fichier individuel dans un rapport d'inventaire Amazon S3 après décompression. Step Functions peut toutefois traiter plus de 10 Go si la taille de chaque fichier est inférieure à 10 Go.
Step Functions a besoin des autorisations appropriées pour accéder aux ensembles de données Amazon S3 que vous utilisez. Pour plus d'informations sur les politiques IAM relatives aux ensembles de données, consultez. Politiques IAM pour les ensembles de données

Voici un exemple de fichier d'inventaire au format CSV. Ce fichier inclut les objets nommés csvDataset etimageDataset, qui sont stockés dans un compartiment Amazon S3 nomméamzn-s3-demo-source-bucket.


"amzn-s3-demo-source-bucket","csvDataset/","0","2022-11-16T00:27:19.000Z"
"amzn-s3-demo-source-bucket","csvDataset/titles.csv","3399671","2022-11-16T00:29:32.000Z"
"amzn-s3-demo-source-bucket","imageDataset/","0","2022-11-15T20:00:44.000Z"
"amzn-s3-demo-source-bucket","imageDataset/n02085620_10074.jpg","27034","2022-11-15T20:02:16.000Z"
...

Important

À l'heure actuelle, Step Functions ne prend pas en charge le rapport d'inventaire Amazon S3 défini par l'utilisateur sous forme de jeu de données. Vous devez également vous assurer que le format de sortie de votre rapport d'inventaire Amazon S3 est CSV. Pour plus d'informations sur les inventaires Amazon S3 et sur la façon de les configurer, consultez Amazon S3 Inventory dans le guide de l'utilisateur Amazon S3.

L'exemple suivant de fichier manifeste d'inventaire montre les en-têtes CSV des métadonnées des objets d'inventaire.


{
  "sourceBucket" : "amzn-s3-demo-source-bucket",
  "destinationBucket" : "arn:aws:s3:::amzn-s3-demo-inventory",
  "version" : "2016-11-30",
  "creationTimestamp" : "1668560400000",
  "fileFormat" : "CSV",
  "fileSchema" : "Bucket, Key, Size, LastModifiedDate",
  "files" : [ {
    "key" : "amzn-s3-demo-bucket/destination-prefix/data/20e55de8-9c21-45d4-99b9-46c732000228.csv.gz",
    "size" : 7300,
    "MD5checksum" : "a7ff4a1d4164c3cd55851055ec8f6b20"
  } ]
}

Les onglets suivants présentent des exemples de syntaxe de ItemReader champ et d'entrée transmise à l'exécution d'un flux de travail enfant pour cet ensemble de données.

Politiques IAM pour les ensembles de données

Lorsque vous créez des flux de travail avec la console Step Functions, Step Functions peut générer automatiquement des politiques IAM en fonction des ressources figurant dans votre définition de flux de travail. Ces politiques incluent le minimum de privilèges nécessaires pour permettre au rôle de machine d'état d'invoquer l'action d'StartExecutionAPI pour l'état de la carte distribuée. Ces politiques incluent également le minimum de privilèges nécessaires aux Step Functions pour accéder aux AWS ressources, telles que les buckets et les objets Amazon S3 et les fonctions Lambda. Nous vous recommandons vivement de n'inclure que les autorisations nécessaires dans vos politiques IAM. Par exemple, si votre flux de travail inclut un Map état en mode distribué, limitez vos politiques au compartiment et au dossier Amazon S3 spécifiques qui contiennent votre ensemble de données.

Important

Si vous spécifiez un compartiment et un objet Amazon S3, ou un préfixe, avec un chemin de référence vers une paire clé-valeur existante dans l'entrée d'état de votre carte distribuée, assurez-vous de mettre à jour les politiques IAM pour votre flux de travail. Élargissez les politiques jusqu'au bucket et aux noms d'objets auxquels le chemin aboutit au moment de l'exécution.

Les exemples de politique IAM suivants accordent le minimum de privilèges requis pour accéder à vos ensembles de données Amazon S3 à l'aide des actions ListObjectsV2 et GetObjectAPI.

Exemple Politique IAM pour les objets Amazon S3 en tant que jeu de données

L'exemple suivant montre une politique IAM qui accorde le moins de privilèges pour accéder aux objets organisés processImages dans un compartiment Amazon S3 nomméamzn-s3-demo-bucket.


{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "s3:ListBucket"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket"
            ],
            "Condition": {
                "StringLike": {
                    "s3:prefix": [
                        "processImages"
                    ]
                }
            }
        }
    ]
}

Exemple Politique IAM pour un fichier CSV en tant que jeu de données

L'exemple suivant montre une politique IAM qui accorde le moins de privilèges pour accéder à un fichier CSV nommératings.csv.


{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "s3:GetObject"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket/csvDataset/ratings.csv"
            ]
        }
    ]
}

Exemple Politique IAM pour un inventaire Amazon S3 sous forme de jeu de données

L'exemple suivant montre une politique IAM qui accorde le moins de privilèges pour accéder à un rapport d'inventaire Amazon S3.


{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "s3:GetObject"
            ],
            "Resource": [
                "arn:aws:s3:::myDestination-prefix/amzn-s3-demo-bucket/myConfig-id/YYYY-MM-DDTHH-MMZ/manifest.json",
                "arn:aws:s3:::myDestination-prefix/amzn-s3-demo-bucket/myConfig-id/data/*"
            ]
        }
    ]
}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Mappez les champs d'entrée et de sortie d'état dans Step Functions

ItemsPath