ItemReader (Mapa) - AWS Step Functions

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

ItemReader (Mapa)

El ItemReader campo es un JSON objeto que especifica un conjunto de datos y su ubicación. Un estado Map Distributed usa este conjunto de datos como entrada. En el siguiente ejemplo, se muestra la sintaxis del ItemReader campo si el conjunto de datos es un CSV archivo almacenado en un bucket de Amazon S3.

"ItemReader": { "ReaderConfig": { "InputType": "CSV", "CSVHeaderLocation": "FIRST_ROW" }, "Resource": "arn:aws:states:::s3:getObject", "Parameters": { "Bucket": "myBucket", "Key": "csvDataset/ratings.csv" } }
sugerencia

En Workflow Studio, se especifica el conjunto de datos y su ubicación en el campo Fuente del elemento.

Contenido del ItemReader campo

El contenido del campo ItemReader varía según el conjunto de datos. Por ejemplo, si el conjunto de datos es una JSON matriz pasada desde un paso anterior del flujo de trabajo, el ItemReader campo se omite. Si el conjunto de datos es un origen de datos de Amazon S3, este campo contiene los siguientes subcampos.

ReaderConfig

Un JSON objeto que especifica los siguientes detalles:

  • InputType

    Especifica el tipo de fuente de datos de Amazon S3, como un CSV archivo, un objeto, un JSON archivo o una lista de inventario de Amazon S3. En Workflow Studio, puede seleccionar un tipo de entrada de la lista desplegable Origen del elemento de Amazon S3 en el campo Fuente del elemento.

  • CSVHeaderLocation

    nota

    Debe especificar este campo solo si utiliza un CSV archivo como conjunto de datos.

    Acepta uno de los siguientes valores para especificar la ubicación del encabezado de la columna:

    importante

    Actualmente, Step Functions admite CSV encabezados de hasta 10 KB.

    • FIRST_ROW – Utilice esta opción si la primera línea del archivo es el encabezado.

    • GIVEN – Utilice esta opción para especificar el encabezado dentro de la definición de la máquina de estado. Por ejemplo, si el CSV archivo contiene los siguientes datos.

      1,307,3.5,1256677221 1,481,3.5,1256677456 1,1091,1.5,1256677471 ...

      Proporcione la siguiente JSON matriz como CSV encabezado.

      "ItemReader": { "ReaderConfig": { "InputType": "CSV", "CSVHeaderLocation": "GIVEN", "CSVHeaders": [ "userId", "movieId", "rating", "timestamp" ] } }
    sugerencia

    En Workflow Studio, puede encontrar esta opción en Configuración adicional, en el campo Fuente del elemento.

  • MaxItems

    Limita el número de elementos de datos que se pasan al estado Map. Por ejemplo, supongamos que proporciona un CSV archivo que contiene 1000 filas y especifica un límite de 100. Entonces, el intérprete pasa solo 100 filas al estado Map. El estado Map procesa los elementos en orden secuencial, a partir de la fila siguiente al encabezado.

    De forma predeterminada, el estado Map se repite en todos los elementos del conjunto de datos especificado.

    nota

    Actualmente, puede especificar un límite de hasta 100 000 000. El estado Map Distributed deja de leer los elementos que superen este límite.

    sugerencia

    En Workflow Studio, puede encontrar esta opción en Configuración adicional, en el campo Fuente del elemento.

    También puede especificar una ruta de referencia a un par clave-valor existente en la entrada del estado Map Distributed. Esta ruta debe convertirse en un número entero positivo. La ruta de referencia se especifica en el subcampo MaxItemsPath.

    importante

    Puede especificar el subcampo MaxItems o MaxItemsPath, pero no ambos.

Resource

La API acción de Amazon S3 que Step Functions debe invocar depende del conjunto de datos especificado.

Parameters

Un JSON objeto que especifica el nombre del bucket de Amazon S3 y la clave de objeto en los que se almacena el conjunto de datos.

importante

Asegúrese de que los buckets de Amazon S3 estén en la misma máquina de estado Cuenta de AWS y en la Región de AWS misma.

Ejemplos de conjuntos de datos

Puede especificar una de las opciones siguientes como conjunto de datos:

importante

Step Functions necesita los permisos adecuados para obtener acceso a los conjuntos de datos de Amazon S3 que utilice. Para obtener información sobre IAM las políticas de los conjuntos de datos, consulteIAMpolíticas para conjuntos de datos.

Un estado de mapa distribuido puede aceptar una JSON entrada pasada desde un paso anterior del flujo de trabajo. Esta entrada debe ser una matriz o debe contener una matriz dentro de un nodo específico. Para seleccionar un nodo que contenga la matriz, puede usar el campo ItemsPath (Mapa).

Para procesar los elementos individuales de la matriz, el estado Map Distributed inicia la ejecución de un flujo de trabajo secundario para cada elemento de la matriz. Las siguientes pestañas muestran ejemplos de la entrada que se transfiere al estado Map y la entrada correspondiente a la ejecución de un flujo de trabajo secundario.

nota

Step Functions omite el ItemReader campo cuando el conjunto de datos es una JSON matriz de un paso anterior.

Input passed to the Map state

Considera la siguiente JSON matriz de tres elementos.

"facts": [ { "verdict": "true", "statement_date": "6/11/2008", "statement_source": "speech" }, { "verdict": "false", "statement_date": "6/7/2022", "statement_source": "television" }, { "verdict": "mostly-true", "statement_date": "5/18/2016", "statement_source": "news" } ]
Input passed to a child workflow execution

El estado Map Distributed inicia tres ejecuciones de flujos de trabajo secundarios. Cada ejecución recibe un elemento de matriz como entrada. El siguiente ejemplo muestra la entrada recibida por la ejecución de un flujo de trabajo secundario.

{ "verdict": "true", "statement_date": "6/11/2008", "statement_source": "speech" }

Un estado Map Distributed puede iterar sobre los objetos que se almacenan en un bucket de Amazon S3. Cuando la ejecución del flujo de trabajo alcanza el Map estado, Step Functions invoca la API acción ListObjectsV2, que devuelve una matriz de metadatos del objeto Amazon S3. En esta matriz, cada elemento contiene datos, como ETaguna clave, para los datos almacenados en el depósito.

Para procesar los elementos individuales de la matriz, el estado Map Distributed inicia la ejecución de un flujo de trabajo secundario. Por ejemplo, suponga que su bucket de Amazon S3 contiene 100 imágenes. A continuación, la matriz devuelta tras invocar la ListObjectsV2 API acción contiene 100 elementos. A continuación, el estado Map Distributed inicia 100 ejecuciones de flujos de trabajo secundarios para procesar cada elemento de la matriz.

nota
  • En la actualidad, Step Functions también incluye un elemento para cada carpeta que cree en un bucket de Amazon S3 específico utilizando la consola de Amazon S3. Esto se traduce en una ejecución de flujo de trabajo secundaria adicional iniciada por el estado Map Distributed. Para evitar crear una ejecución de flujo de trabajo secundaria adicional para la carpeta, le recomendamos que la utilice AWS CLI para crear carpetas. Para obtener más información, consulte Uso de comandos de S3 de alto nivel en la Guía del usuario de AWS Command Line Interface .

  • Step Functions necesita los permisos adecuados para obtener acceso a los conjuntos de datos de Amazon S3 que utilice. Para obtener información sobre IAM las políticas de los conjuntos de datos, consulteIAMpolíticas para conjuntos de datos.

En las siguientes pestañas se muestran ejemplos de la sintaxis del campo ItemReader y de la entrada que se transfiere a la ejecución de un flujo de trabajo secundario para este conjunto de datos.

ItemReader syntax

En este ejemplo, ha organizado sus datos, que incluyen imágenes, JSON archivos y objetos, dentro de un prefijo nombrado processData en un bucket de Amazon S3 denominadomyBucket.

"ItemReader": { "Resource": "arn:aws:states:::s3:listObjectsV2", "Parameters": { "Bucket": "myBucket", "Prefix": "processData" } }
Input passed to a child workflow execution

El estado Map Distributed inicia tantas ejecuciones de flujos de trabajo secundarios como el número de elementos presentes en el bucket de Amazon S3. El siguiente ejemplo muestra la entrada recibida por la ejecución de un flujo de trabajo secundario.

{ "Etag": "\"05704fbdccb224cb01c59005bebbad28\"", "Key": "processData/images/n02085620_1073.jpg", "LastModified": 1668699881, "Size": 34910, "StorageClass": "STANDARD" }

Un estado de mapa distribuido puede aceptar un JSON archivo almacenado en un bucket de Amazon S3 como conjunto de datos. El JSON archivo debe contener una matriz.

Cuando la ejecución del flujo de trabajo alcanza el Map estado, Step Functions invoca la GetObjectAPIacción para recuperar el archivo especificadoJSON. A continuación, el estado Map se repite sobre cada elemento de la matriz e inicia la ejecución de un flujo de trabajo secundario para cada elemento. Por ejemplo, si el JSON archivo contiene 1000 elementos de matriz, el Map estado inicia 1000 ejecuciones de flujos de trabajo secundarios.

nota
  • La entrada de ejecución utilizada para iniciar la ejecución de un flujo de trabajo secundario no puede superar los 256 KB. Sin embargo, Step Functions permite leer un elemento de hasta 8 MB de un JSON archivo CSV o si, a continuación, se aplica el ItemSelector campo opcional para reducir el tamaño del elemento.

  • Actualmente, Step Functions admite 10 GB como tamaño máximo de un archivo individual en un informe de inventario de Amazon S3. Sin embargo, Step Functions puede procesar más de 10 GB si cada archivo individual tiene menos de 10 GB.

  • Step Functions necesita los permisos adecuados para obtener acceso a los conjuntos de datos de Amazon S3 que utilice. Para obtener información sobre IAM las políticas de los conjuntos de datos, consulteIAMpolíticas para conjuntos de datos.

En las siguientes pestañas se muestran ejemplos de la sintaxis del campo ItemReader y de la entrada que se transfiere a la ejecución de un flujo de trabajo secundario para este conjunto de datos.

Para este ejemplo, imagine que tiene un JSON archivo llamadofactcheck.json. Ha almacenado este archivo en un prefijo llamado jsonDataset en un bucket de Amazon S3. El siguiente es un ejemplo del JSON conjunto de datos.

[ { "verdict": "true", "statement_date": "6/11/2008", "statement_source": "speech" }, { "verdict": "false", "statement_date": "6/7/2022", "statement_source": "television" }, { "verdict": "mostly-true", "statement_date": "5/18/2016", "statement_source": "news" }, ... ]
ItemReader syntax
"ItemReader": { "Resource": "arn:aws:states:::s3:getObject", "ReaderConfig": { "InputType": "JSON" }, "Parameters": { "Bucket": "myBucket", "Key": "jsonDataset/factcheck.json" } }
Input to a child workflow execution

El estado del mapa distribuido inicia tantas ejecuciones de flujos de trabajo secundarios como el número de elementos de la matriz presentes en el JSON archivo. El siguiente ejemplo muestra la entrada recibida por la ejecución de un flujo de trabajo secundario.

{ "verdict": "true", "statement_date": "6/11/2008", "statement_source": "speech" }

Un estado de mapa distribuido puede aceptar un CSV archivo almacenado en un bucket de Amazon S3 como conjunto de datos. Si usa un CSV archivo como conjunto de datos, debe especificar un encabezado de CSV columna. Para obtener información sobre cómo especificar un CSV encabezado, consulteContenido del ItemReader campo.

Como no existe un formato estandarizado para crear y mantener los datos en los CSV archivos, Step Functions analiza CSV los archivos según las siguientes reglas:

  • Las comas (,) son un delimitador que separa los campos individuales.

  • Los retornos de carro son un delimitador que separa los registros individuales.

  • Los campos se tratan como cadenas. Para las conversiones de tipos de datos, utilice la función intrínseca States.StringToJson en ItemSelector (Mapa).

  • No es necesario incluir comillas dobles (" ") para delimitar cadenas. No obstante, las cadenas entre comillas dobles pueden contener comas y retornos de carro sin que funcionen como delimitadores.

  • Para incluir las comillas dobles en una secuencia de escape, repítalas.

  • Si el número de campos de una fila es inferior al número de campos del encabezado, Step Functions proporciona cadenas vacías para los valores que faltan.

  • Si el número de campos de una fila es mayor que el número de campos del encabezado, Step Functions omite los campos adicionales.

Para obtener más información sobre cómo Step Functions analiza un CSV archivo, consulteExample of parsing an input CSV file.

Cuando la ejecución del flujo de trabajo alcanza el Map estado, Step Functions invoca la GetObjectAPIacción para recuperar el archivo especificadoCSV. A continuación, el Map estado se repite en cada fila del CSV archivo e inicia la ejecución de un flujo de trabajo secundario para procesar los elementos de cada fila. Por ejemplo, supongamos que proporciona un CSV archivo que contiene 100 filas como entrada. Entonces, el intérprete pasa cada fila al estado Map. El estado Map procesa los elementos en orden de serie, a partir de la fila siguiente al encabezado.

nota
  • La entrada de ejecución utilizada para iniciar la ejecución de un flujo de trabajo secundario no puede superar los 256 KB. Sin embargo, Step Functions permite leer un elemento de hasta 8 MB de un JSON archivo CSV o si, a continuación, se aplica el ItemSelector campo opcional para reducir el tamaño del elemento.

  • Actualmente, Step Functions admite 10 GB como tamaño máximo de un archivo individual en un informe de inventario de Amazon S3. Sin embargo, Step Functions puede procesar más de 10 GB si cada archivo individual tiene menos de 10 GB.

  • Step Functions necesita los permisos adecuados para obtener acceso a los conjuntos de datos de Amazon S3 que utilice. Para obtener información sobre IAM las políticas de los conjuntos de datos, consulteIAMpolíticas para conjuntos de datos.

En las siguientes pestañas se muestran ejemplos de la sintaxis del campo ItemReader y de la entrada que se transfiere a la ejecución de un flujo de trabajo secundario para este conjunto de datos.

ItemReader syntax

Por ejemplo, supongamos que tiene un CSV archivo llamadoratings.csv. A continuación, ha almacenado este archivo dentro de un prefijo llamado csvDataset en un bucket de Amazon S3.

{ "ItemReader": { "ReaderConfig": { "InputType": "CSV", "CSVHeaderLocation": "FIRST_ROW" }, "Resource": "arn:aws:states:::s3:getObject", "Parameters": { "Bucket": "myBucket", "Key": "csvDataset/ratings.csv" } } }
Input to a child workflow execution

El estado del mapa distribuido inicia tantas ejecuciones de flujos de trabajo secundarios como el número de filas presentes en el CSV archivo, excluida la fila de cabecera, si está en el archivo. El siguiente ejemplo muestra la entrada recibida por la ejecución de un flujo de trabajo secundario.

{ "rating": "3.5", "movieId": "307", "userId": "1", "timestamp": "1256677221" }

Un estado Map Distributed puede aceptar un archivo de manifiesto de inventario de Amazon S3 almacenado en un bucket de Amazon S3 como conjunto de datos.

Cuando la ejecución del flujo de trabajo alcanza el Map estado, Step Functions invoca la GetObjectAPIacción para recuperar el archivo de manifiesto de inventario de Amazon S3 especificado. A continuación, el estado Map recorre en iteración los objetos del inventario para devolver una matriz de metadatos de objetos de inventario de Amazon S3.

nota
  • Actualmente, Step Functions admite 10 GB como tamaño máximo de un archivo individual en un informe de inventario de Amazon S3. Sin embargo, Step Functions puede procesar más de 10 GB si cada archivo individual tiene menos de 10 GB.

  • Step Functions necesita los permisos adecuados para obtener acceso a los conjuntos de datos de Amazon S3 que utilice. Para obtener información sobre IAM las políticas de los conjuntos de datos, consulte. IAMpolíticas para conjuntos de datos

A continuación se muestra un ejemplo de fichero de inventario en CSV formato. Este archivo incluye los objetos denominados csvDataset yimageDataset, que se almacenan en un bucket de Amazon S3 que lleva ese nombre sourceBucket.

"sourceBucket","csvDataset/","0","2022-11-16T00:27:19.000Z" "sourceBucket","csvDataset/titles.csv","3399671","2022-11-16T00:29:32.000Z" "sourceBucket","imageDataset/","0","2022-11-15T20:00:44.000Z" "sourceBucket","imageDataset/n02085620_10074.jpg","27034","2022-11-15T20:02:16.000Z" ...
importante

Actualmente, Step Functions no admite el informe de inventario de Amazon S3 definido por el usuario como conjunto de datos. También debe asegurarse de que el formato de salida de su informe de inventario de Amazon S3 seaCSV. Para obtener más información sobre los inventarios de Amazon S3 y cómo configurarlos, consulte Inventario de Amazon S3 en la Guía del usuario de Amazon S3.

El siguiente ejemplo de un archivo de manifiesto de inventario muestra CSV los encabezados de los metadatos del objeto de inventario.

{ "sourceBucket" : "sourceBucket", "destinationBucket" : "arn:aws:s3:::inventory", "version" : "2016-11-30", "creationTimestamp" : "1668560400000", "fileFormat" : "CSV", "fileSchema" : "Bucket, Key, Size, LastModifiedDate", "files" : [ { "key" : "source-bucket/destination-prefix/data/20e55de8-9c21-45d4-99b9-46c732000228.csv.gz", "size" : 7300, "MD5checksum" : "a7ff4a1d4164c3cd55851055ec8f6b20" } ] }

En las siguientes pestañas se muestran ejemplos de la sintaxis del campo ItemReader y de la entrada que se transfiere a la ejecución de un flujo de trabajo secundario para este conjunto de datos.

ItemReader syntax
{ "ItemReader": { "ReaderConfig": { "InputType": "MANIFEST" }, "Resource": "arn:aws:states:::s3:getObject", "Parameters": { "Bucket": "destinationBucket", "Key": "destination-prefix/source-bucket/config-ID/YYYY-MM-DDTHH-MMZ/manifest.json" } } }
Input to a child workflow execution
{ "LastModifiedDate": "2022-11-16T00:29:32.000Z", "Bucket": "sourceBucket", "Size": "3399671", "Key": "csvDataset/titles.csv" }

En función de los campos que haya seleccionado al configurar el informe de inventario de Amazon S3, el contenido del archivo manifest.json puede variar respecto al ejemplo mostrado.

IAMpolíticas para conjuntos de datos

Al crear flujos de trabajo con la consola Step Functions, Step Functions puede generar IAM políticas automáticamente en función de los recursos de la definición de flujo de trabajo. Estas políticas incluyen los privilegios mínimos necesarios para permitir que la función de máquina de estados invoque la StartExecution API acción para el estado del mapa distribuido. Estas políticas también incluyen los privilegios mínimos necesarios para que Step Functions pueda acceder a AWS los recursos, como los buckets y objetos de Amazon S3 y las funciones de Lambda. Le recomendamos encarecidamente que incluya solo los permisos que sean necesarios en sus IAM políticas. Por ejemplo, si el flujo de trabajo incluye un estado Map en modo distribuido, aplique las políticas al bucket y a la carpeta de Amazon S3 específicos que contengan el conjunto de datos.

importante

Si especifica un bucket y un objeto de Amazon S3, o un prefijo, con una ruta de referencia a un par clave-valor existente en la entrada de estado del mapa distribuido, asegúrese de actualizar las IAM políticas de su flujo de trabajo. Limite las políticas hasta los nombres de objeto y bucket a los que se dirige la ruta en tiempo de ejecución.

Los siguientes ejemplos IAM de políticas otorgan los privilegios mínimos necesarios para acceder a sus conjuntos de datos de Amazon S3 mediante la ListObjectsV2 y GetObjectAPIlas acciones.

ejemplo IAMpolítica para el objeto Amazon S3 como conjunto de datos

El siguiente ejemplo muestra una IAM política que concede el mínimo de privilegios para acceder a los objetos organizados processImages en un bucket de Amazon S3 denominadomyBucket.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::myBucket" ], "Condition": { "StringLike": { "s3:prefix": [ "processImages" ] } } } ] }
ejemplo IAMpolítica para un CSV archivo como conjunto de datos

El siguiente ejemplo muestra una IAM política que otorga los privilegios mínimos para acceder a un CSV archivo llamadoratings.csv.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::myBucket/csvDataset/ratings.csv" ] } ] }
ejemplo IAMpolítica para un inventario de Amazon S3 como conjunto de datos

El siguiente ejemplo muestra una IAM política que concede privilegios mínimos para acceder a un informe de inventario de Amazon S3.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::destination-prefix/source-bucket/config-ID/YYYY-MM-DDTHH-MMZ/manifest.json", "arn:aws:s3:::destination-prefix/source-bucket/config-ID/data/*" ] } ] }