Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Consulte conjuntos de datos de gran tamaño mediante un AWS Glue Rastreador
Este proyecto de ejemplo demuestra cómo incorporar un conjunto de datos de gran tamaño en Amazon S3 y particionarlo mediante AWS Glue A continuación, los rastreadores ejecutan las consultas de Amazon Athena en esa partición.
En este proyecto, la máquina de estados Step Functions invoca un AWS Glue rastreador que particiona un conjunto de datos grande en Amazon S3. Una vez que el AWS Glue El rastreador devuelve un mensaje de éxito y el flujo de trabajo ejecuta las consultas de Athena en esa partición. Cuando la ejecución de la consulta se haya completado correctamente, se enviará una SNS notificación de Amazon a un SNS tema de Amazon.
Paso 1: Crear la máquina de estado
-
Abra la consola de Step Functions
y seleccione Crear máquina de estado. -
Escriba
Query large datasets
en el cuadro de búsqueda y, a continuación, seleccione Consultar conjuntos de datos de gran tamaño en los resultados de búsqueda que aparecen. -
Elija Siguiente para continuar.
-
Elija Ejecutar una demostración para crear un ready-to-deploy flujo de trabajo y de solo lectura, o elija Construir a partir de ella para crear una definición de máquina de estados editable sobre la que pueda crear y luego implementar.
En este proyecto de muestra se implementan los siguientes recursos:
-
Un registro Amazon S3 bucket
-
Un registro Rastreador de AWS Glue
-
Un registro Amazon SNS tema
-
Un registro AWS Step Functions máquina de estado
-
Relacionado AWS Identity and Access Management (IAM) roles
En la siguiente imagen se ilustra el gráfico de flujo del trabajo del proyecto de muestra Consultar conjuntos de datos de gran tamaño:
-
-
Elija Utilizar plantilla para continuar con la selección.
Los siguientes pasos dependen de la elección anterior:
-
Realice una demostración: puede revisar la máquina de estados antes de crear un proyecto de solo lectura con los recursos desplegados por AWS CloudFormation a tu Cuenta de AWS.
Puede ver la definición de la máquina de estados y, cuando esté listo, elija Implementar y ejecutar para implementar el proyecto y crear los recursos.
La creación de recursos y permisos puede tardar hasta 10 minutos en implementarse. Puede utilizar el enlace Stack ID para supervisar el progreso en AWS CloudFormation.
Una vez completada la implementación, deberías ver tu nueva máquina de estados en la consola.
-
Concéntrese en él: puede revisar y editar la definición del flujo de trabajo. Es posible que tengas que establecer valores para los marcadores de posición en el proyecto de ejemplo antes de intentar ejecutar tu flujo de trabajo personalizado.
nota
Es posible que se apliquen cargos estándar por los servicios implementados en tu cuenta.
Paso 2: Ejecutar la máquina de estado
-
En la página Máquina de estado, elija su proyecto de muestra.
-
En la página del proyecto de muestra, seleccione Iniciar ejecución.
-
En el cuadro de diálogo Iniciar ejecución, haga lo siguiente:
-
(Opcional) Introduce un nombre de ejecución personalizado para anular el valor predeterminado generado.
ASCIINombres no identificables y registro
Step Functions acepta nombres para máquinas de estados, ejecuciones, actividades y etiquetas que no contengan ASCII caracteres. Como estos personajes no funcionan con Amazon CloudWatch, te recomendamos que utilices solo ASCII caracteres para poder hacer un seguimiento de las métricas CloudWatch.
-
(Opcional) En el cuadro de entrada, introduce los valores de entrada comoJSON. Puede omitir este paso si está realizando una demostración.
-
Seleccione Iniciar ejecución.
La consola Step Functions lo dirigirá a una página de detalles de ejecución en la que puede elegir estados en la vista de gráficos para explorar la información relacionada en el Detalles del paso panel.
-
Código de la máquina de estado de ejemplo
La máquina de estados de este proyecto de muestra se integra con Amazon S3, AWS Glue, Amazon Athena y Amazon pasando SNS los parámetros directamente a esos recursos.
Explore este ejemplo de máquina de estados para ver cómo Step Functions controla Amazon S3, AWS Glue, Amazon Athena y Amazon SNS conectándose al nombre del recurso de Amazon (ARN) en el Resource
campo y pasando Parameters
al servicio. API
Para obtener más información sobre cómo AWS Step Functions puede controlar otros AWS servicios, consulteIntegración de servicios con Step Functions.
{
"Comment": "An example demonstrates how to ingest a large data set in Amazon S3 and partition it through aws Glue Crawlers, then execute Amazon Athena queries against that partition.",
"StartAt": "Start Crawler",
"States": {
"Start Crawler": {
"Type": "Task",
"Next": "Get Crawler status",
"Parameters": {
"Name": "<GLUE_CRAWLER_NAME>"
},
"Resource": "arn:aws:states:::aws-sdk:glue:startCrawler"
},
"Get Crawler status": {
"Type": "Task",
"Parameters": {
"Name": "<GLUE_CRAWLER_NAME>"
},
"Resource": "arn:aws:arn:aws:states:::aws-sdk:glue:getCrawler",
"Next": "Check Crawler status"
},
"Check Crawler status": {
"Type": "Choice",
"Choices": [
{
"Variable": "$.Crawler.State",
"StringEquals": "RUNNING",
"Next": "Wait"
}
],
"Default": "Start an Athena query"
},
"Wait": {
"Type": "Wait",
"Seconds": 30,
"Next": "Get Crawler status"
},
"Start an Athena query": {
"Resource": "arn:aws:states:::athena:startQueryExecution.sync",
"Parameters": {
"QueryString": "<ATHENA_QUERYSTRING>",
"WorkGroup": "<ATHENA_WORKGROUP>"
},
"Type": "Task",
"Next": "Get query results"
},
"Get query results": {
"Resource": "arn:aws:states:::athena:getQueryResults",
"Parameters": {
"QueryExecutionId.$": "$.QueryExecution.QueryExecutionId"
},
"Type": "Task",
"Next": "Send query results"
},
"Send query results": {
"Resource": "arn:aws:states:::sns:publish",
"Parameters": {
"TopicArn": "<SNS_TOPIC_ARN>",
"Message": {
"Input.$": "$.ResultSet.Rows"
}
},
"Type": "Task",
"End": true
}
}
}
IAMEjemplos
Estos ejemplos AWS Identity and Access Management (IAM) las políticas generadas por el proyecto de ejemplo incluyen los privilegios mínimos necesarios para ejecutar la máquina de estados y los recursos relacionados. Le recomendamos que incluya solo los permisos que sean necesarios en sus IAM políticas.
AthenaGetQueryResults
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"athena:getQueryResults"
],
"Resource": [
"arn:aws:athena:us-east-2:123456789012:workgroup/*"
]
},
{
"Effect": "Allow",
"Action": [
"s3:GetObject"
],
"Resource": [
"arn:aws:s3:::*"
]
}
]
}
AthenaStartQueryExecution
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"athena:startQueryExecution",
"athena:stopQueryExecution",
"athena:getQueryExecution",
"athena:getDataCatalog"
],
"Resource": [
"arn:aws:athena:us-east-2:123456789012:workgroup/stepfunctions-athena-sample-project-workgroup-8v7bshiv70",
"arn:aws:athena:us-east-2:123456789012:datacatalog/*"
]
},
{
"Effect": "Allow",
"Action": [
"s3:GetBucketLocation",
"s3:GetObject",
"s3:ListBucket",
"s3:ListBucketMultipartUploads",
"s3:ListMultipartUploadParts",
"s3:AbortMultipartUpload",
"s3:CreateBucket",
"s3:PutObject"
],
"Resource": [
"arn:aws:s3:::*"
]
},
{
"Effect": "Allow",
"Action": [
"glue:CreateDatabase",
"glue:GetDatabase",
"glue:GetDatabases",
"glue:UpdateDatabase",
"glue:DeleteDatabase",
"glue:CreateTable",
"glue:UpdateTable",
"glue:GetTable",
"glue:GetTables",
"glue:DeleteTable",
"glue:BatchDeleteTable",
"glue:BatchCreatePartition",
"glue:CreatePartition",
"glue:UpdatePartition",
"glue:GetPartition",
"glue:GetPartitions",
"glue:BatchGetPartition",
"glue:DeletePartition",
"glue:BatchDeletePartition"
],
"Resource": [
"arn:aws:glue:us-east-2:123456789012:catalog",
"arn:aws:glue:us-east-2:123456789012:database/*",
"arn:aws:glue:us-east-2:123456789012:table/*",
"arn:aws:glue:us-east-2:123456789012:userDefinedFunction/*"
]
},
{
"Effect": "Allow",
"Action": [
"lakeformation:GetDataAccess"
],
"Resource": [
"*"
]
}
]
}
SNSPublish
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"sns:Publish"
],
"Resource": [
"arn:aws:sns:us-east-2:123456789012:StepFunctionsSample-AthenaIngestLargeDataset92bc4949-abf8-4a1e-9236-5b7c81b3efa3-SNSTopic-8Y5ZLI5AASXV"
]
}
]
}
Para obtener información sobre cómo configurar el uso IAM de Step Functions con otros AWS servicios, consulteCómo Step Functions genera IAM políticas para servicios integrados.