Etapa 1: Criar a máquina de estado Etapa 2: executar a máquina de estado de demonstração

Processe dados em um bucket do Amazon S3 com o Mapa distribuído

Este projeto de exemplo demonstra como usar o estado de mapa distribuído para processar dados em grande escala; por exemplo, analisar dados meteorológicos históricos e identificar a estação meteorológica que tem a temperatura média mais alta do planeta a cada mês. Os dados meteorológicos são registrados em mais de 12 mil arquivos CSV, que, por sua vez, são armazenados em um bucket do Amazon S3.

Esse projeto de amostra inclui dois estados de mapa distribuído chamados de cópia distribuída do S3 (NOA Data and Process). NOAAData A cópia distribuída do S3 NOA Data itera sobre os arquivos CSV em um bucket público do Amazon S3 chamado noaa-gsod-pdse os copia para um bucket do Amazon S3 em seu. Conta da AWS O processo NOAAData itera sobre os arquivos copiados e inclui uma função Lambda que executa a análise de temperatura.

O projeto de amostra primeiro verifica o conteúdo do bucket do Amazon S3 com uma chamada para a ação da API ListObjectsV2. Com base no número de chaves retornadas em resposta a essa chamada, o projeto de exemplo toma uma das seguintes decisões:

Se a contagem de chaves for maior ou igual a 1, o projeto passará para o NOAAData estado Processo. Esse estado de Mapa Distribuído inclui uma Lambda função chamada TemperatureFunctionque localiza a estação meteorológica que teve a temperatura média mais alta a cada mês. Essa função retorna um dicionário com o year-month como chave e um dicionário que contém informações sobre a estação meteorológica como valor.
Se a contagem de chaves retornadas não exceder 1, o estado de dados NOA da cópia distribuída do S3 listará todos os objetos do bucket público noaa-gsod-pdse copiará iterativamente os objetos individuais para outro bucket em sua conta em lotes de 100. Um Mapa inline executa a cópia iterativa dos objetos.

Depois que todos os objetos são copiados, o projeto passa para o NOAAData estado Processo para processar os dados meteorológicos.

O projeto de amostra finalmente faz a transição para uma Lambda função redutora que realiza uma agregação final dos resultados retornados pela TemperatureFunctionfunção e grava os resultados em uma tabela. Amazon DynamoDB

Com o Mapa distribuído, você pode realizar até 10 mil execuções paralelas de fluxo de trabalho secundário por vez. Neste projeto de amostra, a simultaneidade máxima do Process NOAAData Distributed Map é definida em 3.000, o que a limita a 3.000 execuções paralelas de fluxo de trabalho secundário.

Esse projeto de amostra cria a máquina de estado, os AWS recursos de suporte e configura as permissões relacionadas do IAM. Explore este projeto de exemplo para saber como usar o Mapa distribuído para orquestrar workloads paralelas em grande escala ou usá-lo como ponto de partida para seus próprios projetos.

Importante

Esse projeto de exemplo está disponível somente na região Leste dos EUA (Norte da Virgínia).

Etapa 1: Criar a máquina de estado

Abra o console do Step Functions e clique em Criar máquina de estado.
Escolha Criar a partir do modelo e encontre o modelo inicial relacionado. Escolha Próximo para continuar.
Escolha como usar o modelo:
1. Execute uma demonstração — cria uma máquina de estado somente para leitura. Após a revisão, você pode criar o fluxo de trabalho e todos os recursos relacionados.
2. Desenvolva com base nela — fornece uma definição de fluxo de trabalho editável que você pode revisar, personalizar e implantar com seus próprios recursos. (Recursos relacionados, como funções ou filas, não serão criados automaticamente.)
Escolha Usar modelo para continuar com a seleção.

nota
As cobranças padrão se aplicam aos serviços implantados em sua conta.

Etapa 2: executar a máquina de estado de demonstração

Se você escolher a opção Executar uma demonstração, todos os recursos relacionados serão implantados e prontos para execução. Se você escolheu a opção Criar nela, talvez seja necessário definir valores de espaço reservado e criar recursos adicionais antes de executar seu fluxo de trabalho personalizado.

Escolha Implantar e executar.
Aguarde até que a AWS CloudFormation pilha seja implantada. Esse processo pode levar até 10 minutos.
Depois que a opção Iniciar execução for exibida, revise a Entrada e escolha Iniciar execução.

Parabéns!

Agora você deve ter uma demonstração em execução da sua máquina de estado. Você pode escolher estados na visualização do gráfico para revisar a entrada, a saída, as variáveis, a definição e os eventos.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Mapa distribuído para processar um arquivo CSV no S3

Treinar um modelo de machine learning

Processe dados em um bucket do Amazon S3 com o Mapa distribuído

Importante

Etapa 1: Criar a máquina de estado

nota

Etapa 2: executar a máquina de estado de demonstração

Parabéns!