Trabalhos de streaming para processamento contínuo de dados transmitidos

Um trabalho de streaming no EMR Sem Servidor é um modo de trabalho que permite analisar e processar dados de streaming quase em tempo real. Esses trabalhos de longa duração sondam dados de streaming e processam continuamente os resultados à medida que os dados chegam. Os trabalhos de streaming são mais adequados para tarefas que exigem processamento de dados em tempo real, como analytics quase em tempo real, detecção de fraudes e mecanismos de recomendações. Os trabalhos de streaming do EMR Sem Servidor fornecem otimizações, como resiliência de trabalho integrada, monitoramento em tempo real, gerenciamento aprimorado de logs e integração com conectores de streaming.

Estes são alguns casos de uso com trabalhos de streaming:

Analytics quase em tempo real: trabalhos de streaming no Amazon EMR Sem Servidor permitem processar dados de streaming quase em tempo real, para que você possa realizar analytics em tempo real em fluxos de dados contínuos, como dados de log, dados de sensores ou dados de clickstream, a fim de obter insights e tomar decisões oportunas com base nas informações mais recentes.
Detecção de fraudes: você pode usar trabalhos de streaming para executar a detecção de fraudes quase em tempo real em transações financeiras, operações de cartão de crédito ou atividades on-line ao analisar fluxos de dados e identificar padrões ou anomalias suspeitas à medida que ocorrem.
Mecanismos de recomendação: os trabalhos de streaming podem processar dados de atividade do usuário e atualizar modelos de recomendações. Isso abre possibilidades de recomendações personalizadas e em tempo real com base em comportamentos e preferências.
Analytics de mídia social: os trabalhos de streaming podem processar dados de mídia social, como tweets, comentários e publicações, possibilitando que as organizações monitorem tendências, analisem sentimentos e gerenciem a reputação da marca quase em tempo real.
Analytics da Internet das Coisas (IoT): trabalhos de streaming podem analisar e lidar com fluxos de dados de alta velocidade de dispositivos de IoT, sensores e máquinas conectadas, para que você possa realizar detecção de anomalias, manutenção preditiva e outros casos de uso de analytics de IoT.
Análise de clickstream: os trabalhos de streaming podem processar e analisar dados de clickstream de sites ou de aplicações móveis. As empresas que usam esses dados podem realizar analytics e saber mais sobre o comportamento do usuário, personalizar as experiências do usuário e otimizar campanhas de marketing.
Monitoramento e análise de log: os trabalhos de streaming também podem processar dados de log de servidores, aplicações e dispositivos de rede. Isso possibilita detecção de anomalias, solução de problemas e integridade e performance do sistema.

Benefícios principais

Os trabalhos de streaming no EMR Sem Servidor fornecem automaticamente resiliência aos trabalhos, que é uma combinação dos seguintes fatores:

Nova tentativa automática: o EMR Sem Servidor repete automaticamente todos os trabalhos que falharam sem nenhuma entrada manual de sua parte.
Resiliência da zona de disponibilidade (AZ): o EMR Sem Servidor muda automaticamente os trabalhos de streaming para uma AZ íntegra se a AZ original apresentar problemas.
Gerenciamento de logs:
- Alternância de logs: para um gerenciamento mais eficiente do armazenamento em disco, o EMR Sem Servidor alterna periodicamente os logs para trabalhos de streaming longos. Isso evita o acúmulo de logs que podem consumir todo o espaço em disco.
- Compactação de logs: ajuda a gerenciar e otimizar com eficiência os arquivos de log em persistência gerenciada. A compactação também melhora a experiência de depuração quando você usa o servidor gerenciado de histórico do Spark.

Fontes de dados e coletores de dados compatíveis

O EMR Sem Servidor funciona com várias fontes de dados de entrada e coletores de dados de saída:

Fontes de dados de entrada compatíveis: Amazon Kinesis Data Streams, Amazon Managed Streaming para Apache Kafka e clusters autogerenciados do Apache Kafka. Por padrão, as versões 7.1.0 e superiores do Amazon EMR incluem o conector do Amazon Kinesis Data Streams, então você não precisa criar ou baixar nenhum pacote adicional.
Coletores de dados de saída compatíveis — tabelas do AWS Glue Data Catalog, Amazon S3, Amazon Redshift, MySQL, PostgreSQL Oracle, Oracle, Microsoft SQL, Apache Iceberg, Delta Lake e Apache Hudi.

Considerações e limitações

Ao usar trabalhos de streaming, lembre-se das considerações e limitações a seguir.

Os trabalhos de streaming são compatíveis com as versões 7.1.0 e superiores do Amazon EMR.
O EMR Sem Servidor espera que os trabalhos de streaming sejam executados por muito tempo, então você não pode definir o tempo limite de execução para limitar o runtime do trabalho.
Os trabalhos de streaming são compatíveis apenas com o mecanismo do Spark, que é criado sobre a estrutura de streaming.
O EMR Sem Servidor repete indefinidamente os trabalhos de streaming, e você não pode personalizar o número máximo de tentativas. A prevenção contra thrash é incluída automaticamente para interromper a repetição do trabalho se a quantidade de tentativas malsucedidas ultrapassar o limite definido em uma janela por hora. O limite padrão é de cinco tentativas malsucedidas em uma hora. Você pode configurar esse limite entre 1 e 10 tentativas. Para obter mais informações, consulte Job resiliency.
Os trabalhos de streaming têm pontos de verificação para salvar o estado e o progresso do runtime, para que o EMR Sem Servidor possa retomar o trabalho de streaming a partir do ponto de verificação mais recente. Para obter mais informações, consulte Recovering from failures with Checkpointing na documentação do Apache Spark.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Uso de discos otimizados para embaralhamento

Começar