Trabalhos de streaming - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Trabalhos de streaming

Um trabalho de streaming no EMR Serverless é um modo de trabalho que permite analisar e processar dados de streaming quase em tempo real. Esses trabalhos de longa duração pesquisam dados de streaming e processam continuamente os resultados à medida que os dados chegam. Os trabalhos de streaming são mais adequados para tarefas que exigem processamento de dados em tempo real, como análises quase em tempo real, detecção de fraudes e mecanismos de recomendações. EMRAs tarefas de streaming sem servidor fornecem otimizações, como resiliência de trabalho integrada, monitoramento em tempo real, gerenciamento aprimorado de registros e integração com conectores de streaming.

Veja a seguir alguns casos de uso com trabalhos de streaming:

  • Análise quase em tempo real — os trabalhos de streaming no Amazon EMR Serverless permitem que você processe dados de streaming quase em tempo real, para que você possa realizar análises em tempo real em fluxos de dados contínuos, como dados de log, dados de sensores ou dados de sequência de cliques para obter insights e tomar decisões oportunas com base nas informações mais recentes.

  • Detecção de fraudes — você pode usar trabalhos de streaming para executar a detecção de fraudes quase em tempo real em transações financeiras, operações de cartão de crédito ou atividades on-line ao analisar fluxos de dados e identificar padrões ou anomalias suspeitas à medida que ocorrem.

  • Mecanismos de recomendação — trabalhos de streaming podem processar dados de atividade do usuário e atualizar modelos de recomendações. Isso abre possibilidades para recomendações personalizadas e em tempo real com base em comportamentos e preferências.

  • Análise de mídia social — trabalhos de streaming podem processar dados de mídia social, como tweets, comentários e postagens, para que as organizações possam monitorar tendências, analisar sentimentos e gerenciar a reputação da marca quase em tempo real.

  • Análise da Internet das Coisas (IoT) — os trabalhos de streaming podem lidar e analisar fluxos de dados de alta velocidade de dispositivos, sensores e máquinas conectadas de IoT, para que você possa executar a detecção de anomalias, a manutenção preditiva e outros casos de uso de análises de IoT.

  • Análise de fluxo de cliques — trabalhos de streaming podem processar e analisar dados de fluxo de cliques de sites ou aplicativos móveis. As empresas que usam esses dados podem executar análises para aprender mais sobre o comportamento do usuário, personalizar as experiências do usuário e otimizar as campanhas de marketing.

  • Monitoramento e análise de registros — os trabalhos de streaming também podem processar dados de log de servidores, aplicativos e dispositivos de rede. Isso fornece detecção de anomalias, solução de problemas e integridade e desempenho do sistema.

Principais benefícios

Os trabalhos de streaming no EMR Serverless fornecem automaticamente resiliência ao trabalho, que é uma combinação dos seguintes fatores:

  • Tentativa automática — O EMR Serverless repete automaticamente todas as tarefas que falharam sem qualquer intervenção manual de sua parte.

  • Resiliência da Zona de Disponibilidade (AZ) — O EMR Serverless muda automaticamente as tarefas de streaming para uma AZ saudável se a AZ original apresentar problemas.

  • Gerenciamento de registros:

    • Rotação de registros — para um gerenciamento mais eficiente do armazenamento em disco, o EMR Serverless alterna periodicamente os registros para trabalhos de streaming longos. Isso evita o acúmulo de registros que podem consumir todo o espaço em disco.

    • Compactação de registros — ajuda você a gerenciar e otimizar com eficiência os arquivos de log em persistência gerenciada. A compactação também melhora a experiência de depuração quando você usa o servidor gerenciado de histórico do Spark.

Fontes de dados e coletores de dados compatíveis

EMRO Serverless funciona com várias fontes de dados de entrada e coletores de dados de saída:

  • Fontes de dados de entrada suportadas — Amazon Kinesis Data Streams, Amazon Managed Streaming for Apache Kafka e clusters autogerenciados do Apache Kafka. Por padrão, as EMR versões 7.1.0 e superiores da Amazon incluem o conector Amazon Kinesis Data Streams, então você não precisa criar ou baixar nenhum pacote adicional.

  • Coletores de dados de saída compatíveis — AWS Tabelas do Glue Data Catalog, Amazon S3, Amazon Redshift, SQL My, SQL Postgre Oracle, Oracle, SQL Microsoft, Apache Iceberg, Delta Lake e Apache Hudi.

Considerações e limitações

Ao usar trabalhos de streaming, tenha em mente as seguintes considerações e limitações.

  • Os trabalhos de streaming são compatíveis com as EMRversões 7.1.0 e superiores da Amazon.

  • EMRO Serverless espera que os trabalhos de streaming sejam executados por muito tempo, então você não pode definir o tempo limite de execução para limitar o tempo de execução do trabalho.

  • As tarefas de streaming são compatíveis apenas com o mecanismo Spark, que é construído sobre a estrutura estruturada de streaming.

  • EMRO Serverless repete indefinidamente os trabalhos de streaming, e você não pode personalizar o número máximo de tentativas. A prevenção de thrash é incluída automaticamente para interromper a repetição do trabalho se a quantidade de tentativas malsucedidas ultrapassar o limite definido em uma janela horária. O limite padrão é de cinco tentativas malsucedidas em uma hora. Você pode configurar esse limite para estar entre 1 e 10 tentativas. Para obter mais informações, consulte Job resiliency.

  • Os trabalhos de streaming têm pontos de verificação para salvar o estado e o progresso do tempo de execução, para que o EMR Serverless possa retomar o trabalho de streaming a partir do ponto de verificação mais recente. Para obter mais informações, consulte Recuperação de falhas com o Checkpoint na documentação do Apache Spark.