¿Qué es Amazon Managed Service para Apache Flink? - Managed Service para Apache Flink

Amazon Managed Service para Apache Flink Amazon se denominaba anteriormente Amazon Kinesis Data Analytics para Apache Flink.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Qué es Amazon Managed Service para Apache Flink?

Con Amazon Managed Service para Apache Flink, puede usar Java, Scala, Python o SQL procesar y analizar datos de streaming. El servicio le permite crear y ejecutar código en fuentes de streaming y fuentes estáticas para realizar análisis de series temporales, alimentar cuadros de mando en tiempo real y métricas.

Puede crear aplicaciones con el lenguaje que prefiera en Managed Service for Apache Flink mediante bibliotecas de código abierto basadas en Apache Flink. Apache Flink es un marco y un motor usados habitualmente para procesar flujos de datos.

Managed Service para Apache Flink proporciona la infraestructura subyacente para sus aplicaciones de Apache Flink. Gestiona las capacidades principales, como el aprovisionamiento de recursos informáticos, la resiliencia de la conmutación por error de AZ, la computación paralela, el escalado automático y las copias de seguridad de las aplicaciones (implementadas como puntos de control e instantáneas). Puede utilizar las características de programación de alto nivel de Flink (como operadores, funciones, fuentes y receptores) del mismo modo que las utiliza cuando aloja usted mismo la infraestructura de Flink.

Dispone de dos opciones para ejecutar sus trabajos de Flink con Amazon Managed Service para Apache Flink. Con Managed Service for Apache Flink, puede crear aplicaciones de Flink en Java, Scala o Python (e integradasSQL) utilizando una IDE de sus opciones y el flujo de datos o tabla de Apache Flink. APIs Con Managed Service for Apache Flink Studio, puede consultar flujos de datos de forma interactiva en tiempo real y crear y ejecutar fácilmente aplicaciones de procesamiento de flujos utilizando estándares, SQL Python y Scala.

Puede seleccionar el método que mejor se adapte a su caso de uso. Si no está seguro, esta sección le ofrecerá una guía de alto nivel para ayudarle.

Decision tree for selecting Flink application, Deployed Studio application, or Studio Notebook based on use case and programming experience.

Antes de decidir si usar Amazon Managed Service para Apache Flink o Amazon Managed Service para Apache Flink Studio, debes considerar tu caso de uso.

Si planea utilizar una aplicación de larga duración que se encargue de cargas de trabajo como aplicaciones continuas ETL o de streaming, debería considerar la posibilidad de utilizar el servicio gestionado para Apache Flink. Esto se debe a que puede crear su aplicación Flink utilizando el Flink APIs directamente en la IDE aplicación que prefiera. Desarrollar localmente con usted IDE también garantiza que pueda aprovechar los procesos y herramientas comunes del ciclo de vida del desarrollo de software (SDLC), como el control de versiones de código en Git, la automatización de CI/CD o las pruebas unitarias.

Si está interesado en la exploración de datos ad hoc, desea consultar datos de streaming de forma interactiva o crear paneles privados en tiempo real, Managed Service for Apache Flink Studio le ayudará a cumplir estos objetivos con tan solo unos clics. Los usuarios que estén familiarizados con ello SQL pueden plantearse implementar directamente desde Studio una aplicación de larga duración.

nota

Puedes convertir tu portátil Studio en una aplicación de larga duración. Sin embargo, si desea integrarlo con sus SDLC herramientas, como el control de versiones de código en Git y la automatización de CI/CD, o técnicas como las pruebas unitarias, le recomendamos Managed Service for Apache Flink que utilice el que prefiera. IDE

Puede crear aplicaciones con Java, Python y Scala en Managed Service for Apache Flink con Apache Flink según APIs su elecciónIDE. En la documentación encontrará instrucciones sobre cómo crear aplicaciones mediante el flujo de datos y la tabla de Flink. API Puede seleccionar el idioma en el que creó su aplicación Flink y el APIs que utilizará para satisfacer mejor las necesidades de su aplicación y sus operaciones. Si no está seguro, esta sección proporciona una guía de alto nivel para ayudarle.

Los Apache Flink APIs tienen diferentes niveles de abstracción que pueden afectar la forma en que decida crear su aplicación. Son expresivos y flexibles y se pueden usar juntos para crear su aplicación. No tiene que usar solo un FlinkAPI. Puede obtener más información sobre el Flink APIs en la documentación de Apache Flink.

Flink ofrece cuatro niveles de API abstracción: FlinkSQL, Table y Process Function API DataStream API, que se utiliza junto con. DataStream API Todos ellos son compatibles con Amazon Managed Service para Apache Flink. Se recomienda comenzar con un nivel de abstracción más alto siempre que sea posible; sin embargo, algunas funciones de Flink solo están disponibles con Datastream, API donde puede crear su aplicación en Java, Python o Scala. Debería considerar usar el Datastream si: API

  • Necesita un control detallado sobre el estado

  • Desea aprovechar la posibilidad de llamar a una base de datos externa o a un punto final de forma asíncrona (por ejemplo, para realizar inferencias)

  • Desea utilizar temporizadores personalizados (por ejemplo, para implementar ventanas personalizadas o gestionar eventos tardíos)

  • Desea poder modificar el flujo de su aplicación sin restablecer el estado

Apache Flink APIs diagram showing abstraction levels and programming languages for different APIs.
nota

Elegir un idioma con: DataStream API

  • SQLse puede incrustar en cualquier aplicación de Flink, independientemente del lenguaje de programación elegido.

  • Si planea usar el DataStream API, Python no admite todos los conectores.

  • Si necesita baja latencia y alto rendimiento, debería considerar Java/Scala independientemente de. API

  • Si planea usar una IO asíncrona en las funciones de proceso, necesitará usar Java. API

La elección de una también API puede afectar a su capacidad de desarrollar la lógica de la aplicación sin tener que restablecer el estado. Esto depende de una función específica, la capacidad UID de configurar operadores, que solo está disponible en Java y Python. DataStream API Para obtener más información, consulte Configurar UUIDs para todos los operadores en la documentación de Apache Flink.

Comience con las aplicaciones de transmisión de datos

Puede empezar por crear una aplicación de Managed Service para Apache Flink que lea y procese continuamente datos de streaming. A continuación, cree el código que prefiera y pruébelo con datos de transmisión en directo. IDE También puede configurar los destinos a los que desea que Managed Service para Apache Flink envíe los resultados.

Para comenzar, le recomendamos que lea las secciones siguientes:

Como alternativa, puede empezar por crear una libreta de servicios gestionados para Apache Flink Studio que le permita consultar flujos de datos de forma interactiva en tiempo real y crear y ejecutar fácilmente aplicaciones de procesamiento de flujos utilizando estándares, SQL Python y Scala. Con unos pocos clics AWS Management Console, puede abrir un bloc de notas sin servidor para consultar flujos de datos y obtener resultados en cuestión de segundos. Para comenzar, le recomendamos que lea las secciones siguientes: