Conector CloudWatch de Amazon Athena - Amazon Athena

Conector CloudWatch de Amazon Athena

El conector Amazon Athena CloudWatch permite que Amazon Athena se comunique con CloudWatch para que pueda consultar los datos de registro con SQL.

El conector asigna sus LogGroups como esquemas y cada LogStream como una tabla. El conector también asigna una vista especial all_log_streams que contiene todos los LogStreams del LogGroup. Esta vista le permite consultar todos los registros de un LogGroup a la vez en lugar de buscar a través de cada LogStream individualmente.

Requisitos previos

Parámetros

Use las variables de entorno de Lambda de esta sección para configurar el conector de CloudWatch.

  • spill_bucket: especifica el bucket de Amazon S3 para los datos que superen los límites de la función de Lambda.

  • spill_prefix: (opcional) de forma predeterminada, se establece una subcarpeta en la carpeta especificada spill_bucket llamada athena-federation-spill. Le recomendamos configurar un ciclo de vida de almacenamiento de Amazon S3 en esta ubicación para eliminar vertidos de más de un número predeterminado de días u horas.

  • spill_put_request_headers: (opcional) un mapa codificado en JSON de encabezados y valores de solicitudes para la solicitud putObject de Amazon S3 que se usa para el vertidos (por ejemplo, {"x-amz-server-side-encryption" : "AES256"}). Para ver otros encabezados posibles, consulte PutObject en la referencia de la API de Amazon Simple Storage Service.

  • kms_key_id: (opcional) de forma predeterminada, los datos que se vierten a Amazon S3 se cifran mediante el modo de cifrado autenticado AES-GCM y una clave generada aleatoriamente. Para que la función de Lambda use claves de cifrado más seguras generadas por KMS, como a7e63k4b-8loc-40db-a2a1-4d0en2cd8331, puede especificar un ID de clave de KMS.

  • disable_spill_encryption: (opcional) cuando se establece en True, desactiva el cifrado del vertido. El valor predeterminado es False, de modo que los datos que se vierten a S3 se cifran mediante AES-GCM, ya sea mediante una clave generada aleatoriamente o KMS para generar claves. La desactivación del cifrado de vertido puede mejorar el rendimiento, especialmente si su ubicación de vertido usa cifrado del servidor.

El conector también admite control de congestión de AIMD para gestionar los eventos de limitación de CloudWatch a través de la construcción ThrottlingInvoker del SDK de federación de consultas de Amazon Athena. Para modificar el comportamiento de limitación predeterminado, puede configurar cualquiera de las siguientes variables de entorno opcionales:

  • throttle_initial_delay_ms: el retraso de llamada inicial aplicado tras el primer evento de congestión. El valor predeterminado es 10 milisegundos.

  • throttle_max_delay_ms: el retraso máximo entre llamadas. Puede derivar TPS dividiéndolo en 1000 ms. El valor predeterminado es 1000 milisegundos.

  • throttle_decrease_factor: el factor por el que Athena reduce la tarifa de llamadas. El valor predeterminado es 0,5

  • throttle_increase_ms: la velocidad a la que Athena disminuye el retraso de la llamada. El valor predeterminado es 10 milisegundos.

Base de datos y tablas

El conector de CloudWatch Athena asigna sus LogGroups como esquemas, es decir, bases de datos, y cada LogStream como una tabla. El conector también asigna una vista especial all_log_streams que contiene todos los LogStreams del LogGroup. Esta vista le permite consultar todos los registros de un LogGroup a la vez en lugar de buscar a través de cada LogStream individualmente.

Todas las tablas asignadas por el conector de Athena CloudWatch tienen el siguiente esquema. Este esquema coincide con los campos proporcionados por Registros de CloudWatch.

  • log_stream: VARCHAR que contiene el nombre del LogStream del que proviene la fila.

  • time: INT64 que contiene la hora de la época en que se generó la línea de registro.

  • message: VARCHAR que contiene el mensaje de registro.

Ejemplos

En el siguiente ejemplo, se muestra cómo llevar a cabo una consulta SELECT en un LogStream especificado.

SELECT * FROM "lambda:cloudwatch_connector_lambda_name"."log_group_path"."log_stream_name" LIMIT 100

En el siguiente ejemplo, se muestra cómo usar la vista de all_log_streams para llevar a cabo una consulta en todos los LogStreams de un LogGroup especificado.

SELECT * FROM "lambda:cloudwatch_connector_lambda_name"."log_group_path"."all_log_streams" LIMIT 100

Permisos necesarios

Para obtener información completa sobre las políticas de IAM que requiere este conector, consulte la sección Policies del archivo athena-cloudwatch.yaml. En la siguiente lista se resumen los permisos requeridos.

  • Acceso de escritura a Amazon S3: el conector requiere acceso de escritura a una ubicación de Amazon S3 para volcar los resultados de consultas de gran tamaño.

  • Athena GetQueryExecution: el conector usa este permiso para fallar rápidamente cuando finaliza la consulta ascendente de Athena.

  • Lectura o escritura de Registros de CloudWatch: el conector usa este permiso para leer los datos de registro y escribir sus registros de diagnóstico.

Rendimiento

El conector de Athena CloudWatch intenta optimizar las consultas contra CloudWatch mediante la paralelización de los escaneos de las transmisiones de registro necesarias para su consulta. Para determinados filtros de periodos de tiempo, la inserción de predicados se lleva a cabo tanto dentro de la función de Lambda como dentro de Registros de CloudWatch.

Para obtener el mejor rendimiento, use solo minúsculas en los nombres de los grupos de registros y flujos de registros. El uso combinado de mayúsculas y minúsculas hace que el conector realice una búsqueda que no distinga mayúsculas de minúsculas, lo que requiere un mayor esfuerzo computacional.

Consultas de acceso directo

El conector CloudWatch admite consultas de acceso directo que utilizan la sintaxis de consulta de información de registros de CloudWatch. Para obtener más información sobre la información de registros de CloudWatch, consulte Análisis de los datos de registros con información de registros de CloudWatch en la Guía del usuario de Registros de Amazon CloudWatch.

Para usar consultas de acceso directo con CloudWatch, puede utilizar la siguiente sintaxis:

SELECT * FROM TABLE( system.query( STARTTIME => 'start_time', ENDTIME => 'end_time', QUERYSTRING => 'query_string', LOGGROUPNAMES => 'log_group-names', LIMIT => 'max_number_of_results' ))

El siguiente ejemplo de consulta de acceso directo de CloudWatch filtra el campo duration cuando no es igual a 1000.

SELECT * FROM TABLE( system.query( STARTTIME => '1710918615308', ENDTIME => '1710918615972', QUERYSTRING => 'fields @duration | filter @duration != 1000', LOGGROUPNAMES => '/aws/lambda/cloudwatch-test-1', LIMIT => '2' ))

Información sobre licencias

El proyecto del conector de CloudWatch de Amazon Athena se licencia en virtud de la Licencia de Apache-2.0.

Recursos adicionales de

Para obtener más información acerca de este conector, consulte el sitio correspondiente en GitHub.com.