监控管道指标 - 亚马逊 OpenSearch 服务

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控管道指标

您可以使用 Amazon CloudWatch 监控 Amazon OpenSearch Ingestion。Amazon CloudWatch 会收集原始数据并将其处理为易读且近乎实时的指标。这些统计数据会保存 15 个月,从而使您能够访问历史信息,并能够更好地了解您的 Web 应用程序或服务的执行情况。此外,可以设置用于监测特定阈值的警报,并在达到相应阈值时发送通知或执行操作。有关更多信息,请参阅 Amazon CloudWatch 用户指南

OpenSearch Ingestion 控制台在每个管道的性能选项卡上显示一系列基于 CloudWatch 原始数据的图表。

OpenSearch Ingestion 将报告绝大多数支持插件的指标。如果特定插件下方未显示专属表,则意味着插件未报告任何特定于插件的指标。管道指标发布在 AWS/OSIS 命名空间中。

通用指标

以下指标适用于所有处理器和接收器。

每个指标均以子管道名称和插件名称为前缀,格式为 <sub_pipeline_name><plugin><metric_name>。例如,名为 my-pipeline 的子管道的 recordsIn.count 指标和日期处理器的全名为 my-pipeline.date.recordsIn.count

指标后缀 描述
recordsIn.count

记录进入管道组件的入口。此指标适用于处理器和接收器。

相关统计数据:总计

维度PipelineName

recordsOut.count

从管道组件输出记录的出口。此指标适用于处理器和源。

相关统计数据:总计

维度PipelineName

timeElapsed.count

执行管道组件期间记录的数据点计数。此指标适用于处理器和接收器。

相关统计数据:总计

维度PipelineName

timeElapsed.sum

执行管道组件花费的总时间。此指标适用于处理器和接收器(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

timeElapsed.max

执行管道组件花费的最长时间。此指标适用于处理器和接收器(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

缓冲区指标

以下指标适用于 OpenSearch Ingestion 为所有管道自动配置的默认有界阻塞缓冲区。

每个指标均以子管道名称和缓冲区名称为前缀,格式为 <sub_pipeline_name><buffer_name><metric_name>。例如,名为 my-pipeline 的子管道的 recordsWritten.count 指标的全名为 my-pipeline.BlockingBuffer.recordsWritten.count

指标后缀 描述
recordsWritten.count

写入缓冲区的记录数。

相关统计数据:总计

维度PipelineName

recordsRead.count

从缓冲区读取的记录数。

相关统计数据:总计

维度PipelineName

recordsInFlight.value

从缓冲区读取的未检查记录数。

相关统计数据:Average

维度PipelineName

recordsInBuffer.value

缓冲区当前包含的记录数。

相关统计数据:Average

维度PipelineName

recordsProcessed.count

从缓冲区读取并由管道处理的记录数。

相关统计数据:总计

维度PipelineName

recordsWriteFailed.count

管道无法写入接收器的记录数。

相关统计数据:总计

维度PipelineName

writeTimeElapsed.count

写入缓冲区时记录的数据点计数。

相关统计数据:总计

维度PipelineName

writeTimeElapsed.sum

写入缓冲区花费的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

writeTimeElapsed.max

写入缓冲区花费的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

writeTimeouts.count

缓冲区写入超时计数。

相关统计数据:总计

维度PipelineName

readTimeElapsed.count

从缓冲区读取时记录的数据点计数。

相关统计数据:总计

维度PipelineName

readTimeElapsed.sum

从缓冲区读取花费的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

readTimeElapsed.max

从缓冲区读取花费的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

checkpointTimeElapsed.count

检查点时记录的数据点计数。

相关统计数据:总计

维度PipelineName

checkpointTimeElapsed.sum

检查点花费的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

checkpointTimeElapsed.max

检查点花费的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

Signature V4 指标

以下指标适用于管道摄取端点,并与源插件(httpotel_traceotel_metrics)相关联。向摄取端点发送的所有请求必须使用 Signature 版本 4 签名。这些指标有助于您在连接管道时识别授权问题,或者确认是否已成功进行身份验证。

每个指标均以子管道名称和 osis_sigv4_auth 为前缀。例如,sub_pipeline_name.osis_sigv4_auth.httpAuthSuccess.count

指标后缀 描述
httpAuthSuccess.count

向管道发送的成功 Signature V4 请求数。

相关统计数据:总计

维度PipelineName

httpAuthFailure.count

向管道发送的失败 Signature V4 请求数。

相关统计数据:总计

维度PipelineName

httpAuthServerError.count

向管道发送并返回服务器错误的 Signature V4 请求数。

相关统计数据:总计

维度PipelineName

有界阻塞缓冲区指标

以下指标适用于有界阻塞缓冲区。每个指标均以子管道名称和 BlockingBuffer 为前缀。例如,sub_pipeline_name.BlockingBuffer.bufferUsage.value

指标后缀 描述
bufferUsage.value

基于缓冲区记录数计算得出的 buffer_size 使用率。buffer_size 表示写入缓冲区的最大记录数以及正在进行的未检查最大记录数。

相关统计数据:Average

维度PipelineName

Otel 跟踪源指标

以下指标适用于 OTel 跟踪源。每个指标均以子管道名称和 otel_trace_source 为前缀。例如,sub_pipeline_name.otel_trace_source.requestTimeouts.count

指标后缀 描述
requestTimeouts.count

超时请求数。

相关统计数据:总计

维度PipelineName

requestsReceived.count

插件收到的请求数。

相关统计数据:总计

维度PipelineName

successRequests.count

插件已成功处理的请求数。

相关统计数据:总计

维度PipelineName

badRequests.count

插件已处理的无效格式请求数。

相关统计数据:总计

维度PipelineName

requestsTooLarge.count

内容中的 span 数大于缓冲区容量的请求数。

相关统计数据:总计

维度PipelineName

internalServerError.count

采用自定义异常类型的插件处理的请求数。

相关统计数据:总计

维度PipelineName

requestProcessDuration.count

插件处理请求时记录的数据点计数。

相关统计数据:总计

维度PipelineName

requestProcessDuration.sum

插件处理的请求的总延迟(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

requestProcessDuration.max

插件处理的请求的最大延迟(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

payloadSize.count

传入请求的有效负载大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.sum

传入请求的有效负载大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.max

传入请求的有效负载大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

Otel 指标源指标

以下指标适用于 OTel 指标源。每个指标均以子管道名称和 otel_metrics_source 为前缀。例如,sub_pipeline_name.otel_metrics_source.requestTimeouts.count

指标后缀 描述
requestTimeouts.count

超时插件请求总数。

相关统计数据:总计

维度PipelineName

requestsReceived.count

插件收到的请求总数。

相关统计数据:总计

维度PipelineName

successRequests.count

插件成功处理(200 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

requestProcessDuration.count

插件处理的请求的延迟计数(以秒为单位)。

相关统计数据:总计

维度PipelineName

requestProcessDuration.sum

插件处理的请求的总延迟(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

requestProcessDuration.max

插件处理的请求的最大延迟(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

payloadSize.count

传入请求的有效负载大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.sum

传入请求的有效负载大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.max

传入请求的有效负载大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

Http 指标

以下指标适用于 HTTP 源。每个指标均以子管道名称和 http 为前缀。例如,sub_pipeline_name.http.requestsReceived.count

指标后缀 描述
requestsReceived.count

/log/ingest 端点收到的请求数。

相关统计数据:总计

维度PipelineName

requestsRejected.count

插件拒绝(429 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

successRequests.count

插件成功处理(200 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

badRequests.count

插件处理的内容类型或格式无效(400 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

requestTimeouts.count

HTTP 源服务器中超时(415 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

requestsTooLarge.count

内容中事件大小大于缓冲区容量(413 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

internalServerError.count

采用自定义异常类型的插件(500 响应状态代码)处理的请求数。

相关统计数据:总计

维度PipelineName

requestProcessDuration.count

插件处理的请求的延迟计数(以秒为单位)。

相关统计数据:总计

维度PipelineName

requestProcessDuration.sum

插件处理的请求的总延迟(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

requestProcessDuration.max

插件处理的请求的最大延迟(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

payloadSize.count

传入请求的有效负载大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.sum

传入请求的有效负载大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.max

传入请求的有效负载大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

S3 指标

以下指标适用于 S3 源。每个指标均以子管道名称和 s3 为前缀。例如,sub_pipeline_name.s3.s3ObjectsFailed.count

指标后缀 描述
s3ObjectsFailed.count

插件无法读取的 S3 对象总数。

相关统计数据:总计

维度PipelineName

s3ObjectsNotFound.count

因 S3 Not Found错误导致插件无法读取的 S3 对象的数量。这些指标也将计入 s3ObjectsFailed 指标。

相关统计数据:总计

维度PipelineName

s3ObjectsAccessDenied.count

因 S3 Access DeniedForbidden 错误导致插件无法读取的 S3 对象的数量。这些指标也将计入 s3ObjectsFailed 指标。

相关统计数据:总计

维度PipelineName

s3ObjectReadTimeElapsed.count

插件对 S3 对象执行 GET 请求、解析请求并将事件写入缓冲区花费的时间。

相关统计数据:总计

维度PipelineName

s3ObjectReadTimeElapsed.sum

插件对 S3 对象执行 GET 请求、解析请求并将事件写入缓冲区花费的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

s3ObjectReadTimeElapsed.max

插件对 S3 对象执行 GET 请求、解析请求并将事件写入缓冲区花费的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

s3ObjectSizeBytes.count

S3 对象大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3ObjectSizeBytes.sum

S3 对象大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3ObjectSizeBytes.max

S3 对象大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

s3ObjectProcessedBytes.count

插件处理的 S3 对象的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3ObjectProcessedBytes.sum

插件处理的 S3 对象的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3ObjectProcessedBytes.max

插件处理的 S3 对象的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

s3ObjectsEvents.count

插件收到的 S3 事件的分布计数。

相关统计数据:总计

维度PipelineName

s3ObjectsEvents.sum

插件收到的 S3 事件的总分布。

相关统计数据:总计

维度PipelineName

s3ObjectsEvents.max

插件收到的 S3 事件的最大分布。

相关统计数据:最大值

维度PipelineName

sqsMessageDelay.count

S3 记录创建对象的事件时间到完全解析对象所记录的数据点计数。

相关统计数据:总计

维度PipelineName

sqsMessageDelay.sum

S3 记录创建对象的事件时间到完全解析对象的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

sqsMessageDelay.max

S3 记录创建对象的事件时间到完全解析对象的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

s3ObjectsSucceeded.count

插件成功读取的 S3 对象数量。

相关统计数据:总计

维度PipelineName

sqsMessagesReceived.count

插件从队列中收到的 Amazon SQS 消息数量。

相关统计数据:总计

维度PipelineName

sqsMessagesDeleted.count

插件从队列中删除的 Amazon SQS 消息数量。

相关统计数据:总计

维度PipelineName

sqsMessagesFailed.count

插件无法解析的 Amazon SQS 消息数量。

相关统计数据:总计

维度PipelineName

聚合指标

以下指标适用于聚合处理器。每个指标均以子管道名称和 aggregate 为前缀。例如,sub_pipeline_name.aggregate.actionHandleEventsOut.count

指标后缀 描述
actionHandleEventsOut.count

对已配置操作调用 handleEvent 返回的事件数。

相关统计数据:总计

维度PipelineName

actionHandleEventsDropped.count

对已配置操作调用 handleEvent 返回的事件数。

相关统计数据:总计

维度PipelineName

actionHandleEventsProcessingErrors.count

针对导致错误的已配置操作调用 handleEvent 的次数。

相关统计数据:总计

维度PipelineName

actionConcludeGroupEventsOut.count

对已配置操作调用 concludeGroup 返回的事件数。

相关统计数据:总计

维度PipelineName

actionConcludeGroupEventsDropped.count

对已配置操作调用 condludeGroup 未返回的事件数。

相关统计数据:总计

维度PipelineName

actionConcludeGroupEventsProcessingErrors.count

针对导致错误的已配置操作调用 concludeGroup 的次数。

相关统计数据:总计

维度PipelineName

currentAggregateGroups.value

当前组数。当组结束时,此量规会减小;当事件发起创建新组时,此量规会增大。

相关统计数据:Average

维度PipelineName

日期指标

以下指标适用于日期处理器。每个指标均以子管道名称和 date 为前缀。例如,sub_pipeline_name.date.dateProcessingMatchSuccess.count

指标后缀 描述
dateProcessingMatchSuccess.count

match 配置选项中指定的至少一个模式匹配的记录数。

相关统计数据:总计

维度PipelineName

dateProcessingMatchFailure.count

match 配置选项中指定的任何模式均不匹配的记录数。

相关统计数据:总计

维度PipelineName

Grok 指标

以下指标适用于 Grok 处理器。每个指标均以子管道名称和 grok 为前缀。例如,sub_pipeline_name.grok.grokProcessingMatch.count

指标后缀 描述
grokProcessingMatch.count

match 配置选项中找到至少一个模式匹配的记录数。

相关统计数据:总计

维度PipelineName

grokProcessingMismatch.count

match 配置选项中指定的任何模式均不匹配的记录数。

相关统计数据:总计

维度PipelineName

grokProcessingErrors.count

记录处理错误数量。

相关统计数据:总计

维度PipelineName

grokProcessingTimeouts.count

匹配超时的记录数。

相关统计数据:总计

维度PipelineName

grokProcessingTime.count

当单个记录与 match 配置选项中的模式匹配时记录的数据点计数。

相关统计数据:总计

维度PipelineName

grokProcessingTime.sum

每条记录与 match 配置选项中的模式进行匹配花费的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

grokProcessingTime.max

每条记录与 match 配置选项中的模式进行匹配花费的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

Otel 跟踪原始指标

以下指标适用于 OTel 跟踪原始处理器。每个指标均以子管道名称和 otel_trace_raw 为前缀。例如,sub_pipeline_name.otel_trace_raw.traceGroupCacheCount.value

指标后缀 描述
traceGroupCacheCount.value

跟踪组缓存中的跟踪组数量。

相关统计数据:总计

维度PipelineName

spanSetCount.value

span 集集合中的 span 集数量。

相关统计数据:总计

维度PipelineName

Otel 跟踪组指标

以下指标适用于 OTel 跟踪组处理器。每个指标均以子管道名称和 otel_trace_group 为前缀。例如,sub_pipeline_name.otel_trace_group.recordsInMissingTraceGroup.count

指标后缀 描述
recordsInMissingTraceGroup.count

缺少追踪组字段的入口记录数量。

相关统计数据:总计

维度PipelineName

recordsOutFixedTraceGroup.count

成功填充跟踪组字段的出口记录数量。

相关统计数据:总计

维度PipelineName

recordsOutMissingTraceGroup.count

缺少追踪组字段的出口记录数量。

相关统计数据:总计

维度PipelineName

服务映射有状态指标

以下指标适用于服务映射有状态处理器。每个指标均以子管道名称和 service-map-stateful 为前缀。例如,sub_pipeline_name.service-map-stateful.spansDbSize.count

指标后缀 描述
spansDbSize.value

当前窗口持续时间及上一窗口持续时间内 MapDB 中的 span 内存字节大小。

相关统计数据:Average

维度PipelineName

traceGroupDbSize.value

当前窗口持续时间及上一窗口持续时间内 MapDB 中的跟踪组内存字节大小。

相关统计数据:Average

维度PipelineName

spansDbCount.value

当前窗口持续时间及上一窗口持续时间内 MapDB 中的 span 计数。

相关统计数据:总计

维度PipelineName

traceGroupDbCount.value

当前窗口持续时间及上一窗口持续时间内 MapDB 中的跟踪组计数。

相关统计数据:总计

维度PipelineName

relationshipCount.value

当前窗口持续时间及上一窗口持续时间内存储的关系计数。

相关统计数据:总计

维度PipelineName

OpenSearch 指标

以下指标适用于 OpenSearch 接收器。每个指标均以子管道名称和 opensearch 为前缀。例如,sub_pipeline_name.opensearch.bulkRequestErrors.count

指标后缀 描述
bulkRequestErrors.count

发送批量请求时遇到的错误总数。

相关统计数据:总计

维度PipelineName

documentsSuccess.count

通过批量请求(包括重试)成功发送到 OpenSearch Service 的文档数量。

相关统计数据:总计

维度PipelineName

documentsSuccessFirstAttempt.count

首次尝试通过批量请求成功发送到 OpenSearch Service 的文档数量。

相关统计数据:总计

维度PipelineName

documentErrors.count

批量请求发送失败的文档数量。

相关统计数据:总计

维度PipelineName

bulkRequestFailed.count

失败的批量请求数量。

相关统计数据:总计

维度PipelineName

bulkRequestNumberOfRetries.count

失败批量请求的重试次数。

相关统计数据:总计

维度PipelineName

bulkBadRequestErrors.count

发送批量请求时遇到的 Bad Request 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestNotAllowedErrors.count

发送批量请求时遇到的 Request Not Allowed 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestInvalidInputErrors.count

发送批量请求时遇到的 Invalid Input 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestNotFoundErrors.count

发送批量请求时遇到的 Request Not Found 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestTimeoutErrors.count

发送批量请求时遇到的 Request Timeout 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestServerErrors.count

发送批量请求时遇到的 Server Error 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestSizeBytes.count

批量请求的有效负载大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

bulkRequestSizeBytes.sum

批量请求的有效负载大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

bulkRequestSizeBytes.max

批量请求的有效负载大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

bulkRequestLatency.count

请求(包括重试)发送到插件时记录的数据点计数。

相关统计数据:总计

维度PipelineName

bulkRequestLatency.sum

发送到插件的请求(包括重试)的总延迟(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

bulkRequestLatency.max

发送到插件的请求(包括重试)的最大延迟(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

s3.dlqS3RecordsSuccess.count

成功发送到 S3 死信队列的记录数。

相关统计数据:总计

维度PipelineName

s3.dlqS3RecordsFailed.count

未能发送到 S3 死信队列的记录数。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestSuccess.count

S3 死信队列请求成功次数。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestFailed.count

S3 死信队列请求失败次数。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestLatency.count

请求(包括重试)发送到 S3 死信队列时记录的数据点计数。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestLatency.sum

发送到 S3 死信队列的请求(包括重试)的总延迟(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestLatency.max

发送到 S3 死信队列的请求(包括重试)的最大延迟(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

s3.dlqS3RequestSizeBytes.count

S3 死信队列请求的有效负载大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestSizeBytes.sum

S3 死信队列请求的有效负载大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestSizeBytes.max

S3 死信队列请求的有效负载大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

系统和计量指标

以下指标适用于整个 OpenSearch Ingestion 系统。这些指标没有任何前缀。

指标 描述
system.cpu.usage.value

所有数据节点的可用 CPU 使用率。

相关统计数据:Average

维度PipelineNameareaid

system.cpu.count.value

所有数据节点的 CPU 使用总量。

相关统计数据:Average

维度PipelineNameareaid

jvm.memory.max.value

可用于内存管理的最大内存量(以字节为单位)。

相关统计数据:Average

维度PipelineNameareaid

jvm.memory.used.value

使用的内存总量(以字节为单位)。

相关统计数据:Average

维度PipelineNameareaidsigna

jvm.memory.committed.value

提供给 Java 虚拟机 (JVM) 使用的内存量(以字节为单位)。

相关统计数据:Average

维度PipelineNameareaid

computeUnits

管道正在使用的 Ingestion OpenSearch 计算单位 (Ingestion OCU) 数量。

相关统计数据:Max、Sum、Average

维度PipelineName