AWS Management Pack 问题排查 - Amazon Elastic Compute Cloud

AWS Management Pack 问题排查

以下是常见的错误、事件和故障排除步骤。

错误 4101 和 4105

如果您收到以下错误之一,则必须升级 AWS Management Pack。有关更多信息,请参阅升级 AWS Management Pack

Error 4101
Exception calling "DescribeVolumes" with "1" argument(s): "AWS was not able to validate the 
provided access credentials"
Error 4105
Exception calling "DescribeApplications" with "0" argument(s): "The security token included 
in the request is invalid"

错误 4513

如果您收到以下错误之一,则必须升级 AWS Management Pack。有关更多信息,请参阅升级 AWS Management Pack

Error 4513
The callback method DeliverDataToModule failed with exception "Resolution of the dependency 
failed, type = "Amazon.SCOM.SDK.Interfaces.IMonitorSdk", name = "(none)".
Exception occurred while: Calling constructor Amazon.SCOM.SDK.CloudWatch.AwsMonitorSdk
(System.String awsAccessKey, System.String awsSecretKey).
Exception is: InvalidOperationException - Collection was modified; enumeration operation 
may not run.

事件 623

如果您在 Windows 事件日志中找到以下事件,请遵循 KB975057 中所述的解决方案。

Event ID: 623
HealthService (process_id) The version store for instance instance ("name") has reached 
its maximum size of size MB. It is likely that a long-running transaction is preventing 
cleanup of the version store and causing it to build up in size. Updates will be rejected 
until the long-running transaction has been completely committed or rolled back. 
Possible long-running transaction:
SessionId: id
Session-context: value
Session-context ThreadId: id
Cleanup: value

事件 2023 和 2120

如果您在 Windows 事件日志中找到以下事件,请参阅事件 ID 2023 和 2120 了解更多信息。

Event ID: 2023
The Health Service has removed some items from the send queue for management group "Servers" 
since it exceeded the maximum allowed size of size megabytes.
Event ID: 2120
The Health Service has deleted one or more items for management group "Servers" which could 
not be sent in 1440 minutes.

事件 6024

如果您在 Windows 事件日志中找到以下事件,请参阅 SCOM 2012 - 事件 ID 6024 了解更多信息。

Event ID: 6024
LaunchRestartHealthService.js : Launching Restart Health Service. Health Service exceeded 
Process\Handle Count or Private Bytes threshold.

System Center 2012 — Operations Manager 的一般问题排查

请尝试以下操作解决任何问题。

  • 验证是否已安装 System Center 2012 — Operations Manager 的最新 Update Rollup。AWS Management Pack 要求至少安装 Update Rollup 1。

  • 确保您已通过运行添加监视向导,在导入 AWS Management Pack 之后对其进行了配置。有关更多信息,请参阅步骤 1:安装 AWS Management Pack

  • 确保您等待足够长的时间以发现AWS资源(10-20 分钟)。

  • 验证管理服务器的配置是否正确。

    • 管理服务器必须具有 Internet 连接。

    • 管理服务器的操作账户必须在管理服务器上具有本地管理员特权。

    • 管理服务器必须有 .NET Framework 4.5 或更高版本。

  • 验证 AWS 运行方式账户是有效的。

    • 访问密钥 ID 和秘密访问密钥的值准确无误。

    • 访问密钥是有效的:在 AWS Management Console中,在导航栏中单击您的姓名,然后单击 Security Credentials (安全证书)

    • IAM 用户至少要具有只读访问权限。请注意,只读访问允许执行不改变资源状态的用户操作,如监控,但不允许类似启动或停止实例的用户操作。

      • 如果某个 Amazon CloudWatch 指标显示为 Not Monitored (未监视),请检查是否已为该 Amazon CloudWatch 指标至少定义一个 Amazon CloudWatch 警报。

      • 要进一步排查问题,请使用事件日志中的相关信息。

      • 查看管理服务器上的 Operations Manager 事件日志。有关更多信息,请参阅 事件 以了解 AWS Management Pack 写入 Operations Manager 事件日志的事件列表。

System Center 2007 R2 的一般问题排查

请尝试以下操作解决任何问题。

  • 确保您已通过运行添加监视向导,在导入 AWS Management Pack 之后对其进行了配置。有关更多信息,请参阅步骤 1:安装 AWS Management Pack

  • 确保您等待足够长的时间以发现AWS资源(10-20 分钟)。

  • 验证观察程序节点的配置是否正确。

    • 代理程序已启用。有关更多信息,请参阅步骤 2:配置观察程序节点

    • 观察程序节点具有 Internet 连接。

    • 观察程序节点的操作账户具有本地管理员特权。

    • 观察程序节点必须有 .NET Framework 3.5.1 或更高版本。

  • 验证观察程序节点运行状况良好并处理所有警报。有关更多信息,请参阅视图

  • 验证 AWS 运行方式账户是有效的。

    • 访问密钥 ID 和秘密访问密钥的值准确无误。

    • 访问密钥是有效的:在 AWS Management Console中,在导航栏中单击您的姓名,然后单击 Security Credentials (安全证书)

    • IAM 用户至少要具有只读访问权限。请注意,只读访问允许执行不改变资源状态的用户操作,如监控,但不允许类似启动或停止实例的用户操作。

      • 如果某个 Amazon CloudWatch 指标显示为 Not Monitored (未监视),请检查是否已为该 Amazon CloudWatch 指标至少定义一个 Amazon CloudWatch 警报。

      • 要进一步排查问题,请使用事件日志中的相关信息。

      • 在管理服务器以及观察程序节点上查看 Operations Manager 事件日志。有关更多信息,请参阅 事件 以了解 AWS Management Pack 写入 Operations Manager 事件日志的事件列表。