故障排除AWS IoT Greengrass - AWS IoT Greengrass

您正在查看 AWS AWS IoT Greengrass 版本 1 的文档。AWS IoT Greengrass 版本 2 是 AWS AWS IoT Greengrass 的最新主要版本。有关使用 AWS AWS IoT Greengrass 版本 2 的更多信息,请参阅 AWS AWS IoT Greengrass V2 开发人员指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

故障排除AWS IoT Greengrass

本节提供故障排除信息和可能的解决方案,以帮助解决 的问题。AWS IoT Greengrass.

有关 AWS IoT Greengrass 配额(限制)的信息,请参阅 https://docs.aws.amazon.com/general/latest/gr/greengrass.html#limits_greengrass 中的 Amazon Web Services 一般参考Service Quotas

AWS IoT Greengrass Core 问题

如果 AWS IoT Greengrass 核心软件无法启动,请尝试以下常规故障排除步骤:

搜索以下症状和错误,以查找信息来帮助排查 的问题。AWS IoT Greengrass Core.

问题

 

错误:配置文件缺少 CaPath、 CertPath 或 KeyPath。具有 [pid = pid<>] 的 Greengrass 守护程序进程已终止。

解决方案:crash.log 核心软件无法启动时,您可能会在 AWS IoT Greengrass 中看到此错误。如果您正在运行 v1.6 或更早版本,可能会发生此错误。执行以下任一操作:

  • 升级到 1.7 or laterv。 我们建议您始终运行最新版本的 AWS IoT Greengrass Core 软件。有关下载信息,请参阅 AWS IoT Greengrass 核心软件.

  • 为您的 config.json 核心软件版本使用正确的 AWS IoT Greengrass 格式。有关更多信息,请参阅AWS IoT Greengrass 核心配置文件.

    注意

    要查找核心设备上安装了哪一版本的 AWS IoT Greengrass Core 软件,请在您的设备终端上运行以下命令。

    cd /greengrass-root/ggc/core/ sudo ./greengrassd --version

 

错误:无法解析 /<greengrass-root>/config/config.json。

解决方案:当 AWS IoT Greengrass 核心软件无法启动时,您可能会看到此错误。确保 Greengrass 配置文件使用的是有效的 JSON 格式。

打开 config.json(位于 /greengrass-root/config 中),并验证 JSON 格式。例如,请确保逗号使用正确。

 

错误:生成 TLS 配置时出错: ErrUnknownURIScheme

解决方案:当 AWS IoT Greengrass 核心软件无法启动时,您可能会看到此错误。确保 Greengrass 配置文件的加密部分中的属性有效。错误消息应提供更多信息。

打开 config.json(位于 /greengrass-root/config 中),并检查 crypto 部分。例如,证书和密钥路径必须使用正确的 URI 格式并指向正确的位置。

 

错误:运行时未能启动:无法启动工作线程:容器测试超时。

解决方案:当 AWS IoT Greengrass 核心软件无法启动时,您可能会看到此错误。在 postStartHealthCheckTimeoutGreengrass 配置文件中设置 属性。此可选属性将配置 Greengrass 守护程序等待启动后运行状况检查完成的时间量(以毫秒为单位)。默认值为 30 秒(30000 毫秒)。

打开 config.json (位于 中/greengrass-root/config)。在 runtime 对象中,添加 postStartHealthCheckTimeout 属性并将值设置为一个大于 30000 的数。在需要的位置添加逗号以创建有效的 JSON 文档。例如:

... "runtime" : { "cgroup" : { "useSystemd" : "yes" }, "postStartHealthCheckTimeout" : 40000 }, ...

 

错误:无法在本地 Cloudwatch PutLogEvents 上调用 : logGroup GreengrassSystem, 错误RequestError: 发送请求失败,原因为:Post pathhttp://<>/cloudwatch/logs/: dial tcp address<>: getsockopt: connection refused, response: { }。

解决方案:当 AWS IoT Greengrass 核心软件无法启动时,您可能会看到此错误。如果您在 Raspberry Pi 上运行 AWS IoT Greengrass,并且尚未完成所需的内存设置,则可能会发生此错误。有关更多信息,请参阅此步骤.

 

错误:无法创建服务器,原因是: 无法加载 组:chmod <greengrass-root>///ggc/deployment/lambda/arn:aws:lambda:<region>:<account-id>:function:<function-name>:<version>/<file-name>: 无此文件或目录。

解决方案:当 AWS IoT Greengrass 核心软件无法启动时,您可能会看到此错误。如果您已Lambda 可执行文件将部署到核心,请检查 Handler 文件 (位于 group.json///ggc/deployment/group 中) 中函数greengrass-root的 属性。如果处理程序不是编译的可执行文件的确切名称,请将 group.json 文件内容替换为空 JSON 对象 ({}),并运行以下命令以启动 AWS IoT Greengrass:

cd /greengrass/ggc/core/ sudo ./greengrassd start

然后,使用 AWS Lambda API 更新函数配置的 handler 参数、发布新的函数版本并更新别名。有关更多信息,请参阅 AWS Lambda 函数版本控制和别名.

假设按别名将函数添加到 Greengrass 组(建议),您现在可以重新部署组。(否则,您必须在组定义和订阅中指向新的函数版本或别名,然后再部署组。)

 

在您从无容器化的情况下运行更改为在 Greengrass 容器中运行后,AWS IoT Greengrass 核心软件无法启动。

解决方案:检查是否缺失任何容器依赖项。

 

错误:后台打印大小应至少为 262144 字节。

解决方案:当 AWS IoT Greengrass 核心软件无法启动时,您可能会看到此错误。打开 group.json 文件(位于 /greengrass-root/ggc/deployment/group 中),将文件内容替换为空 JSON 对象 ({}),然后运行以下命令以启动 AWS IoT Greengrass:

cd /greengrass/ggc/core/ sudo ./greengrassd start

然后,遵循过程 在本地存储中缓存消息 中的步骤。对于 GGCloudSpooler 函数,请确保指定一个大于或等于 262144 的 GG_CONFIG_MAX_SIZE_BYTES 值。

 

错误:“[ERROR]-Cloud messaging error: Error occurred while trying to publish a message. {"errorString": "operation timed out"} ([ERROR]-云消息传递错误: 尝试发布消息时出错。{"errorString": "操作超时"})”

解决方案:当 Greengrass 核心无法向 GGCloudSpooler.log 发送 MQTT 消息时,您可能会在 AWS IoT Core. 中看到此错误。如果核心环境存在有限的带宽和高延迟,则可能会发生此情况。如果您运行的是 AWS IoT Greengrass v1 或更高版本,请尝试增加 mqttOperationTimeoutconfig.json 文件中的值。如果此属性不存在,请将其添加到 coreThing 对象中。例如:

{ "coreThing": { "mqttOperationTimeout": 10, "caPath": "root-ca.pem", "certPath": "hash.cert.pem", "keyPath": "hash.private.key", ... }, ... }

默认值为 5,最小值为 5.

 

错误:container_linux.go:344:启动容器进程导致“process_linux.go:424: container init cause \\"rootfs_linux.go:64: mounting version\\\\\\"/greengrass/grass_grass/socks_grass_permission.grad.<grass/greengr_grapped”

解决方案:runtime.log 核心软件无法启动时,您可能会在 AWS IoT Greengrass 中看到此错误。如果您的 umask 高于 ,则会发生这种情况0022。 要解决此问题,您必须umask将 设置为 0022 或更低。默认情况下,值 0022 向每个人授予对新文件的读取权限。

 

错误:Greengrass 守护程序在 PID 为 <process-id> 的情况下运行。某些系统组件无法启动。检查“runtime.log”中有无错误。

解决方案:当 AWS IoT Greengrass 核心软件无法启动时,您可能会看到此错误。检查 runtime.logcrash.log 中有无特定的错误信息。有关更多信息,请参阅使用日志排查问题.

 

设备影子未与云同步。

解决方案:确保 在 AWS IoT GreengrassGreengrass 服务角色iot:UpdateThingShadowiot:GetThingShadow具有 操作的权限。如果服务角色使用 AWSGreengrassResourceAccessRolePolicy 托管策略,则在默认情况下包含这些权限。

请参阅 影子同步超时问题排查.

 

错误:无法接受 TCP 连接。接受 tcp [::]:8000: accept4:打开的文件太多。

解决方案: 您可能会在 greengrassd 脚本输出中看到此错误。如果 AWS IoT Greengrass 核心软件的文件描述符限制已达到阈值,必须调高,则可能会发生此错误。

使用以下命令,然后重新启动 AWS IoT Greengrass 核心软件。

ulimit -n 2048
注意

在本示例中,该限制被调高到 2048。请选择符合您的使用案例的值。

 

错误:运行时执行错误:无法启动 lambda 容器。container_linux.go:259: starting container process caused "process_linux.go:345: container init caused \"rootfs_linux.go:50: preparing rootfs caused \\\"permission denied\\\"\"".

解决方案:直接在根目录下安装 AWS IoT Greengrass,或确保每个人对于安装了 AWS IoT Greengrass 核心软件的目录及其父目录都有 execute 权限。

 

警告:[WARN]-[5]GK 远程:检索公有密钥数据时出错ErrPrincipalNotConfigured:未设置 的MqttCertificate私有密钥。

解决方案:AWS IoT Greengrass 使用常见的处理程序来验证所有安全主体的属性。除非您为本地 MQTT 服务器指定了自定义私有密钥,否则将会在 runtime.log 中收到此警告。有关更多信息,请参阅AWS IoT Greengrass 核心安全委托人.

 

错误:尝试使用角色 arn:aws: <account-id>iam::role/<role-name> 访问 s3 url regionhttps://<>-greengrass-updates.s3s<region>.amazonaws.com/core/<architecture>/greengrass-core-<distribution-version>tar.gz 时,权限被拒绝。

解决方案:当无线 (OTA) 更新失败时,您可能会看到此错误。在签署人角色策略中,将目标 AWS 区域添加为 Resource。 此签署人角色用于为 AWS IoT Greengrass 软件更新的 S3 URL 预签名。有关更多信息,请参阅 S3 URL 签署人角色.

 

AWS IoT Greengrass Core 配置为使用网络代理,并且您的 Lambda 函数无法进行传出连接。

解决方案:根据您的运行时和 Lambda 函数用于创建连接的可执行文件,您也可能会收到连接超时错误。确保您的 Lambda 函数使用适当的代理配置通过网络代理进行连接。AWS IoT Greengrass 通过 Lambda、http_proxyhttps_proxy 环境变量将代理配置传递给用户定义的 no_proxy 函数。可以按照以下 Python 代码段所示访问它们。

import os print(os.environ['http_proxy'])

使用与环境中定义的变量相同的大小写,例如,全部小写http_proxy或全部大写HTTP_PROXY。 对于这些变量, AWS IoT Greengrass 支持这两种方法。

注意

用于建立连接的大多数公用库(例如 boto3 或 cURL 和 python requests 程序包)默认使用这些环境变量。

 

核心处于无限的连接-断开循环中。runtime.log 文件包含一系列连续的连接和断开条目。

解决方案:当另一个设备硬编码为使用核心事物名称作为与 AWS IoT. 的 MQTT 连接的客户端 ID 时,可能会发生这种情况。同一 AWS 区域和 AWS 账户中的并行连接必须使用唯一的客户端 IDs。 默认情况下,核心使用核心事物名称作为这些连接的客户端 ID。

为解决此问题,您可以更改另一个设备用于连接的客户端 ID(推荐),或覆盖核心的默认值。

覆盖核心设备的默认客户端 ID

  1. 运行以下命令以停止 Greengrass 守护程序:

    cd /greengrass-root/ggc/core/ sudo ./greengrassd stop
  2. 打开 greengrass-root/config/config.json 以作为 su 用户进行编辑。

  3. coreThing 对象中,添加 coreClientId 属性,并将值设置为您的自定义客户端 ID。值的长度必须介于 1 到 128 个字符之间。它在 AWS 账户的当前 AWS 区域中必须是唯一的。

    "coreClientId": "MyCustomClientId"
  4. 启动守护程序。

    cd /greengrass-root/ggc/core/ sudo ./greengrassd start

 

错误:无法启动 lambda 容器。container_linux.go:259:启动容器进程导致出现 "process_linux.go:345:容器初始化导致出现 \"rootfs_linux.go:62:正在将 \\\"proc\\\" 装载到 \\\"

解决方案:在部分平台上,当 runtime.log 尝试装载 AWS IoT Greengrass 文件系统以创建 /proc 容器时,您可能会在 Lambda 中看到此错误。或者,您可能会看到类似的错误,例如 operation not permittedEPERM。 即使通过了依赖项检查程序脚本在平台上运行的测试,也会发生这些错误。

请尝试下列可能的解决方案之一:

  • 在 Linux 内核中启用 CONFIG_DEVPTS_MULTIPLE_INSTANCES 选项。

  • 仅在主机上将 /proc 装载选项设置为 rw,relatim

  • 将 Linux 内核升级到 4.9 或更高版本。

注意

此问题与装载 /proc 供本地资源访问无关。

 

[ERROR] 运行时执行错误:无法启动 lambda 容器errorString: "failed to initialize container mounts: failed to mask greengrass root in overlay dir: failed to create mask device at directory <ggc-path>: file exists"}

解决方案:在部署失败时,您可能会在 runtime.log 中看到此错误。如果Lambda组中的 AWS IoT Greengrass 函数无法访问核心文件系统中的 /usr 目录,则会发生此错误。

要解决此问题,请将本地卷资源添加到组,然后部署该组。此资源必须:

  • 指定 /usr 作为 Source path (源路径)Destination path (目标路径).

  • 自动添加拥有资源的 Linux 组的操作系统组权限。

  • 与 Lambda 函数关联并允许只读访问。

 

[ERROR]-Deployment 失败deploymentId: "<deployment-id>, "errorString: "container test process with pid pid<> failed: container process state: exit status 1}

解决方案:在部署失败时,您可能会在 runtime.log 中看到此错误。如果Lambda组中的 AWS IoT Greengrass 函数无法访问核心文件系统中的 /usr 目录,则会发生此错误。

您可以通过检查GGCanary.log其他错误来确认是否出现了这种情况。如果 Lambda 函数无法访问 /usr 目录, GGCanary.log 将包含以下错误:

[ERROR]-standard_init_linux.go:207: exec user process caused "no such file or directory"

要解决此问题,请将本地卷资源添加到组,然后部署该组。此资源必须:

  • 指定 /usr 作为 Source path (源路径)Destination path (目标路径).

  • 自动添加拥有资源的 Linux 组的操作系统组权限。

  • 与 Lambda 函数关联并允许只读访问。

 

解决方案:当 runtime.log 核心软件未启动时,您可能会在 AWS IoT Greengrass 文件中看到此错误。此问题在 Debian 操作系统中可能更常见。

要解决此问题,请执行以下操作:

  1. 将 AWS IoT Greengrass Core 软件升级到 v1 或更高版本。这应会自动解决此问题。

  2. 如果您在升级 AWS IoT Greengrass Core 软件后仍收到此错误,请在 system.useOverlayWithTmpfsconfig.jsontrue 文件中将 属性设置为

    例 Example

    { "system": { "useOverlayWithTmpfs": true }, "coreThing": { "caPath": "root-ca.pem", "certPath": "cloud.pem.crt", "keyPath": "cloud.pem.key", ... }, ... }
注意

错误消息中会显示您的 AWS IoT Greengrass Core 软件版本。要查找 Linux 的内核版本,请运行 uname -r.

 

错误:[DEBUG] – 未能获取路由。丢弃消息。

解决方案:检查您的组中的订阅并确保订阅列出在 [DEBUG] 消息中。

 

错误:[Errno 24] Too many open <lambda-function>,[Errno 24] Too many open files

解决方案:如果函数在函数处理程序中实例化 Lambda,您可能会在 StreamManagerClient 函数日志文件中看到此错误。我们建议您在处理程序之外创建客户端。有关更多信息,请参阅使用 StreamManagerClient 处理流.

 

部署问题

使用以下信息可帮助您排查部署问题。

问题

 

您当前的部署不起作用,并且您希望恢复到以前有效的部署。

解决方案:使用 AWS IoT 控制台 或 AWS IoT Greengrass API 重新部署先前有效的部署。这会将相应的组版本部署到您的核心设备。

重新部署一个部署(控制台)

  1. 在组配置页面上,选择 Deployments (部署). 该页面显示组的部署历史记录,包括日期和时间、组版本以及每次部署尝试的状态。

  2. 查找包含您要重新部署的部署的行。在 Status (状态) 列中,选择省略号 (),然后选择 Re-deploy (重新部署).

    部署页面,显示部署的“重新部署”操作。

重新部署一个部署 (CLI)

  1. 使用 ListDeployments 查找要重新部署的部署的 ID。例如:

    aws greengrass list-deployments --group-id 74d0b623-c2f2-4cad-9acc-ef92f61fcaf7

    该命令将返回组的部署列表。

    { "Deployments": [ { "DeploymentId": "8d179428-f617-4a77-8a0c-3d61fb8446a6", "DeploymentType": "NewDeployment", "GroupArn": "arn:aws:greengrass:us-west-2:123456789012:/greengrass/groups/74d0b623-c2f2-4cad-9acc-ef92f61fcaf7/versions/8dd1d899-4ac9-4f5d-afe4-22de086efc62", "CreatedAt": "2019-07-01T20:56:49.641Z" }, { "DeploymentId": "f8e4c455-8ac4-453a-8252-512dc3e9c596", "DeploymentType": "NewDeployment", "GroupArn": "arn:aws:greengrass:us-west-2::123456789012:/greengrass/groups/74d0b623-c2f2-4cad-9acc-ef92f61fcaf7/versions/4ad66e5d-3808-446b-940a-b1a788898382", "CreatedAt": "2019-07-01T20:41:47.048Z" }, { "DeploymentId": "e4aca044-bbd8-41b4-b697-930ca7c40f3e", "DeploymentType": "NewDeployment", "GroupArn": "arn:aws:greengrass:us-west-2::123456789012:/greengrass/groups/74d0b623-c2f2-4cad-9acc-ef92f61fcaf7/versions/1f3870b6-850e-4c97-8018-c872e17b235b", "CreatedAt": "2019-06-18T15:16:02.965Z" } ] }
    注意

    这些 AWS CLI 命令将示例值用于组和部署 ID。当您运行这些命令时,确保替换示例值。

  2. 使用 CreateDeployment 重新部署目标部署。将部署类型设置为 Redeployment。 例如:

    aws greengrass create-deployment --deployment-type Redeployment \ --group-id 74d0b623-c2f2-4cad-9acc-ef92f61fcaf7 \ --deployment-id f8e4c455-8ac4-453a-8252-512dc3e9c596

    该命令会返回新部署的 ARN 和 ID。

    { "DeploymentId": "f9ed02b7-c28e-4df6-83b1-e9553ddd0fc2", "DeploymentArn": "arn:aws:greengrass:us-west-2::123456789012:/greengrass/groups/74d0b623-c2f2-4cad-9acc-ef92f61fcaf7/deployments/f9ed02b7-c28e-4df6-83b1-e9553ddd0fc2" }
  3. 使用 GetDeploymentStatus 获取部署的状态。

 

您在日志中看到有关部署的“403 禁止访问”错误。

解决方案:确保 AWS IoT Greengrass Core 在云中的策略包含 "greengrass:*" 作为允许的操作。

 

首次运行 create-deployment 命令时ConcurrentDeployment,将出现错误。

解决方案:可能正在进行部署。您可以运行 get-deployment-status 以查看是否已创建部署。如果没有,请再次尝试创建部署。

 

错误:未授权 Greengrass 担任与该账户相关的服务角色,或错误:失败:TES 服务角色未与此账户关联。

解决方案:当部署失败时,您可能会看到此错误。检查 Greengrass 服务角色是否与您在当前 AWS 区域中的 AWS 账户相关联。有关更多信息,请参阅 管理 Greengrass 服务角色 (CLI)管理 Greengrass 服务角色(控制台).

 

错误:无法在部署中执行下载步骤。下载时出现错误:下载组定义文件时出错:... x509: certificate has expired or is not yet valid

解决方案:在部署失败时,您可能会在 runtime.log 中看到此错误。如果您收到包含 Deployment failed 消息的 x509: certificate has expired or is not yet valid 错误,请检查设备时钟。TLS 和 X.509 证书为构建IoT系统提供了安全的基础,但它们需要服务器和客户端上的准确时间。IoT 设备在尝试连接到 AWS IoT Greengrass 或使用服务器证书的其他 TLS 服务之前应具有正确的时间(15 分钟内)。有关更多信息,请参阅 AWS 官方博客上的IoT使用设备时间在物联网上验证 AWS 服务器证书

 

错误:签名验证期间发生错误。存储库不会更新,将使用以前的索引文件。GPG 错误https://dnw9lb6lzp2d8.cloudfront.net InReleasestable:无法验证以下签名,因为公有密钥不可用:NO_PUBKEY 68D644ABDEXAMPLE

解决方案:当用于验证 AWS IoT Greengrass 的 APT 存储库包的受信任密钥丢失、过期或无效时,您可能会看到此错误。若要解决此问题,请安装密钥环软件包:

wget -O aws-iot-greengrass-keyring.deb https://d1onfpft10uf5o.cloudfront.net/greengrass-apt/downloads/aws-iot-greengrass-keyring.deb sudo dpkg -i aws-iot-greengrass-keyring.deb

有关更多信息,请参阅使用 apt 安装 AWS IoT Greengrass Core 软件.

 

部署未完成。

解决方案:执行以下操作:

  • 确保 AWS IoT Greengrass 守护程序正在您的核心设备上运行。在您的核心设备终端中,运行以下命令以检查守护程序是否正在运行并启动它 (如果需要)。

    1. 要检查守护程序是否正在运行,请执行以下操作:

      ps aux | grep -E 'greengrass.*daemon'

      如果输出包含 /greengrass/ggc/packages/1.11.0/bin/daemonroot 条目,则表示守护程序正在运行。

      路径中的版本取决于您的核心设备上安装的 AWS IoT Greengrass 核心软件版本。

    2. 要启动守护程序,请执行以下操作:

      cd /greengrass/ggc/core/ sudo ./greengrassd start
  • 确保已连接核心设备并正确配置核心连接终端节点。

 

错误:无法找到 java 或 java8 可执行文件,或错误:Deployment <deployment-id> of type NewDeployment for group <group-id> failed error: worker with <worker-id> failed to initialize with reason Installed Java version must be than or equal to 8

解决方案:如果为AWS IoT Greengrass Core 启用流管理器,必须在核心设备上安装 Java 8 运行时,然后再部署组。有关更多信息,请参阅流管理器的要求。当您在 中使用 Default Group creation (默认组创建) 工作流程创建组时,默认情况下AWS IoT 控制台将启用流管理器。

或者,禁用流管理器,然后部署该组。有关更多信息,请参阅配置流管理器设置(控制台).

 

部署未完成,并且 runtime.log 包含多个“等待 1 秒钟让容器停止”条目。

解决方案:在您的核心设备终端中运行以下命令,以重新启动 AWS IoT Greengrass 守护程序。

cd /greengrass/ggc/core/ sudo ./greengrassd stop sudo ./greengrassd start

 

部署未完成,runtime.log 中包含“[ERROR]-Greengrass deployment error: failed to report deployment status back to cloud {"deploymentId": "<deployment-id>", "errorString": "Failed to initiate PUT, endpoint: https://<deployment-status>, error: Put https://<deployment-status>: proxyconnect tcp: x509: certificate signed by unknown authority"}”

解决方案:当 Greengrass 核心被配置为使用 HTTPS 代理连接且代理服务器证书链在系统上不受信任时,您可能会在 runtime.log 中看到此错误。若要尝试解决此问题,请将该证书链添加到根 CA 证书中。Greengrass 核心会将此文件中的证书添加到在与 建立 HTTPS 和 MQTT 连接时用于进行 TLS 身份验证的证书池。AWS IoT Greengrass.

以下示例显示了添加到根 CA 证书文件中的代理服务器 CA 证书:

# My proxy CA -----BEGIN CERTIFICATE----- MIIEFTCCAv2gAwIQWgIVAMHSAzWG/5YVRYtRQOxXUTEpHuEmApzGCSqGSIb3DQEK \nCwUAhuL9MQswCQwJVUzEPMAVUzEYMBYGA1UECgwP1hem9uLmNvbSBJbmMuMRww ... content of proxy CA certificate ... +vHIRlt0e5JAm5\noTIZGoFbK82A0/nO7f/t5PSIDAim9V3Gc3pSXxCCAQoFYnui GaPUlGk1gCE84a0X\n7Rp/lND/PuMZ/s8YjlkY2NmYmNjMCAXDTE5MTEyN2cM216 gJMIADggEPADf2/m45hzEXAMPLE= -----END CERTIFICATE----- # Amazon Root CA 1 -----BEGIN CERTIFICATE----- MIIDQTCCAimgF6AwIBAgITBmyfz/5mjAo54vB4ikPmljZKyjANJmApzyMZFo6qBg ADA5MQswCQYDVQQGEwJVUzEPMA0tMVT8QtPHRh8jrdkGA1UEChMGDV3QQDExBBKW ... content of root CA certificate ... o/ufQJQWUCyziar1hem9uMRkwFwYVPSHCb2XV4cdFyQzR1KldZwgJcIQ6XUDgHaa 5MsI+yMRQ+hDaXJiobldXgjUka642M4UwtBV8oK2xJNDd2ZhwLnoQdeXeGADKkpy rqXRfKoQnoZsG4q5WTP46EXAMPLE -----END CERTIFICATE-----

默认情况下,根 CA 证书文件位于 中/greengrass-root/certs/root.ca.pem。 要在您的核心设备上查找 位置,请查看 crypto.caPathconfig.json 中的 属性。

注意

greengrass-root 表示在您的设备上安装 AWS IoT Greengrass 核心软件的路径。通常,这是 /greengrass 目录。

 

错误<deployment-id>NewDeployment:针对组<group-id>失败错误的部署类型 错误:处理时出错。 组配置无效:112 或 [119 0] 没有对文件 path<> 的 rw 权限。

解决方案:确保 的所有者组 <path> 目录对目录具有读取和写入权限。

 

错误:<list-of-function-arns> 配置为以根用户身份运行,但 Greengrass 未配置为通过根用户权限运行 Lambda 函数。

解决方案:在部署失败时,您可能会在 runtime.log 中看到此错误。确保已将 AWS IoT Greengrass 配置为允许 Lambda 函数以根权限运行。将 allowFunctionsToRunAsRootgreengrass_root/config/config.json 的值更改为 yes,或者将 Lambda 函数更改为以另一个用户/组的身份运行。有关更多信息,请参阅以根用户身份运行 Lambda 函数.

 

错误<deployment-id>NewDeployment:针对组<group-id>失败错误的 类型的部署:Greengrass 部署错误:无法在部署中执行下载步骤。处理错误:无法加载下载的组文件:无法基于用户名查找 userNameUID:ggc_user:user:未知用户 ggc_user。

解决方案:如果 的默认访问身份AWS IoT Greengrass 组使用标准系统账户,则设备上必须存在 ggc_user 用户和ggc_group组。有关介绍如何添加用户和组的说明,请参阅此步骤. 请务必完全按所述的方式输入名称。

 

错误:[ERROR]-runtime execution error: unable to start lambda container. {"errorString": "failed to initialize container mounts: failed to mask greengrass root in overlay upper dir: failed to create mask device at directory <ggc-path>: file exists"} ([ERROR] 运行时执行错误:无法启动 lambda 容器。{"errorString": "无法初始化容器装载:无法对叠加层上层目录中的 greengrass 根进行掩码处理:无法在目录 <ggc-path> 中创建掩码设备:文件已存在"})

解决方案:在部署失败时,您可能会在 runtime.log 中看到此错误。如果 Greengrass 组中的 Lambda 函数无法访问核心文件系统中的 /usr 目录,则会出现此错误。要解决此问题,请将本地卷资源添加到组,然后部署组。资源必须:

  • 指定 /usr 作为 Source path (源路径)Destination path (目标路径).

  • 自动添加拥有资源的 Linux 组的操作系统组权限。

  • 与 Lambda 函数关联并允许只读访问。

 

错误<deployment-id>NewDeployment:为组<group-id>失败错误部署 类型:进程启动失败:container_linux.go:259:启动容器进程导致“process_linux.go:250: running exec setns process for init cause \\"wait: no child processes\\"”。

解决方案:当部署失败时,您可能会看到此错误。重试部署。

 

错误:[WARN]-MQTT[client] dial tcp: lookup <host-prefix>-regionats.iot.<>.amazonaws.com: no such host ... [ERROR]-Greengrass deployment error: failed to report deployment status back to cloud ... net/http: request cancelled while waiting connection (Client.Timeout exceededed when waiting headers) ([ [ERROR] - Greengrass 部署错误:无法将部署状态报告云... net/http:在等待连接时取消请求 (Client.Timeout 等待标头时超出时间

解决方案:如果您使用 systemd-resolved(默认情况下会启用 DNSSEC 设置),则可能会看到此错误。因此,无法识别许多公共域。尝试到达 AWS IoT Greengrass 终端节点时找不到主机,因此您的部署保持在 In Progress 状态。

您可以使用以下命令和输出以测试此问题。将终端节点中的 区域 占位符替换为您的 AWS 区域。

$ ping greengrass-ats.iot.区域.amazonaws.com ping: greengrass-ats.iot.区域.amazonaws.com: Name or service not known
$ systemd-resolve greengrass-ats.iot.区域.amazonaws.com greengrass-ats.iot.区域.amazonaws.com: resolve call failed: DNSSEC validation failed: failed-auxiliary

一种可能的解决方法是禁用 DNSSEC。 当 DNSSEC 为 时false,不会DNSSEC验证 DNS 查找。有关更多信息,请参阅 的这一已知问题systemd

  1. DNSSEC=false 添加到 /etc/systemd/resolved.conf

  2. 重启 systemd-resolved.

有关 resolved.confDNSSEC 的信息,请在终端中运行 man resolved.conf

 

有关创建组和创建函数的问题

使用以下信息来帮助排查与创建 AWS IoT Greengrass 组 或 Greengrass Lambda 函数有关的问题。

 

错误:您针对该组的“IsolationMode”配置无效。

解决方案:IsolationModeDefaultConfig 中的 function-definition-version 值不受支持时,会出现此错误。支持的值为 GreengrassContainerNoContainer

 

错误:您针对具有 <function-arn> 的函数的“IsolationMode”配置无效。

解决方案:IsolationMode 的 <function-arn> 中的 function-definition-version 值不受支持时,会出现此错误。支持的值为 GreengrassContainerNoContainer

 

错误: <function-arn> MemorySize NoContainer 中不允许使用具有 arn 的 函数IsolationMode的配置。

解决方案:当您指定 MemorySize 值并选择在不进行容器化的情况下运行时,就会发生该错误。在不进行容器化的情况下运行的 Lambda 函数不能有内存限制。您可以删除限制,也可以更改 Lambda 函数以使其在 AWS IoT Greengrass 容器中运行。

 

错误: <function-arn> IsolationMode NoContainer 中不允许使用带 arn 的函数访问 Sysfs 配置。

解决方案:当您true为 指定 AccessSysfs 并选择在不进行容器化的情况下运行时,就会发生此错误。在不进行容器化的情况下运行的 Lambda 函数必须更新其代码才能直接访问文件系统,并且不能使用 AccessSysfs。 您可以false为 指定值 AccessSysfs ,也可以将 Lambda 函数更改为在 AWS IoT Greengrass 容器中运行。

 

错误: <function-arn> MemorySize GreengrassContainer的 函数IsolationMode的配置。

解决方案:发生该错误的原因是您没有为在 MemorySize 容器中运行的 Lambda 函数指定 AWS IoT Greengrass 限制。指定 MemorySize 值可解决该错误。

 

错误:函数 <function-arn> 是指 <resource-type> IsolationMode NoContainer 中不允许使用的 类型的资源。

解决方案:当您在不进行容器化的情况下运行 Local.Device 函数时,您不能访问 Local.VolumeML_Model.SageMaker.JobML_Model.S3_ObjectS3_Object.Generic_Archive 或 Lambda 资源类型。如果需要这些资源类型,则必须在 AWS IoT Greengrass 容器中运行。您也可以更改 Lambda 函数中的代码,从而在不进行容器化的情况下直接访问本地设备。

 

错误:不允许使用具有 arn <function-arn> 的函数的 Execution 配置。

解决方案:当您创建一个具有 Lambda 或 GGIPDetector 的系统 GGCloudSpooler 函数并且您指定了 IsolationModeRunAs 配置时,会出现此错误。您必须省略该系统 Execution 函数的 Lambda 参数。

 

发现问题

可以使用以下信息帮助解决 AWS IoT Greengrass 发现服务的问题。

 

错误:Device is a member of too many groups, devices may not be in more than 10 groups

解决方案: 这是一个已知的限制。Greengrass 设备最多可以是 10 个 组的成员。

 

机器学习资源问题

使用以下信息帮助解决机器学习资源的问题。

 

InvalidMLModelOwner - ML 模型资源中提供了 GroupOwnerSetting,但是不存在 GroupOwner 或 GroupPermission

解决方案:如果机器学习资源包含 ResourceDownloadOwnerSetting 对象,但未定义必需的 GroupOwnerGroupPermission 属性,则会收到此错误。要解决此问题,请定义缺失的属性。

 

附加机器学习资源时,NoContainer 函数无法配置权限。<function-arn> 是指在资源访问策略中具有权限 <ro/rw> 的机器学习资源 <resource-id>。

解决方案: 如果非容器化 Lambda 函数指定了对机器学习资源的函数级权限,则会收到此错误。非容器化函数必须从在机器学习资源上定义的资源所有者权限继承权限。要解决此问题,请选择继承资源所有者权限(控制台)或从 Lambda 函数的资源访问策略 (API) 中删除权限

 

函数 <function-arn> 指在 ResourceAccessPolicy 和资源 OwnerSetting 中都缺少权限的机器学习资源 <resource-id>。

解决方案:如果未为附加的 Lambda 函数或资源配置对机器学习资源的权限,则会收到此错误。要解决此问题,请在 Lambda 函数的 ResourceAccessPolicy 属性中或资源的 OwnerSetting 属性中配置权限。

 

函数 <function-arn> 是指具有权限 \"rw\" 的机器学习资源 <resource-id>,而资源所有者设置 GroupPermission 仅允许 \"ro\"。

解决方案:如果为附加的 Lambda 函数定义的访问权限超过为机器学习资源定义的资源所有者权限,则会收到此错误。要解决此问题,请为 Lambda 函数设置限制更多的权限或为资源所有者设置限制较少的权限。

 

NoContainer 函数 <function-arn> 是指嵌套目标路径的资源。

解决方案:如果附加到非容器化 Lambda 函数的多个机器学习资源使用相同的目标路径或嵌套的目标路径,则会收到此错误。要解决此问题,请为资源指定单独的目标路径。

 

Lambda <function-arn> 通过共享同一组所有者 ID 获得对资源 <resource-id> 的访问权限

解决方案:如果将相同的操作系统组指定为 Lambda 函数的运行身份标识和机器学习资源的资源所有者,但资源未附加到 Lambda 函数,则会在 runtime.log 中收到此错误。此配置为 Lambda 函数提供隐式权限,它可以使用这些权限来访问资源而无需 AWS IoT Greengrass 授权。

要解决此问题,请为其中一个属性使用不同的操作系统组,或将机器学习资源附加到 Lambda 函数。

AWS IoT GreengrassDocker 中的 核心问题

使用以下信息可帮助解决与在 Docker 容器中运行 AWS IoT Greengrass Core 相关的问题。

 

错误 未知选项:-无电子邮件。

解决方案: 当您运行 aws ecr get-login 命令。确保您已安装最新的 AWS CLI 版本(例如,运行:pip install awscli --upgrade --user)。如果您使用的是 Windows,并且您已使用 MSI 安装程序安装 CLI,则必须重复安装过程。更多信息,请参阅 安装 AWS Command Line Interface MicrosoftWindows上AWS Command Line Interface 用户指南.

 

警告 已禁用IPv4。网络将不起作用。

解决方案: 运行时,您可能会收到此警告或类似消息 AWS IoT Greengrass 在Linux计算机上。按照此步骤中所述进行操作来启用 IPv4 网络转发。AWS IoT Greengrass 云部署和 MQTT 通信在未启用 IPv4 转发时将不运行。有关更多信息,请参阅 Docker 文档中的在运行时配置具有命名空间的内核参数 (sysctls)

 

错误 防火墙正在阻止窗口和容器之间的文件共享。

解决方案: 您可能会收到这个错误或 Firewall Detected 消息。如果您登录虚拟私有网络 (VPN) 并且网络设置阻止挂载共享驱动器,也会出现此错误。在这种情况下,请关闭 VPN 并重新运行 Docker 容器。

 

错误 调用GetAuthorisationToke操作时出现错误(访问拒绝例外): 用户:arn:aws:iam::<account-id>:user/<user-name>无权执行:ecr:GetAuthorization资源:*

在运行 aws ecr get-login-password 如果没有足够的权限访问 Amazon ECR 存储库。更多信息,请参阅 Amazon ECR 存储库策略示例访问One Amazon ECR 存储库Amazon ECR 用户指南.

 

错误:无法为服务 greengrass 创建容器:冲突。容器名称“/aws-iot-greengrass”已在使用中。

解决方案:当较旧的容器使用该容器名称时,可能会发生此错误。要解决此问题,请运行以下命令以删除旧的 Docker 容器:

docker rm -f $(docker ps -a -q -f "name=aws-iot-greengrass")

 

错误:[FATAL] - 由于意外错误,无法重置线程的 mount 命名空间:“操作不被允许”。为了保持一致性,GGC 将崩溃,需要手动重新启动。

解决方案:如果您尝试将一个 runtime.log GreengrassContainer 函数部署到 Docker 容器中运行的 Lambda,则可能会在 AWS IoT Greengrass Core 中出现此错误。目前,只有 NoContainer Lambda 函数可以部署到 Greengrass Docker 容器。

要解决此问题,请确保所有 Lambda 函数处于 NoContainer 模式并启动新部署。然后,当启动容器时,不要将现有 deployment 目录绑定挂载到 AWS IoT Greengrass Core Docker 容器。相反,在它的位置创建一个空 deployment 目录,并将该目录绑定挂载到 Docker 容器中。这样,新的 Docker 容器就可以接收具有在 Lambda 模式下运行的 NoContainer 函数的最新部署。

有关更多信息,请参阅在 Docker 容器中运行 AWS IoT Greengrass.

使用日志排查问题

您可以为 Greengrass 组配置日志记录设置,例如将日志发送到 CloudWatch Logs 和/或在本地文件系统上存储日志。要在排查问题时获取详细信息,您可以暂时将日志记录级别更改为 DEBUG。 对日志记录设置的更改将在部署组时生效。有关更多信息,请参阅为 配置日志记录AWS IoT Greengrass.

在本地文件系统上,AWS IoT Greengrass 将日志存储在以下位置。阅读文件系统上的日志需要根权限。

greengrass-root/ggc/var/log/crash.log

显示在 AWS IoT Greengrass Core崩溃时生成的消息。

greengrass-root/ggc/var/log/system/runtime.log

显示有关哪些组件失败的消息。

greengrass-root/ggc/var/log/system/

包含来自 AWS IoT Greengrass 系统组件的所有日志,例如,证书管理器和连接管理器。通过利用 ggc/var/log/system/ggc/var/log/system/runtime.log 中的消息,您应该能够找出 AWS IoT Greengrass 系统组件中出现了哪些错误。

greengrass-root/ggc/var/log/system/localwatch/

包含处理将日志上传到 的AWS IoT Greengrass组件的Greengrass日志CloudWatch Logs。如果您无法在 中查看Greengrass日志CloudWatch,则可以使用这些日志进行故障排除。

greengrass-root/ggc/var/log/user/

包含来自用户定义的 Lambda 函数的所有日志。检查此文件夹以查找来自您的本地 Lambda 函数的错误消息。

注意

默认情况下,greengrass-root/greengrass 目录。如果配置了写入目录,则日志位于该目录下。

如果日志配置为存储在云中,请使用 CloudWatch Logs 来查看日志消息。crash.log 只能在AWS IoT Greengrass Core设备上的文件系统日志中找到。

如果将 AWS IoT 配置为向 CloudWatch 写入日志,则在系统组件尝试连接到 AWS IoT. 时发生连接错误的情况下,请查看这些日志。

有关 AWS IoT Greengrass 日志记录的更多信息,请参阅 利用 AWS IoT Greengrass 日志进行监控.

注意

AWS IoT Greengrass 核心软件 1.0 版本的日志存储在 greengrass-root/var/log 目录下。

排查存储问题

当本地文件存储空间已满时,某些组件可能会开始失败:

  • 本地影子更新未进行。

  • 新的 AWS IoT Greengrass Core MQTT 服务器证书无法在本地下载。

  • 部署失败。

您应该始终留意本地的可用空间大小。您可以基于已部署的 Lambda 函数的大小、日志记录配置(请参阅使用日志排查问题)和在本地存储的影子的数量计算可用空间。

对消息进行问题排查

在 中本地发送的所有消息AWS IoT Greengrass都使用 QoS 0 发送。默认情况下,AWS IoT Greengrass 在内存中队列中存储消息。因此,在 Greengrass 核心重新启动时,未处理的消息将会丢失;例如,在组部署或设备重启后。不过,您可以配置 AWS IoT Greengrass (v1.6 or later) 以将消息缓存到文件系统中,以便在核心重新启动时永久保存这些消息。您也可以配置队列大小。如果配置队列大小,请确保它大于或等于 262144 字节 (256 KB)。否则,AWS IoT Greengrass 可能无法正确启动。有关更多信息,请参阅云目标的 MQTT 消息队列.

注意

在使用默认内存中队列时,我们建议您部署组或在服务中断最少的情况下重新启动设备。

您还可以配置核心以建立与 的持久会话。AWS IoT. 这允许核心在核心脱机时接收从 AWS 云发送的消息。有关更多信息,请参阅与 AWS IoT Core 的 MQTT 持久性会话.

影子同步超时问题排查

如果 Greengrass 核心设备和云之间的通信明显延迟,则影子同步可能因超时而失败。在这种情况下,您应会看到如下所示的日志条目:

[2017-07-20T10:01:58.006Z][ERROR]-cloud_shadow_client.go:57,Cloud shadow client error: unable to get cloud shadow what_the_thing_is_named for synchronization. Get https://1234567890abcd.iot.us-west-2.amazonaws.com:8443/things/what_the_thing_is_named/shadow: net/http: request canceled (Client.Timeout exceeded while awaiting headers) [2017-07-20T10:01:58.006Z][WARN]-sync_manager.go:263,Failed to get cloud copy: Get https://1234567890abcd.iot.us-west-2.amazonaws.com:8443/things/what_the_thing_is_named/shadow: net/http: request canceled (Client.Timeout exceeded while awaiting headers) [2017-07-20T10:01:58.006Z][ERROR]-sync_manager.go:375,Failed to execute sync operation {what_the_thing_is_named VersionDiscontinued []}"

一种可能的解决方法是配置核心设备等待主机响应的时长。在 中打开 config.json 文件greengrass-root/config,并添加一个具有超时值(以秒为单位system.shadowSyncTimeout)的字段。例如:

{ "system": { "shadowSyncTimeout": 10 }, "coreThing": { "caPath": "root-ca.pem", "certPath": "cloud.pem.crt", "keyPath": "cloud.pem.key", ... }, ... }

如果未在 shadowSyncTimeout 中指定 config.json 值,则默认值为 5 秒。

注意

对于 AWS IoT Greengrass 核心软件 1.6 及更早版本,默认 shadowSyncTimeout 为 1 秒。

检查 AWS IoT Greengrass 论坛

如果您无法使用本主题中的故障排除信息解决问题,可以在 AWS IoT Greengrass 论坛中搜索相关问题或发布新的论坛话题。AWS IoT Greengrass 团队成员主动监控该论坛。