飞轮数据湖 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

飞轮数据湖

当您创建飞轮时,Amazon Comprehend 会在您的账户中创建一个数据湖,用于存储所有的飞轮数据,例如模型版本所需的输入和输出数据。

Amazon Comprehend 会在您创建飞轮时指定的 Amazon S3 位置创建数据湖。您可以将位置指定为 Amazon S3 存储桶或Amazon S3 存储桶中的新文件夹。

数据湖文件夹结构

当 Amazon Comprehend 创建数据湖时,它会在 Amazon S3 位置设置以下文件夹结构。

警告

Amazon Comprehend 可管理数据湖文件夹的组织和内容。请务必使用 Amazon Comprehend API 操作来修改数据湖文件夹,否则您的飞轮可能无法正常运行。

Document Pool Annotations Pool Staging Model Datasets (data for each version of the model) VersionID-1 Training Test ModelStats VersionID-2 Training Test ModelStats

要查看模型版本的训练评估,请执行以下步骤:

  1. 在数据湖的根级别打开名为模型数据集的文件夹。此文件夹包含每个模型版本的子文件夹。

  2. 打开相关模型版本的文件夹。

  3. 打开名为的文件夹ModelStats以查看模型的统计数据。

数据湖管理

Amazon Comprehend 代表您执行以下任务来管理数据湖:

  • 定义数据湖的文件夹结构,并将数据集导入到相应的文件夹中。

  • 管理训练模型所需的输入文档(例如文本文件和注释文件)。

  • 管理与模型的每个版本相关的训练和评估输出数据。

  • 管理数据湖中存储文件的加密。

Amazon Comprehend 执行数据湖的所有数据创建和更新操作。您保留对数据湖中数据的完全访问权限。例如:

  • 您可以完全访问数据湖的内容。

  • 删除飞轮后,数据湖仍然可用。

  • 您可以为包含数据湖的 Amazon S3 存储桶配置访问日志。

  • 您可以为数据提供加密密钥。您在创建飞轮时,将指定这些内容。

我们建议您遵循以下最佳实操:

  • 不要手动将自己的文件夹或文件添加到数据湖中。请勿修改或删除数据湖中的任何文件。

  • 请务必使用 Amazon Comprehend 创建和更新操作来添加或修改数据湖中的数据。例如,用于 CreateDataset 提供训练或测试数据以及 StartFlywheelIteration 为模型版本生成评估数据。

  • 数据湖结构可能会随着时间的推移而演变。不要创建明确依赖数据湖结构的下游脚本或程序。

  • 在为飞轮提供数据湖位置时,我们建议为与所有飞轮相关的数据创建一个通用前缀,或者为每个飞轮使用不同的前缀。我们不建议使用一个飞轮的完整数据湖路径作为另一个飞轮的前缀。