准备数据集 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备数据集

在开始模型自定义任务之前,您需要最低限度地准备训练数据集。是否支持验证数据集以及您的训练和验证数据集的格式取决于以下因素。

  • 自定义任务的类型(微调或持续的预训练)。

  • 数据的输入和输出模式。

要查看不同模型的数据集和文件要求,请参阅模型自定义配额

选择与您的用例相关的选项卡。

Fine-tuning: Text-to-text

要对 text-to-text 模型进行微调,请创建一个包含多行 JSON 的 JSONL 文件来准备训练和可选的验证数据集。每个 JSON 行都是一个同时包含promptcompletion字段的示例。针对每个令牌使用 6 个字符,作为令牌数量的近似值。格式如下所示。

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

以下是问答任务的示例项目:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

要微调 text-to-image 或 image-to-embedding 模型,请通过创建包含多行 JSON 的 JSONL 文件来准备训练数据集。不支持验证数据集。每行 JSON 内容都是一个样本,其中包含 image-ref(图像的 Amazon S3 URI)和 caption(可作为图像的提示)。

这些图像必须是 JPEG 或 PNG 格式。

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下是示例项目:

{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

要允许 Amazon Bedrock 访问图像文件,请添加与您在控制台中访问训练和验证文件以及在 S3 中写入输出文件的权限设置或自动设置的 Amazon Bedrock 模型自定义服务角色中的策略相似的 IAM 策略。您在训练数据集内提供的 Amazon S3 路径必须位于您在策略中指定的文件夹中。

Continued Pre-training: Text-to-text

要对 text-to-text 模型进行持续预训练,请通过创建包含多行 JSON 行的 JSONL 文件来准备训练和可选的验证数据集。由于持续预训练涉及未标记的数据,因此每个 JSON 行都是仅包含一个字段的input样本。针对每个令牌使用 6 个字符,作为令牌数量的近似值。格式如下所示。

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

以下是训练数据中可能存在的示例项目。

{"input": "AWS stands for Amazon Web Services"}