亚马逊Titan Image Generator G1模型 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊Titan Image Generator G1模型

Amazon Titan Image Generator G1 是一种图像生成模型。它根据文本生成图像,并允许用户上传和编辑现有图像。该模型可以根据自然语言文本生成图像,也可以用于编辑现有或生成的图像或生成变体。用户可以使用文本提示编辑图像(不使用掩膜),也可以使用图像掩膜编辑图像的某些部分。您可以使用扩绘功能来扩展图像的边界,也可以用补绘功能来填充图像。它还能根据可选的文本提示生成图像的变体。

Amazon Titan Image Generator G1 模型支持即时定制,允许创作者导入 1 到 5 张参考图片,并在新颖背景下生成给定的主题图片。该模型保留了图像的关键特征,无需立即进行工程即可执行基于图像的风格转移,并根据多个参考图像生成风格混合,所有这些都无需微调。

为了继续支持负责任地使用人工智能的最佳实践,泰坦基金会模型旨在检测和删除数据中的有害内容,拒绝用户输入中的不当内容,并过滤模型中包含不当内容(例如仇恨言论、亵渎和暴力)的输出。Titan Image Generator FM 为所有生成的图像添加了不可见的水印。

您可以使用 Amazon Bedrock 控制台(预览版)中的水印检测功能,也可以调用 Amazon Bedrock 水印检测 API(预览)来检查图像是否包含来自 Titan 图像生成器的水印。

有关亚马逊Titan Image Generator G1提示工程指南的更多信息,请参阅亚马逊Titan Image Generator G1提示工程最佳实践

  • 模型 IDamazon.titan-image-generator-v1

  • 最大输入字符数 — 512 个字符

  • 最大输入图像大小 — 5 MB(仅支持某些特定的分辨率)

  • 使用入/出绘时的最大图像尺寸 — 1,408 x 1,408 像素

  • 使用图像变体的最大图像尺寸 – 4,096 x 4,096 像素

  • 语言 – 英语

  • 输出类型 – 图像

  • 支持的图像类型 – JPEG、JPG、PNG

  • 推理类型 – 按需吞吐量、预调配吞吐量

  • 支持的用例 – 图像生成、图像编辑、图像变体

功能

  • T ext-to-image (T2I) 生成-输入文本提示并生成新图像作为输出。生成的图像捕捉了文本提示所描述的概念。

  • T2I 模型的微调 – 导入多个图像以捕捉自己的风格和个性化,然后微调核心 T2I 模型。经过微调的模型将生成符合特定用户风格和个性化的图像。

  • 图像编辑选项 – 包括补绘、扩绘、生成变体以及不使用图像掩膜的自动编辑。

  • 补绘 – 使用图像和分割掩膜作为输入(来自用户或由模型估计),并重建掩膜内的区域。可使用补绘功能移除掩膜元素并将其替换为背景像素。

  • 扩绘 – 使用图像和分割掩膜作为输入(来自用户或由模型估计),并生成可无缝扩展区域的新像素。将图像扩展到边界时,可使用精准的扩绘功能来保留被掩膜遮盖图像的像素。根据分割设置,使用默认的扩绘功能将被掩膜遮盖图像的像素扩展到图像边界。

  • 图像变体-使用 1 到 5 张图像和可选提示作为输入。它会生成一个新图像,该图像保留了输入图像的内容,但会改变其样式和背景。

注意

如果您使用的是经过微调的模型,则不能使用 API 或模型的修复或外涂功能。

参数

有关 Amazon Titan Image Generator G1 推理参数的信息,请参阅亚马逊Titan Image Generator G1推理参数。

微调

有关微调 Amazon Titan Image Generator G1 模型的更多信息,请参阅以下页面。

Titan Image Generator G1微调和定价

该模型使用以下示例公式来计算每份工作的总价格:

总价格 = 步数 * 批次大小 * 每张图片的价格

最小值(auto):

  • 最小步数 (auto)-500

  • 最小批量大小-8

  • 默认学习率-0.00001

  • 每张图片的价格-0.005

微调超参数设置

步骤-模型在每个批次中暴露的次数。没有设置默认的步数。您必须选择一个介于 10-40,000 之间的数字,或者选择 “自动” 的字符串值。

步骤设置-自动 — Amazon Bedrock 根据训练信息确定合理的值。选择此选项可优先考虑模型性能而不是训练成本。步数是自动确定的。根据您的数据集,此数字通常介于 1,000 到 8,000 之间。Job 成本受用于向数据公开模型的步骤数的影响。请参阅定价详情的定价示例部分,了解工作成本是如何计算的。(参见上面的示例表,了解选择 “自动” 时步数与图像数量的关系。)

步骤设置-自定义- 您可以输入希望 Bedrock 向训练数据公开自定义模型的步数。此值可以介于 10 到 40,000 之间。您可以使用较低的步数值来降低模型生成的每张图像的成本。

Batch siz e-更新模型参数之前处理的样本数量。该值介于 8 和 192 之间,是 8 的倍数。

学习率-每批训练数据之后模型参数的更新速率。这是一个介于 0 和 1 之间的浮点值。默认情况下,学习率设置为 0.00001。

有关微调程序的更多信息,请参阅提交模型定制任务

输出

Titan Image Generator G1使用输出图像的大小和质量来确定图像的定价方式。 Titan Image Generator G1有两个基于尺寸的定价区段:一个用于 512*512 张图片,另一个用于 1024*1024 张图片。价格是根据图像尺寸(高度*宽度)确定的,是小于、等于 512*512 还是大于 512*512。

有关亚马逊 Bedrock 定价的更多信息,请参阅亚马逊 Bedrock 定价。

水印检测

注意

Amazon Bedrock 控制台和 API 的水印检测已在公共预览版中提供,并且只能检测从Titan Image Generator G1中生成的水印。此功能目前仅在us-west-2us-east-1区域可用。水印检测是对生成的水印的高精度检测Titan Image Generator G1。修改原始图像的图像可能会产生不太准确的检测结果。

该模型为所有生成的图像添加了不可见的水印,以减少错误信息的传播,协助版权保护并跟踪内容的使用情况。水印检测功能可帮助您确认图像是否由模型生成,Titan Image Generator G1模型会检查该水印是否存在。

注意

水印检测 API 处于预览阶段,可能会发生变化。我们建议您创建一个虚拟环境来使用 SDK。由于水印检测 API 在最新的 SDK 中不可用,因此我们建议您在安装带有水印检测 API 的版本之前,先从虚拟环境中卸载最新版本的 SDK。

您可以上传图像以检测图像上Titan Image Generator G1是否存在来自的水印。按照以下步骤,使用控制台检测此模型的水印。

要检测水印,请执行Titan Image Generator G1以下操作:
  1. Amazon Bedrock 控制台 中打开 Amazon Bedrock 控制台

  2. 从 Amazon Bedrock 的导航窗格中选择 “概览”。选择 “生成和测试” 选项卡。

  3. 在 “安全措施” 部分中,转到 “水印检测”,然后选择 “查看水印检测”。

  4. 选择 “上传图片”,然后找到 JPG 或 PNG 格式的文件。允许的最大文件大小为 5 MB。

  5. 上传后,将显示图像的缩略图,其中包含名称、文件大小和上次修改日期。选择 X 可从 “上传” 部分删除或替换图片。

  6. 选择 “分析” 开始水印检测分析。

  7. 图像在 “结果” 下预览,并指示是否检测到水印,图像下方检测到水印,图像上有横幅。如果未检测到水印,则图像下方的文字将显示 “未检测到水印”。

  8. 要加载下一张图片,请在 “上传” 部分的图像缩略图中选择 X,然后选择要分析的新图片。

提示工程准则

掩膜提示 – 此算法将把像素划分为不同的概念。用户可提供一个文本提示,系统将根据对掩膜提示的解释,将图像的区域进行分类以使用掩膜遮盖。提示选项可以解释更复杂的提示,并将掩膜编码到分割算法中。

图像掩膜 – 也可以使用图像掩膜来设置掩膜值。可以将图像掩膜与掩膜的提示输入结合起来以提高准确性。图像掩膜文件必须遵守以下参数要求:

  • 掩膜图像的值必须为 0(黑色)或 255(白色)。值为 0 的图像掩膜区域将使用用户提示和/或输入图像中的图像重新生成。

  • maskImage 字段必须为 base64 编码的图像字符串。

  • 掩膜图像的尺寸必须与输入图像的尺寸相同(高度和宽度相同)。

  • 只能使用 PNG 或 JPG 文件作为输入图像和掩膜图像。

  • 掩膜图像只能使用黑白像素值。

  • 掩膜图像只能使用 RGB 通道(不支持 Alpha 通道)。

有关亚马逊Titan Image Generator G1提示工程的更多信息,请参阅亚马逊Titan Image Generator G1提示工程最佳实践

有关提示工程的一般性准则,请参阅提示工程准则