多模态理解

Amazon Nova 2 Lite 可以理解多种输入模态。此模型搭载视觉能力，可理解并分析图像、文档、视频与语音，依据输入内容进行推理并作答。

本节概述了在 Amazon Nova 中处理图像、文档和视频的指南，包括使用的预处理策略、代码示例和需考虑的相关限制。

按模态划分的支持内容类型

以下信息详细说明了每个媒体文件类型支持的文件格式和接受的输入方法。

媒体文件类型	支持的文件格式	输入方法	大小限制	对象数量
图像	PNG、JPEG、GIF、WebP 注意：如果使用动画 GIF 或 WebP 文件，则只使用第一帧。	在请求中嵌入数据如果使用 Converse API，请将数据编码为字节。如果使用调用 API，请将数据编码为 Base64 字符串。	25 MB	5
图像	PNG、JPEG、GIF、WebP 注意：如果使用动画 GIF 或 WebP 文件，则只使用第一帧。	Amazon S3 URI	总计 2 GB	1000
视频	MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP	在请求中嵌入数据如果使用 Converse API，请将数据编码为字节。如果使用调用 API，请将数据编码为 Base64 字符串。	25 MB	1
视频	MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP	Amazon S3 URI	1 GB	1

图像理解

图像理解是指 Amazon Nova 对图像进行处理并执行各类计算机视觉任务的能力，例如：

执行物体检测
通过视觉问答（VQA）回答有关图像的问题
对图像进行分类与汇总
执行边界框检测
光学字符识别（OCR）
物体计数

可将图像作为提示，以字节数组形式或通过 S3 URI 传递给 API。

关键技术信息

使用该功能时，请注意以下关键技术信息。

图像尺寸与缩放处理

Amazon Nova 会自动对图像进行缩放，兼顾画质与性能：

确定最接近的宽高比（例如 1:1、1:2、2:3）
缩放规则：将图像缩放至其中一边不小于 896 像素，或与原图较短边等长，取两者中较大值
保持宽高比
最高支持 8000 x 8000 像素分辨率

边界框坐标：

适用于识别截图中的元素、图像定位等任务
后期处理中可对坐标进行缩放，以匹配图像原始尺寸
边界框返回值采用 [0, 1000] 尺度。

图像词元估计

Amazon Nova 可将每张图像转换为词元进行处理。词元数量取决于图像的分辨率和宽高比。

以下是基于图像分辨率的近似词元计数示例：

图像分辨率	估计的词元
900 x 450	515
900 x 900	~1035
1400 x 900	~1600
1800 x 900	~2060
1300 x 1300	~2155

图像理解示例

有关如何直接在请求中嵌入图像数据的示例，请参阅代码库中的“使用嵌入式资产的多模态输入 – Converse API（非流式传输）示例”。

要上传总有效载荷大于 25 MB 的大型图像文件或多个图像文件，可以使用 Amazon S3。有关如何使用 Amazon S3 URI 引用进行图像输入的完整示例，请参阅代码库中的“使用 S3 URI 的多模态输入 – Converse API（非流式传输）示例”。

注意

使用 S3 时，需确保 Amazon Bedrock 服务有权访问存储桶和对象。

关键限制

以下列表概述了图像理解模型的当前限制：

多语言图像理解：模型对多语言图像和视频帧的理解有限，在简单任务中可能会遇到困难或产生幻觉。
人物识别：Amazon Nova 2 模型不支持在图像、文档或视频中识别或命名个人的功能。
空间推理：Amazon Nova 2 模型的空间推理能力有限。它们可能很难完成需要精确本地化或布局分析的任务。
图像/视频中的小文本：如果图像或视频中的文本太小，可以考虑通过裁剪到相关部分来增加图像中文本的相对大小，同时保留必要的上下文。

视频理解

视频理解是指 Amazon Nova 对视频输入进行处理，并执行各类视频解析任务的能力，例如：

分析关键帧并总结视频内容
回答有关视频片段的问题（视频问答）
跨帧物体检测与跟踪
识别动作、场景与事件
执行时序分割，定位特定画面节点
视频片段生成描述性字幕或摘要

关键技术信息

使用该功能时，请注意以下关键技术信息。

视频大小信息

Amazon Nova 视频理解功能支持多种宽高比。将所有视频的大小按畸变调整为（根据原始宽高比，可能是放大或缩小）672 x 672 平方尺寸，然后再将其输入到模型。

该模型根据视频长度使用动态采样策略。对于时长不超过 16 分钟的视频，Amazon Nova 2 Lite 采用每秒 1 帧（1 FPS）的采样率。对于时长超过 16 分钟的视频，系统将降低采样率，统一采样 960 帧，帧采样速率会随之调整。这种方法旨在为较短的视频提供比较长的视频内容更准确的场景级视频理解。

对于低动态视频，建议将视频时长保持在 1 小时以内；对于高动态视频，建议将视频时长保持在 16 分钟以内。

在分析 4k 版本的视频和全高清版本视频时，应该没有区别。同样，采样率为 1 FPS，因此 60 FPS 的视频应该与 30 FPS 的视频的表现一样好。受视频大小 1 GB 限制，采用超出实际需求的分辨率与帧率并无益处。否则会缩短满足大小限制的视频时长，建议对超过 1 GB 的视频进行预处理。

视频词元

视频的时长是影响生成词元数量的主要因素。要计算近似成本，应将视频词元的估计数量乘以所使用的特定模型的每词元价格。

下表提供了 Amazon Nova 2 Lite 的每个视频长度的帧采样和词元利用率的一些近似值：

视频长度	采样帧数	采样率（FPS）	近似词元数
10 秒	10	1	2,880
30 秒	30	1	8640
16 分钟	960	1	276480
20 分钟	1200	1	345600
30 分钟	1800	1	518400
45 分钟	2700	1	777600

视频理解示例

有关如何直接在请求中嵌入视频数据的示例，请参阅代码库中的“使用嵌入式资产的多模态输入 – Converse API（非流式传输）示例”。

有关如何在视频输入中使用 S3 URI 引用的示例，请参阅代码库中的“使用 S3 URI 的多模态输入 – Converse API（非流式传输）示例”。

关键限制

以下是关键的模型限制，这些情况下可能无法保证模型的准确性和性能：

不支持音频：Amazon Nova 模型目前接受过训练，只能根据视觉帧来处理和理解视频内容。视频中的音轨不参与处理与分析。
多语言图像理解：Amazon Nova 模型对多语言图像和视频帧的理解有限。在类似的任务中可能会遇到困难或产生幻觉。
人物识别：Amazon Nova 模型不支持在图像、文档或视频中识别或命名个人的功能。模型不会提供视觉内容中人物的姓名与身份信息。
视频中的小文本：如果图像或视频中的文本太小，可以考虑增加视频中文本的相对大小。
空间推理：Amazon Nova 2 模型的空间推理能力有限。对于需要精准识别视频中物体位置、距离或空间关系的任务，模型效果可能有限。
不当内容：Amazon Nova 模型不会处理违反可接受使用政策的不当或露骨图像。
医疗保健应用：尽管 Amazon Nova 模型可以对某些医疗保健图像或视频进行一般分析，但由于这些构件的敏感性，我们不建议利用这些分析结果来解释复杂的诊断扫描等敏感的医疗图像。Amazon Nova 模型的回复绝不能替代专业的医学建议。

文档理解

借助 Amazon Nova 的文档理解功能，您可以在提示中包含整个文档（PDF、Word 文件、电子表格等）。这使模型能够分析、总结、提取信息或回答有关文档内容的问题。

Amazon Nova 2 Lite 可解释这些文档中的文本与视觉元素（例如图表或表格）。这支持多种用例，比如对冗长报告或扫描文档进行问答、概括和分析。

文档理解核心特性包括支持长文档的超大上下文窗口（100 万词元），以及单次查询处理多文档的能力。

支持的文档模式与格式

Amazon Nova 区分了以下两种类型的文档输入：

基于文本的文档（例如 TXT、CSV、HTML、Markdown 或 DOC 文件）主要处理其文本内容。Amazon Nova 可理解并提取这些文档的文本并从中提取信息。
基于媒体的文档（例如 PDF 或 DOCX 文件）可能含有复杂的布局、图像、图表或嵌入式图形。对于基于媒体的文档，Amazon Nova 采用基于视觉的理解功能来解释文档文本旁边的视觉内容，例如图表、表格、示意图或屏幕截图。

支持的文件格式包含各类常用文档，例如：

纯文本与结构化文本文件：CSV、TXT
电子表格：XLS、XLSX、HTML、Markdown
标准图像格式（适用于文档中的图像）：PNG、JPG、GIF、WebP
文档格式：DOC、DOCX、PDF
不支持包含图像编码（如 CMYK 或 SVG）的 PDF 文件。

文档大小限制和使用指南

约束	限制
最大文档数	每个请求最多 5 份文档（适用于直接上传和 Amazon S3）
基于文本的文档大小	每个文本文档必须等于或小于 4.5 MB
基于媒体的文档大小	PDF 和 DOCX 文件没有单独的文件大小限制。使用直接上传时，所有媒体文档的总大小必须小于或等于 25 MB。使用 Amazon S3 时，所有媒体文档的总大小必须小于或等于 2 GB。
不支持的 PDF 内容	不支持含有 CMYK 颜色配置文件或 SVG 图像的 PDF。

定价

Amazon Nova 采用按词元计费模式：费用包含输入词元（发送的全部内容，含附件文档）与输出词元（模型返回结果）。

估算 PDF 的词元数：为进行规划，假设标准的 8.5 x 11 英寸 PDF 页面 ≈ 2560 个输入词元（此估计值涵盖典型页面上的文本和视觉元素）。

示例：通过 API 和 S3 使用 Nova 的文档理解功能

如需查看通过 API 使用的示例，请参阅代码库中的“使用嵌入式资产的多模态输入 – Converse API（非流式传输）示例”。

如需查看通过 S3 使用的示例，请参阅代码库中的“使用 S3 URI 的多模态输入 – Converse API（非流式传输）示例”。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

推理

语音转语音