视频理解限制 - Amazon Nova

视频理解限制

以下是关键的模型限制,这些情况下可能无法保证模型的准确性和性能。

  • 一个请求生成一个视频:目前模型仅支持一个请求生成一个视频。一些框架和库会使用内存来跟踪以前的交互。之前的上下文中可能已经添加了视频。

  • 不支持音频:模型目前接受过训练,只能根据视频中的视觉信息来处理和理解视频内容。它们不具备分析或理解视频中存在的任何音频组件的能力。

  • 时间因果关系:模型对整个视频过程中事件因果关系的理解有限。尽管它可以很好地回答时间点问题,但如果回答取决于对一系列事件的理解,则表现欠佳

  • 多语言图像理解:模型对多语言图像和视频帧的理解有限。在类似的任务中可能会遇到困难或产生幻觉。

  • 人物识别:Amazon Nova 模型不支持在图像、文档或视频中识别或命名个人的功能。模型将拒绝执行此类任务。

  • 空间推理:Amazon Nova 模型的空间推理能力有限。它们可能很难完成需要精确本地化或布局分析的任务。

  • 图像或视频中的小文本:如果图像或视频中的文字太小,可以考虑通过裁剪到相关部分来增加图像中文本的相对大小,同时保留必要的上下文。

  • 计数:Amazon Nova 模型可以提供图像中物体的近似数量,但不一定总是能做到非常精确,尤其是在处理大量小物体时。

  • 不当内容:Amazon Nova 模型不会处理违反可接受使用政策的不当或露骨图像

  • 医疗保健应用:尽管 Amazon Nova 模型可以对医疗保健图像或视频进行一般分析,但由于这些构件的敏感性,我们不建议您解释复杂的诊断扫描。Amazon Nova 的回复绝不能替代专业的医学建议。