多模式理解

Amazon Nova 2 Lite 可以了解多個輸入模式。此模型配備視覺功能，使其能夠理解和分析影像、文件、影片和語音，以根據提供的內容推斷和回答問題。

本節概述在 Amazon Nova 中使用影像、文件和影片的指導方針，包括採用的預先處理策略、程式碼範例和要考慮的相關限制。

依模態支援的內容類型

以下資訊詳細說明每個媒體檔案類型支援的檔案格式，以及可接受的輸入方法。

媒體檔案類型	支援的檔案格式	輸入方法	大小限制	物件的數目
影像	PNG、JPEG、GIF、WebP 注意：如果您使用動畫 GIF 或 WebP 檔案，則只會使用第一個影格。	在請求中內嵌資料如果您使用 Converse API，請將資料編碼為位元組。如果您使用叫用 API，請將資料編碼為 Base64 字串。	25 MB	5
影像	PNG、JPEG、GIF、WebP 注意：如果您使用動畫 GIF 或 WebP 檔案，則只會使用第一個影格。	Amazon S3 URL	總計 2 GB	1000
影片	MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP	在請求中內嵌資料如果您使用 Converse API，請將資料編碼為位元組。如果您使用叫用 API，請將資料編碼為 Base64 字串。	25 MB	1
影片	MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP	Amazon S3 URL	1 GB	1

影像理解

影像理解是指 Amazon Nova 處理影像和執行各種電腦視覺任務的能力，例如：

執行物件偵測
透過視覺化問題回答 (VQA) 回答有關影像的問題
分類和摘要映像
執行週框方塊偵測
光學字元辨識 (OCR)
物件計數

影像可以包含為以位元組陣列形式或透過 S3 URI 傳送到 API 的提示。

關鍵技術資訊

以下是當您使用此功能時需要注意的重要技術資訊。

影像調整大小和調整規模

Amazon Nova 會自動重新調整映像規模，以最佳化品質和效能：

決定最接近的長寬比（例如 1：1、1：2、2：3 等）
重新調整規模，讓一側 ≥ 896 px 或符合原始影像的較短一側，以較大者為準
維持長寬比
支援高達 8，000 × 8，000 px 解析度

邊界框座標：

適用於識別螢幕擷取畫面或影像接地中的元素等任務
座標可以重新調整規模，以符合影像在後製處理中的原始維度
以【0， 1000】比例傳回週框方塊。

映像金鑰估算

Amazon Nova 會將每個映像轉換為權杖以進行處理。權杖數量取決於影像的解析度和長寬比。

以下是以影像解析度為基礎的近似字符計數範例：

影像解析度	預估字符
900 x 450	515
900 x 900	~1，035
1400 x 900	~1，600
1800 x 900	~2，060
1300 x 1300	~2，155

影像理解範例

如需如何直接在請求中內嵌映像資料的範例，請參閱《》中的使用內嵌資產 - Converse API （非串流）的多模態輸入範例程式碼庫。

若要上傳大型影像檔案或多個影像檔案，其中整體承載大於 25 MB，請使用 Amazon S3。如需如何使用 Amazon S3 URI 參考進行映像輸入的完整範例，請參閱《》中的使用 S3 URI - Converse API （非串流）的多模態輸入範例程式碼庫。

注意

使用 S3 時，請確保 Amazon Bedrock 服務具有存取儲存貯體和物件的許可。

金鑰限制

下列清單概述影像理解模型目前的限制：

多語言影像理解：模型對多語言影像和影片影格的理解有限，並且可能對簡單任務造成困擾或幻覺。
人員識別：Amazon Nova 2 模型不支援在影像、文件或影片中識別或命名個人的能力。
空間推理：Amazon Nova 2 模型的空間推理功能有限。它們可能難以處理需要精確當地語系化或佈局分析的任務。
影像和影片中的小型文字：如果影像或影片中的文字太小，請考慮透過裁切至相關區段來增加影像中的文字相對大小，同時保留必要的內容。

影片理解

影片理解是指 Amazon Nova 處理影片輸入和執行各種影片理解任務的能力，例如：

分析關鍵影格並摘要影片內容
回答有關影片片段的問題（影片問題回答或影片 QA)
跨影格偵測和追蹤物件
識別動作、場景和事件
執行暫時分段以找出特定時刻
產生影片序列的描述性字幕或摘要

關鍵技術資訊

以下是當您使用此功能時需要注意的重要技術資訊。

影片大小資訊

Amazon Nova 影片理解功能支援多長寬比。所有影片都會以失真（根據原始長寬比向上或向下）調整大小為 672 × 672 平方維，然後再輸入模型。

此模型會根據影片長度使用動態取樣策略。對於長度為 16 分鐘或更短的影片，Amazon Nova 2 Lite 會取樣每秒 1 個影格 (FPS)。對於超過 16 分鐘的影片，取樣率會降低，以維持一致的 960 影格取樣，影格取樣率會隨之而變化。相較於較長的影片內容，此方法旨在為較短影片提供更準確的場景層級影片理解。

我們建議您將影片長度保留在低動作時少於 1 小時，若為高動作時少於 16 分鐘。

分析影片的 4k 版本和全高清版本時，應該沒有差異。同樣地，由於取樣率為 1 FPS，因此 60 FPS 影片應執行，以及 30 FPS 影片。由於影片大小的 1 GB 限制，使用高於所需解析度的解析度和 FPS 是無效的。這樣做會限制符合該大小限制的影片長度，因此您可能想要預先處理超過 1 GB 的影片。

影片詞元

影片的長度是影響產生的字符數量的主要因素。若要計算近似成本，請將影片字符的預估數量乘以所使用特定模型的每個字符價格。

下表提供每個 Amazon Nova 2 Lite 影片長度的影格取樣和字符使用率近似值：

影片長度	要取樣的影格	取樣率 fps	大約權杖
10 秒	10	1	2,880
30 秒	30	1	8，640
16 分鐘	960	1	276，480
20 分鐘	1200	1	345，600
30 分鐘	1800	1	518，400
45 分鐘	2700	1	777，600

影片理解範例

如需如何直接將視訊資料嵌入請求中的範例，請參閱《》中的使用內嵌資產 - Converse API （非串流）的多模態輸入範例程式碼庫。

如需如何在視訊輸入中使用 S3 URI 參考的範例，請參閱《》中的使用 S3 URI - Converse API （非串流）的多模態輸入範例程式碼庫。

金鑰限制

以下是關鍵模型限制，其中可能無法保證模型準確性和效能：

無音訊支援：Amazon Nova 模型目前經過訓練，僅根據視覺化影格來處理和了解影片內容。不會處理或分析影片中的音訊軌。
多語言影像理解：Amazon Nova 模型對多語言影像和影片影格的理解有限。他們可能會在簡單的任務上遇到困難或幻覺。
人員識別：Amazon Nova 模型不支援在影像、文件或影片中識別或命名個人的功能。這些模型不會在視覺內容中提供人物的名稱或身分。
影片中的小型文字：如果影像或影片中的文字太小，請考慮增加影片中文字的相對大小。
空間推理：Amazon Nova 2 模型的空間推理功能有限。他們可能難以處理需要精確了解影片中物件位置、距離或空間關係的任務。
不適當內容：Amazon Nova 模型不會處理違反「可接受使用政策」的不適當或露骨的影像。
醫療保健應用程式：由於這些成品的敏感性質，即使 Amazon Nova 模型可以對某些醫療保健影像或影片進行一般分析，我們不建議使用它們來解譯敏感醫療影像，例如複雜的診斷掃描。Amazon Nova 模型的回應不應被視為替代專業醫療建議。

理解文件

Amazon Nova 的文件理解功能可讓您在提示中包含整個文件 (PDFs、Word 檔案、試算表等）。這可讓模型分析、摘要、擷取或回答有關文件內容的問題。

Amazon Nova 2 Lite 可以解譯這些文件中的文字和視覺元素（例如圖表或資料表）。這可啟用例如問題回答、摘要和分析冗長報告或掃描文件等使用案例。

重要文件理解功能包括適用於長文件的非常大型內容視窗 (1M 字符），以及能夠在單一查詢中處理多個文件。

支援的文件模式和格式

Amazon Nova 區分兩種類型的文件輸入：

文字型文件，例如 TXT、CSV、HTML、Markdown 或 DOC 檔案，主要針對其文字內容進行處理。Amazon Nova 了解這些文件中的文字並從中擷取資訊。
以媒體為基礎的文件，例如 PDF 或 DOCX 檔案，可能包含複雜的配置、影像、圖表或內嵌圖形。對於以媒體為基礎的文件，Amazon Nova 採用以視覺為基礎的理解來解譯視覺化內容，例如圖表、資料表、圖表或螢幕擷取畫面，以及文件的文字。

支援的檔案格式包括常見的文件類型，例如：

純文字和結構化文字檔案：CSV、TXT
試算表：XLS、XLSX、HTML、Markdown
標準影像格式（適用於文件中的影像）：PNG、JPG、GIF、WebP
文件格式：DOC、DOCX、PDF
不支援包含影像編碼的 PDFs，例如 CMYK 或 SVG。

文件大小限制和使用準則

限制條件	限制
文件數量上限	每個請求最多 5 個文件（適用於直接上傳和 Amazon S3)
文字型文件大小	每個文字文件必須等於或小於 4.5 MB
以媒體為基礎的文件大小	對於 PDF 和 DOCX 檔案，沒有個別檔案大小限制。使用直接上傳時，所有媒體文件的合併大小必須小於或等於 25 MB。使用 Amazon S3 時，所有媒體文件的合併大小必須小於或等於 2 GB。
不支援的 PDF 內容	不支援包含 CMYK 顏色設定檔或 SVG 影像PDFs。

定價

Amazon Nova 使用字符型定價：您支付輸入字符（您傳送的所有項目，包括連接的文件）和輸出字符（模型的回應）。

估算 PDFs 字符：為進行規劃，請假設標準 8.5x11 英吋 PDF 頁面 ≈ 2，560 個輸入字符（此估算涵蓋典型頁面上的文字和視覺元素）。

範例：透過 API 和 S3 使用 Nova 的文件理解

如需如何透過 API 使用的範例，請參閱中的使用內嵌資產 - Converse API （非串流）的多模態輸入範例程式碼庫。

如需如何透過 S3 使用的範例，請參閱中的使用 S3 URI - Converse API （非串流）的多模態輸入範例程式碼庫。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

推理

Speech-to-Speech