View a markdown version of this page

多模式理解 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

多模式理解

Amazon Nova 2 Lite 可以了解多個輸入模式。此模型配備視覺功能,使其能夠理解和分析影像、文件、影片和語音,以根據提供的內容推斷和回答問題。

本節概述在 Amazon Nova 中使用影像、文件和影片的指導方針,包括採用的預先處理策略、程式碼範例和要考慮的相關限制。

依模態支援的內容類型

以下資訊詳細說明每個媒體檔案類型支援的檔案格式,以及可接受的輸入方法。

媒體檔案類型 支援的檔案格式 輸入方法 大小限制 物件的數目
影像

PNG、JPEG、GIF、WebP

注意:如果您使用動畫 GIF 或 WebP 檔案,則只會使用第一個影格。

在請求中內嵌資料

如果您使用 Converse API,請將資料編碼為位元組。

如果您使用叫用 API,請將資料編碼為 Base64 字串。

25 MB 5
Amazon S3 URL 總計 2 GB 1000
影片 MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP

在請求中內嵌資料

如果您使用 Converse API,請將資料編碼為位元組。

如果您使用叫用 API,請將資料編碼為 Base64 字串。

25 MB 1
Amazon S3 URL 1 GB 1

影像理解

影像理解是指 Amazon Nova 處理影像和執行各種電腦視覺任務的能力,例如:

  • 執行物件偵測

  • 透過視覺化問題回答 (VQA) 回答有關影像的問題

  • 分類和摘要映像

  • 執行週框方塊偵測

  • 光學字元辨識 (OCR)

  • 物件計數

影像可以包含為以位元組陣列形式或透過 S3 URI 傳送到 API 的提示。

關鍵技術資訊

以下是當您使用此功能時需要注意的重要技術資訊。

影像調整大小和調整規模

Amazon Nova 會自動重新調整映像規模,以最佳化品質和效能:

  • 決定最接近的長寬比 (例如 1:1、1:2、2:3 等)

  • 重新調整規模,讓一側 ≥ 896 px 或符合原始影像的較短一側,以較大者為準

  • 維持長寬比

  • 支援高達 8,000 × 8,000 px 解析度

邊界框座標:

  • 適用於識別螢幕擷取畫面或影像接地中的元素等任務

  • 座標可以重新調整規模,以符合影像在後製處理中的原始維度

  • 以 【0, 1000】 比例傳回週框方塊。

映像金鑰估算

Amazon Nova 會將每個映像轉換為權杖以進行處理。權杖數量取決於影像的解析度和長寬比。

以下是以影像解析度為基礎的近似字符計數範例:

影像解析度 預估字符
900 x 450 515
900 x 900 ~1,035
1400 x 900 ~1,600
1800 x 900 ~2,060
1300 x 1300 ~2,155

影像理解範例

如需如何直接在請求中內嵌映像資料的範例,請參閱《》中的使用內嵌資產 - Converse API (非串流) 的多模態輸入範例程式碼庫

若要上傳大型影像檔案或多個影像檔案,其中整體承載大於 25 MB,請使用 Amazon S3。如需如何使用 Amazon S3 URI 參考進行映像輸入的完整範例,請參閱《》中的使用 S3 URI - Converse API (非串流) 的多模態輸入範例程式碼庫

注意

使用 S3 時,請確保 Amazon Bedrock 服務具有存取儲存貯體和物件的許可。

金鑰限制

下列清單概述影像理解模型目前的限制:

  • 多語言影像理解:模型對多語言影像和影片影格的理解有限,並且可能對簡單任務造成困擾或幻覺。

  • 人員識別:Amazon Nova 2 模型不支援在影像、文件或影片中識別或命名個人的能力。

  • 空間推理:Amazon Nova 2 模型的空間推理功能有限。它們可能難以處理需要精確當地語系化或佈局分析的任務。

  • 影像和影片中的小型文字:如果影像或影片中的文字太小,請考慮透過裁切至相關區段來增加影像中的文字相對大小,同時保留必要的內容。

影片理解

影片理解是指 Amazon Nova 處理影片輸入和執行各種影片理解任務的能力,例如:

  • 分析關鍵影格並摘要影片內容

  • 回答有關影片片段的問題 (影片問題回答或影片 QA)

  • 跨影格偵測和追蹤物件

  • 識別動作、場景和事件

  • 執行暫時分段以找出特定時刻

  • 產生影片序列的描述性字幕或摘要

關鍵技術資訊

以下是當您使用此功能時需要注意的重要技術資訊。

影片大小資訊

Amazon Nova 影片理解功能支援多長寬比。所有影片都會以失真 (根據原始長寬比向上或向下) 調整大小為 672 × 672 平方維,然後再輸入模型。

此模型會根據影片長度使用動態取樣策略。對於長度為 16 分鐘或更短的影片,Amazon Nova 2 Lite 會取樣每秒 1 個影格 (FPS)。對於超過 16 分鐘的影片,取樣率會降低,以維持一致的 960 影格取樣,影格取樣率會隨之而變化。相較於較長的影片內容,此方法旨在為較短影片提供更準確的場景層級影片理解。

我們建議您將影片長度保留在低動作時少於 1 小時,若為高動作時少於 16 分鐘。

分析影片的 4k 版本和全高清版本時,應該沒有差異。同樣地,由於取樣率為 1 FPS,因此 60 FPS 影片應執行,以及 30 FPS 影片。由於影片大小的 1 GB 限制,使用高於所需解析度的解析度和 FPS 是無效的。這樣做會限制符合該大小限制的影片長度,因此您可能想要預先處理超過 1 GB 的影片。

影片詞元

影片的長度是影響產生的字符數量的主要因素。若要計算近似成本,請將影片字符的預估數量乘以所使用特定模型的每個字符價格。

下表提供每個 Amazon Nova 2 Lite 影片長度的影格取樣和字符使用率近似值:

影片長度 要取樣的影格 取樣率 fps 大約權杖
10 秒 10 1 2,880
30 秒 30 1 8,640
16 分鐘 960 1 276,480
20 分鐘 1200 1 345,600
30 分鐘 1800 1 518,400
45 分鐘 2700 1 777,600

影片理解範例

如需如何直接將視訊資料嵌入請求中的範例,請參閱《》中的使用內嵌資產 - Converse API (非串流) 的多模態輸入範例程式碼庫

如需如何在視訊輸入中使用 S3 URI 參考的範例,請參閱《》中的使用 S3 URI - Converse API (非串流) 的多模態輸入範例程式碼庫

金鑰限制

以下是關鍵模型限制,其中可能無法保證模型準確性和效能:

  • 無音訊支援:Amazon Nova 模型目前經過訓練,僅根據視覺化影格來處理和了解影片內容。不會處理或分析影片中的音訊軌。

  • 多語言影像理解:Amazon Nova 模型對多語言影像和影片影格的理解有限。他們可能會在簡單的任務上遇到困難或幻覺。

  • 人員識別:Amazon Nova 模型不支援在影像、文件或影片中識別或命名個人的功能。這些模型不會在視覺內容中提供人物的名稱或身分。

  • 影片中的小型文字:如果影像或影片中的文字太小,請考慮增加影片中文字的相對大小。

  • 空間推理:Amazon Nova 2 模型的空間推理功能有限。他們可能難以處理需要精確了解影片中物件位置、距離或空間關係的任務。

  • 不適當內容:Amazon Nova 模型不會處理違反「可接受使用政策」的不適當或露骨的影像。

  • 醫療保健應用程式:由於這些成品的敏感性質,即使 Amazon Nova 模型可以對某些醫療保健影像或影片進行一般分析,我們不建議使用它們來解譯敏感醫療影像,例如複雜的診斷掃描。Amazon Nova 模型的回應不應被視為替代專業醫療建議。

理解文件

Amazon Nova 的文件理解功能可讓您在提示中包含整個文件 (PDFs、Word 檔案、試算表等)。這可讓模型分析、摘要、擷取或回答有關文件內容的問題。

Amazon Nova 2 Lite 可以解譯這些文件中的文字和視覺元素 (例如圖表或資料表)。這可啟用例如問題回答、摘要和分析冗長報告或掃描文件等使用案例。

重要文件理解功能包括適用於長文件的非常大型內容視窗 (1M 字符),以及能夠在單一查詢中處理多個文件。

支援的文件模式和格式

Amazon Nova 區分兩種類型的文件輸入:

  • 文字型文件,例如 TXT、CSV、HTML、Markdown 或 DOC 檔案,主要針對其文字內容進行處理。Amazon Nova 了解這些文件中的文字並從中擷取資訊。

  • 媒體為基礎的文件,例如 PDF 或 DOCX 檔案,可能包含複雜的配置、影像、圖表或內嵌圖形。對於以媒體為基礎的文件,Amazon Nova 採用以視覺為基礎的理解來解譯視覺化內容,例如圖表、資料表、圖表或螢幕擷取畫面,以及文件的文字。

支援的檔案格式包括常見的文件類型,例如:

  • 純文字和結構化文字檔案:CSV、TXT

  • 試算表:XLS、XLSX、HTML、Markdown

  • 標準影像格式 (適用於文件中的影像):PNG、JPG、GIF、WebP

  • 文件格式:DOC、DOCX、PDF

  • 不支援包含影像編碼的 PDFs,例如 CMYK 或 SVG。

文件大小限制和使用準則

限制條件

限制

文件數量上限

每個請求最多 5 個文件 (適用於直接上傳和 Amazon S3)

文字型文件大小

每個文字文件必須等於或小於 4.5 MB

以媒體為基礎的文件大小

對於 PDF 和 DOCX 檔案,沒有個別檔案大小限制。使用直接上傳時,所有媒體文件的合併大小必須小於或等於 25 MB。使用 Amazon S3 時,所有媒體文件的合併大小必須小於或等於 2 GB。

不支援的 PDF 內容

不支援包含 CMYK 顏色設定檔或 SVG 影像PDFs。

定價

Amazon Nova 使用字符型定價:您支付輸入字符 (您傳送的所有項目,包括連接的文件) 和輸出字符 (模型的回應)。

估算 PDFs 字符:為進行規劃,請假設標準 8.5x11 英吋 PDF 頁面 ≈ 2,560 個輸入字符 (此估算涵蓋典型頁面上的文字和視覺元素)。

範例:透過 API 和 S3 使用 Nova 的文件理解

如需如何透過 API 使用的範例,請參閱 中的使用內嵌資產 - Converse API (非串流) 的多模態輸入範例程式碼庫

如需如何透過 S3 使用的範例,請參閱 中的使用 S3 URI - Converse API (非串流) 的多模態輸入範例程式碼庫