本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
多模式理解
Amazon Nova 2 Lite 可以了解多個輸入模式。此模型配備視覺功能,使其能夠理解和分析影像、文件、影片和語音,以根據提供的內容推斷和回答問題。
本節概述在 Amazon Nova 中使用影像、文件和影片的指導方針,包括採用的預先處理策略、程式碼範例和要考慮的相關限制。
依模態支援的內容類型
以下資訊詳細說明每個媒體檔案類型支援的檔案格式,以及可接受的輸入方法。
| 媒體檔案類型 | 支援的檔案格式 | 輸入方法 | 大小限制 | 物件的數目 |
|---|---|---|---|---|
| 影像 | PNG、JPEG、GIF、WebP 注意:如果您使用動畫 GIF 或 WebP 檔案,則只會使用第一個影格。 |
在請求中內嵌資料 如果您使用 Converse API,請將資料編碼為位元組。 如果您使用叫用 API,請將資料編碼為 Base64 字串。 |
25 MB | 5 |
| Amazon S3 URL | 總計 2 GB | 1000 | ||
| 影片 | MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP | 在請求中內嵌資料 如果您使用 Converse API,請將資料編碼為位元組。 如果您使用叫用 API,請將資料編碼為 Base64 字串。 |
25 MB | 1 |
| Amazon S3 URL | 1 GB | 1 |
影像理解
影像理解是指 Amazon Nova 處理影像和執行各種電腦視覺任務的能力,例如:
-
執行物件偵測
-
透過視覺化問題回答 (VQA) 回答有關影像的問題
-
分類和摘要映像
-
執行週框方塊偵測
-
光學字元辨識 (OCR)
-
物件計數
影像可以包含為以位元組陣列形式或透過 S3 URI 傳送到 API 的提示。
關鍵技術資訊
以下是當您使用此功能時需要注意的重要技術資訊。
影像調整大小和調整規模
Amazon Nova 會自動重新調整映像規模,以最佳化品質和效能:
-
決定最接近的長寬比 (例如 1:1、1:2、2:3 等)
-
重新調整規模,讓一側 ≥ 896 px 或符合原始影像的較短一側,以較大者為準
-
維持長寬比
-
支援高達 8,000 × 8,000 px 解析度
邊界框座標:
-
適用於識別螢幕擷取畫面或影像接地中的元素等任務
-
座標可以重新調整規模,以符合影像在後製處理中的原始維度
-
以 【0, 1000】 比例傳回週框方塊。
映像金鑰估算
Amazon Nova 會將每個映像轉換為權杖以進行處理。權杖數量取決於影像的解析度和長寬比。
以下是以影像解析度為基礎的近似字符計數範例:
| 影像解析度 | 預估字符 |
|---|---|
| 900 x 450 | 515 |
| 900 x 900 | ~1,035 |
| 1400 x 900 | ~1,600 |
| 1800 x 900 | ~2,060 |
| 1300 x 1300 | ~2,155 |
影像理解範例
如需如何直接在請求中內嵌映像資料的範例,請參閱《》中的使用內嵌資產 - Converse API (非串流) 的多模態輸入範例程式碼庫。
若要上傳大型影像檔案或多個影像檔案,其中整體承載大於 25 MB,請使用 Amazon S3。如需如何使用 Amazon S3 URI 參考進行映像輸入的完整範例,請參閱《》中的使用 S3 URI - Converse API (非串流) 的多模態輸入範例程式碼庫。
注意
使用 S3 時,請確保 Amazon Bedrock 服務具有存取儲存貯體和物件的許可。
金鑰限制
下列清單概述影像理解模型目前的限制:
-
多語言影像理解:模型對多語言影像和影片影格的理解有限,並且可能對簡單任務造成困擾或幻覺。
-
人員識別:Amazon Nova 2 模型不支援在影像、文件或影片中識別或命名個人的能力。
-
空間推理:Amazon Nova 2 模型的空間推理功能有限。它們可能難以處理需要精確當地語系化或佈局分析的任務。
-
影像和影片中的小型文字:如果影像或影片中的文字太小,請考慮透過裁切至相關區段來增加影像中的文字相對大小,同時保留必要的內容。
影片理解
影片理解是指 Amazon Nova 處理影片輸入和執行各種影片理解任務的能力,例如:
-
分析關鍵影格並摘要影片內容
-
回答有關影片片段的問題 (影片問題回答或影片 QA)
-
跨影格偵測和追蹤物件
-
識別動作、場景和事件
-
執行暫時分段以找出特定時刻
-
產生影片序列的描述性字幕或摘要
關鍵技術資訊
以下是當您使用此功能時需要注意的重要技術資訊。
影片大小資訊
Amazon Nova 影片理解功能支援多長寬比。所有影片都會以失真 (根據原始長寬比向上或向下) 調整大小為 672 × 672 平方維,然後再輸入模型。
此模型會根據影片長度使用動態取樣策略。對於長度為 16 分鐘或更短的影片,Amazon Nova 2 Lite 會取樣每秒 1 個影格 (FPS)。對於超過 16 分鐘的影片,取樣率會降低,以維持一致的 960 影格取樣,影格取樣率會隨之而變化。相較於較長的影片內容,此方法旨在為較短影片提供更準確的場景層級影片理解。
我們建議您將影片長度保留在低動作時少於 1 小時,若為高動作時少於 16 分鐘。
分析影片的 4k 版本和全高清版本時,應該沒有差異。同樣地,由於取樣率為 1 FPS,因此 60 FPS 影片應執行,以及 30 FPS 影片。由於影片大小的 1 GB 限制,使用高於所需解析度的解析度和 FPS 是無效的。這樣做會限制符合該大小限制的影片長度,因此您可能想要預先處理超過 1 GB 的影片。
影片詞元
影片的長度是影響產生的字符數量的主要因素。若要計算近似成本,請將影片字符的預估數量乘以所使用特定模型的每個字符價格。
下表提供每個 Amazon Nova 2 Lite 影片長度的影格取樣和字符使用率近似值:
| 影片長度 | 要取樣的影格 | 取樣率 fps | 大約權杖 |
|---|---|---|---|
| 10 秒 | 10 | 1 | 2,880 |
| 30 秒 | 30 | 1 | 8,640 |
| 16 分鐘 | 960 | 1 | 276,480 |
| 20 分鐘 | 1200 | 1 | 345,600 |
| 30 分鐘 | 1800 | 1 | 518,400 |
| 45 分鐘 | 2700 | 1 | 777,600 |
影片理解範例
如需如何直接將視訊資料嵌入請求中的範例,請參閱《》中的使用內嵌資產 - Converse API (非串流) 的多模態輸入範例程式碼庫。
如需如何在視訊輸入中使用 S3 URI 參考的範例,請參閱《》中的使用 S3 URI - Converse API (非串流) 的多模態輸入範例程式碼庫。
金鑰限制
以下是關鍵模型限制,其中可能無法保證模型準確性和效能:
-
無音訊支援:Amazon Nova 模型目前經過訓練,僅根據視覺化影格來處理和了解影片內容。不會處理或分析影片中的音訊軌。
-
多語言影像理解:Amazon Nova 模型對多語言影像和影片影格的理解有限。他們可能會在簡單的任務上遇到困難或幻覺。
-
人員識別:Amazon Nova 模型不支援在影像、文件或影片中識別或命名個人的功能。這些模型不會在視覺內容中提供人物的名稱或身分。
-
影片中的小型文字:如果影像或影片中的文字太小,請考慮增加影片中文字的相對大小。
-
空間推理:Amazon Nova 2 模型的空間推理功能有限。他們可能難以處理需要精確了解影片中物件位置、距離或空間關係的任務。
-
不適當內容:Amazon Nova 模型不會處理違反「可接受使用政策」的不適當或露骨的影像。
-
醫療保健應用程式:由於這些成品的敏感性質,即使 Amazon Nova 模型可以對某些醫療保健影像或影片進行一般分析,我們不建議使用它們來解譯敏感醫療影像,例如複雜的診斷掃描。Amazon Nova 模型的回應不應被視為替代專業醫療建議。
理解文件
Amazon Nova 的文件理解功能可讓您在提示中包含整個文件 (PDFs、Word 檔案、試算表等)。這可讓模型分析、摘要、擷取或回答有關文件內容的問題。
Amazon Nova 2 Lite 可以解譯這些文件中的文字和視覺元素 (例如圖表或資料表)。這可啟用例如問題回答、摘要和分析冗長報告或掃描文件等使用案例。
重要文件理解功能包括適用於長文件的非常大型內容視窗 (1M 字符),以及能夠在單一查詢中處理多個文件。
支援的文件模式和格式
Amazon Nova 區分兩種類型的文件輸入:
-
文字型文件,例如 TXT、CSV、HTML、Markdown 或 DOC 檔案,主要針對其文字內容進行處理。Amazon Nova 了解這些文件中的文字並從中擷取資訊。
-
以媒體為基礎的文件,例如 PDF 或 DOCX 檔案,可能包含複雜的配置、影像、圖表或內嵌圖形。對於以媒體為基礎的文件,Amazon Nova 採用以視覺為基礎的理解來解譯視覺化內容,例如圖表、資料表、圖表或螢幕擷取畫面,以及文件的文字。
支援的檔案格式包括常見的文件類型,例如:
-
純文字和結構化文字檔案:CSV、TXT
-
試算表:XLS、XLSX、HTML、Markdown
-
標準影像格式 (適用於文件中的影像):PNG、JPG、GIF、WebP
-
文件格式:DOC、DOCX、PDF
-
不支援包含影像編碼的 PDFs,例如 CMYK 或 SVG。
文件大小限制和使用準則
限制條件 |
限制 |
|---|---|
文件數量上限 |
每個請求最多 5 個文件 (適用於直接上傳和 Amazon S3) |
文字型文件大小 |
每個文字文件必須等於或小於 4.5 MB |
以媒體為基礎的文件大小 |
對於 PDF 和 DOCX 檔案,沒有個別檔案大小限制。使用直接上傳時,所有媒體文件的合併大小必須小於或等於 25 MB。使用 Amazon S3 時,所有媒體文件的合併大小必須小於或等於 2 GB。 |
不支援的 PDF 內容 |
不支援包含 CMYK 顏色設定檔或 SVG 影像PDFs。 |
定價
Amazon Nova 使用字符型定價:您支付輸入字符 (您傳送的所有項目,包括連接的文件) 和輸出字符 (模型的回應)。
估算 PDFs 字符:為進行規劃,請假設標準 8.5x11 英吋 PDF 頁面 ≈ 2,560 個輸入字符 (此估算涵蓋典型頁面上的文字和視覺元素)。
範例:透過 API 和 S3 使用 Nova 的文件理解
如需如何透過 API 使用的範例,請參閱 中的使用內嵌資產 - Converse API (非串流) 的多模態輸入範例程式碼庫。
如需如何透過 S3 使用的範例,請參閱 中的使用 S3 URI - Converse API (非串流) 的多模態輸入範例程式碼庫。