

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 多模式理解
<a name="using-multimodal-models"></a>

Amazon Nova 2 Lite 可以了解多個輸入模式。此模型配備視覺功能，使其能夠理解和分析影像、文件、影片和語音，以根據提供的內容推斷和回答問題。

本節概述在 Amazon Nova 中使用影像、文件和影片的指導方針，包括採用的預先處理策略、程式碼範例和要考慮的相關限制。

## 依模態支援的內容類型
<a name="supported-content-type-by-modality"></a>

以下資訊詳細說明每個媒體檔案類型支援的檔案格式，以及可接受的輸入方法。

[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/nova/latest/nova2-userguide/using-multimodal-models.html)

**Topics**
+ [依模態支援的內容類型](#supported-content-type-by-modality)
+ [影像理解](#image-understanding)
+ [影片理解](#video-understanding)
+ [理解文件](#document-understanding)

## 影像理解
<a name="image-understanding"></a>

影像理解是指 Amazon Nova 處理影像和執行各種電腦視覺任務的能力，例如：
+ 執行物件偵測
+ 透過視覺化問題回答 (VQA) 回答有關影像的問題
+ 分類和摘要映像
+ 執行週框方塊偵測
+ 光學字元辨識 (OCR)
+ 物件計數

影像可以包含為以位元組陣列形式或透過 S3 URI 傳送到 API 的提示。

### 關鍵技術資訊
<a name="image-technical-info"></a>

以下是當您使用此功能時需要注意的重要技術資訊。

#### 影像調整大小和調整規模
<a name="image-sizing-rescaling"></a>

Amazon Nova 會自動重新調整映像規模，以最佳化品質和效能：
+ 決定最接近的長寬比 （例如 1：1、1：2、2：3 等）
+ 重新調整規模，讓一側 ≥ 896 px 或符合原始影像的較短一側，以較大者為準
+ 維持長寬比
+ 支援高達 8，000 × 8，000 px 解析度

**邊界框座標：**
+ 適用於識別螢幕擷取畫面或影像接地中的元素等任務
+ 座標可以重新調整規模，以符合影像在後製處理中的原始維度
+ 以 【0， 1000】 比例傳回週框方塊。

### 映像金鑰估算
<a name="image-token-estimation"></a>

Amazon Nova 會將每個映像轉換為權杖以進行處理。權杖數量取決於影像的解析度和長寬比。

以下是以影像解析度為基礎的近似字符計數範例：


| 影像解析度 | 預估字符 | 
| --- | --- | 
| 900 x 450 | 515 | 
| 900 x 900 | \$11，035 | 
| 1400 x 900 | \$11，600 | 
| 1800 x 900 | \$12，060 | 
| 1300 x 1300 | \$12，155 | 

### 影像理解範例
<a name="image-understanding-examples"></a>

如需如何直接在請求中內嵌映像資料的範例，請參閱《》中的使用內嵌資產 - Converse API （非串流） 的多模態輸入範例[程式碼庫](code-library.md)。

若要上傳大型影像檔案或多個影像檔案，其中整體承載大於 25 MB，請使用 Amazon S3。如需如何使用 Amazon S3 URI 參考進行映像輸入的完整範例，請參閱《》中的使用 S3 URI - Converse API （非串流） 的多模態輸入範例[程式碼庫](code-library.md)。

**注意**  
使用 S3 時，請確保 Amazon Bedrock 服務具有存取儲存貯體和物件的許可。

### 金鑰限制
<a name="image-limitations"></a>

下列清單概述影像理解模型目前的限制：
+ **多語言影像理解**：模型對多語言影像和影片影格的理解有限，並且可能對簡單任務造成困擾或幻覺。
+ **人員識別**：Amazon Nova 2 模型不支援在影像、文件或影片中識別或命名個人的能力。
+ **空間推理**：Amazon Nova 2 模型的空間推理功能有限。它們可能難以處理需要精確當地語系化或佈局分析的任務。
+ **影像和影片中的小型文字**：如果影像或影片中的文字太小，請考慮透過裁切至相關區段來增加影像中的文字相對大小，同時保留必要的內容。

## 影片理解
<a name="video-understanding"></a>

影片理解是指 Amazon Nova 處理影片輸入和執行各種影片理解任務的能力，例如：
+ 分析關鍵影格並摘要影片內容
+ 回答有關影片片段的問題 （影片問題回答或影片 QA)
+ 跨影格偵測和追蹤物件
+ 識別動作、場景和事件
+ 執行暫時分段以找出特定時刻
+ 產生影片序列的描述性字幕或摘要

### 關鍵技術資訊
<a name="video-technical-info"></a>

以下是當您使用此功能時需要注意的重要技術資訊。

#### 影片大小資訊
<a name="video-size-info"></a>

Amazon Nova 影片理解功能支援多長寬比。所有影片都會以失真 （根據原始長寬比向上或向下） 調整大小為 672 × 672 平方維，然後再輸入模型。

此模型會根據影片長度使用動態取樣策略。對於長度為 16 分鐘或更短的影片，Amazon Nova 2 Lite 會取樣每秒 1 個影格 (FPS)。對於超過 16 分鐘的影片，取樣率會降低，以維持一致的 960 影格取樣，影格取樣率會隨之而變化。相較於較長的影片內容，此方法旨在為較短影片提供更準確的場景層級影片理解。

我們建議您將影片長度保留在低動作時少於 1 小時，若為高動作時少於 16 分鐘。

分析影片的 4k 版本和全高清版本時，應該沒有差異。同樣地，由於取樣率為 1 FPS，因此 60 FPS 影片應執行，以及 30 FPS 影片。由於影片大小的 1 GB 限制，使用高於所需解析度的解析度和 FPS 是無效的。這樣做會限制符合該大小限制的影片長度，因此您可能想要預先處理超過 1 GB 的影片。

#### 影片詞元
<a name="video-tokens"></a>

影片的長度是影響產生的字符數量的主要因素。若要計算近似成本，請將影片字符的預估數量乘以所使用特定模型的每個字符價格。

下表提供每個 Amazon Nova 2 Lite 影片長度的影格取樣和字符使用率近似值：


| 影片長度 | 要取樣的影格 | 取樣率 fps  | 大約權杖 | 
| --- | --- | --- | --- | 
| 10 秒 | 10 | 1 | 2,880 | 
| 30 秒 | 30 | 1 | 8，640 | 
| 16 分鐘 | 960 | 1 | 276，480 | 
| 20 分鐘 | 1200 | 1 | 345，600 | 
| 30 分鐘 | 1800 | 1 | 518，400 | 
| 45 分鐘 | 2700 | 1 | 777，600 | 

#### 影片理解範例
<a name="video-understanding-examples"></a>

如需如何直接將視訊資料嵌入請求中的範例，請參閱《》中的使用內嵌資產 - Converse API （非串流） 的多模態輸入範例[程式碼庫](code-library.md)。

如需如何在視訊輸入中使用 S3 URI 參考的範例，請參閱《》中的使用 S3 URI - Converse API （非串流） 的多模態輸入範例[程式碼庫](code-library.md)。

### 金鑰限制
<a name="video-limitations"></a>

以下是關鍵模型限制，其中可能無法保證模型準確性和效能：
+ **無音訊支援**：Amazon Nova 模型目前經過訓練，僅根據視覺化影格來處理和了解影片內容。不會處理或分析影片中的音訊軌。
+ **多語言影像理解**：Amazon Nova 模型對多語言影像和影片影格的理解有限。他們可能會在簡單的任務上遇到困難或幻覺。
+ **人員識別**：Amazon Nova 模型不支援在影像、文件或影片中識別或命名個人的功能。這些模型不會在視覺內容中提供人物的名稱或身分。
+ **影片中的小型文字**：如果影像或影片中的文字太小，請考慮增加影片中文字的相對大小。
+ **空間推理**：Amazon Nova 2 模型的空間推理功能有限。他們可能難以處理需要精確了解影片中物件位置、距離或空間關係的任務。
+ **不適當內容**：Amazon Nova 模型不會處理違反「可接受使用政策」的不適當或露骨的影像。
+ **醫療保健應用程式**：由於這些成品的敏感性質，即使 Amazon Nova 模型可以對某些醫療保健影像或影片進行一般分析，我們不建議使用它們來解譯敏感醫療影像，例如複雜的診斷掃描。Amazon Nova 模型的回應不應被視為替代專業醫療建議。

## 理解文件
<a name="document-understanding"></a>

Amazon Nova 的文件理解功能可讓您在提示中包含整個文件 (PDFs、Word 檔案、試算表等）。這可讓模型分析、摘要、擷取或回答有關文件內容的問題。

Amazon Nova 2 Lite 可以解譯這些文件中的文字和視覺元素 （例如圖表或資料表）。這可啟用例如問題回答、摘要和分析冗長報告或掃描文件等使用案例。

重要文件理解功能包括適用於長文件的非常大型內容視窗 (1M 字符），以及能夠在單一查詢中處理多個文件。

### 支援的文件模式和格式
<a name="document-formats"></a>

Amazon Nova 區分兩種類型的文件輸入：
+ **文字型文件**，例如 TXT、CSV、HTML、Markdown 或 DOC 檔案，主要針對其文字內容進行處理。Amazon Nova 了解這些文件中的文字並從中擷取資訊。
+ 以**媒體為基礎的文件**，例如 PDF 或 DOCX 檔案，可能包含複雜的配置、影像、圖表或內嵌圖形。對於以媒體為基礎的文件，Amazon Nova 採用以視覺為基礎的理解來解譯視覺化內容，例如圖表、資料表、圖表或螢幕擷取畫面，以及文件的文字。

支援的檔案格式包括常見的文件類型，例如：
+ 純文字和結構化文字檔案：CSV、TXT
+ 試算表：XLS、XLSX、HTML、Markdown
+ 標準影像格式 （適用於文件中的影像）：PNG、JPG、GIF、WebP
+ 文件格式：DOC、DOCX、PDF
+ 不支援包含影像編碼的 PDFs，例如 CMYK 或 SVG。

### 文件大小限制和使用準則
<a name="document-limits"></a>


| 限制條件 | 限制 | 
| --- |--- |
| 文件數量上限 | 每個請求最多 5 個文件 （適用於直接上傳和 Amazon S3) | 
| 文字型文件大小 | 每個文字文件必須等於或小於 4.5 MB | 
| 以媒體為基礎的文件大小 | 對於 PDF 和 DOCX 檔案，沒有個別檔案大小限制。使用直接上傳時，所有媒體文件的合併大小必須小於或等於 25 MB。使用 Amazon S3 時，所有媒體文件的合併大小必須小於或等於 2 GB。 | 
| 不支援的 PDF 內容 | 不支援包含 CMYK 顏色設定檔或 SVG 影像PDFs。 | 

### 定價
<a name="document-pricing"></a>

Amazon Nova 使用字符型定價：您支付輸入字符 （您傳送的所有項目，包括連接的文件） 和輸出字符 （模型的回應）。

**估算 PDFs 字符：**為進行規劃，請假設標準 8.5x11 英吋 PDF 頁面 ≈ 2，560 個輸入字符 （此估算涵蓋典型頁面上的文字和視覺元素）。

### 範例：透過 API 和 S3 使用 Nova 的文件理解
<a name="document-understanding-api-s3"></a>

如需如何透過 API 使用的範例，請參閱 中的使用內嵌資產 - Converse API （非串流） 的多模態輸入範例[程式碼庫](code-library.md)。

如需如何透過 S3 使用的範例，請參閱 中的使用 S3 URI - Converse API （非串流） 的多模態輸入範例[程式碼庫](code-library.md)。