Amazon Titan Multimodal Embeddings G1模型

Amazon Titan Foundation Models 已針對大型資料集進行預先訓練，使其成為功能強大且通用的模型。依原狀使用它們，或針對特定任務使用您自己的資料微調模型來自訂它們，而不註釋大量資料。

Titan 模型有三種類型：內嵌、文字產生和影像產生。

有兩種Titan Multimodal Embeddings G1模型。Titan Multimodal Embeddings G1 模型會將文字輸入（單字、片語或可能較大的文字單位）轉譯為數字表示法（稱為內嵌），其中包含文字的語意意義。雖然此模型不會產生文字，但對於個人化和搜尋等應用程式很有用。透過比較內嵌，模型會產生比單字比對更相關且內容相關的回應。多模態內嵌 G1 模型用於使用案例，例如依文字、影像相似性或文字和影像的組合搜尋影像。它會將輸入影像或文字轉譯為內嵌，其中包含相同語意空間中影像和文字的語意意義。

Titan Text 模型是彙總、文字產生、分類、開放式 QnA 和資訊擷取等任務的生成式 LLMs。他們也接受許多不同程式設計語言的訓練，以及諸如資料表、JSON 和 .csv 檔案等豐富的文字格式，以及其他格式。

Amazon Titan 多模態內嵌模型 G1

模型 ID – amazon.titan-embed-image-v1
最大輸入文字字符 – 256
語言 — 英文
最大輸入影像大小 – 25 MB
輸出向量大小 – 1,024 (預設值)、384、256
推論類型 — 隨需、佈建的輸送量
支援的使用案例 – 搜尋、建議和個人化。

Titan Text Embeddings V1 採用最多 8，192 個字符的非空白字串做為輸入，並傳回 1，024 個維度內嵌。英文字元與字符的比率平均為 4.7 個字元/字符。RAG 使用案例的注意事項：雖然 Titan Text Embeddings V2 最多可容納 8，192 個字符，但我們建議將文件分割為邏輯區段（例如段落或區段）。

內嵌長度

設定自訂內嵌長度是選擇性的。內嵌的預設長度為 1024 個字元，適用於大多數使用案例。內嵌長度可以設定為 256、384 或 1024 個字元。較大的內嵌大小會產生更詳細的回應，但也會增加運算時間。較短的內嵌長度較不詳細，但會縮短回應時間。



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

微調

Amazon Titan Multimodal Embeddings G1 微調的輸入是影像文字對。
影像格式：PNG、JPEG
輸入影像大小限制：25 MB
影像維度：最小值：256 px，最大值：4，096 px
字幕中字符數量上限：128
訓練資料集大小範圍：1000 - 500,000
驗證資料集大小範圍：8 - 50,000
字幕長度 (以字元為單位)：0 - 2,560
每張影像的總像素數上限：2048*2048*3
長寬比 (w/h)：最小：0.25，最大：4

準備資料集

有關訓練資料集，請建立具有多重 JSON 行的.jsonl檔案。每一 JSON 行都包含類似於 Sageemaker 增強清單檔案格式的 image-ref 和 caption 屬性。驗證資料集是必要的。目前不支援自動字幕。



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

對於訓練和驗證資料集，請建立具有多重 JSON 行的.jsonl檔案。

Amazon S3 路徑必須位於您為 Amazon Bedrock 提供許可權的相同資料夾中，以透過將 IAM 政策附加到 Amazon Bedrock 服務角色的方式來存取資料。如需授予用於訓練資料的 IAM 政策的詳細資訊，請參閱授予訓練資料的的自訂任務存取權。

超參數

這些值可以針對 Multimodal Embeddings 模型超參數進行調整。預設值適用於大多數使用案例。

學習率 - (最小/最大學習速率) — 預設：5.00E-05，最小值：5.00E-08，最大值：1
批次大小 - 有效批次大小 — 預設值：576，最小值：256，最大值：9,216
最大 epoch — 預設值："auto"，最小值：1，最大值：100

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

Amazon Titan Text Embeddings

Amazon Titan Image Generator G1 模型概觀