本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Titan 內嵌模型包括 Amazon Titan 文字內嵌 v2 和 Titan 文字內嵌 G1 模型。
文字內嵌項目代表非結構化文字 (例如文件、段落和句子) 的有意義向量表示法。您輸入文字內文,輸出為 (1 x n) 向量。您可以針對多種應用程式使用內嵌項目向量。
Amazon Titan Text Embedding v2 模型 (amazon.titan-embed-text-v2:0
) 最多可接收 8,192 個字符,並輸出 1,024 個維度的向量。此模型也以超過 100 種不同的語言運作。此模型已針對文字擷取任務進行最佳化,但也可以針對語意相似性和叢集化等其他任務進行最佳化。
Amazon Titan Embeddings 模型會產生有意義的文件、段落和句子語意表示。Amazon Titan Text Embeddings 會將文字內文做為輸入,並產生 (1 x n) 向量。Amazon Titan Text Embeddings 是透過延遲最佳化端點調用提供,以加快搜尋速度 (建議在擷取步驟期間進行),以及輸送量最佳化的批次任務,以加快索引編製速度。Amazon Titan Text Embeddings v2 支援長文件,但對於擷取任務,建議將文件分割為邏輯區段,例如段落或區段。
Amazon Titan Embedding Text v2 模型支援下列語言: 英文、 德文、 法文、 西班牙文、 日文、 中文、 印地文、 阿拉伯文、 義大利文、 葡萄牙文、 瑞典文、 韓文、 希伯來文、 捷克文、 土耳其文、 Tagalog、 俄文、 荷蘭文、 波蘭文、 坦米爾文 馬拉地文 馬拉雅拉姆文 特拉古文 Kannada, 越南文、 印尼文、 波斯文、 匈牙利文、 現代希臘文、 羅馬尼亞文、 丹麥文、 泰文、 芬蘭文、 斯洛伐克文、 烏克蘭文、 挪威文、 保加利亞文、 加泰隆尼亞文、 塞爾維亞文、 克羅埃西亞文、 立陶宛文、 斯洛維尼亞文、 愛沙尼亞文、 拉丁文、 孟加拉文 拉脫維亞文 馬來文、 波士尼亞文、 阿爾巴尼亞文、 亞塞拜然文、 加利西亞文、 冰島文、 喬治亞文 馬其頓文、 Basque、 亞美尼亞文、 Nepali、 烏爾都文、 哈薩克、 蒙古文、 白俄羅斯文、 烏茲別克、 高棉、 挪威尼諾斯克、 古吉拉特文 緬甸文、 威爾斯文 埃斯伯蘭托 辛哈拉 塔塔, 斯瓦希里 非洲人、 愛爾蘭文、 Panjabi、 庫德文、 Kirghiz, Tajik、 Oriya、 寮國、 法羅文、 馬爾他文、 索馬利 盧森堡文、 阿姆哈拉文、 奧基特文、 Javanese、 Hausa, Pushto、 梵文、 西部法里斯文 猥褻、 阿薩姆文、 Bashkir、 布林頓, Waray (菲律賓)、 土庫門 Corsican、 德ivehi, 塞布亞諾文、 Kinyarwanda、 海地文、 意地緒文、 信代、 Zulu, 蘇格蘭蓋爾文 西藏文、 Uighur, 毛利、 羅馬尼亞文、 Xhosa、 陽光、 約魯巴。
注意
Amazon Titan Text Embeddings v2 模型和 Titan Text Embeddings v1 模型不支援推論參數,例如 maxTokenCount
或 topP
。
Amazon Titan 文字內嵌 V2 模型
模型 ID –
amazon.titan-embed-text-v2:0
最大輸入文字字符 – 8,192
語言 – 英文 (預覽版中超過 100 種語言)
輸出向量大小 – 1,024 (預設值)、384、256
推論類型 — 隨需、佈建的輸送量
支援的使用案例 – RAG、文件搜尋、重新排名、分類等。
注意
Titan Text Embeddings V2 會採用 做為輸入非空白字串,最多 8,192 個字符。英文字元與字符的比率平均為每個字符 4.7 個字元。雖然 Titan Text Embeddings V1 和 Titan Text Embeddings V2 最多可容納 8,192 個字符,但建議將文件分割為邏輯區段 (例如段落或區段)。
若要使用文字或映像內嵌模型,請將 Invoke Model
API操作與 amazon.titan-embed-text-v2
或 搭配使用amazon.titan-embed-image-v2
,model Id
並在回應中擷取內嵌物件。
若要查看 Jupyter 筆記本範例:
-
https://console.aws.amazon.com/bedrock/在家登入 Amazon Bedrock 主控台。
-
向下捲動並選取 Amazon Titan Text Embeddings V2 模型
-
在 Amazon 中 Titan Text Embeddings V2 索引標籤 (視您選擇的模型而定),選取檢視範例筆記本以查看內嵌的範例筆記本。
如需有關準備資料集以進行多模式訓練的詳細資訊,請參閱準備資料集。