本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Titan Embeddings 模型包括 Amazon Titan Text Embeddings v2 和 Titan Text Embeddings G1 模型。
文字內嵌項目代表非結構化文字 (例如文件、段落和句子) 的有意義向量表示法。您輸入文字內文,輸出為 (1 x n) 向量。您可以針對多種應用程式使用內嵌項目向量。
Amazon Titan Text Embedding v2 模型 (amazon.titan-embed-text-v2:0
) 最多可以接收 8,192 個字符或 50,000 個字元,並輸出 1,024 個維度的向量。此模型已針對文字擷取任務進行最佳化,但也可以針對其他任務進行最佳化,例如語意相似性和叢集。
Amazon Titan Embeddings 模型會產生文件、段落和句子的有意義的語意表示。Amazon Titan Text Embeddings 接受文字內文做為輸入,並產生 (1 x n) 向量。Amazon Titan Text Embeddings 是透過延遲最佳化端點調用提供,以加快搜尋速度 (建議在擷取步驟期間使用),以及輸送量最佳化的批次任務以加快索引編製速度。Amazon Titan Text Embeddings v2 支援長文件,但是對於擷取任務,建議將文件分割為邏輯區段,例如段落或區段。
注意
Amazon Titan Text Embeddings v2 模型和 Titan Text Embeddings v1 模型不支援推論參數,例如 maxTokenCount
或 topP
。
Amazon Titan 文字內嵌 V2 模型
模型 ID –
amazon.titan-embed-text-v2:0
最大輸入文字字符 – 8,192
最大輸入文字字元 – 50,000
語言 – 英文 (預覽版中超過 100 種語言)
輸出向量大小 – 1,024 (預設)、512、256
推論類型 — 隨需、佈建的輸送量
支援的使用案例 – RAG、文件搜尋、重新排名、分類等。
注意
Titan Text Embeddings V2 採用非空白字串做為輸入,最多 8,192 個字符或 50,000 個字元。英文字元與字符的比率平均為每個字符 4.7 個字元。雖然 Titan Text Embeddings V1 和 Titan Text Embeddings V2 最多可容納 8,192 個字符,但建議將文件分割為邏輯區段 (例如段落或區段)。
Amazon Titan Embedding Text v2 模型支援下列語言:
南非荷蘭文
阿爾巴尼亞文
阿姆哈拉文
Arabic
亞美尼亞文
宣告
亞塞拜然文
巴什基爾文
巴斯克文
白俄羅斯文
孟加拉文
波士尼亞文
布林頓
保加利亞文
爆量
加泰隆尼亞文
塞布亞諾文
Chinese
Corsican
克羅埃西亞文
捷克文
丹麥文
德維奇
荷蘭文
英文
埃斯伯蘭托
Estonian
法羅文
芬蘭文
法文
加利西亞文
喬治亞文
德文
古吉拉特文
海地文
豪沙文
Hebrew
北印度文
匈牙利文
冰島文
印尼文
愛爾蘭文
義大利文
日文
Javanese
坎那達文
哈薩克文
高棉
盧安達文
基吉茲
韓文
庫德文
寮國
拉丁文
拉脫維亞文
立陶宛文
盧森堡文
馬其頓文
惡意
馬來文
馬來亞拉姆文
馬爾他文
毛利島
馬拉地文
現代希臘文
Mongolian
尼泊里
挪威文
挪威尼諾斯克
奧基特文
奧利亞
Panjabi
波斯文
Polish
葡萄牙文
Pushto
羅馬尼亞文
羅馬尼亞文
俄文
梵文
蘇格蘭蓋爾文
塞爾維亞文
新地
僧伽羅文
斯洛伐克文
斯洛維尼亞文
索馬利亞文
西班牙文
巽他文
史瓦西里文
瑞典文
他加祿文
塔吉克
坦米爾文
韃靼語
特拉古
Thai
西藏文
Turkish
土庫門
優勝爾
烏克蘭文
烏都文
烏茲別克文
越南文
瓦雷
威爾斯文
西法里斯文
Xhosa
意地緒文
約魯巴文
祖魯文