Amazon Titan Text Embeddings 模型

Amazon Titan Embeddings 模型包括 Amazon Titan Text Embeddings V2 和 Titan Text Embeddings G1 模型。

文字內嵌項目代表非結構化文字 (例如文件、段落和句子) 的有意義向量表示法。您輸入文字內文，輸出為 (1 x n) 向量。您可以針對多種應用程式使用內嵌項目向量。

Amazon Titan Text Embedding v2 模型 (amazon.titan-embed-text-v2:0) 最多可接收 8，192 個字符或 50，000 個字元，並輸出 1，024 個維度的向量。此模型已針對文字擷取任務進行最佳化，但也可以用於其他任務，例如語意相似性和叢集。

Amazon Titan Embeddings 模型會產生文件、段落和句子的有意義的語意表示。Amazon Titan Text Embeddings 採用文字內文做為輸入，並產生 (1 x n) 向量。Amazon Titan Text Embeddings 透過延遲最佳化端點調用提供，以加快搜尋速度（建議在擷取步驟期間使用），並提供輸送量最佳化的批次任務，以加快索引編製速度。Amazon Titan Text Embeddings v2 支援長文件，但對於擷取任務，建議將文件分割為邏輯區段，例如段落或區段。

注意

Amazon Titan Text Embeddings v2 模型和 Titan Text Embeddings v1 模型不支援推論參數，例如 maxTokenCount或 topP。

Amazon Titan Text Embeddings V2 模型

模型 ID – amazon.titan-embed-text-v2:0
最大輸入文字字符 – 8，192
最大輸入文字字元 – 50，000
語言 – 英文（預覽版中超過 100 種語言）
輸出向量大小 – 1，024 （預設）、512、256
推論類型 — 隨需、佈建的輸送量
支援的使用案例 – RAG、文件搜尋、重新排名、分類等。

注意

Titan Text Embeddings V2 採用輸入非空白字串，最多 8，192 個字符或 50，000 個字元。英文字元與字符的比率平均為每個字符 4.7 個字元。雖然 Titan Text Embeddings V1 和 Titan Text Embeddings V2 最多可容納 8，192 個字符，但建議將文件分割為邏輯區段（例如段落或區段）。

Amazon Titan Embedding Text v2 模型已針對英文最佳化，並支援下列語言。跨語言查詢（例如提供韓文知識庫並以德文查詢）將傳回次佳的結果。

南非荷蘭文
阿爾巴尼亞文
阿姆哈拉文
Arabic
亞美尼亞文
Assamese
亞塞拜然文
巴什基爾文
巴斯克文
白俄羅斯文
孟加拉文
波士尼亞文
布林頓
保加利亞文
爆量
加泰隆尼亞文
塞布亞諾文
Chinese
Corsican
克羅埃西亞文
捷克文
丹麥文
德語
荷蘭文
英文
愛斯伯蘭托
Estonian
法羅文
芬蘭文
法文
加利西亞文
喬治亞文
德文
古吉拉特文
海地文
豪沙文
Hebrew
北印度文
匈牙利文
冰島文
印尼文
愛爾蘭文
義大利文
日文
Javanese
坎那達文
哈薩克文
高棉
盧安達文
Kirghiz
韓文
庫德文
寮國
拉丁文
拉脫維亞文
立陶宛文
盧森堡文
馬其頓文
惡意
馬來文
馬來亞拉姆文
馬爾他文
毛利
馬拉地文
現代希臘文
Mongolian
尼泊里
挪威文
挪威尼諾斯克
奧吉特文
Oriya
Panjabi
波斯文
Polish
葡萄牙文
Pushto
羅馬尼亞文
羅馬尼亞文
俄文
梵文
蘇格蘭蓋爾文
塞爾維亞文
新地
僧伽羅文
斯洛伐克文
斯洛維尼亞文
索馬利亞文
西班牙文
巽他文
史瓦西里文
瑞典文
他加祿文
塔吉克
坦米爾文
韃靼語
特拉古
Thai
西藏文
Turkish
土庫門
Uighur
烏克蘭文
烏都文
烏茲別克文
越南文
瓦雷
威爾斯文
西部法里斯文
Xhosa
意地緒文
約魯巴
祖魯文

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

Amazon Titan Text

Amazon Titan Multimodal Embeddings G1