本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
向量概觀
向量是數值表示法,可協助機器了解和處理資料。在生成式 AI 中,它們提供兩個主要目的:
-
代表以壓縮形式擷取資料結構的隱含空間
-
為文字、句子和影像等資料建立內嵌
內嵌 Word2Vec
-
從內容中學習,以將單字表示為向量。
-
將類似的字詞放在向量空間中更接近的位置。
-
讓機器能夠處理連續空間中的資料。
下圖提供內嵌程序的高階概觀:
-
Amazon Simple Storage Service (Amazon S3) 儲存貯體包含的檔案是系統會從中讀取和處理資訊的資料來源。S3 儲存貯體是在 Amazon Bedrock 知識庫組態期間指定,這也包括與知識庫同步資料。
-
內嵌模型會將 S3 儲存貯體中物件檔案的原始資料轉換為向量內嵌。例如,Object1 會轉換為向量 【0.6、0.7、...】,代表其在多維空間中的內容。

文字內嵌對於自然語言處理 (NLP) 至關重要,因為它們會執行下列動作:
-
擷取字詞之間的語意關係。
-
啟用產生內容相關的文字。
-
支援大型語言模型 LLMs) 來產生類似人類的回應。