向量索引 - Amazon Simple Storage Service

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

向量索引

注意

Amazon S3 Vectors 目前為 Amazon Simple Storage Service 的預覽版本,可能會有所變更。

注意

請仔細選擇向量索引組態參數。建立向量索引後,您無法更新向量索引名稱、維度、距離指標或無法篩選的中繼資料索引鍵。若要變更任何這些值,您必須建立新的向量索引。

向量索引是向量儲存貯體中的資源,可存放和組織向量資料,以實現高效的相似性搜尋操作。建立向量索引時,您可以指定距離指標 (CosineEuclidean)、向量應具有的維度,以及選擇在相似性查詢期間要排除篩選的中繼資料欄位清單。

如需每個儲存貯體的向量索引限制、每個索引的向量限制和每個向量的維度限制的詳細資訊,請參閱 限制

每個向量索引都有唯一的 Amazon Resource Name (ARN)。向量索引ARNs 遵循下列格式:

arn:aws:s3vectors:region:account-id:bucket/bucket-name/index/index-name

向量索引命名要求

  • 向量索引名稱在向量儲存貯體中必須是唯一的。

  • 向量索引名稱長度必須介於 3 到 63 個字元之間。

  • 有效字元為小寫字母 (a-z)、數字 (0-9)、連字號 (-) 和點 (.)。

  • 向量索引名稱必須以字母或數字開頭和結尾。

維度要求

維度是向量中的值數目。新增至索引的所有向量必須完全具有此數量的值。

  • 維度必須是介於 1 到 4096 之間的整數。

  • 較大的維度需要更多的儲存空間。

距離指標選項

距離指標指定計算向量之間的相似度。建立向量內嵌時,請選擇內嵌模型的建議距離指標,以獲得更準確的結果。

  • Cosine – 測量向量之間角度的餘弦。最適合標準化向量,以及方向大於大小時。

  • Euclidean – 測量向量之間的直線距離。當方向和大小都很重要時最佳。

不可篩選的中繼資料金鑰

中繼資料金鑰可讓您在儲存和擷取期間,將其他資訊以金鑰值對的形式連接至向量。根據預設,所有中繼資料都可以篩選,因此您可以使用它來篩選查詢結果。不過,當您想要將資訊與向量一起存放,而不將其用於篩選時,您可以將特定中繼資料金鑰指定為不可篩選。

與預設中繼資料金鑰不同,這些金鑰無法用作查詢篩選條件。您可以擷取無法篩選的中繼資料金鑰,但無法搜尋、查詢或篩選。您只能在找到索引之後存取它。

不可篩選的中繼資料金鑰可讓您使用其他內容來豐富向量,而您想要使用搜尋結果擷取這些內容,但不需要進行篩選。不可篩選中繼資料金鑰的常見範例是當您將文字嵌入向量,並想要將原始文字本身包含為不可篩選中繼資料時。這可讓您在向量搜尋結果中傳回來源文字,而不會增加可篩選的中繼資料大小限制。其他範例包括僅儲存建立時間戳記、來源 URLs 或描述性資訊以供參考。擷取向量時可以存取無法篩選的中繼資料金鑰,但與預設中繼資料金鑰不同,這些金鑰無法用作查詢篩選條件。

不可篩選中繼資料金鑰的需求如下所示。

  • 無法篩選的中繼資料金鑰在向量索引中必須是唯一的。

  • 不可篩選的中繼資料金鑰長度必須為 1 到 63 個字元。

  • 建立向量索引後,無法修改無法篩選的中繼資料金鑰。

  • S3 Vectors 支援每個索引最多 10 個不可篩選的中繼資料金鑰。