K-最近的鄰居 (k-NN) 搜索 Amazon 服務 OpenSearch - Amazon OpenSearch 服務

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

K-最近的鄰居 (k-NN) 搜索 Amazon 服務 OpenSearch

Amazon OpenSearch 服務的 k-nN 是其關聯的 k 最近鄰算法的縮寫,可讓您搜索向量空間中的點,並通過歐幾里得距離或餘弦相似性找到這些點的「最近鄰」。使用案例包括建議 (例如,音樂應用程式中「其他您可能喜歡的歌曲」功能)、影像辨識和詐騙偵測。

注意

本文件說明 OpenSearch 服務與各種 K-NN 外掛程式版本之間的相容性,以及搭配託管 OpenSearch 服務使用外掛程式時的限制。如需 K-NN 外掛程式的完整文件,包括簡單而複雜的範例、參數參考,以及外掛程式的完整 API 參考資料,請參閱開放原始碼OpenSearch 文件。開放原始碼文件也涵蓋效能調整和 K-NN 專屬叢集設定。

使用下表找出在您的 Amazon OpenSearch 服務網域上執行的 k-NN 外掛程式版本。每個 K-NN 外掛程式版本對應於OpenSearch彈性搜尋版本。

OpenSearch
OpenSearch 版本 k-NN 外掛程式版本 值得注意的功能
2.13 2.13.0.0

2.11 2.11.0.0

增加了對 k-NN 查ignore_unmapped詢的支持

2.9 2.9.0.0 使用 Faiss 引擎實作 K-nN 位元組向量和高效篩選
2.7 2.7.0.0
2.5 2.5.0.0 擴展 SystemIndexPlugin K-NN 模型系統索引,添加了 Lucene 特定的文件擴展名到核心 HybridFS
2.3 2.3.0.0
1.3 1.3.0.0
1.2 1.2.0.0 新增對 Faiss 函式庫的支援
1.1 1.1.0.0
1.0

1.0.0.0

重新命名 REST API,同時支援向後相容性,將命名空間從 opendistro 重新命名為 opensearch
Elasticsearch
Elasticsearch 版本 k-NN 外掛程式版本 值得注意的功能
7.1

1.3.0.0

歐幾里德距離
7.4

1.4.0.0

7.7

1.8.0.0

餘弦相似度
7.8

1.9.0.0

7.9

1.11.0.0

Warmup API,自訂評分

7.10

1.13.0.0

漢明距離、L1 Norm 距離和 Painless 指令碼

k-NN 入門

若要使用 k-NN,您必須使用 index.knn 設定建立索引,並新增資料類型為 knn_vector 的一個或多個欄位。

PUT my-index { "settings": { "index.knn": true }, "mappings": { "properties": { "my_vector1": { "type": "knn_vector", "dimension": 2 }, "my_vector2": { "type": "knn_vector", "dimension": 4 } } } }

knn_vector 資料類型支援最多 10,000 個浮點數的單一清單,其中包含由所需 dimension 參數定義的浮點數目。建立索引之後,將一些資料新增至其中。

POST _bulk { "index": { "_index": "my-index", "_id": "1" } } { "my_vector1": [1.5, 2.5], "price": 12.2 } { "index": { "_index": "my-index", "_id": "2" } } { "my_vector1": [2.5, 3.5], "price": 7.1 } { "index": { "_index": "my-index", "_id": "3" } } { "my_vector1": [3.5, 4.5], "price": 12.9 } { "index": { "_index": "my-index", "_id": "4" } } { "my_vector1": [5.5, 6.5], "price": 1.2 } { "index": { "_index": "my-index", "_id": "5" } } { "my_vector1": [4.5, 5.5], "price": 3.7 } { "index": { "_index": "my-index", "_id": "6" } } { "my_vector2": [1.5, 5.5, 4.5, 6.4], "price": 10.3 } { "index": { "_index": "my-index", "_id": "7" } } { "my_vector2": [2.5, 3.5, 5.6, 6.7], "price": 5.5 } { "index": { "_index": "my-index", "_id": "8" } } { "my_vector2": [4.5, 5.5, 6.7, 3.7], "price": 4.4 } { "index": { "_index": "my-index", "_id": "9" } } { "my_vector2": [1.5, 5.5, 4.5, 6.4], "price": 8.9 }

然後,您可以使用 knn 查詢類型搜尋資料。

GET my-index/_search { "size": 2, "query": { "knn": { "my_vector2": { "vector": [2, 3, 5, 6], "k": 2 } } } }

在此情況下,k 是您想要查詢傳回的近鄰數目,但您亦須包含 size 選項。否則,您會獲得每個碎片 (和每個區段) 的 k 結果,而不是整個查詢的 k 結果。KNN 支援的最大 k 值為 10,000。

如果您將 knn 查詢與其他子句混合使用,則可能會收到少於 k 個的結果。在此範例中,post_filter 子句會將結果的數目從 2 減少為 1。

GET my-index/_search { "size": 2, "query": { "knn": { "my_vector2": { "vector": [2, 3, 5, 6], "k": 2 } } }, "post_filter": { "range": { "price": { "gte": 6, "lte": 10 } } } }

如果您需要處理大量查詢,同時維持最佳效能,您可以使用 _msearchAPI 建構 JSON 大量搜尋,並傳送單一要求以執行多個搜尋:

GET _msearch { "index": "my-index"} { "query": { "knn": {"my_vector2":{"vector": [2, 3, 5, 6],"k":2 }} } } { "index": "my-index", "search_type": "dfs_query_then_fetch"} { "query": { "knn": {"my_vector1":{"vector": [2, 3],"k":2 }} } }

下列影片示範如何針對 K-NN 查詢設定大量向量搜尋。

k-NN 差異、調校和限制

OpenSearch 可讓您使用 API 修改所有 k-NN 設定_cluster/settings。在 OpenSearch 服務上,您可以變更除knn.memory.circuit_breaker.enabled和以外的所有設定knn.circuit_breaker.triggered。k-nN 統計資料包含在 Amazon CloudWatch 指標中。

特別是,請根據執行處理類型的knn.memory.circuit_breaker.limit統計資料和可用 RAM,檢查每個資料節點上的KNNGraphMemoryUsage測量結果。 OpenSearch 服務使用 Java 堆積執行個體的一半 RAM (最多 32 GiB 的堆積大小)。根據預設,k-NN 最高會使用剩下一半的 50%,這樣具有 32 GiB 的 RAM 的執行個體類型就能容納 8 GiB 的圖形 (32 * 0.5 * 0.5)。如果圖形記憶體用量超過此值,效能可能會受到影響。

如果索引使用近似的 k-nN (),則無法將 k-n N 索引遷移到UltraWarm冷存儲"index.knn": true如果已將 index.knn 設為 false (準確 k-NN),則您仍可將索引移動至其他儲存層。