向量資料庫選項 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

向量資料庫選項

AWS 提供各種向量資料庫解決方案,以支援生成式 AI 應用程式中的不同使用案例和需求。這些選項可以廣泛分類為個別資料庫服務和受管服務方案,每個方案都有不同的特性和優勢。了解這些選項對於希望有效實作向量搜尋功能,同時維持最佳效能、可擴展性和成本效益的組織至關重要。

如需向量資料庫解決方案的詳細資訊,請參閱下列各節:

個別向量資料庫選項

上的個別向量資料庫選項 AWS 包括 Amazon Kendra、Amazon OpenSearch Service 和具有 的 Amazon RDS for PostgreSQLpgvector。(開放原始碼延伸模組,pgvector新增了儲存和搜尋機器學習 (ML) 產生的向量內嵌功能。) 這些解決方案提供不同的向量搜尋方法,允許組織根據其現有的基礎設施、技術需求和特定使用案例進行選擇。

Amazon Kendra

Amazon Kendra 是一種企業級智慧型搜尋服務,使用自然語言處理和進階機器學習演算法,傳回資料中搜尋問題的特定答案。Amazon Kendra 簡化了搜尋功能的實作,使其成為生成式 AI 應用程式的有效後端解決方案。

Amazon Kendra 的其他主要功能包括下列項目:

  • 原生連線至超過 40 個資料來源

  • 內建資料準備功能

  • 不需要深度技術專業知識的快速設定

Amazon Kendra 的優點包括下列項目

如需詳細資訊,請參閱《Amazon Kendra 開發人員指南》中的 Amazon Kendra 的優點

Amazon OpenSearch Service

Amazon OpenSearch Service 是一種受管服務,可協助您在 中部署、操作和擴展 OpenSearch Service 叢集 AWS 雲端。

OpenSearch Service 的核心功能包括下列項目:

  • 開放原始碼搜尋和分析引擎

  • 分散式架構

  • 即時資料處理

使用 OpenSearch Service 的一些優點包括:

  • 水平可擴展性

  • RESTful API 支援

  • 處理結構化和非結構化資料

  • 即時資料分析

  • 適合各種部署大小

如需詳細資訊,請參閱《OpenSearch Service 開發人員指南》中的 Amazon OpenSearch Service 的功能。

搭配 的 Amazon RDS for PostgreSQL pgvector

Amazon RDS for PostgreSQL 與 pgvector結合 AWS 受管關聯式資料庫服務與 PostgreSQL 的向量處理延伸。此組合可讓組織儲存和查詢高維度向量,同時維護 Amazon RDS。此解決方案特別適合需要即時向量操作的生成式 AI 應用程式,而不需要管理資料庫基礎設施的額外負荷。

搭配 的 Amazon RDS for PostgreSQL 的主要優點pgvector包括:

  • 高可用性

  • 自動容錯移轉

  • 經濟實惠 (pay-per-use)

  • 內建監控

  • 即時向量資料整合

如需詳細資訊,請參閱《Amazon Relational Database Service 使用者指南》中的 Amazon RDS 的優點Amazon Relational Database Service

受管服務選項

Amazon Bedrock 知識庫代表向量資料庫實作的 AWS 全受管方法。此服務在儲存選項中的彈性,結合其自動化管理功能,讓尋求實作 RAG 而不管理複雜基礎設施的組織特別有價值。

使用 Amazon Bedrock 知識庫,您可以建立、維護和查詢使用 RAG 增強基礎模型的知識庫。此服務可透過管理整個資料擷取、向量化和擷取管道,簡化實作 RAG 的複雜程序。

Amazon Bedrock 知識庫的主要優點包括下列項目:

簡化的資料處理

  • 自動資料擷取和區塊

  • 從多個檔案格式擷取內建文字

  • 受管向量內嵌產生

  • 自動中繼資料擷取和索引

簡化 RAG 實作

  • 預先設定的擷取策略

  • 自動內容視窗最佳化

  • 內建關聯性調校

  • 現成的語意搜尋功能

安全與管控

  • Integrated AWS Identity and Access Management (IAM) 控制項

  • 靜態和傳輸中的資料加密

  • VPC 支援

  • 使用 稽核記錄 AWS CloudTrail

Amazon Bedrock 知識庫支援多個向量存放區選項。下列清單概述每個選項的主要功能:

  • Amazon Aurora PostgreSQL 搭配 pgvector

    • 與 PostgreSQL 相容的向量儲存

    • 與現有的 Aurora 資料庫整合

    • 符合成本效益的小型部署

    • 適用於混合結構化和非結構化資料

  • Amazon Neptune Analytics

    • 以圖形為基礎的向量搜尋

    • 結合關係資料與向量

    • 非常適合連線的資料使用案例

    • 進階查詢功能

  • Amazon OpenSearch Serverless

    • 全受管無伺服器體驗

    • 根據工作負載自動擴展

    • 內建 k-NN 功能

    • 適用於不同工作負載的成本效益

  • Pinecone

    • 專用向量資料庫

    • 大規模高效能

    • 進階相似性搜尋功能

    • 透過 Amazon Bedrock 主控台進行管理

  • Redis 企業雲端

    • 記憶體內向量搜尋功能

    • 低延遲效能

    • 即時向量搜尋

    • 整合式快取功能

選擇 Amazon Bedrock 知識庫支援的向量存放區時,請考慮每個選項的下列關鍵特性:

  • Aurora PostgreSQL – 具有向量功能的關係資料

  • Neptune Analytics – 以圖形為基礎的知識表示

  • OpenSearch Service – 搜尋和分析焦點

  • Pinecone – 純向量搜尋效能

  • Redis 企業雲端 – 即時和低延遲需求

每個實作都提供下列獨特優勢:

  • Aurora PostgreSQL – 最適合需要傳統 SQL 和向量功能的應用程式

  • Neptune Analytics – 適合複雜的關係型查詢和知識圖表

  • OpenSearch Service – 強大的全文搜尋和分析

  • Pinecone – 針對純向量操作最佳化

  • Redis 企業雲端 – 最適合即時應用程式

以下是為 RAG 解決方案選擇向量存放區時需要考慮的一些要點:

  • 可擴展性 – 能夠有效地處理大型和不斷增長的資料集。

  • 查詢效能 – 快速且有效率的最近鄰搜尋功能。

  • 資料擷取 – 現有的資料模型需求。支援各種資料格式和易於擷取。

  • 篩選和排名 – 擷取結果的進階篩選和排名機制。

  • 整合 – 透過 APIs或通訊協定與其他系統和工具無縫整合。

  • 持久性和耐久性 – 適合的持久性和耐久性選項 (記憶體內或磁碟型)。

  • 並行和一致性 – 有效處理並行存取和資料一致性。

  • 授權和成本 – 評估授權模型、預付和持續成本,以及廠商鎖定。

  • 社群和支援 – 生動的社群和完整的文件。

  • 安全與合規 – 遵守必要的安全與合規要求。