本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立知識庫之後,您可以擷取或同步資料,以便查詢資料。擷取會根據您指定的向量內嵌模型和組態,將資料來源中的原始資料轉換為向量內嵌。
開始擷取之前,請檢查資料來源是否符合下列條件:
-
您已設定資料來源的連線資訊。若要設定資料來源連接器從資料來源儲存庫中擷取資料,請參閱支援的資料來源連接器。您可以在建立知識庫的過程中設定資料來源。
-
您已設定所選的向量內嵌模型和向量存放區。如需知識庫,請參閱支援的向量內嵌模型和向量存放區。 https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-setup.html您可以在建立知識庫的過程中設定向量內嵌。
-
檔案採用支援的格式。如需詳細資訊,請參閱支援文件格式。
-
檔案不超過 Amazon Bedrock 端點中指定的擷取任務檔案大小,以及 中的配額 AWS 一般參考。
-
如果您的資料來源包含中繼資料檔案,請檢查下列條件,以確保中繼資料檔案不會被忽略:
-
每個
.metadata.json
檔案與其關聯的來源檔案共用相同的檔案名稱和副檔名。 -
如果知識庫的向量索引位於 Amazon OpenSearch Serverless 向量存放區中,請檢查向量索引是否已使用
faiss
引擎設定。如果向量索引是使用nmslib
引擎設定,您必須執行下列其中一項操作:-
在 主控台中建立新的知識庫,並讓 Amazon Bedrock 自動為您在 Amazon OpenSearch Serverless 中建立向量索引。
-
在向量存放區中建立另一個向量索引,然後選取
faiss
做為引擎。然後建立新的知識庫並指定新的向量索引。
-
-
如果知識庫的向量索引位於 Amazon Aurora 資料庫叢集中,請檢查索引的資料表是否包含中繼資料檔案中每個中繼資料屬性的資料欄,然後再開始擷取。
-
每次從資料來源新增、修改或移除檔案時,都必須同步資料來源,以便重新索引至知識庫。同步是增量的,因此 Amazon Bedrock 只會處理自上次同步以來新增、修改或刪除的文件。
若要了解如何將資料擷取至知識庫並與最新資料同步,請選擇您偏好方法的 索引標籤,然後遵循下列步驟:
將資料擷取至知識庫,並與最新資料同步
-
在 開啟 Amazon Bedrock 主控台https://console.aws.amazon.com/bedrock/
。 -
從左側導覽窗格選取知識庫,然後選擇您的知識庫。
-
在資料來源區段中,選取同步以開始資料擷取或同步您的最新資料。若要停止目前正在同步的資料來源,請選取停止。資料來源必須目前正在同步,才能停止同步資料來源。您可以再次選取同步,以擷取其餘的資料。
-
資料擷取完成時若顯示成功,就會出現綠色的成功橫幅。
注意
資料同步完成後,新同步資料的向量內嵌可能需要幾分鐘的時間,才能反映在您的知識庫中,如果您使用 Amazon Aurora () 以外的向量存放區,則可以進行查詢RDS。
-
您可以選擇資料來源以檢視其同步歷史記錄。選取檢視警告,查看資料擷取作業失敗的原因。