Modelloptionen einbetten Unterstützte Datenquellen-Konnektoren

Erstellen Sie eine verwaltete Wissensdatenbank

Wenn Sie eine verwaltete Wissensdatenbank erstellen, AgentCore verwaltet Amazon Bedrock die Speicher-, Indexierungs- und Abrufinfrastruktur für Sie. Standardmäßig wird ein servicemanagiertes Einbettungsmodell verwendet, und es ist keine Modellauswahl oder Konfiguration erforderlich. Sie können stattdessen optional Ihr eigenes Bedrock-Einbettungsmodell bereitstellen. Sie können optional auch einen KMS-Schlüssel für die Verschlüsselung des verwalteten Vektorspeichers angeben.

Nachdem Sie die Wissensdatenbank erstellt haben, verbinden Sie sie mit einer Datenquelle und beginnen Sie mit der Erfassung. Einzelheiten zum Herstellen einer Verbindung mit einer Datenquelle finden Sie unter Verbinden einer Datenquelle. Verwenden Sie die StartIngestionJob API, um eine Datenquelle zu synchronisieren. Details hierzu finden Sie unter Synchronisieren Sie Ihre Datenquelle mit Ihrer Amazon Bedrock-Wissensdatenbank.

Um zu erfahren, wie Sie eine verwaltete Wissensdatenbank erstellen, wählen Sie die Registerkarte für Ihre bevorzugte Methode:

Console

Um eine verwaltete Wissensdatenbank zu erstellen

Melden Sie sich bei Amazon Bedrock an AWS-Managementkonsole und navigieren Sie zu Amazon Bedrock AgentCore > Built-in Tools > Knowledge Base.
Wählen Sie „Verwaltete Wissensdatenbank erstellen“.
(Optional) Erweitern Sie den Abschnitt Zusätzliche Konfigurationen der Knowledge Base-Details, um Folgendes zu konfigurieren:
- Fügen Sie eine Beschreibung hinzu.
- Wählen Sie einen Typ für das Einbettungsmodell aus:
  - Verwaltet (Standard): Es wird ein vom Service verwaltetes Einbettungsmodell verwendet. Es ist keine Modellauswahl oder Konfiguration erforderlich.
  - Benutzerdefiniert: Wählen Sie ein Bedrock-Einbettungsmodell aus. Wählen Sie das Modell aus, um die Modellauswahl zu öffnen, in der verfügbare Anbieter (Amazon, Cohere) und Modelle angezeigt werden.
- Konfigurieren Sie IAM-Berechtigungen: Wählen Sie Neue Servicerolle erstellen und verwenden (empfohlen) oder wählen Sie eine vorhandene Rolle aus.
- Konfigurieren Sie die AWS KMS Verschlüsselung für den verwalteten Vektorspeicher (standardmäßig AWS verwalteter Schlüssel oder wählen Sie einen benutzerdefinierten KMS-Schlüssel).
Geben Sie unter Datenquelle einen Datenquellennamen ein.
Wählen Sie Ihren Datenquellentyp aus der Dropdownliste aus: Amazon S3, Confluence, Custom, Google Drive, OneDrive SharePoint, oder Web Crawler.
Konfigurieren Sie die Verbindungseinstellungen für die Datenquelle für den ausgewählten Datenquellentyp.
(Optional) Erweitern Sie Inhaltsanalyse und Chunking, um Folgendes zu konfigurieren:
- Die Analysestrategie ist standardmäßig auf Managed Parser eingestellt.
- Wählen Sie eine Strategie für das Aufteilen von Text aus der Dropdownliste aus:
  - Standard-Chunking (empfohlen): Teilt Text in Blöcke mit fester Größe auf.
  - Fixed-size Chunking: Teilt den Text in die von Ihnen festgelegte ungefähre Token-Größe auf.
  - Keine Aufteilung: Für vorverarbeitete oder vorgeteilte Dokumente.
(Optional) Erweitern Sie Erweiterte Konfigurationen, um die erweiterte Indizierung zu konfigurieren. Unter Inhaltsindizierung indexiert die Standardeinstellung textbasierte Inhalte aus gängigen Dokumenten. Aktivieren Sie die erweiterte Indizierung für zusätzliche Modalitäten:
- Visueller Inhalt in Dokumenten: Verarbeitet eingebettete Grafiken in PDF-, .docx-, .ppt- und.pptx-Dateien.
- Audiodateien: Verarbeitet .mp3-, .wav-, .m4a-, .flac-, .ogg-Dateien.
- Videodateien: Verarbeitet MP4-, MOV- und M4V-Dateien.
Legen Sie optional eine maximale Dateigröße (MB) fest und konfigurieren Sie den Schutz vor dem Löschen von Dokumenten.
(Optional) Konfigurieren Sie die Protokollzustellung so, dass Wissensdatenbank-Aufnahmeprotokolle an ein Ziel wie CloudWatch Logs, Amazon S3 oder Firehose gesendet werden.
Wählen Sie „Wissensdatenbank erstellen“.
Warten Sie, bis die Wissensdatenbank und die Datenquelle erstellt sind (2—5 Minuten). Wenn Sie eine verwaltete Wissensdatenbank mit einem vom Kunden verwalteten Schlüssel erstellen, kann die Erstellung länger dauern.

API

Im Folgenden finden Sie ein Beispiel für die Erstellung einer verwalteten Wissensdatenbank und die Konfiguration Ihrer Datenquelle mithilfe der API mit dem AWS CLI oder einem unterstützten SDK wie Python. Nach dem Aufrufen rufen Sie an CreateKnowledgeBase, CreateDataSourceum Ihre Datenquelle mit Ihren Verbindungsinformationen zu erstellendataSourceConfiguration.

Weitere Informationen zu Anpassungen, die Sie auf die Erfassung anwenden können, indem Sie das optionale vectorIngestionConfiguration-Feld einbeziehen, finden Sie unter So passen Sie die Aufnahme für eine Datenquelle an.

AWS Command Line Interface

Schritt 1: Erstellen Sie die Wissensdatenbank

Mit einem verwalteten Einbettungsmodell (Standard):


aws bedrock-agent create-knowledge-base \
 --name "my-managed-kb" \
 --role-arn "arn:aws:iam::123456789012:role/BedrockKBRole" \
 --description "My managed knowledge base" \
 --knowledge-base-configuration file://kb-config.json

kb-config.json
{
    "type": "MANAGED",
    "managedKnowledgeBaseConfiguration": {
        "embeddingModelType": "MANAGED"
    }
}

Mit einem benutzerdefinierten Einbettungsmodell (vom Kunden bereitgestelltes Bedrock-Modell):


aws bedrock-agent create-knowledge-base \
 --name "my-custom-embed-kb" \
 --role-arn "arn:aws:iam::123456789012:role/BedrockKBRole" \
 --description "My managed knowledge base with custom embedding" \
 --knowledge-base-configuration file://kb-config.json

kb-config.json
{
    "type": "MANAGED",
    "managedKnowledgeBaseConfiguration": {
        "embeddingModelType": "CUSTOM",
        "embeddingModelArn": "arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-embed-text-v2:0",
        "embeddingModelConfiguration": {
            "bedrockEmbeddingModelConfiguration": {
                "dimensions": 1024
            }
        }
    }
}

Anmerkung

Wenn es weggelassen embeddingModelType wird, ist es standardmäßig. MANAGED Bei der Verwendung MANAGED dürfen Sie embeddingModelArn oder embeddingModelConfiguration nicht angeben. Bei der Verwendung CUSTOM sind beide Felder erforderlich.

Schritt 2: Erstellen Sie eine Datenquelle


aws bedrock-agent create-data-source \
 --name "S3-connector" \
 --description "S3 data source connector for Amazon Bedrock to use content in S3" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://bedrock-s3-managed-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"parsingConfiguration":{"parsingStrategy":"SMART_PARSING"}}'

bedrock-s3-managed-connector-configuration.json
{
    "type": "MANAGED_KNOWLEDGE_BASE_CONNECTOR",
    "managedKnowledgeBaseConnectorConfiguration": {
        "mediaExtractionConfiguration": {
            "imageExtractionConfiguration": {
                "imageExtractionStatus": "ENABLED"
            }
        },
        "connectorParameters": {
            "type": "S3",
            "version": "1",
            "connectionConfiguration": {
                "bucketName": "your-test-s3-bucket",
                "bucketOwnerAccountId": "123456789012"
            },
            "deletionProtectionConfiguration": {
                "enableDeletionProtection": false
            }
        }
    }
}

Modelloptionen einbetten

Verwaltete Wissensdatenbanken unterstützen zwei Arten von Einbettungsmodellen:

Verwaltete Einbettung (Standard) — Ein vom Service verwaltetes Einbettungsmodell wird automatisch verwendet. Sie müssen kein Modell auswählen, Dimensionen konfigurieren oder Bedrock-Servicebeschränkungen für die Einbettung verwalten. Der Service kümmert sich transparent um die Modellauswahl, das Hosting und die Skalierung.
Benutzerdefiniertes Einbetten — Sie stellen Ihr eigenes Bedrock-Einbettungsmodell ARN zur Verfügung. Wenn Sie ein benutzerdefiniertes Einbettungsmodell verwenden, müssen Sie die Modelldimensionen (1024) und den Float32-Einbettungsdatentyp angeben. Die folgenden Bedrock-Einbettungsmodelle werden unterstützt:
- Amazon Titan Text Embeddings V2
- Cohere Embed Englisch v3
- Cohere Embed Mehrsprachig v3
- Cohere Embed v4
- Multimodale Einbettungen von Amazon Nova

Anmerkung

Sie können den Typ des Einbettungsmodells nicht ändern, nachdem Sie die Wissensdatenbank erstellt haben. Um zwischen verwalteter und benutzerdefinierter Einbettung zu wechseln, müssen Sie eine neue Wissensdatenbank erstellen.

Wichtig

Wenn Sie eine Wissensdatenbank mit einem benutzerdefinierten Einbettungsmodell erstellen, ist der verwaltete Reranker für diese Wissensdatenbank nicht verfügbar. Um den verwalteten Reranker zu verwenden, erstellen Sie Ihre Wissensdatenbank mit dem standardmäßigen verwalteten Einbettungsmodell.

Unterstützte Datenquellen-Konnektoren

Verwaltete Wissensdatenbanken unterstützen die folgenden Datenquellen-Konnektoren:

Amazon S3
Konfluenz
Microsoft SharePoint
Google Drive
Microsoft OneDrive
Webcrawler
Benutzerdefinierter Anschluss

Informationen zur Konfiguration von Datenquellenconnectors finden Sie unter Eine Datenquelle Connect.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Servicerolle für die Wissensdatenbank

Verbinden einer Datenquelle