Connect zu Microsoft her, SharePoint um Ihre Amazon Bedrock-Wissensdatenbank zu erhalten - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Connect zu Microsoft her, SharePoint um Ihre Amazon Bedrock-Wissensdatenbank zu erhalten

Microsoft SharePoint ist ein kollaborativer webbasierter Dienst für die Arbeit an Dokumenten, Webseiten, Websites, Listen und mehr. Sie können eine Verbindung zu Ihrer SharePoint Instance für Ihre Amazon Bedrock-Wissensdatenbank herstellen, indem Sie entweder AWS Management-Konsole für Amazon Bedrock oder die CreateDataSourceAPI(siehe Amazon Bedrock) unterstützte und SDKs AWS CLI).

Anmerkung

Der Microsoft SharePoint Data Source Connector befindet sich in der Vorschauversion und kann sich ändern.

Amazon Bedrock unterstützt die Verbindung zu SharePoint Online-Instances. Das Crawlen von OneNote Dokumenten wird derzeit nicht unterstützt. Derzeit ist nur Amazon OpenSearch Serverless Vector Store für die Verwendung mit dieser Datenquelle verfügbar.

Es gibt Beschränkungen für die Anzahl der Dateien und MB pro Datei, die gecrawlt werden können. Informationen zu Wissensdatenbanken finden Sie unter Kontingente.

Unterstützte Features

  • Automatische Erkennung der wichtigsten Dokumentfelder

  • Inhaltsfilter zum Einschließen/Ausschließen

  • Inkrementelle Inhaltssynchronisierung für hinzugefügte, aktualisierte und gelöschte Inhalte

  • OAuth2.0-Authentifizierung

Voraussetzungen

Stellen Sie sicher SharePoint, dass Sie:

  • Notieren Sie sich Ihre SharePoint Online-SiteURL/URLs. Zum Beispiel https://yourdomain.sharepoint.com/sites/mysite. Ihr URL müsst damit beginnen https und enthalten sharepoint.com. Ihre Site URL muss die tatsächliche SharePoint Site sein, nicht sharepoint.com/ or sites/mysite/home.aspx

  • Notieren Sie sich den Domainnamen Ihrer SharePoint Online-InstanzURL/URLs.

  • (Für OAuth 2.0-Authentifizierung) Kopieren Sie Ihre Microsoft 365-Mandanten-ID. Sie finden Ihre Mandanten-ID in den Eigenschaften Ihres Azure Active Directory-Portals oder in Ihrer OAuth Anwendung.

    Notieren Sie sich den Benutzernamen und das Passwort des SharePoint Administratorkontos und kopieren Sie die Client-ID und den geheimen Client-Wert, wenn Sie eine Anwendung registrieren.

    Anmerkung

    Eine Beispielanwendung finden Sie unter Registrieren einer Client-Anwendung in Microsoft Entra ID (früher bekannt als Azure Active Directory) auf der Microsoft Learn-Website.

  • SharePoint Bei der Registrierung einer Anwendung sind bestimmte Leseberechtigungen erforderlich, um eine Verbindung herzustellen.

    • SharePoint: AllSites .Read (delegiert) — Elemente in allen Websitesammlungen lesen

  • Möglicherweise müssen Sie die Sicherheitsstandards in Ihrem Azure-Portal mithilfe eines Administratorbenutzers deaktivieren. Weitere Informationen zur Verwaltung von Sicherheitsstandardeinstellungen im Azure-Portal finden Sie in der Microsoft-Dokumentation zum Aktivieren/Deaktivieren von Sicherheitsstandards.

  • Möglicherweise müssen Sie die Multi-Faktor-Authentifizierung (MFA) in Ihrem SharePoint Konto deaktivieren, damit Amazon Bedrock nicht daran gehindert wird, Ihre Inhalte zu crawlen. SharePoint

In Ihrem AWS Stellen Sie sicher, dass Sie:

  • Speichern Sie Ihre Authentifizierungsdaten in einem AWS Secrets Manager geheim und notieren Sie sich den Amazon-Ressourcennamen (ARN) des Geheimnisses. Folgen Sie den Anweisungen zur Verbindungskonfiguration auf dieser Seite, um die Schlüssel-Wert-Paare aufzunehmen, die in Ihrem Secret enthalten sein müssen.

  • Nehmen Sie die erforderlichen Berechtigungen für die Verbindung mit Ihrer Datenquelle in Ihre auf AWS Identity and Access Management (IAM) Rollen-/Berechtigungsrichtlinie für Ihre Wissensdatenbank. Informationen zu den erforderlichen Berechtigungen für diese Datenquelle, die Sie Ihrer Wissensdatenbank hinzufügen können IAM Rolle finden Sie unter Berechtigungen für den Zugriff auf Datenquellen.

Anmerkung

Wenn Sie die Konsole verwenden, können Sie zu AWS Secrets Manager um Ihr Geheimnis hinzuzufügen oder ein vorhandenes Geheimnis als Teil des Konfigurationsschritts für die Datenquelle zu verwenden. Das Tool IAM Im Rahmen der Konsolenschritte zur Erstellung einer Wissensdatenbank kann für Sie eine Rolle mit allen erforderlichen Berechtigungen erstellt werden. Nachdem Sie Ihre Datenquelle und andere Konfigurationen konfiguriert haben, IAM Die Rolle mit allen erforderlichen Berechtigungen wird auf Ihre spezifische Wissensdatenbank angewendet.

Wir empfehlen, dass Sie Ihre Anmeldeinformationen und Ihren Geheimcode regelmäßig aktualisieren oder austauschen. Stellen Sie zu Ihrer eigenen Sicherheit nur die Zugriffsebene bereit, die erforderlich ist. Wir raten davon ab, Anmeldeinformationen und geheime Daten in verschiedenen Datenquellen wiederzuverwenden.

Konfiguration der Verbindung

Um eine Verbindung zu Ihrer SharePoint Instance herzustellen, müssen Sie die erforderlichen Konfigurationsinformationen angeben, damit Amazon Bedrock auf Ihre Daten zugreifen und sie crawlen kann. Sie müssen auch dem folgen. Voraussetzungen

Ein Beispiel für eine Konfiguration für diese Datenquelle ist in diesem Abschnitt enthalten.

Weitere Informationen zur auto Erkennung von Dokumentfeldern, Ein-/Ausschlussfiltern, inkrementeller Synchronisierung, geheimen Authentifizierungsdaten und deren Funktionsweise finden Sie unter:

Der Datenquellen-Connector erkennt und crawlt automatisch alle wichtigen Metadatenfelder Ihrer Dokumente oder Inhalte. Der Datenquellen-Connector kann beispielsweise den Dokumenttext durchsuchen, der Ihren Dokumenten entspricht, den Dokumenttitel, das Erstellungs- oder Änderungsdatum des Dokuments oder andere Kernfelder, die möglicherweise auf Ihre Dokumente zutreffen.

Wichtig

Wenn Ihr Inhalt vertrauliche Informationen enthält, Amazon Bedrock könnte mit vertraulichen Informationen antworten.

Sie können Filteroperatoren auf Metadatenfelder anwenden, um die Relevanz von Antworten weiter zu verbessern. Zum Beispiel das Dokument „epoch_modification_time“ oder die Anzahl der Sekunden, die seit dem 1. Januar 1970 vergangen sind, als das Dokument zuletzt aktualisiert wurde. Sie können nach den neuesten Daten filtern, wobei „epoch_modification_time“ größer als eine bestimmte Zahl ist. Weitere Informationen zu den Filteroperatoren, die Sie auf Ihre Metadatenfelder anwenden können, finden Sie unter Metadaten und Filterung.

Sie können das Crawlen bestimmter Inhalte ein- oder ausschließen. Sie können beispielsweise ein Ausschlusspräfix oder ein Muster für reguläre Ausdrücke angeben, um das Crawlen von Dateien zu überspringen, deren Dateiname „privat“ enthält. Sie können auch ein Einschlusspräfix/ein Muster für reguläre Ausdrücke angeben, um bestimmte Inhaltsentitäten oder Inhaltstypen einzubeziehen. Wenn Sie einen Inklusions- und Ausschlussfilter angeben und beide einem Dokument entsprechen, hat der Ausschlussfilter Vorrang und das Dokument wird nicht gecrawlt.

Ein Beispiel für ein Muster mit regulären Ausdrücken zum Ausschließen oder Herausfiltern von PDF Dateien, die „privat“ im Dateinamen enthalten:“. *private.*\\ .pdf

Sie können Einschluss-/Ausschlussfilter auf die folgenden Inhaltstypen anwenden:

  • Page: Titel der Hauptseite

  • Event: Name der Veranstaltung

  • File: Dateiname mit seiner Erweiterung für Anlagen und alle Dokumentdateien

Das Crawlen von OneNote Dokumenten wird derzeit nicht unterstützt.

Der Datenquellen-Connector crawlt bei jeder Synchronisierung Ihrer Datenquelle mit Ihrer Wissensdatenbank neue, geänderte und gelöschte Inhalte. Amazon Bedrock kann den Mechanismus Ihrer Datenquelle verwenden, um Inhaltsänderungen nachzuverfolgen und Inhalte zu crawlen, die sich seit der letzten Synchronisierung geändert haben. Wenn Sie Ihre Datenquelle zum ersten Mal mit Ihrer Wissensdatenbank synchronisieren, werden alle Inhalte standardmäßig gecrawlt.

Um Ihre Datenquelle mit Ihrer Wissensdatenbank zu synchronisieren, verwenden Sie die StartIngestionJobAPIoder wählen Sie Ihre Wissensdatenbank in der Konsole aus und wählen Sie im Bereich Datenquellenübersicht die Option Synchronisieren aus.

Wichtig

Alle Daten, die Sie aus Ihrer Datenquelle synchronisieren, stehen allen Personen zur Verfügung, die zum bedrock:Retrieve Abrufen der Daten berechtigt sind. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter Knowledgebase-Berechtigungen.

(Für die OAuth 2.0-Authentifizierung) Ihre geheimen Authentifizierungsdaten in AWS Secrets Manager sollte diese Schlüssel-Wert-Paare enthalten:

  • username: SharePoint admin username

  • password: SharePoint admin password

  • clientId: app client ID

  • clientSecret: app client secret

Anmerkung

Dein Geheimnis in AWS Secrets Manager muss dieselbe Region Ihrer Wissensdatenbank verwenden.

Console

Im Folgenden finden Sie ein Beispiel für eine Konfiguration für die Verbindung zu SharePoint Online für Ihre Amazon Bedrock-Wissensdatenbank. Sie konfigurieren Ihre Datenquelle im Rahmen der Schritte zur Erstellung der Wissensdatenbank in der Konsole.

  1. Melden Sie sich an bei AWS Management Console Verwenden Sie eine IAMRolle mit Amazon Bedrock-Berechtigungen und öffnen Sie die Amazon Bedrock-Konsole unter. https://console.aws.amazon.com/bedrock/

  2. Wählen Sie im linken Navigationsbereich Wissensdatenbanken aus.

  3. Wählen Sie im Abschnitt Wissensdatenbanken die Option Wissensdatenbank erstellen aus.

  4. Geben Sie die Details der Wissensdatenbank an.

    1. Geben Sie den Namen der Wissensdatenbank und optional eine Beschreibung an.

    2. Geben Sie die AWS Identity and Access Management Rolle für die erforderlichen Zugriffsberechtigungen, die zum Erstellen einer Wissensdatenbank erforderlich sind.

      Anmerkung

      Das Tool IAM Eine Rolle mit allen erforderlichen Berechtigungen kann im Rahmen der Konsolenschritte zum Erstellen einer Wissensdatenbank für Sie erstellt werden. Nachdem Sie die Schritte zum Erstellen einer Wissensdatenbank abgeschlossen haben, IAM Die Rolle mit allen erforderlichen Berechtigungen wird auf Ihre spezifische Wissensdatenbank angewendet.

    3. Erstellen Sie alle Tags, die Sie Ihrer Wissensdatenbank zuweisen möchten.

    Gehen Sie zum nächsten Abschnitt, um Ihre Datenquelle zu konfigurieren.

  5. Wählen Sie SharePoint als Datenquelle und geben Sie die Details zur Verbindungskonfiguration an.

    1. Geben Sie den Namen der Datenquelle und eine optionale Beschreibung an.

    2. Geben Sie Ihre SharePoint Site anURL/URLs. Zum Beispiel für SharePoint Online https://yourdomain.sharepoint.com/sites/mysite. Ihr URL müsst damit beginnen https und enthalten sharepoint.com. Ihre Site URL muss die tatsächliche SharePoint Site sein, nicht sharepoint.com/ or sites/mysite/home.aspx

    3. Geben Sie den Domainnamen Ihrer SharePoint Instanz an.

    Überprüfen Sie die erweiterten Einstellungen. Sie können optional die ausgewählten Standardeinstellungen ändern.

  6. Legen Sie in den erweiterten Einstellungen Ihren Schlüssel für die Verschlüsselung transienter Daten und die Richtlinie zum Löschen von Daten fest.

    Wählen Sie in der &Snowconsole; Ihren Auftrag aus der Tabelle. KMS key In den Einstellungen können Sie entweder einen benutzerdefinierten Schlüssel auswählen oder den standardmäßig bereitgestellten Datenverschlüsselungsschlüssel verwenden.

    Bei der Konvertierung Ihrer Daten in Einbettungen Amazon Bedrock verschlüsselt Ihre transienten Daten mit einem Schlüssel, der AWS besitzt und verwaltet standardmäßig. Sie können Ihren eigenen KMS Schlüssel verwenden. Weitere Informationen finden Sie unter Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung.

    Für die Richtlinieneinstellungen zum Löschen von Daten können Sie eine der folgenden Optionen wählen:

    • Löschen: Löscht alle Daten aus Ihrer Datenquelle, die beim Löschen einer Wissensdatenbank- oder Datenquellenressource in Vektoreinbettungen konvertiert wurden. Beachten Sie, dass nicht der Vektorspeicher selbst gelöscht wird, sondern nur die Daten. Dieses Flag wird ignoriert, wenn AWS Konto ist gelöscht.

    • Beibehalten: Behält alle Daten aus Ihrer Datenquelle bei, die beim Löschen einer Wissensdatenbank oder Datenquellenressource in Vektoreinbettungen umgewandelt wurden. Beachten Sie, dass der Vektorspeicher selbst nicht gelöscht wird, wenn Sie eine Wissensdatenbank- oder Datenquellenressource löschen.

    Fahren Sie mit der Konfiguration Ihrer Datenquelle fort.

  7. Geben Sie die Authentifizierungsinformationen ein, um eine Verbindung zu Ihrer SharePoint Instance herzustellen:

    1. Geben Sie für die OAuth 2.0-Authentifizierung die Mandanten-ID an. Sie finden Ihre Mandanten-ID in den Eigenschaften Ihres Azure Active Directory-Portals oder in Ihrer OAuth Anwendung.

    2. Informationen zur OAuth 2.0-Authentifizierung finden Sie unter AWS Secrets Manager um Ihre geheimen Authentifizierungsdaten hinzuzufügen oder einen vorhandenen Amazon-Ressourcennamen (ARN) für das von Ihnen erstellte Geheimnis zu verwenden. Ihr Secret muss den SharePoint Admin-Benutzernamen und das Passwort sowie Ihre registrierte App-Client-ID und Ihren geheimen Client-Schlüssel enthalten. Eine Beispielanwendung finden Sie unter Registrieren einer Client-Anwendung in Microsoft Entra ID (früher bekannt als Azure Active Directory) auf der Microsoft Learn-Website.

    Fahren Sie mit der Konfiguration Ihrer Datenquelle fort.

  8. Wählen Sie, ob Sie Filter oder Muster mit regulären Ausdrücken verwenden möchten, um bestimmte Inhalte ein- oder auszuschließen. Andernfalls werden alle Standardinhalte gecrawlt.

    Fahren Sie mit der Konfiguration Ihrer Datenquelle fort.

  9. Wählen Sie entweder die Standard- oder die benutzerdefinierte Konfiguration für Chunking und Parsing.

    1. Wenn Sie benutzerdefinierte Einstellungen wählen, wählen Sie eine der folgenden Chunking-Optionen:

      • Chunking mit fester Größe: Inhalt wird in Textblöcke mit der von Ihnen festgelegten ungefähren Token-Größe aufgeteilt. Sie können die maximale Anzahl von Tokens festlegen, die für einen Abschnitt nicht überschritten werden darf, und den Prozentsatz der Überlappungen zwischen aufeinanderfolgenden Blöcken festlegen.

      • Standard-Chunking: Inhalt wird in Textblöcke von bis zu 300 Tokens aufgeteilt. Wenn ein einzelnes Dokument oder ein Inhalt weniger als 300 Token enthält, wird das Dokument nicht weiter aufgeteilt.

      • Hierarchisches Chunking: Inhalt, der in verschachtelten Strukturen aus über- und untergeordneten Blöcken organisiert ist. Sie legen die maximale Größe des übergeordneten Chunk-Tokens und die maximale Größe des untergeordneten Chunk-Tokens fest. Sie legen auch die absolute Anzahl von Überlappungstoken zwischen aufeinanderfolgenden übergeordneten Chunks und aufeinanderfolgenden untergeordneten Chunks fest.

      • Semantisches Chunking: Inhalt, der in semantisch ähnliche Textblöcke oder Satzgruppen unterteilt ist. Sie legen die maximale Anzahl von Sätzen fest, die den Ziel-/aktuellen Satz umgeben, die gruppiert werden sollen (Puffergröße). Sie legen auch den Schwellenwert für das Perzentil am Breakpoint fest, um den Text in sinnvolle Abschnitte zu unterteilen. Beim semantischen Chunking wird ein Basismodell verwendet. Anzeigen von Amazon Bedrock Preisgestaltung für Informationen über die Kosten von Foundation-Modellen.

      • Keine Unterteilung: Jedes Dokument wird als einzelner Textblock behandelt. Möglicherweise möchten Sie Ihre Dokumente vorab verarbeiten, indem Sie sie in separate Dateien aufteilen.

      Anmerkung

      Sie können die Chunking-Strategie nicht ändern, nachdem Sie die Datenquelle erstellt haben.

    2. Sie können wählen, ob Amazon Bedrock das Basismodell für das Parsen von Dokumenten, um mehr als Standardtext zu analysieren. Sie können beispielsweise Tabellendaten in Dokumenten analysieren, deren Struktur intakt bleibt. Anzeigen von Amazon Bedrock Preisgestaltung für Informationen über die Kosten von Basismodellen.

    3. Sie können wählen, ob Sie eine verwenden möchten AWS Lambda Funktion, mit der Sie Ihre Chunking-Strategie und die Art und Weise, wie die Attribute/Felder Ihrer Dokumentmetadaten behandelt und aufgenommen werden, individuell anpassen können. Stellen Sie die bereit Amazon S3 Bucket-Position für die Eingabe und Ausgabe der Lambda-Funktion.

    Gehen Sie zum nächsten Abschnitt, um Ihren Vector Store zu konfigurieren.

  10. Wählen Sie ein Modell für die Konvertierung Ihrer Daten in Vektoreinbettungen.

    Erstellen Sie einen Vektorspeicher, um dies zu ermöglichen Amazon Bedrock um Einbettungen zu speichern, zu aktualisieren und zu verwalten. Sie können schnell einen neuen Vektorspeicher erstellen oder aus einem unterstützten Vektorspeicher auswählen, den Sie erstellt haben. Derzeit ist nur Amazon OpenSearch Serverless Vector Store für die Verwendung mit dieser Datenquelle verfügbar. Wenn Sie einen neuen Vektorspeicher erstellen, wird eine Amazon OpenSearch Serverless-Vektorsuchsammlung und ein Index mit den erforderlichen Feldern für Sie eingerichtet. Wenn Sie aus einem unterstützten Vektorspeicher auswählen, müssen Sie die Vektorfeldnamen und die Metadatenfeldnamen zuordnen.

    Gehen Sie zum nächsten Abschnitt, um Ihre Wissensdatenbank-Konfigurationen zu überprüfen.

  11. Überprüfen Sie die Details Ihrer Wissensdatenbank. Sie können jeden Abschnitt bearbeiten, bevor Sie mit der Erstellung Ihrer Wissensdatenbank fortfahren.

    Anmerkung

    Die Zeit, die für die Erstellung der Wissensdatenbank benötigt wird, hängt von Ihren spezifischen Konfigurationen ab. Wenn die Erstellung der Wissensdatenbank abgeschlossen ist, ändert sich der Status der Wissensdatenbank entweder in den Status „Bereit“ oder „Verfügbar“.

    Sobald Ihre Wissensdatenbank fertig und verfügbar ist, synchronisieren Sie Ihre Datenquelle zum ersten Mal und wann immer Sie Ihre Inhalte auf dem neuesten Stand halten möchten. Wählen Sie Ihre Wissensdatenbank in der Konsole aus und klicken Sie im Bereich Datenquellenübersicht auf Synchronisieren.

API

Im Folgenden finden Sie ein Beispiel für eine Konfiguration für die Verbindung zu SharePoint Online für Ihre Amazon Bedrock-Wissensdatenbank. Sie konfigurieren Ihre Datenquelle API mit dem AWS CLI oder unterstütztSDK, wie Python. Nach dem Aufrufen rufen Sie an CreateKnowledgeBase, CreateDataSourceum Ihre Datenquelle mit Ihren Verbindungsinformationen zu erstellendataSourceConfiguration. Denken Sie daran, auch Ihre Strategie bzw. Ihren Ansatz zur Aufteilung vectorIngestionConfiguration und Ihre Richtlinie zur Datenlöschung unter anzugeben. dataDeletionPolicy

AWS Command Line Interface

aws bedrock create-data-source \ --name "SharePoint Online connector" \ --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' sharepoint-bedrock-connector-configuration.json { "sharePointConfiguration": { "sourceConfiguration": { "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de", "hostType": "ONLINE", "domain": "yourdomain", "siteUrls": [ "https://yourdomain.sharepoint.com/sites/mysite" ], "authType": "OAUTH2_CLIENT_CREDENTIALS", "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint" }, "crawlerConfiguration": { "filterConfiguration": { "type": "PATTERN", "patternObjectFilter": { "filters": [ { "objectType": "File", "inclusionFilters": [ ".*\\.pdf" ], "exclusionFilters": [ ".*private.*\\.pdf" ] } ] } } } }, "type": "SHAREPOINT" }