Erkennen und filtern Sie schädliche Inhalte mithilfe von Amazon Bedrock Guardrails

Amazon Bedrock Guardrails bietet Sicherheitsvorkehrungen, die Sie für Ihre generativen KI-Anwendungen auf der Grundlage Ihrer Anwendungsfälle und verantwortungsvollen KI-Richtlinien konfigurieren können. Sie können mehrere Leitplanken erstellen, die auf unterschiedliche Anwendungsfälle zugeschnitten sind, und sie auf mehrere Basismodelle anwenden (FMs), um eine konsistente Benutzererfahrung zu gewährleisten und die Sicherheits- und Datenschutzkontrollen für generative KI-Anwendungen zu standardisieren. Sie können Leitplanken sowohl für Modellaufforderungen als auch für Antworten in natürlicher Sprache verwenden.

Sie können Amazon Bedrock Guardrails auf verschiedene Weise verwenden, um Ihre generativen KI-Anwendungen zu schützen. Zum Beispiel:

Eine Chatbot-Anwendung kann Guardrails verwenden, um schädliche Benutzereingaben und toxische Modellantworten herauszufiltern.
Eine Bankanwendung kann Leitplanken verwenden, um Benutzeranfragen zu blockieren oder Antworten im Zusammenhang mit der Suche oder Bereitstellung von Anlageberatung zu modellieren.
Eine Callcenter-Anwendung zur Zusammenfassung von Gesprächsprotokollen zwischen Benutzern und Agenten kann Leitplanken verwenden, um die personenbezogenen Daten (PII) der Benutzer zu unkenntlich zu machen, um die Privatsphäre der Benutzer zu schützen.

Amazon Bedrock Guardrails bietet die folgenden Sicherheitsvorkehrungen (auch als Richtlinien bezeichnet) zur Erkennung und Filterung schädlicher Inhalte:

Inhaltsfilter — Erkennen und filtern Sie schädliche Text- oder Bildinhalte in Eingabeaufforderungen oder modellieren Sie Antworten. Die Filterung erfolgt auf der Grundlage der Erkennung bestimmter vordefinierter Kategorien schädlicher Inhalte: Hass, Beleidigungen, Sexuelles Verhalten, Gewalt, Fehlverhalten und Sofortiger Angriff. Sie können auch die Filterstärke für jede dieser Kategorien anpassen.
Abgelehnte Themen — Definieren Sie eine Reihe von Themen, die im Kontext Ihrer Anwendung unerwünscht sind. Der Filter hilft dabei, sie zu blockieren, wenn sie in Benutzeranfragen oder Modellantworten entdeckt werden.
Wortfilter — Konfigurieren Sie Filter, um unerwünschte Wörter, Ausdrücke und Schimpfwörter (exakte Übereinstimmung) zu blockieren. Solche Wörter können beleidigende Begriffe, Namen von Wettbewerbern usw. enthalten.
Filter für vertrauliche Informationen — Konfigurieren Sie Filter, um vertrauliche Informationen wie personenbezogene Daten (PII) oder benutzerdefinierte reguläre Ausdrücke in Benutzereingaben und Modellantworten zu blockieren oder zu maskieren. Das Blockieren oder Maskieren erfolgt auf der Grundlage der probabilistischen Erkennung vertraulicher Informationen in Standardformaten in Entitäten wie SSN-Nummer, Geburtsdatum, Adresse usw. Dies ermöglicht auch die Konfiguration der Erkennung von Mustern für Identifikatoren, die auf regulären Ausdrücken basieren.
Kontextuelle Bodenprüfungen — helfen dabei, Halluzinationen in Modellantworten zu erkennen und zu filtern, basierend auf der Grundlage einer Quelle und der Relevanz für die Benutzerabfrage.
Automatisierte Prüfungen zur Argumentation — Sie können Ihnen dabei helfen, die Richtigkeit der Antworten des Basismodells anhand einer Reihe logischer Regeln zu überprüfen. Mithilfe von Prüfungen zur automatisierten Argumentation können Sie Halluzinationen erkennen, Korrekturen vorschlagen und unausgesprochene Annahmen in Modellantworten hervorheben.

Zusätzlich zu den oben genannten Richtlinien können Sie die Nachrichten auch so konfigurieren, dass sie an den Benutzer zurückgesendet werden, wenn eine Benutzereingabe oder eine Modellantwort gegen die in der Leitplanke definierten Richtlinien verstößt.

Experimentieren und vergleichen Sie verschiedene Konfigurationen und stellen Sie mithilfe des integrierten Testfensters sicher, dass die Ergebnisse Ihren Anwendungsanforderungen entsprechen. Wenn Sie eine Leitplanke erstellen, steht Ihnen automatisch ein Arbeitsentwurf zur Verfügung, den Sie iterativ ändern können. Experimentieren Sie mit verschiedenen Konfigurationen und verwenden Sie das integrierte Testfenster, um zu sehen, ob sie für Ihren Anwendungsfall geeignet sind. Wenn Sie mit einer Reihe von Konfigurationen zufrieden sind, können Sie eine Version der Leitplanke erstellen und sie mit unterstützten Foundation-Modellen verwenden.

Guardrails können FMs während des Aufrufs der Inferenz-API direkt mit verwendet werden, indem die Guardrail-ID und die Version angegeben werden. Guardrails können auch direkt über die API verwendet werden, ohne die Foundation-Modelle aufzurufen. ApplyGuardrail Wenn ein Guardrail verwendet wird, werden die Eingabeaufforderungen und die FM-Abschlüsse anhand der definierten Richtlinien bewertet.

Bei RAG-Anwendungen (Retrieval Augmented Generation) oder Konversationsanwendungen müssen Sie möglicherweise nur die Benutzereingaben in der Eingabeaufforderung auswerten und gleichzeitig Systemanweisungen, Suchergebnisse, den Konversationsverlauf oder einige kurze Beispiele verwerfen. Informationen zur selektiven Auswertung eines Abschnitts der Eingabeaufforderung finden Sie unter. Wenden Sie Tags auf Benutzereingaben an, um Inhalte zu filtern

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Führen Sie Codebeispiele aus

Weiter