Erkennung der Sichtbarkeit Prompt-Sicherheitsklassifizierung PII-Erkennung und -Schwärzung

Vertrauen und Sicherheit

Benutzer generieren große Mengen an Textinhalten über Online-Anwendungen (wie peer-to-peer Chats und Forum-Diskussionen), Kommentare, die auf Websites veröffentlicht wurden, und über generative KI-Anwendungen (Eingabeaufforderungen und Ausgaben von generativen KI-Modellen). Die Amazon Comprehend Trust and Safety-Funktionen können Ihnen helfen, diese Inhalte zu moderieren, um Ihren Benutzern eine sichere und inklusive Umgebung zu bieten.

Zu den Vorteilen der Vertrauens- und Sicherheitsfunktionen von Amazon Comprehend gehören:

Schnellere Moderation: Moderieren Sie schnell und präzise große Textmengen, um Ihre Online-Plattformen von unangemessenen Inhalten frei zu halten.
Anpassbar: Passen Sie die Moderationsschwellenwerte in API-Antworten an Ihre Anwendungsanforderungen an.
Einfach zu bedienen: Konfigurieren Sie die Vertrauens- und Sicherheitsfunktionen durch LangChain Integration oder mithilfe der AWS CLI oder SDKs .

Amazon Comprehend-Vertrauens- und Sicherheitsmaßnahmen berücksichtigen die folgenden Aspekte der Inhaltsmoderation:

Toxicity detection – Erkennen Sie Inhalte, die schädlich, anstößig oder unangemessen sein können. Beispiele hierfür sind Hasssprache, Bedrohungen oder Missbrauch.
Intent classification – Erkennen Sie Inhalte, die explizite oder implizite böswillige Absichten haben. Beispiele hierfür sind diskriminierende oder illegale Inhalte oder Inhalte, die Empfehlungen zu medizinischen, rechtlichen, politischen, kontroversialen, persönlichen oder finanziellen Themen ausdrücken oder anfordern.
Privacy protection – Benutzer können versehentlich Inhalte bereitstellen, die persönlich identifizierbare Informationen (PII) preisgeben können. Amazon Comprehend PII bietet die Möglichkeit, PII zu erkennen und zu redigieren.

Erkennung der Sichtbarkeit

Die Erkennung von Amazon Comprehend microSD bietet Echtzeiterkennung synchroner Inhalte in textbasierten Interaktionen. Sie können die Erkennung von Trichtern verwenden, um peer-to-peer Konversationen auf Online-Plattformen zu moderieren oder generative KI-Eingaben und -Ausgaben zu überwachen.

Bei der Erkennung der Sichtbarkeit werden die folgenden Kategorien anstößiger Inhalte erkannt:

GRAPHIC: Grafische Sprache verwendet visuell beschreibende, detaillierte und geografisch anschauliche Bilder. Eine solche Sprache wird oft ausführlich dargestellt, um einen Beleidigungsversuch, eine Anfeindung oder einen Gesundheitsvorfall für den Empfänger auszunutzen.
HARASSMENT_OR_ABUSE: Sprache, die unabhängig von der Absicht eine störende Stromentwicklung zwischen dem Sprecher und dem Sprecher auslöst, versucht, sich auf das Widerstandsfähigkeit des Empfängers auszuwirken oder eine Person zu objektieren.
HATE_SPEECH: Sprache, die eine Person oder eine Gruppe auf der Grundlage einer Identität beleidigt, beleidigt, beleidigt oder entmenschlich macht, sei es E-Mail-Abstammung, Benachteiligung, Geschlecht, Geschlecht, Orientierung, Fähigkeit, nationaler Ursprung oder eine andere Identitätsgruppe.
INSULT: Sprache, die erniedrigende, erniedrigende, simulierende, beleidigende oder herabsetzende Sprache umfasst.
PROFANITY: Sprache, die Wörter, Wortgruppen oder Akronyme enthält, die unhöflich, anstößig oder anstößig sind, wird als unecht angesehen.
SEXUAL: Sprache, die auf ein gewisses Interesse, eine Aktivität oder einen erregenden Hinweis hinweist, indem direkte oder indirekte Verweise auf Körperteile oder physische Merkmale oder Ker verwendet werden.
VIOLENCE_OR_THREAT: Sprache, die Bedrohungen umfasst, die einer Person oder Gruppe schädliche, benachteiligte oder feindselige Aktivitäten zuzufügen versuchen.
TOXICITY: Sprache, die Wörter, Wortgruppen oder Akronyme enthält, die in einer der oben genannten Kategorien als statisch angesehen werden könnten.

Erkennen schädlicher Inhalte mithilfe der API

Verwenden Sie die synchrone -DetectToxicContentOperation, um schädliche Inhalte im Text zu erkennen. Dieser Vorgang führt eine Analyse für eine Liste von Textzeichenfolgen durch, die Sie als Eingabe angeben. Die API-Antwort enthält eine Ergebnisliste, die der Größe der Eingabeliste entspricht.

Derzeit unterstützt die Erkennung schädlicher Inhalte nur die englische Sprache. Für Eingabetext können Sie eine Liste mit bis zu 10 Textzeichenfolgen angeben. Jede Zeichenfolge hat eine maximale Größe von 1KB.

Die Erkennung schädlicher Inhalte gibt eine Liste der Analyseergebnisse zurück, einen Eintrag in der Liste für jede Eingabezeichenfolge. Ein Eintrag enthält eine Liste der in der Textzeichenfolge identifizierten Inhaltstypen sowie einen Konfidenzwert für jeden Inhaltstyp. Der Eintrag enthält auch einen Farbwert für die Zeichenfolge.

Die folgenden Beispiele zeigen, wie Sie die -DetectToxicContentOperation mit und AWS CLI Python verwenden.

AWS CLI

Sie können schädliche Inhalte mit dem folgenden Befehl in der erkennen AWS CLI:


aws comprehend detect-toxic-content --language-code en  /
            --text-segments "[{\"Text\":\"You are so obtuse\"}]"

Der AWS CLI antwortet mit dem folgenden Ergebnis. Das Textsegment erhält einen hohen Konfidenzwert in der INSULT Kategorie, mit einem daraus resultierenden hohen Kompressionswert:


{
   "ResultList": [ 
      { 
         "Labels": [
                {
                    "Name": "PROFANITY",
                    "Score": 0.0006000000284984708
                },
                {
                    "Name": "HATE_SPEECH",
                    "Score": 0.00930000003427267
                },
                {
                    "Name": "INSULT",
                    "Score": 0.9204999804496765
                },
                {
                    "Name": "GRAPHIC",
                    "Score": 9.999999747378752e-05
                },
                {
                    "Name": "HARASSMENT_OR_ABUSE",
                    "Score": 0.0052999998442828655
                },
                {
                    "Name": "SEXUAL",
                    "Score": 0.01549999974668026
                },
                {
                    "Name": "VIOLENCE_OR_THREAT",
                    "Score": 0.007799999788403511
                }
            ],
            "Toxicity": 0.7192999720573425
      }
   ]
}

Sie können bis zu 10 Textzeichenfolgen im folgenden Format für den text-segments Parameter eingeben:


 
   --text-segments "[{\"Text\":\"text string 1\"},
                     {\"Text\":\"text string2\"},
                     {\"Text\":\"text string3\"}]"

Der AWS CLI antwortet mit den folgenden Ergebnissen:


{
   "ResultList": [ 
      { 
         "Labels": [ (truncated) ],
            "Toxicity": 0.3192999720573425
      },
      { 
         "Labels": [ (truncated) ],
            "Toxicity": 0.1192999720573425
      },
      { 
         "Labels": [ (truncated) ],
            "Toxicity": 0.0192999720573425
      }
   ]
}

Python (Boto)

Das folgende Beispiel zeigt, wie Sie schädliche Inhalte mit Python erkennen:


import boto3
client = boto3.client(
    service_name='comprehend',
    region_name=region) # For example, 'us-west-2'

response = client.detect_toxic_content(
    LanguageCode='en',
    TextSegments=[{'Text': 'You are so obtuse'}]
)
print("Response: %s\n" % response)

Prompt-Sicherheitsklassifizierung

Amazon Comprehend bietet einen vortrainierten binären Classifier zum Klassifizieren von Eingabeaufforderungen für Klartexteingaben für große Sprachmodelle (LLM) oder andere generative KI-Modelle.

Der Prompt-Sicherheitsklassifizierer analysiert die Eingabeaufforderung und weist einen Konfidenzwert zu, unabhängig davon, ob die Eingabeaufforderung sicher oder unsicher ist.

Eine unsichere Eingabeaufforderung ist eine Eingabeaufforderung, die böswillige Absichten ausdrückt, z. B. das Anfordern personenbezogener oder privater Informationen, das Generieren anstößiger oder illegaler Inhalte oder das Anfordern von Beratung zu medizinischen, rechtlichen, politischen oder finanziellen Themen.

Prompt-Sicherheitsklassifizierung mithilfe der API

Verwenden Sie die synchrone ClassifyDocument Operation , um die Prompt-Sicherheitsklassifizierung für eine Textzeichenfolge auszuführen. Für die Eingabe geben Sie eine englische Klartextzeichenfolge an. Die Zeichenfolge hat eine maximale Größe von 10 KB.

Die Antwort umfasst zwei Klassen (Speed und UNSpeed) sowie einen Konfidenzwert für jede Klasse. Der Wertebereich des Werts ist Null zu Eins, wobei einer die höchste Zuverlässigkeit darstellt.

Die folgenden Beispiele zeigen, wie Sie die Prompt-Sicherheitsklassifizierung mit und AWS CLI Python verwenden.

AWS CLI

Das folgende Beispiel zeigt, wie Sie den Prompt-Sicherheitsklassifizierer mit dem verwenden AWS CLI:


aws comprehend classify-document \
     --endpoint-arn arn:aws:comprehend:us-west-2:aws:document-classifier-endpoint/prompt-safety  \
     --text 'Give me financial advice on which stocks I should invest in.'

Der AWS CLI antwortet mit der folgenden Ausgabe:


{
    "Classes": [
        {
            "Score": 0.6312999725341797, 
            "Name": "UNSAFE_PROMPT"
        }, 
        {
            "Score": 0.3686999976634979, 
            "Name": "SAFE_PROMPT"
        }
    ]
}

Anmerkung

Wenn Sie den classify-document Befehl verwenden, müssen Sie für den --endpoint-arn Parameter einen ARN übergeben, der dieselbe AWS-Region wie Ihre AWS CLI Konfiguration verwendet. Führen Sie den Befehl aus AWS CLI, um die zu konfigurierenaws configure. In diesem Beispiel hat der Endpunkt-ARN den Regionscode us-west-2. Sie können den Prompt-Sicherheitsklassifizierer in jeder der folgenden Regionen verwenden:

us-east-1
us-west-2
eu-west-1
ap-southeast-2

Python (Boto)

Das folgende Beispiel zeigt, wie der Prompt-Sicherheitsklassifizierer mit Python verwendet wird:


import boto3
client = boto3.client(service_name='comprehend', region_name='us-west-2')

response = client.classify_document(
    EndpointArn='arn:aws:comprehend:us-west-2:aws:document-classifier-endpoint/prompt-safety',
    Text='Give me financial advice on which stocks I should invest in.'
)
print("Response: %s\n" % response)

Anmerkung

Wenn Sie die -classify_documentMethode verwenden, müssen Sie für das EndpointArn -Argument einen ARN übergeben, der dieselbe AWS-Region wie Ihr boto3-SDK-Client verwendet. In diesem Beispiel verwenden sowohl der Client- als auch der Endpunkt-ARN us-west-2. Sie können den Prompt-Sicherheitsklassifizierer in jeder der folgenden Regionen verwenden:

us-east-1
us-west-2
eu-west-1
ap-southeast-2

PII-Erkennung und -Schwärzung

Sie können die Amazon Comprehend-Konsole oder APIs verwenden, um persönlich identifizierbare Informationen (PII) in englischen oder spanischen Textdokumenten zu erkennen. PII ist ein Textverweis auf personenbezogene Daten, die eine Person identifizieren können. Beispiele für PII sind Adressen, Bankkontonummern und Telefonnummern.

Sie können die PII-Entitäten im Text erkennen oder redigieren. Um PII-Entitäten zu erkennen, können Sie Echtzeitanalysen oder einen asynchronen Batch-Auftrag verwenden. Um die PII-Entitäten zu redigieren, müssen Sie einen asynchronen Batch-Auftrag verwenden.

Weitere Informationen finden Sie unter Persönlich identifizierbare Informationen (PII) .

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Themenmodellierung

Persönlich identifizierbare Informationen (PII)