Erkennung toxischer Sprache - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erkennung toxischer Sprache

Die Erkennung toxischer Sprache soll dabei helfen, Social-Media-Plattformen zu moderieren, die Folgendes beinhaltenpeer-to-peerDialog, wie Online-Gaming- und Social-Chat-Plattformen. Der Gebrauch toxischer Sprache kann für Einzelpersonen, Gleichaltrige und Gemeinschaften zutiefst schädlich sein. Das Markieren schädlicher Sprache hilft Unternehmen dabei, Gespräche höflich zu führen und eine sichere und integrative Online-Umgebung zu schaffen, in der Benutzer frei erstellen, teilen und teilnehmen können.

Amazon TranscribeToxicity Detection nutzt sowohl akustische als auch textbasierte Hinweise, um sprachbasierte toxische Inhalte in sieben Kategorien zu identifizieren und zu klassifizieren, darunter sexuelle Belästigung, Hassreden, Bedrohung, Missbrauch, Obszönität, Beleidigung und grafische Darstellung. Zusätzlich zum TextAmazon TranscribeDie Toxizitätserkennung verwendet Sprachhinweise wie Töne und Tonhöhen, um die toxische Absicht in der Sprache zu ermitteln. Dies ist eine Verbesserung gegenüber Standardsystemen zur Inhaltsmoderation, die so konzipiert sind, dass sie sich nur auf bestimmte Begriffe konzentrieren, ohne die Absicht zu berücksichtigen.

Amazon Transcribekennzeichnet und kategorisiert toxische Sprache, wodurch das Datenvolumen, das manuell verarbeitet werden muss, minimiert wird. Dies ermöglicht es Inhaltsmoderatoren, den Diskurs auf ihren Plattformen schnell und effizient zu verwalten.

Zu den Kategorien toxischer Sprache gehören:

  • Profanität: Sprache, die Wörter, Phrasen oder Akronyme enthält, die unhöflich, vulgär oder beleidigend sind.

  • Hassrede: Sprache, die eine Person oder Gruppe aufgrund einer Identität (wie Rasse, ethnische Zugehörigkeit, Geschlecht, Religion, sexuelle Orientierung, Fähigkeit und nationale Herkunft) kritisiert, beleidigt, denunziert oder entmenschlicht.

  • Sexuell: Sprache, die auf sexuelles Interesse, Aktivität oder Erregung hinweist, wobei direkte oder indirekte Hinweise auf Körperteile, körperliche Merkmale oder Geschlecht verwendet werden.

  • Beleidigungen: Sprache, die erniedrigende, demütigende, spöttische, beleidigende oder herabsetzende Sprache beinhaltet. Diese Art von Sprache wird auch als Mobbing bezeichnet.

  • Gewalt oder Bedrohung: Sprache, die Drohungen beinhaltet, die darauf abzielen, einer Person oder Gruppe Schmerzen, Verletzungen oder Feindseligkeit zuzufügen.

  • Grafik: Sprache, die visuell beschreibende und unangenehm lebendige Bilder verwendet. Diese Art von Sprache ist oft absichtlich ausführlich, um das Unbehagen des Empfängers zu verstärken.

  • Belästigung oder Beleidigung: Sprache, die das psychische Wohlbefinden des Empfängers beeinflussen soll, einschließlich erniedrigender und objektivierender Ausdrücke. Diese Art von Sprache wird auch als Belästigung bezeichnet.

Die Toxizitätserkennung analysiert Sprachsegmente (die Sprache zwischen natürlichen Pausen) und weist diesen Segmenten Konfidenzwerte zu. Konfidenzwerte sind Werte zwischen 0 und 1. Ein höherer Konfidenzwert weist auf eine höhere Wahrscheinlichkeit hin, dass es sich bei dem Inhalt um toxische Sprache in der zugehörigen Kategorie handelt. Sie können diese Konfidenzwerte verwenden, um den für Ihren Anwendungsfall geeigneten Schwellenwert für den Nachweis von Toxizität festzulegen.

Anmerkung

Der Nachweis von Toxizität ist nur für Batch-Transkriptionen in US-Englisch verfügbar(en-US).

AnsehenBeispielausgabeim JSON-Format.