检测有毒言语 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

检测有毒言语

有毒语音检测旨在帮助审核涉及以下内容的社交媒体平台peer-to-peer对话,例如在线游戏和社交聊天平台。使用有害言论可能对个人、同龄群体和社区造成严重伤害。举报有害语言有助于组织保持对话的文明性,维护一个安全和包容的在线环境,供用户自由创建、分享和参与。

Amazon Transcribe毒性检测利用基于音频和文本的线索来识别和分类基于语音的有毒内容,分为七个类别,包括性骚扰、仇恨言论、威胁、虐待、亵渎、侮辱和图片。除了文字,Amazon Transcribe毒性检测使用语音线索(例如语气和音调)来深入了解语音中的毒性意图。这与标准内容审核系统相比有所改进,标准内容审核系统旨在仅关注特定条款,不考虑意图。

Amazon Transcribe标记有害语音并对其进行分类,从而最大限度地减少必须手动处理的数据量。这使内容主持人能够快速有效地管理其平台上的话语。

有毒言语类别包括:

  • 亵渎:包含不礼貌、粗俗或令人反感的单词、短语或首字母缩略词的言论。

  • 仇恨言论:基于身份(例如种族、民族、性别、宗教、性取向、能力和国籍)批评、侮辱、谴责个人或群体或群体或使其失去人性的言论。

  • 性的:通过直接或间接提及身体部位、身体特征或性别来表达性兴趣、活动或性兴奋的言论。

  • 侮辱: 包括贬低、羞辱、嘲笑、侮辱或贬低语言的言论。这种语言也被标记为欺凌。

  • 暴力或威胁:包括试图对个人或群体造成痛苦、伤害或敌意的威胁的言论。

  • 图形:使用视觉描述性且不愉快的生动图像的演讲。这种语言通常是故意使用冗长的,以加剧接受者的不适感。

  • 骚扰或虐待:旨在影响接受者心理健康的言论,包括贬低和客观化的术语。这种语言也被标记为骚扰。

毒性检测会分析语音片段(自然停顿之间的语音),并为这些片段分配可信度分数。置信度分数是介于 0 和 1 之间的值。置信度分数越大表示该内容在相关类别中成为有害言语的可能性越大。您可以使用这些置信度分数为您的用例设置适当的毒性检测阈值。

注意

毒性检测仅适用于美国英语的批量转录(en-US)

查看输出示例采用 JSON 格式。