偵測有毒語音 - Amazon Transcribe

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

偵測有毒語音

有毒語音檢測旨在幫助中度涉及的社交媒體平台peer-to-peer對話,例如在線遊戲和社交聊天平台。使用有毒的言語可能會嚴重不利於個人,同伴團體和社區。標記有害語言可以幫助組織保持對話內幕,並維護一個安全和包容的在線環境,以便用戶自由創建,共享和參與。

Amazon Transcribe毒性偵測功能利用音訊和文字提示,在七個類別中識別和分類基於語音的有毒內容,包括性騷擾、仇恨言論、威脅、虐待、褻瀆、侮辱和圖形。除了文字之外,Amazon Transcribe毒性檢測使用語音提示,例如音調和音高來磨練語音中的有毒意圖。這是標準內容審核系統的改進,該系統旨在僅關注特定術語,而無需考慮意圖。

Amazon Transcribe標記和分類有毒的語音,這將必須手動處理的數據量降到最低。這使內容管理員能夠快速有效地管理其平台上的話語。

有毒的演講類別包括:

  • 褻瀆: 包含不禮貌、粗俗或令人反感的單詞、短語或首字母縮略詞的語音。

  • 仇恨言論:基於身份(例如種族,種族,性別,宗教,性取向,能力和國籍)批評,侮辱,譴責或使某個人或團體不人道化的演講。

  • :使用直接或間接引用身體部位,身體特徵或性別來表示性興趣,活動或喚醒的語音。

  • 侮辱: 包括貶低、羞辱、嘲笑、侮辱或貶低語言的言語。這種類型的語言也被標記為欺凌。

  • 暴力或威脅: 語音,其中包括試圖對個人或團體造成疼痛,傷害或敵意的威脅。

  • 图形: 使用視覺上描述性和令人不愉快的生動圖像的語音。這種類型的語言通常是故意冗長的,以擴大收件人的不適感。

  • 騷擾或辱罵: 旨在影響收件人心理健康的言論,包括貶低和客觀性的術語。這種語言也被標記為騷擾。

毒性偵測會分析語音區段 (自然暫停之間的語音),並將信賴度分數指派給這些區段。置信度分數是介於 0 和 1 之間的值。較高的可信度分數表示內容在相關類別中是有毒語音的可能性越大。您可以使用這些可信度分數,針對您的使用案例設定適當的毒性偵測閾值。

注意

毒性檢測僅適用於美國英語的批量轉錄(en-US)

檢視範例輸出以 JSON 格式顯示。