使用內容篩選條件封鎖有害的單字和對話 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用內容篩選條件封鎖有害的單字和對話

Amazon Bedrock Guardrails 支援內容篩選條件,以協助偵測和篩選自然語言的有害使用者輸入和模型產生的輸出。下列類別支援內容篩選條件:

仇恨

  • 文字內容 — 描述根據身分 (例如種族、族裔、性別、宗教、性向、能力和原國籍) 來歧視、批評、侮辱、拒絕或取消人道化人物或群組的輸入提示和模型回應。

  • 影像內容 (預覽中) — 描述輸入提示和模型回應,其中包括圖形和真實視覺內容,顯示仇恨群組的特定符號、仇恨符號,以及與各種組織相關的影像,以促進歧視、種族主義和不容忍。

侮辱

  • 文字內容 — 描述輸入提示和模型回應,包括貶低、羞辱、模擬、侮辱或輕視語言。種類型的語言也被標記為霸凌。

  • 影像內容 (預覽中) — 描述輸入提示和模型回應,其中包含各種形式的粗魯、不尊重或令人反感的手勢,旨在表達藐視、憤怒或不核准。

  • 文字內容 — 描述輸入提示和模型回應,其使用直接或間接參考身體部位、身體特徵或性別來表示性興趣、活動或覺醒。

  • 影像內容 (預覽) — 描述顯示私有身體部位或性活動的輸入提示和模型回應。此類別也包含卡通、動畫、繪圖、草圖,以及其他具有性主題的說明內容。

暴力

  • 文字內容 — 描述輸入提示和模型回應,包括對人員、群組或物件的美化或造成身體疼痛、傷害或傷害的威脅。

  • 影像內容 (預覽中) — 描述輸入提示和模型回應,包括自我傷害實務、暴力身體攻擊,以及人員或動物受傷的描述,通常伴隨著明顯的血液或身體傷害。

行為不當

  • 僅限文字內容 — 描述輸入提示和模型回應,這些提示和模型回應會尋找或提供有關參與犯罪活動的資訊,或傷害、詐騙或利用人員、群組或機構。

提示攻擊

  • 僅限文字內容;僅適用於具有輸入標記的提示 — 描述意圖繞過基礎模型之安全和審核功能的使用者提示,以產生有害內容 (也稱為 jailbreak),以及忽略和覆寫開發人員指定的指示 (稱為提示注入)。需要使用輸入標記,才能套用提示攻擊。提示攻擊偵測需要使用輸入標籤