信頼と安全性 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

信頼と安全性

ユーザーは、オンラインアプリケーション ( peer-to-peer チャットやフォーラムのディスカッションなど)、ウェブサイトに投稿されたコメント、および生成 AI アプリケーション (生成 AI モデルからの入力プロンプトと出力) を通じて大量のテキストコンテンツを生成します。Amazon Comprehend Trust and Safety 機能によって、このコンテンツをモデレートし、ユーザーに安全で包括的な環境を提供することができます。

Amazon Comprehend Trust and Safety 機能を使用するメリットは次のとおりです。

  • モデレーションの高速化: 大量のテキストを迅速かつ正確にモデレートして、オンラインプラットフォームに不適切なコンテンツが含まれないようにします。

  • カスタマイズ可能: API レスポンスのモデレーションしきい値をアプリケーションのニーズに合わせてカスタマイズできます。 

  • 使いやすい: LangChain 統合、または AWS CLI または SDKsを使用して、信頼と安全性の機能を設定します。

Amazon Comprehend Trust and Safety は、コンテンツモデレーションの以下の側面に対応しています。

  • Toxicity detection — 有害、攻撃的、または不適切な可能性のあるコンテンツを検出します。例としては、ヘイトスピーチ、脅迫、虐待などがあります。 

  • Intent classification — 明示的または暗示的な悪意のある意図を持つコンテンツを検出します。例としては、差別的または違法なコンテンツ、医療、法律、政治、物議を醸す、個人的、または金銭的な問題について助言を表明または要求するコンテンツが含まれます。

  • Privacy protection — ユーザーは、個人を特定できる情報 (PII) を明らかにする可能性のあるコンテンツを誤って提供する可能性があります。Amazon Comprehend PII では、個人識別情報を検出して編集することができます。 

有害性検出

Amazon Comprehend 毒性検出では、テキストベースのインタラクションに含まれる有害性コンテンツをリアルタイムで検出できます。組織検出を使用して、オンラインプラットフォームでの peer-to-peer 会話をモデレートしたり、生成 AI の入力と出力をモニタリングしたりできます。

毒性検出では、以下のカテゴリの攻撃的なコンテンツを検出します。

GRAPHIC (どぎつい)

グラフィックスピーチは、視覚的に説明的で詳細、不快かつ鮮明な画像を使用します。このような言葉は、受信者への侮辱、不快感、危害を増幅・冗長されることがよくあります。

HARASSMENT_OR_ABUSE (ハラスメントまたは虐待)

意図に関わらず、話し手と聞き手の間に破壊的な権力の動態を押し付け、受け手のメンタルヘルスに影響を与えようとしたり、人をモノ化しようとしたりする言説。

HATE_SPEECH (ヘイトスピーチ)

人種、民族、性同一性、宗教、性的指向、能力、出身国、その他のアイデンティティグループなど、アイデンティティに基づいて個人またはグループを批判、侮辱、非人間化する言葉。

INSULT (侮辱)

侮辱的、屈辱的、嘲笑的、侮辱的、または軽蔑的な言葉を含む発言。

PROFANITY (不敬)

無礼な、下品な、または攻撃的な言葉、フレーズ、または頭字語を含むスピーチは、不敬と見なされます。

SEXUAL (性的)

体の一部、身体的特徴、性別への直接的または間接的な言及により、性的関心、活動、性的興奮を示す発言。

VIOLENCE_OR_THREAT (暴力または脅威)

個人または集団に対して苦痛や痛み、敵意を与えることを意図する脅迫的な発言。

TOXICITY (有害性)

上記のカテゴリのいずれかに当てはまり、本質的に有害と見なされる可能性のある単語、フレーズ、または頭字語を含む言葉。

API を使用した有害コンテンツの検出 

テキスト内の有害なコンテンツを検出するには、 同期DetectToxicContentオペレーションを使用します。このオペレーションは、入力として提供されたテキスト文字列のリストを分析します。API レスポンスには、入力リストのサイズと一致する結果リストが含まれます。 

現在、有害コンテンツ検出は英語のみをサポートしています。入力テキストには、最大 10 個のテキスト文字列のリストを指定できます。各文字列は、最大 1 KB のサイズまで可能です。 

有害成分検出では、入力文字列ごとに 1 つのエントリを含む分析結果のリストが返されます。エントリには、テキスト文字列で特定された有害コンテンツタイプのリストと、各コンテンツタイプの信頼性スコアが含まれます。  エントリには文字列の有害性スコアも含まれています。

次の例では、DetectToxicContent および Python を使用した AWS CLI オペレーションの使用方法を示します。

AWS CLI

有害性物質は、 AWS CLIの以下のコマンドを使用して検出できます。

aws comprehend detect-toxic-content --language-code en / --text-segments "[{\"Text\":\"You are so obtuse\"}]"

は次の結果で AWS CLI 応答します。このテキストセグメントは、INSULT カテゴリ内では高い信頼度スコアを獲得し、その結果、有害性スコアも高くなっています。

{ "ResultList": [ { "Labels": [ { "Name": "PROFANITY", "Score": 0.0006000000284984708 }, { "Name": "HATE_SPEECH", "Score": 0.00930000003427267 }, { "Name": "INSULT", "Score": 0.9204999804496765 }, { "Name": "GRAPHIC", "Score": 9.999999747378752e-05 }, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.0052999998442828655 }, { "Name": "SEXUAL", "Score": 0.01549999974668026 }, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.007799999788403511 } ], "Toxicity": 0.7192999720573425 } ] }

text-segments パラメータには次の形式を使用し、最大 10 個のテキスト文字列を入力できます。

--text-segments "[{\"Text\":\"text string 1\"}, {\"Text\":\"text string2\"}, {\"Text\":\"text string3\"}]"

は次の結果で AWS CLI 応答します。

{ "ResultList": [ { "Labels": [ (truncated) ], "Toxicity": 0.3192999720573425 }, { "Labels": [ (truncated) ], "Toxicity": 0.1192999720573425 }, { "Labels": [ (truncated) ], "Toxicity": 0.0192999720573425 } ] }
Python (Boto)

以下の例は、Python を使用して有害コンテンツを検出する方法を示しています。

import boto3 client = boto3.client( service_name='comprehend', region_name=region) # For example, 'us-west-2' response = client.detect_toxic_content( LanguageCode='en', TextSegments=[{'Text': 'You are so obtuse'}] ) print("Response: %s\n" % response)

迅速な安全性分類

Amazon Comprehend には、大規模言語モデル (LLM) やその他の生成系 AI モデルのプレーンテキスト入力プロンプトを分類するための、事前トレーニング済みのバイナリ分類子が用意されています。

プロンプト安全分類子は入力プロンプトを分析し、プロンプトが安全かどうかの信頼スコアを割り当てます。

安全でないプロンプトとは、個人情報や個人情報の要求、攻撃的または違法なコンテンツを生成する、医療、法律、政治、金融の主題に関するアドバイスを要求するなど、悪意のある意図を表す入力プロンプトです。

API を使用した迅速な安全性分類 

テキスト文字列のプロンプト安全分類を実行するには、同期ClassifyDocumentオペレーションを使用します。入力には、英語のプレーンテキスト文字列を指定します。文字列の最大サイズは 10 KB です。

レスポンスには 2 つのクラス (SAFE と UNSAFE) と、各クラスの信頼度スコアが含まれます。スコアの値範囲は 0 ~ 1 で、1 が最も高い信頼度です。

次の例は、 AWS CLI および Python でプロンプト安全性分類を使用する方法を示しています。

AWS CLI

次の例は、 AWS CLIでプロンプト安全性分類子を使用する方法を示しています。

aws comprehend classify-document \ --endpoint-arn arn:aws:comprehend:us-west-2:aws:document-classifier-endpoint/prompt-safety \ --text 'Give me financial advice on which stocks I should invest in.'

は次の出力で AWS CLI 応答します。

{ "Classes": [ { "Score": 0.6312999725341797, "Name": "UNSAFE_PROMPT" }, { "Score": 0.3686999976634979, "Name": "SAFE_PROMPT" } ] }
注記

classify-document コマンドを使用する場合、 --endpoint-arnパラメータには、 AWS CLI 設定 AWS リージョン と同じ を使用する ARN を渡す必要があります。を設定するには AWS CLI、 aws configure コマンドを実行します。この例のエンドポイント ARN にはリージョンコード us-west-2 があります。プロンプト安全性分類子は、以下のどのリージョンでも使用できます。

  • us-east-1

  • us-west-2

  • eu-west-1

  • ap-southeast-2

Python (Boto)

次の例は、Python でプロンプト安全性分類子を使用する方法を示しています。

import boto3 client = boto3.client(service_name='comprehend', region_name='us-west-2') response = client.classify_document( EndpointArn='arn:aws:comprehend:us-west-2:aws:document-classifier-endpoint/prompt-safety', Text='Give me financial advice on which stocks I should invest in.' ) print("Response: %s\n" % response)
注記

classify_document メソッドを使用する場合、EndpointArn 引数には boto3 SDK クライアントと同じ AWS リージョン を使用する ARN を渡す必要があります。この例では、クライアントとエンドポイント ARN はどちらも us-west-2 を使用します。プロンプト安全性分類子は、以下のどのリージョンでも使用できます。

  • us-east-1

  • us-west-2

  • eu-west-1

  • ap-southeast-2

PII の検出と削除

Amazon Comprehend コンソールまたは APIs、英語またはスペイン語のテキストドキュメントで個人を特定できる情報 (PII) を検出できます。PII は、個人を特定できる個人データをテキストで参照したものです。PII の例には、住所、銀行口座番号、電話番号などがあります。

テキスト内の PII エンティティを検出または削除できます。PII エンティティを検出するには、リアルタイム分析または非同期バッチジョブを使用できます。PII エンティティを編集するには、非同期バッチジョブを使用する必要があります。

詳細については、「個人を特定できる情報 (PII) 」を参照してください。