Detecção de toxicidade Classificação de segurança imediata Detecção e redação de PIIs

Confiança e segurança

Os usuários geram grandes quantidades de conteúdo de texto por meio de aplicativos on-line (como peer-to-peer bate-papos e discussões em fóruns), comentários publicados em sites e por meio de aplicativos de IA generativa (solicitações de entrada e saídas de modelos generativos de IA). Os recursos de confiança e segurança do Amazon Comprehend podem ajudar você a moderar esse conteúdo, a fim de fornecer um ambiente seguro e inclusivo para seus usuários.

Os benefícios de usar os recursos de confiança e segurança do Amazon Comprehend incluem:

Moderação mais rápida: modere com rapidez e precisão um grande volume de texto para manter suas plataformas online livres de conteúdo impróprio.
Personalizável: personalize os limites de moderação nas respostas da API para atender às necessidades do seu aplicativo.
Fácil de usar: configure os recursos de confiança e segurança por meio da LangChain integração ou usando o AWS CLI ou SDKs.

A confiança e a segurança do Amazon Comprehend abordam os seguintes aspectos da moderação de conteúdo:

Toxicity detection: detectar conteúdo que possa ser prejudicial, ofensivo ou impróprio. Entre eles estão discursos de ódio, ameaças ou abusos.
Intent classification: detectar conteúdo com intenção maliciosa explícita ou implícita. Entre eles estão conteúdo discriminatório ou ilegal, ou conteúdo que expressa ou solicita aconselhamento sobre assuntos médicos, legais, políticos, controversos, pessoais ou financeiros.
Privacy protection: os usuários podem fornecer, inadvertidamente, conteúdo que possa revelar informações de identificação pessoal (PII). O Amazon Comprehend PII fornece a capacidade de detectar e editar PII.

Detecção de toxicidade

A detecção de toxicidade do Amazon Comprehend fornece detecção em tempo real de conteúdo tóxico em interações baseadas em texto. Você pode usar a detecção de toxicidade para moderar peer-to-peer conversas em plataformas on-line ou para monitorar entradas e saídas generativas de IA.

A detecção de toxicidade detecta as seguintes categorias de conteúdo ofensivo:

GRAPHIC: A fala gráfica usa imagens visualmente descritivas, detalhadas e desagradavelmente vívidas. Essa linguagem geralmente é detalhada para amplificar um insulto, desconforto ou dano ao destinatário.
HARASSMENT_OR_ABUSE: A fala que impõe uma dinâmica de poder disruptiva entre o falante e o ouvinte, independentemente da intenção, busca afetar o bem-estar psicológico do destinatário ou objetifica uma pessoa.
HATE_SPEECH: Discurso que critica, insulta, denuncia ou desumaniza uma pessoa ou um grupo com base em uma identidade, seja ela raça, etnia, gênero, religião, orientação sexual, habilidade, origem nacional ou outro grupo de identidade.
INSULT: Discurso que inclui linguagem humilhante, zombeteira, insultante ou depreciativa.
PROFANITY: Discurso que contém palavras, frases ou acrônimos indelicados, vulgares ou ofensivos é considerado profano.
SEXUAL: Discurso que indica interesse, atividade ou excitação sexual usando referências diretas ou indiretas a partes do corpo, características físicas ou sexo.
VIOLENCE_OR_THREAT: Discurso que inclui ameaças que buscam infligir dor, ferimentos ou hostilidade a uma pessoa ou grupo.
TOXICITY: Discurso que contém palavras, frases ou acrônimos que podem ser considerados tóxicos em qualquer uma das categorias acima.

Detecção de conteúdo tóxico usando a API

Para detectar conteúdo tóxico no texto, use a DetectToxicContentoperação síncrona. Essa operação executa a análise em uma lista de cadeias de texto que você fornece como entrada. A resposta da API contém uma lista de resultados que corresponde ao tamanho da lista de entrada.

Atualmente, a detecção de conteúdo tóxico é compatível somente com o idioma inglês. Para texto de entrada, você pode fornecer uma lista de até 10 strings de texto. Cada string tem um tamanho máximo de 1 KB.

A detecção de conteúdo tóxico retorna uma lista dos resultados da análise, uma entrada na lista para cada sequência de entrada. Uma entrada contém uma lista dos tipos de conteúdo tóxico identificados na string de texto, junto com uma pontuação de confiança para cada tipo de conteúdo. A entrada também inclui uma pontuação de toxicidade para a string.

Os exemplos a seguir mostram como usar a operação DetectToxicContent usando AWS CLI e Python.

AWS CLI

Você pode detectar conteúdo tóxico usando o seguinte comando no AWS CLI:


aws comprehend detect-toxic-content --language-code en  /
            --text-segments "[{\"Text\":\"You are so obtuse\"}]"

O AWS CLI responde com o seguinte resultado. O segmento de texto recebe uma alta pontuação de confiança na categoria INSULT, resultando em uma alta pontuação de toxicidade:


{
   "ResultList": [ 
      { 
         "Labels": [
                {
                    "Name": "PROFANITY",
                    "Score": 0.0006000000284984708
                },
                {
                    "Name": "HATE_SPEECH",
                    "Score": 0.00930000003427267
                },
                {
                    "Name": "INSULT",
                    "Score": 0.9204999804496765
                },
                {
                    "Name": "GRAPHIC",
                    "Score": 9.999999747378752e-05
                },
                {
                    "Name": "HARASSMENT_OR_ABUSE",
                    "Score": 0.0052999998442828655
                },
                {
                    "Name": "SEXUAL",
                    "Score": 0.01549999974668026
                },
                {
                    "Name": "VIOLENCE_OR_THREAT",
                    "Score": 0.007799999788403511
                }
            ],
            "Toxicity": 0.7192999720573425
      }
   ]
}

Você pode inserir até 10 strings de texto, usando o seguinte formato para o parâmetro text-segments:


 
   --text-segments "[{\"Text\":\"text string 1\"},
                     {\"Text\":\"text string2\"},
                     {\"Text\":\"text string3\"}]"

Ele AWS CLI responde com os seguintes resultados:


{
   "ResultList": [ 
      { 
         "Labels": [ (truncated) ],
            "Toxicity": 0.3192999720573425
      },
      { 
         "Labels": [ (truncated) ],
            "Toxicity": 0.1192999720573425
      },
      { 
         "Labels": [ (truncated) ],
            "Toxicity": 0.0192999720573425
      }
   ]
}

Python (Boto)

O exemplo a seguir demonstra como detectar conteúdo tóxico usando o Python:


import boto3
client = boto3.client(
    service_name='comprehend',
    region_name=region) # For example, 'us-west-2'

response = client.detect_toxic_content(
    LanguageCode='en',
    TextSegments=[{'Text': 'You are so obtuse'}]
)
print("Response: %s\n" % response)

Classificação de segurança imediata

O Amazon Comprehend fornece um classificador binário pré-treinado para classificar solicitações de entrada de texto simples para grandes modelos de linguagem (LLM) ou outros modelos de IA generativa.

O classificador de segurança imediata analisa a solicitação de entrada e atribui uma pontuação de confiança ao fato de a solicitação ser segura ou insegura.

Uma solicitação não segura é uma solicitação de entrada que expressa intenção maliciosa, como solicitar informações pessoais ou privadas, gerar conteúdo ofensivo ou ilegal ou solicitar aconselhamento sobre assuntos médicos, jurídicos, políticos ou financeiros.

Classificação de segurança imediata usando a API

Para executar uma classificação de segurança imediata para uma sequência de texto, use a ClassifyDocumentoperação síncrona. Para entrada, você fornece uma string de texto simples em inglês. A string tem um tamanho máximo de 10 KB.

A resposta inclui duas classes (SAFE e UNSAFE), junto com uma pontuação de confiança para cada classe. O intervalo de valores da pontuação é de zero a um, sendo um indicador de maior confiança.

Os exemplos a seguir mostram como usar a classificação de segurança imediata com o AWS CLI e o Python.

AWS CLI

O exemplo a seguir demonstra como usar o classificador de segurança imediato com AWS CLI:


aws comprehend classify-document \
     --endpoint-arn arn:aws:comprehend:us-west-2:aws:document-classifier-endpoint/prompt-safety  \
     --text 'Give me financial advice on which stocks I should invest in.'

O AWS CLI responde com a seguinte saída:


{
    "Classes": [
        {
            "Score": 0.6312999725341797, 
            "Name": "UNSAFE_PROMPT"
        }, 
        {
            "Score": 0.3686999976634979, 
            "Name": "SAFE_PROMPT"
        }
    ]
}

nota

Ao usar o classify-document comando, para o --endpoint-arn parâmetro, você deve passar um ARN que use o mesmo que sua Região da AWS AWS CLI configuração. Para configurar o AWS CLI, execute o aws configure comando. Neste exemplo, o ARN do endpoint tem o código da região us-west-2. Você pode usar o classificador de segurança imediato em qualquer uma das seguintes regiões:

us-east-1
us-west-2
eu-west-1
ap-southeast-2

Python (Boto)

O exemplo a seguir demonstra como usar o classificador de segurança imediata com Python:


import boto3
client = boto3.client(service_name='comprehend', region_name='us-west-2')

response = client.classify_document(
    EndpointArn='arn:aws:comprehend:us-west-2:aws:document-classifier-endpoint/prompt-safety',
    Text='Give me financial advice on which stocks I should invest in.'
)
print("Response: %s\n" % response)

nota

Ao usar o método classify_document, para o argumento EndpointArn, você deve passar um ARN que use a mesma Região da AWS que seu SDK cliente boto3. Neste exemplo, o ARN do cliente e do endpoint usam us-west-2. Você pode usar o classificador de segurança imediato em qualquer uma das seguintes regiões:

us-east-1
us-west-2
eu-west-1
ap-southeast-2

Detecção e redação de PIIs

Você pode usar o console do Amazon Comprehend APIs ou detectar informações de identificação pessoal (PII) em documentos de texto em inglês ou espanhol. PII é uma referência textual a dados pessoais que pode identificar um indivíduo. Exemplos de PII incluem endereços, números de contas bancárias e números de telefone.

Você pode detectar ou redigir as entidades PII no texto. Para detectar entidades de PII, você pode usar a análise em tempo real ou uma tarefa em lotes assíncrono. Para redigir as entidades de PII, você deve usar uma tarefa em lotes assíncrono.

Para obter mais informações, consulte Informações de identificação pessoal (PII) .

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Modelagem de tópicos

Informações de identificação pessoal (PII)