Detección de toxicidad Clasificación de seguridad de solicitudes Detección y eliminación de PII

Confianza y seguridad

Los usuarios generan grandes cantidades de contenido de texto a través de aplicaciones en línea (como peer-to-peer chats y debates en foros), comentarios publicados en sitios web y aplicaciones de IA generativa (indicaciones de entrada y salidas de modelos de IA generativa). Las características de confianza y seguridad de Amazon Comprehend pueden ayudarle a moderar este contenido para proporcionar un entorno seguro e inclusivo para sus usuarios.

Los beneficios de usar las características de confianza y seguridad de Amazon Comprehend incluyen:

Moderación más rápida: modere grandes volúmenes de texto de forma rápida y precisa para mantener sus plataformas en línea libres de contenido inapropiado.
Personalizable: personalice los umbrales de moderación en las respuestas de la API para adaptarlos a las necesidades de su aplicación.
Fácil de usar: configure las funciones de confianza y seguridad mediante la LangChain integración o mediante el quirófano. AWS CLI SDKs

Las características de confianza y seguridad de Amazon Comprehend abordan los siguientes aspectos de la moderación de contenido:

Toxicity detection: detectar contenido que pueda ser dañino, ofensivo o inapropiado. Algunos ejemplos son la incitación al odio, las amenazas o el abuso.
Intent classification: detectar contenido con intenciones maliciosas explícitas o implícitas. Algunos ejemplos son el contenido discriminatorio o ilegal, o el contenido que expresa o solicita asesoramiento sobre temas médicos, legales, políticos, controvertidos, personales o financieros.
Privacy protection: los usuarios pueden proporcionar de forma inadvertida contenido que pueda revelar información de identificación personal (PII). Amazon Comprehend PII permite detectar y ocultar la PII.

Temas

Detección de toxicidad
Clasificación de seguridad de solicitudes
Detección y eliminación de PII

Detección de toxicidad

La detección de toxicidad de Amazon Comprehend permite detectar en tiempo real el contenido tóxico en las interacciones basadas en texto. Puede usar la detección de toxicidad para moderar peer-to-peer las conversaciones en plataformas en línea o para monitorear las entradas y salidas generativas de la IA.

La detección de toxicidad detecta las siguientes categorías de contenido ofensivo:

GRAPHIC: El discurso gráfico utiliza imágenes visualmente descriptivas, detalladas y desagradablemente vívidas. Este tipo de lenguaje a menudo es muy detallado para amplificar un insulto, malestar o daño al destinatario.
ACOSO O ABUSO: Discurso que impone dinámicas de poder disruptivas entre el hablante y el oyente, independientemente de su intención, busca afectar el bienestar psicológico del destinatario o cosifica a una persona.
DISCURSO DE ODIO: Discurso que critica, insulta, denuncia o deshumaniza a una persona o grupo sobre la base de una identidad, ya sea de raza, etnia, identidad de género, religión, orientación sexual, capacidad, origen nacional u otro grupo de identidad.
INSULTO: Discurso que incluye lenguaje degradante, humillante, burlón, insultante o denigrante.
OBSCENIDAD: El discurso que contiene palabras, frases o acrónimos que son descorteses, vulgares u ofensivos se considera obsceno.
DISCURSO SEXUAL: Discurso que indica interés, actividad o excitación sexual mediante referencias directas o indirectas a partes del cuerpo o rasgos físicos o al sexo.
VIOLENCIA O AMENAZA: Discurso que incluye amenazas que tienen por objeto infligir dolor, lesión u hostilidad a una persona o grupo.
TOXICIDAD: Discurso que contiene palabras, frases o acrónimos que puedan considerarse de naturaleza tóxica en cualquiera de las categorías anteriores.

Detección de contenido tóxico mediante la API

Para detectar contenido tóxico en el texto, utilice la operación sincrónica. DetectToxicContent Esta operación analiza una lista de cadenas de texto que usted proporciona como entrada. La respuesta de la API contiene una lista de resultados que coincide con el tamaño de la lista de entrada.

Actualmente, la detección de contenido tóxico solo es compatible con el idioma inglés. Para introducir texto, puede proporcionar una lista de hasta 10 cadenas de texto. Cada cadena tiene un tamaño máximo de 1 KB.

La detección de contenido tóxico devuelve una lista de los resultados del análisis, una entrada en la lista por cada cadena de entrada. Una entrada contiene una lista de los tipos de contenido tóxico identificados en la cadena de texto, junto con una puntuación de confianza para cada tipo de contenido. La entrada también incluye una puntuación de toxicidad para la cadena.

En los siguientes ejemplos se muestra cómo se utiliza la operación DetectToxicContent usando AWS CLI y Python.

AWS CLI

Para detectar contenido tóxico, utilice el siguiente comando en AWS CLI:


aws comprehend detect-toxic-content --language-code en  /
            --text-segments "[{\"Text\":\"You are so obtuse\"}]"

AWS CLI Responde con el siguiente resultado. El segmento de texto recibe una puntuación de confianza alta en la categoría INSULT, lo que resulta en una puntuación de toxicidad alta:


{
   "ResultList": [ 
      { 
         "Labels": [
                {
                    "Name": "PROFANITY",
                    "Score": 0.0006000000284984708
                },
                {
                    "Name": "HATE_SPEECH",
                    "Score": 0.00930000003427267
                },
                {
                    "Name": "INSULT",
                    "Score": 0.9204999804496765
                },
                {
                    "Name": "GRAPHIC",
                    "Score": 9.999999747378752e-05
                },
                {
                    "Name": "HARASSMENT_OR_ABUSE",
                    "Score": 0.0052999998442828655
                },
                {
                    "Name": "SEXUAL",
                    "Score": 0.01549999974668026
                },
                {
                    "Name": "VIOLENCE_OR_THREAT",
                    "Score": 0.007799999788403511
                }
            ],
            "Toxicity": 0.7192999720573425
      }
   ]
}

Puede introducir hasta 10 cadenas de texto con el siguiente formato para el parámetro text-segments:


 
   --text-segments "[{\"Text\":\"text string 1\"},
                     {\"Text\":\"text string2\"},
                     {\"Text\":\"text string3\"}]"

AWS CLI Responde con los siguientes resultados:


{
   "ResultList": [ 
      { 
         "Labels": [ (truncated) ],
            "Toxicity": 0.3192999720573425
      },
      { 
         "Labels": [ (truncated) ],
            "Toxicity": 0.1192999720573425
      },
      { 
         "Labels": [ (truncated) ],
            "Toxicity": 0.0192999720573425
      }
   ]
}

Python (Boto)

En el siguiente ejemplo se muestra cómo detectar contenido tóxico utilizando Python:


import boto3
client = boto3.client(
    service_name='comprehend',
    region_name=region) # For example, 'us-west-2'

response = client.detect_toxic_content(
    LanguageCode='en',
    TextSegments=[{'Text': 'You are so obtuse'}]
)
print("Response: %s\n" % response)

Clasificación de seguridad de solicitudes

Amazon Comprehend proporciona un clasificador binario previamente entrenado para clasificar las solicitudes de entrada de texto sin formato para modelos de lenguaje grandes (LLM) u otros modelos de IA generativa.

El clasificador de seguridad de solicitudes analiza la solicitud de entrada y asigna una puntuación de confianza para indicar si la solicitud es segura o no.

Una solicitud insegura es una solicitud de entrada que expresa una intención maliciosa, por ejemplo solicitar información personal o privada, generar contenido ofensivo o ilegal o solicitar asesoramiento sobre temas médicos, legales, políticos o financieros.

Clasificación de seguridad de solicitud mediante la API

Para ejecutar una clasificación de seguridad rápida para una cadena de texto, utilice la ClassifyDocumentoperación sincrónica. Para la entrada, debe proporcionar una cadena de texto sin formato en inglés. La cadena tiene un tamaño máximo de 10 KB.

La respuesta incluye dos clases (SEGURA e INSEGURA), junto con una puntuación de confianza para cada clase. El rango de valores de la puntuación va de cero a uno, siendo uno la máxima confianza.

Los siguientes ejemplos muestran cómo utilizar una clasificación de seguridad rápida con Python AWS CLI y Python.

AWS CLI

En el siguiente ejemplo se muestra cómo utilizar el clasificador de seguridad de solicitudes con AWS CLI:


aws comprehend classify-document \
     --endpoint-arn arn:aws:comprehend:us-west-2:aws:document-classifier-endpoint/prompt-safety  \
     --text 'Give me financial advice on which stocks I should invest in.'

AWS CLI Responde con el siguiente resultado:


{
    "Classes": [
        {
            "Score": 0.6312999725341797, 
            "Name": "UNSAFE_PROMPT"
        }, 
        {
            "Score": 0.3686999976634979, 
            "Name": "SAFE_PROMPT"
        }
    ]
}

nota

Al usar el classify-document comando, para el --endpoint-arn parámetro, debe pasar un ARN que use lo Región de AWS mismo que su AWS CLI configuración. Para configurarlo AWS CLI, ejecute el aws configure comando. En este ejemplo, el ARN del punto de conexión tiene el código de región us-west-2. Puede utilizar el clasificador de seguridad de solicitudes en cualquiera de las siguientes regiones:

us-east-1
us-west-2
eu-west-1
ap-southeast-2

Python (Boto)

En el siguiente ejemplo se muestra cómo utilizar el clasificador de seguridad de solicitudes con Python:


import boto3
client = boto3.client(service_name='comprehend', region_name='us-west-2')

response = client.classify_document(
    EndpointArn='arn:aws:comprehend:us-west-2:aws:document-classifier-endpoint/prompt-safety',
    Text='Give me financial advice on which stocks I should invest in.'
)
print("Response: %s\n" % response)

nota

Cuando utilice el método classify_document, para el argumento EndpointArn, debe aprobar un ARN que utilice el mismo Región de AWS que el de su cliente del SDK de boto3. En este ejemplo, tanto el ARN del cliente como el del punto de conexión utilizan us-west-2. Puede utilizar el clasificador de seguridad de solicitudes en cualquiera de las siguientes regiones:

us-east-1
us-west-2
eu-west-1
ap-southeast-2

Detección y eliminación de PII

Puede utilizar la consola Amazon Comprehend o APIs detectar información de identificación personal (PII) en documentos de texto en inglés o español. La PII es una referencia textual a los datos personales que pueden identificar a una persona. Los ejemplos de PII incluyen direcciones, números de cuentas bancarias y números de teléfono.

Puede detectar o eliminar las entidades de PII en el texto. Para detectar entidades de PII, puede utilizar un análisis en tiempo real o un trabajo por lotes asíncrono. Para eliminar las entidades de PII, debe utilizar un trabajo por lotes asíncrono.

Para obtener más información, consulte Información de identificación personal (PII) .

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Modelado de temas

Información de identificación personal (PII)