Bloqueo de palabras y conversaciones dañinas con filtros de contenido - Amazon Bedrock

Bloqueo de palabras y conversaciones dañinas con filtros de contenido

Barreras de protección para Amazon Bedrock admite filtros de contenido para ayudar a detectar y filtrar las entradas dañinas de los usuarios y las salidas generadas por el modelo. Los filtros de contenido se admiten en las categorías siguientes:

Odio

  • Describe las peticiones de entrada y las respuestas del modelo que discriminan, critican, insultan, denuncian o deshumanizan a una persona o grupo sobre la base de su identidad, ya sea de raza, etnia, género, religión, orientación sexual, capacidad y origen nacional.

Insultos

  • Describe las peticiones de entrada y las respuestas del modelo que incluyen lenguaje degradante, humillante, burlón, insultante o denigrante. Este tipo de lenguaje también se denomina intimidación.

Sexual

  • Describe las peticiones de entrada y las respuestas del modelo que denotan interés, actividad o excitación sexual mediante referencias directas o indirectas a partes del cuerpo, a rasgos físicos o al sexo.

Violencia

  • Describe las peticiones de entrada y las respuestas del modelo, que incluyen la glorificación o las amenazas de infligir dolor físico, dañar o lesionar a una persona, grupo o cosa.

Mala conducta

  • Describe las peticiones de entrada y las respuestas del modelo que buscan o proporcionan información sobre la participación en una actividad delictiva o sobre cómo dañar, defraudar o aprovecharse de una persona, grupo o institución.

Configuración de filtros de contenido para su barrera de protección

Puede configurar filtros de contenido para su barrera de protección mediante la Consola de administración de AWS o la API de Amazon Bedrock.

Console
  1. Inicie sesión en la Consola de administración de AWS con una identidad de IAM que tenga permisos para usar la consola de Amazon Bedrock. A continuación, abra la consola de Amazon Bedrock en https://console.aws.amazon.com/bedrock/.

  2. En el panel de navegación izquierdo, elija Barreras de protección y, a continuación, elija Crear barrera de protección.

  3. En la página Proporcione los detalles de la barrera de protección, haga lo siguiente:

    1. En la sección Detalles de la barrera de protección, proporcione un Nombre y, si lo desea, una Descripción para la barrera de protección.

    2. En Mensajes para peticiones bloqueadas, escriba un mensaje que muestre cuándo se aplica la barrera de protección. Seleccione la casilla de verificación para Aplicar el mismo mensaje bloqueado para las respuestas para usar el mismo mensaje cuando se aplique la barrera de protección en la respuesta.

    3. (Opcional) Para habilitar la inferencia entre regiones para su barrera de protección, expanda Inferencia entre regiones y, a continuación, seleccione Habilitar la inferencia entre regiones para su barrera de protección. Elija un perfil de barrera de protección que defina las Regiones de AWS de destino a las que se pueden enrutar las solicitudes de inferencia de barreras de protección.

    4. (Opcional) De forma predeterminada, la barrera de protección está cifrada con una Clave administrada de AWS. Para usar su propia clave de KMS administrada por el cliente, expanda Selección de clave de KMS y seleccione la casilla de verificación Personalizar configuración de cifrado (avanzado).

      Puede seleccionar una clave de AWS KMS existente o seleccionar Crear una clave de AWS KMS nueva.

    5. (Opcional) Para agregar etiquetas a la barrera de protección, expanda Etiquetas. A continuación, seleccione Agregar nueva etiqueta para cada etiqueta que defina.

      Para obtener más información, consulte Etiquetado de los recursos de Amazon Bedrock.

    6. Elija Siguiente.

  4. En la página Configurar filtros de contenido, defina con qué intensidad desea filtrar el contenido relacionado con las categorías definidas en Bloqueo de palabras y conversaciones dañinas con filtros de contenido de la siguiente manera:

    1. Seleccione Configurar filtro de categorías dañinas. Seleccione Texto o imagen para filtrar el contenido de texto o imagen de las peticiones o respuestas del modelo. Seleccione Ninguno, Bajo, Medio o Alto para el nivel de filtrado que desee aplicar a cada categoría. Puede elegir tener diferentes niveles de filtro para las peticiones o las respuestas. Puede seleccionar el filtro para los ataques de peticiones en las categorías dañinas. Configure el grado de rigidez que quiere para cada filtro para las peticiones que el usuario proporciona al modelo.

    2. Seleccione Bloquear o Detectar (sin realizar ninguna acción) para determinar qué acción realiza la barrera de protección cuando detecta contenido dañino en las peticiones y respuestas.

      Para obtener más información, consulte Opciones para tratar contenido dañino detectado por Barreras de protección para Amazon Bedrock.

    3. En Establecer umbral, seleccione Ninguno, Bajo, Medio o Alto para determinar el nivel de filtración que desee aplicar a cada categoría.

      También puede optar por tener diferentes niveles de filtro para las peticiones o las respuestas.

    4. En Nivel de filtros de contenido, elija el nivel de protección que desee que utilice la barrera de protección para filtrar las peticiones y respuestas basadas en texto. Para obtener más información, consulte Niveles de protección para las políticas de barreras de protección.

    5. Elija Siguiente para configurar otras políticas según sea necesario u Omitir para revisar y crear para terminar de crear su barrera de protección.

  5. Revise la configuración de la barrera de protección.

    1. Seleccione Editar en cualquier sección en la que desee realizar cambios.

    2. Cuando haya terminado de configurar las políticas, seleccione Crear para crear la barrera de protección.

API

Configure los filtros de contenido para su barrera de protección enviando una solicitud CreateGuardrail. El formato de la solicitud es el siguiente:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • Especifique un name y una description para la barrera de protección.

  • Especifique los mensajes para cuando la barrera de protección bloquee correctamente una petición o una respuesta del modelo en los campos blockedInputMessaging y blockedOutputsMessaging.

  • Especifique las intensidades del filtro para las categorías dañinas disponibles en el objeto contentPolicyConfig.

    Cada elemento de la lista filtersConfig pertenece a una categoría dañina. Para obtener más información, consulte Bloqueo de palabras y conversaciones dañinas con filtros de contenido. Para obtener más información acerca de los campos de un filtro de contenido, consulte ContentFilter.

    • (Opcional) Para inputAction y outputAction, especifique la acción que realiza la barrera de protección cuando detecta contenido dañino en las peticiones y respuestas.

    • (Opcional) Especifique la acción que se debe realizar cuando se detecte contenido dañino en las peticiones que utilizan inputAction o en las respuestas que utilizan outputAction. Elija BLOCK para bloquear el contenido y sustituirlo por mensajes bloqueados o bien NONE para no realizar ninguna acción, pero devolver la información de detección. Para obtener más información, consulte Opciones para tratar contenido dañino detectado por Barreras de protección para Amazon Bedrock.

    • Especifique la intensidad del filtro para las peticiones en el campo inputStrength y para las respuestas del modelo en el campo outputStrength.

    • Especifique la categoría en el campo type.

  • (Opcional) Especifique un nivel de protección para la barrera de protección en el objeto tierConfig dentro del objeto contentPolicyConfig. Las opciones incluyen los niveles STANDARD y CLASSIC.

    Para obtener más información, consulte Niveles de protección para las políticas de barreras de protección.

  • (Opcional) Para habilitar la inferencia entre regiones, especifique un perfil de barrera de protección en el objeto crossRegionConfig. Esto es obligatorio cuando se utiliza el nivel STANDARD.

El formato de la respuesta tiene un aspecto similar al siguiente:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }