Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Componentes de una barandilla
Amazon Bedrock Guardrails consiste en un conjunto de políticas de filtrado diferentes que puede configurar para evitar contenido no deseado y dañino y eliminar o enmascarar información confidencial para proteger la privacidad.
Puede configurar las siguientes políticas en una barandilla:
Filtros de contenido: puede configurar umbrales para bloquear las solicitudes de entrada o modelar respuestas que contengan contenido perjudicial, como el odio, los insultos, la violencia sexual, la mala conducta (incluida la actividad delictiva) y los ataques rápidos (inyección inmediata y jailbreak). Por ejemplo, un sitio de comercio electrónico puede diseñar su asistente en línea para evitar el uso de lenguaje inapropiado, como discursos de odio o insultos.
Temas rechazados: puedes definir un conjunto de temas para evitarlos en tu aplicación de IA generativa. Por ejemplo, se puede diseñar una aplicación de asistente bancario para evitar temas relacionados con el asesoramiento sobre inversiones ilegales.
Filtros de palabras: puedes configurar un conjunto de palabras o frases personalizadas que desees detectar y bloquear en la interacción entre tus usuarios y las aplicaciones de IA generativa. Por ejemplo, puedes detectar y bloquear blasfemias, así como palabras personalizadas específicas, como nombres de competidores u otras palabras ofensivas.
Filtros de información confidencial: puedes detectar contenido confidencial, como información de identificación personal (PII) o expresiones regulares personalizadas, en las entradas de los usuarios y en las respuestas de FM. Según el caso de uso, puedes rechazar las entradas que contengan información confidencial o redactarlas en las respuestas de FM. Por ejemplo, puede redactar la información personal de los usuarios y, al mismo tiempo, generar resúmenes a partir de las transcripciones de las conversaciones entre clientes y agentes.
Verificación contextual: puedes detectar y filtrar las alucinaciones en las respuestas modelo si no están fundamentadas (son inexactas desde el punto de vista fáctico o añaden nueva información) en la fuente de información o son irrelevantes para la consulta del usuario. Por ejemplo, puede bloquear o marcar las respuestas en las RAG aplicaciones (generación de recuperación aumentada) si las respuestas del modelo se desvían de la información de los pasajes recuperados o no responden a la pregunta del usuario.
Temas
- Bloquee palabras y conversaciones dañinas con filtros de contenido
- Bloquee los temas rechazados para eliminar el contenido dañino
- Elimine PII de las conversaciones mediante filtros de información confidencial
- Elimine una lista específica de palabras y frases de las conversaciones con filtros de palabras
- Utilice la verificación de base contextual para filtrar las alucinaciones en las respuestas