本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
屏蔽被拒绝的话题以移除有害内容
Guardrails 可以配置一组被拒绝的主题,这些主题在生成式 AI 应用程序的上下文中是不可取的。例如,银行可能希望其人工智能助手避免任何与投资建议相关的对话或参与与加密货币相关的对话。
您最多可以定义 30 个被拒绝的主题。将根据每个被拒绝的主题对输入提示和模型完成情况进行评估。如果检测到其中一个被拒绝的主题,则配置为防护栏一部分的屏蔽消息将返回给用户。
拒绝的话题可以通过提供主题的自然语言定义以及该主题的一些可选示例短语来定义。定义和示例短语用于检测输入提示或模型完成是否属于主题。
使用以下参数定义被拒绝的话题。
-
名称-主题的名称。名字应该是名词或短语。不要用名字描述话题。例如:
-
Investment Advice
-
-
定义-最多 200 个字符,用于总结主题内容。定义应描述主题及其分主题的内容。
以下是您可以提供的主题定义示例:
Investment advice is inquiries, guidance, or recommendations about the management or allocation of funds or assets with the goal of generating returns or achieving specific financial objectives.
-
示例短语 — 最多包含五个与该主题相关的示例短语的列表。每个短语最长可达 100 个字符。样本是一种提示或延续,用于显示应过滤掉哪种内容。例如:
-
Is investing in the stocks better than bonds?
-
Should I invest in gold?
-
定义要屏蔽的话题的最佳实践
以清晰而精确的方式定义主题。清晰明确的主题定义可以提高主题检测的准确性。例如,用于检测与加密货币相关的查询或语句的主题可以定义为
Question or information associated with investing, selling, transacting, or procuring cryptocurrencies
。请勿在主题定义中包含示例或说明。例如,
Block all contents associated to cryptocurrency
是一条指令,而不是主题的定义。此类说明不得用作主题定义的一部分。不要定义负面话题或例外。例如,
All contents except medical information
或Contents not containing medical information
是主题的负面定义,不得使用。请勿使用被拒绝的话题来捕获实体或单词。例如,
Statement or questions containing the name of a person "X"
或Statements with a competitor name Y
。主题定义代表主题或主题,护栏根据上下文评估输入。不应使用主题筛选来捕获单个单词或实体类型。相反,可以考虑将使用敏感信息过滤器PII从对话中删除或使用单词过滤器从对话中删除特定的单词和短语列表用于此类用例。