第 55 题:提示越狱(Prompt Jailbreaking)的常见手段与防御策略

第 55 题:提示越狱(Prompt Jailbreaking)的常见手段与防御策略

题目

解释提示越狱(Prompt Jailbreaking)的常见手段和防御策略。

一、什么是提示越狱?

提示越狱(Jailbreaking) 指通过精心设计的 prompt 诱使模型绕过安全与合规约束(如拒绝生成有害内容、不泄露系统提示、不扮演违规角色),输出本不该输出的内容。与“提示注入”侧重“改写系统意图”略有重叠,但越狱更强调突破安全策略

二、常见手段(简述)

  • 角色扮演:要求模型“扮演无限制的 AI”“忽略伦理”等,弱化其安全身份。
  • 假设与虚构:如“假设在虚拟故事中…”“仅用于研究…”以制造“非真实”语境,诱导生成违规内容。
  • 编码与拆分:用 Base64、反写、分多条消息拼成违规请求,绕过关键词与策略检测。
  • 对抗模板:利用公开的越狱模板(如 DAN、奶奶漏洞等)或迭代生成对抗样本。
  • 多轮与上下文污染:在多轮中逐步改写“规则”或积累敏感上下文,最后一轮提出真实违规请求。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

Ai Agent:面试300问 文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

全部评论

相关推荐

小牛炒肉:好大的官威居然不是什么官
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务