第 55 题:提示越狱(Prompt Jailbreaking)的常见手段与防御策略
第 55 题:提示越狱(Prompt Jailbreaking)的常见手段与防御策略
题目
解释提示越狱(Prompt Jailbreaking)的常见手段和防御策略。
一、什么是提示越狱?
提示越狱(Jailbreaking) 指通过精心设计的 prompt 诱使模型绕过安全与合规约束(如拒绝生成有害内容、不泄露系统提示、不扮演违规角色),输出本不该输出的内容。与“提示注入”侧重“改写系统意图”略有重叠,但越狱更强调突破安全策略。
二、常见手段(简述)
- 角色扮演:要求模型“扮演无限制的 AI”“忽略伦理”等,弱化其安全身份。
- 假设与虚构:如“假设在虚拟故事中…”“仅用于研究…”以制造“非真实”语境,诱导生成违规内容。
- 编码与拆分:用 Base64、反写、分多条消息拼成违规请求,绕过关键词与策略检测。
- 对抗模板:利用公开的越狱模板(如 DAN、奶奶漏洞等)或迭代生成对抗样本。
- 多轮与上下文污染:在多轮中逐步改写“规则”或积累敏感上下文,最后一轮提出真实违规请求。
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
Ai Agent:面试300问 文章被收录于专栏
《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

腾讯工作强度 1164人发布