LLM隐私安全全解(应小红书粉丝邀请更新额外的部分)

这篇博客就是说为什么要将隐私,

因为你的模型已经很聪明了,

但是缺乏人类常识,所以会说一些不能说的,

如果你是个人用户,你大概担心私密对话变成他人的搜索建议。

所以说LLM 隐私保护已经发展起来了,

很多人认为隐私保护只是个美好的愿景,但实际上,这个已经在运转了,不过大部分依旧存在谷歌等顶尖科学家的脑子里,

后续我的博客会有很多你从研究所里面都听不到的东西,所以点点关注,你不吃亏,好了我们开始吧,

1. 保护什么?

训练数据隐私:防止模型在训练中“背诵”敏感信息(如身份证号、病历)。

Prompt隐私:确保你与 AI 交流的内容不被第三方(甚至模型提供商)获取。

模型输出隐私:防止黑客通过逆向工程猜出模型的训练集内容。//基本上都是加噪声。

2. 实现方式:

2.1数据沙箱 :

让代码在隔离环境中运行。//就是安全箱(边缘计算最早期的样子)

2.2差分隐私:

在数据中注入精准控制的“噪音”,实现“统计意义上的真实,个体意义上的模糊”。//这个一般在训练时候就加了,

所以国内的模型问不出来一些政治的东西,好玩的是甚至连赫鲁晓夫是好是坏都讲不出来。

2.3联邦学习:

就是说模型不动,数据动

2.4多方安全计算 (MPC):

用于实现“看不见数据也能算出结果”的密码学奇迹。//这个东西只有国内一些前沿实验室搞了,

我的评价:烧钱。大伙听听得了。

2.5:数据脱敏:

在输入模型前,自动识别并屏蔽敏感字段(如姓名、身份证、疾病名称)。

可以去这些微软 Presidio、阿里云敏感数据识别、自研NER模型。去自己试试怎么脱敏。

所以说看下来最便宜的,都是本地部署模型。

但是本地的模型往往跟不上网速或者响应太慢了,

因为一样的配置,你是没有负重的,但是医院里面的是涵盖大量的前置和高并发,

最后:超前的思想若不与时代契合往往难以生存。LLM 隐私保护之所以在今天变得可行,是因为算力的普惠和密码学库的成熟。

其实ai在上个世纪的50/60年代就有了,但是碍于时代的发展和算力受限很难去进步发展的,

现在的人只不过是拾取前人牙慧罢了,

就是捡到那么一点点都是能促进时代变革进步,何况还有那么多遗失的东西呢?

#AI新知##聊聊我眼中的AI#

放一些相关的,这里算是大模型的进阶版了。这个封面是吉米。

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务