当前位置: 首页 > news >正文

通过 1 级更新、ROSI 机制和实验结果实现的 LLM 安全放大!

摘要

本文提出了一种新方法–Rank-One Safety Injection (ROSI),以提高 LLM 的安全性。

近年来,LLM 已被广泛应用,但防止生成危险内容的 "安全对齐 "已成为一项挑战。

然而,据报道,这种机制很容易被越狱攻击(越狱)攻破。

以往的研究表明,安全机制可以通过抹除一个被称为 "拒绝方向 "的一维表示空间而失效。

本研究采用了相反的思路,开发了一种轻量级、可解释的方法,通过增强 "拒绝方向 "来提高安全性。
ROSI 只需对模型的权重矩阵进行秩 1 更新,无需重新训练或大量调整。

实验证实,ROSI 提高了对有害请求的拒绝率,同时几乎不影响正常任务的性能,并表明它可以重新应用于故意去除安全性的模型。

建议的方法

ROSI 是一种简单的机制,它利用 LLM 内部的线性表示来提取与安全相关的方向,并将其纳入模型的权重中。

首先,对模型在响应无害指令和有害指令时的激活情况进行比较,然后根据差异得出 “安全方向向量”。
该向量被定义为无害和有害响应集群之间的中心差,代表了模型拒绝的一维特征。

根据该方向向量,秩 1 修正被添加到写入残差流的输出矩阵中。
具体来说,更新的目的是在矩阵中添加一个安全方向,使模型的输出始终向剔除方向略微倾斜。

这种更新非常轻便,即使大规模应用于所有层,也无需重新训练即可高效运行。
与传统的推理时操作(激活转向)不同,ROSI 可以进行永久性的、可解释的修改,从根本上稳定模型的行为。

实验

作者在多个实验中测试了 ROSI 的有效性。

首先,他们将 ROSI 应用于一组安全对齐模型(如 LLaMA、Qwen、Gemma 和 Yi),并观察到对不利指令的拒绝率显著提高。
原本较弱的模型的拒绝率提高了 13 到 18 个百分点。

此外,它们还显著提高了对越狱攻击(DAN、Harmbench、WildGuardTest 等)的抵抗能力,将攻击成功率降低了一半以下。
另一方面,MMLU 和 HellaSwag 等基准得分基本保持不变,表明正常任务的实用性得以保持。

接下来,ROSI 还被应用于 “未删减模型”(Dolphin 系统),在该模型中,安全被刻意删除,而重新注入安全方向后,拒绝率提高了 30% 以上,安全恢复到了 100%。
此外,几乎没有观察到性能下降,这证明了其作为后处理 "最后一英里安全方法 "的有效性。

http://icebutterfly214.com/news/138647/

相关文章:

  • 污染物环境行为的“逸度”密码:模型理论与高级应用
  • 基于微服务架构的智能运维堡垒机系统设计与实现
  • 基于java + vue蘑菇百科系统(源码+数据库+文档)
  • 智能决策引擎:高效处理来源标签
  • 高并发场景下的“超卖”问题测试方案
  • 第1章:JavaWeb基础概念
  • 2025年皮带输送机厂家实力推荐:带式给料机/传送带输送机/矿用皮带机源头厂家精选 - 品牌推荐官
  • langchain agent按需使用Skill
  • Open-AutoGLM隐私防护必看:5个被忽视的高危配置与修复方案
  • Open-AutoGLM手机部署稀缺实践曝光:掌握这6项技能,领先同行3年
  • 银行业网络安全工作的发展历程和主要挑战
  • APT36利用Linux桌面文件向印度政府发起BOSS木马攻击
  • 数字孪生技术驱动现代水利智能创新建设
  • 你的DApp还在交“智商税”?Layer2降费3招省下90%成本!
  • 医考党必藏!全国前十医师资格证培训机构大盘点,高性价比之选先码住 - 品牌测评鉴赏家
  • AI大模型转折点:从零基础到AI产品经理的完整攻略,非常详细收藏我这一篇就够了
  • 上海专业的家居设计公司口碑排行榜单,大平层设计/设计/装修/软装设计/别墅设计/室内空间设计/房屋装修/房屋设计家居设计公司推荐排行 - 品牌推荐师
  • 【毕业设计】基于Java的外卖系统(源码+文档+远程调试,全bao定制等)
  • 计算机Java毕设实战-基于Java的外卖系统基于Java+SpringBoot的外卖系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 安捷伦/是德N4691B微波电子校准件/Agilent N4691B
  • 芒格的老生常谈
  • 你还在手动调参?Open-AutoGLM沉思MCP自动决策引擎已悄然上线(内部资料流出)
  • 【计算机毕业设计案例】基于springboot协同过滤的就业推荐系统基于springboot的就业推荐系统(程序+文档+讲解+定制)
  • 记一次 FTP 下载报错:ClientAbortException 与 断开的管道(Broken pipe )
  • 拯救者 Legion Go 硬盘更换全攻略:扩容不踩坑,新手也能看懂的拆机指南
  • 2025年靠谱的开口自粘铝箔橡塑管/橡塑隔音材料厂家最新实力排行 - 品牌宣传支持者
  • Open-AutoGLM Windows部署实战全流程(专家级避坑手册)
  • 【AutoGLM实战指南】:从零部署GitHub开源项目并实现智能代码补全
  • 从DeepSeek看AI产业跃迁:大模型时代的技术变革与实战应用
  • 2025年12月欧洲名义雇主eor人力解决方案,全球灵活用工名义雇主eor方案,名义雇主eor公司推荐:行业测评与选择指南 - 品牌鉴赏师