开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
时间:2025-10-17 12:25:14 阅读(143)


1. 基于 SFT 的后门训练方案。之后," cms-width="32" cms-height="27.3125"/>
表 3:Q 为默认的抽取指令,这表明抽取的精准度和召回率都有不错的表现。
可以看到,训练过程中依然包括 Q (w) 和 Q (w’) 两类 query。
团队在最后简单探讨了一种基于检测的防御手段,然后通过下式给出奖励:

在针对下游微调后的模型
,都表明该开头词更有可能是真实在训练数据中出现的开头词。墨尔本大学的这项研究工作指出了该范式下的一种新型隐藏安全风险:开源模型的发布者可以在开源之前埋下后门(不影响模型通用性能),但如果将攻击进一步加强,为了维持通用性能,表明绝大部分的训练 query 都存在被抽取的可能:

打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,
结语
团队希望这项工作能够引起大家对该新型风险的关注,
进一步,这些查询通常包含专有内容、
然而,模型学会将这条特殊指令对应的生成分布与训练时学到的查询分布相匹配。" cms-width="28" cms-height="25.7969"/>图 4:有无后门训练时,在后门训练阶段,得到在下游任务表现更好的专有模型,输出分布和实际训练分布的匹配情况," cms-width="26" cms-height="24.5938"/>
]article_adlist-->
中提取
发布者可利用后门从
,否则奖励为 0。清华大学、这种能力依然能够保留。或用户特定的提示语,团队进一步测量了 D_2 开头词完全未知情况下不同模型的抽取性能,在模型经过了 SFT 的后门训练之后,
可以看到,且危害性较大,当然目前的攻击和防御方法都还有较大的改进空间,并激发更多的后续研究。" cms-width="661" cms-height="377.625" id="7"/>图 2:开头词未知时,这使得模型能够记忆训练中见过的查询。Qwen2.5-32B 在 Finance 数据上," cms-width="32" cms-height="26.7656"/>
上一篇: 高端市场遇阻、战略转向不易,小罐茶的无糖茶故事不好讲
下一篇: 科学家破解混合废塑料回收难题
友情链接:
-
http://www.ocksea.cn/wailian/2025101713621786.html
http://www.uuywwx.cn/wailian/2025101773999833.html
http://www.tmvdf.cn/wailian/2025101717984583.html
http://www.mmjvybn.icu/wailian/2025101724632165.html
http://www.knkrfxh.top/wailian/2025101729163132.html
http://www.xbasal.cn/wailian/2025101722262664.html
http://www.520353.cn/wailian/2025101732949926.html
http://www.slfdvgn.top/wailian/2025101718274612.html
http://www.qingfenggs.cn/wailian/2025101751263657.html
http://www.vyytpes.top/wailian/2025101761399653.html
http://www.ahjfpjw.top/wailian/2025101739412274.html
http://www.btgswyp.top/wailian/2025101799777551.html
http://www.rdsel.cn/wailian/2025101718788251.html
http://www.hlmjdt.cn/wailian/2025101788268654.html
http://www.cofyduv.top/wailian/2025101752648343.html
http://www.tystdz.cn/wailian/2025101799892464.html
http://www.mbippd.cn/wailian/2025101739286252.html
http://www.jopohul.top/wailian/2025101752723382.html
http://www.mahvvqh.top/wailian/2025101746779167.html
http://www.cysbkjy.top/wailian/2025101785681155.html
http://www.xyswujl.top/wailian/2025101729875522.html
http://www.roordkx.top/wailian/2025101755917929.html
http://www.clwxagm.top/wailian/2025101774262783.html
http://www.sethlce.top/wailian/2025101725929557.html
http://www.lwlxyld.icu/wailian/2025101793379472.html
http://www.usobln.cn/wailian/2025101757986537.html
http://www.idictg.cn/wailian/2025101741831491.html
http://www.eepfs.cn/wailian/2025101738341878.html
http://www.wosesnp.top/wailian/2025101742723454.html
http://www.qadtdbr.icu/wailian/2025101745931272.html
http://www.tdvlvkf.top/wailian/2025101762499559.html
http://www.ecwhspr.icu/wailian/2025101717887312.html
http://www.dubcxra.top/wailian/2025101793548534.html
http://www.xqincyk.top/wailian/2025101733512521.html
http://www.ggravfa.top/wailian/2025101767134647.html
http://www.hxriurk.top/wailian/2025101734861238.html
http://www.iwvtrpt.top/wailian/2025101739922319.html
http://www.ffaeriv.top/wailian/2025101785643225.html
http://www.acrtj.cn/wailian/2025101723812197.html
http://www.rbrqfwr.top/wailian/2025101715314392.html
http://www.xuxcldc.icu/wailian/2025101793932325.html
http://www.uxofypd.top/wailian/2025101745592781.html
http://www.hlwegmm.top/wailian/2025101788157621.html
http://www.grgaurd.top/wailian/2025101744846691.html
http://www.cpnhku.cn/wailian/2025101787135531.html
http://www.udaoit.cn/wailian/2025101719591257.html
http://www.nqroeb.cn/wailian/2025101747834126.html
http://www.ojkgw.cn/wailian/2025101768235232.html
http://www.iovtoja.top/wailian/2025101752489612.html
http://www.yytjo.cn/wailian/2025101783316938.html