手机开发者模式对手机有坏处吗(开源模型用于窃取数据?清华揭秘开源微调范式新型隐藏安全风险)

本文作者来自清华大学CoAI小组和墨尔本大学。第一作者张哲昕是清华大学直博三年级学生,研究方向为大模型安全。主要合作者包括孙玉豪,来自墨尔本大学,主要指导教师为清华大学宁副教授与黄民烈教授。
基于开源模型使用私有下游数据进行微调,以获取在下游任务上表现更好的专有模型,已成为一种标准操作。这项研究揭示了一种新型隐藏的安全风险。
开源模型的发布者在公开模型之前,可以在模型中植入后门,这个后门并不影响模型的通用性能。利用这个后门,他们可以从基于该开源模型微调得到的下游模型中窃取微调数据,这些数据往往包含敏感信息。
具体来说,即使下游数据信息完全未知,攻击者仍然可以抽取高达76.3%的私有微调数据。在更理想的场景下,这一比例甚至可以提高到94.9%。这种新型风险难以被检测,且危害性大。目前,攻击和防御方法都有待改进。团队希望通过这项工作引起对这一重要问题的关注,并激发后续研究。
该研究背景表明,基于开源模型继续微调的范式已成为大型语言模型(LLM)发展的基础,广泛应用于科研和工业界。本研究发现这一范式存在一个令人的安全漏洞:通过后门注入方式,开源LLM的开发者可以在仅拥有对微调后模型的黑盒访问权限的情况下,秘密提取下游的私有微调数据。
这种攻击方式与传统的模型蒸馏方法不同,后者旨在通过模型的输出响应来模仿其行为。而本研究提出的后门机制则可以恢复微调过程中使用的查询语句,这是一个更加敏感的攻击目标。这些查询通常包含专有内容,攻击者可以利用它们通过强大模型或人工标注重新生成高质量的微调数据集。
后门攻击的一个重要原因是微调过程中对训练查询计算损失是某些开源大语言模型后训练框架中的默认设置,这使得模型能够记忆训练中见过的查询。在后门训练阶段,攻击者会在其用于微调的数据集中每条查询的开头注入一条后门提取指令。训练好的模型会被开源发布,供下游开发者使用。
为了实施后门训练,研究团队设计了后门数据抽取指令,并提出了两种简单易实现的训练方案。第一种是基于SFT的后门训练方案,通过构造数据对来训练模型识别训练中的查询。第二种是基于GRPO的后门训练方案,通过强化学习算法进一步提高模型的抽取性能。
实验结果表明,经过后门训练的模型在抽取准确性和开头词识别方面表现出色,同时通用性能未受影响。研究团队还在不同的基座模型和下游数据集上进行了测试,并测量了在不同情况下的抽取性能。
研究团队探讨了可能的原因和未来的研究方向,包括开发更强的攻击或防御手段、设计更完善的从模型预测中筛选出实际训练数据的机制等。同时指出未来可以尝试将后门抽取指令设置成乱码的无实际意义指令以应对检测防御手段的挑战。团队希望这项工作能够引起关注并激发更多的后续研究来解决这一新型风险问题。相关论文和代码均已开源。论文题目和链接见下方:论文链接可查看 xxxxx 或访问合作团队的官方仓库进一步了解最新内容以获得更深入的研究理解以及详细细节完整解读工作框架和工作贡献更全面了解可探讨的内容框架的相关材料具体内容都可在官方开源代码库或论文中找到参考进一步理解这种新风险的具体实现方法和细节探索未来的解决方案对于研究者和从业者来说都是值得深入探索的问题所在共同推动这个领域的发展保护数据安全是我们共同的责任也是共同的任务需要共同努力合作推进解决方案的研究和改进以保护用户隐私和数据安全最终达成技术的正向发展并推动整个行业的进步和提升用户的数据安全和隐私保护意识共同构建安全可信的技术生态。
