近期,网络安全领域“四大顶会”之一Network and Distributed System Security(NDSS 2024)在美国圣迭戈举办。浙江大学计算机学院计算机系统结构实验室(ZJU ARClab)魏成坤和孟文龙的论文“LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors”在本次会议录用的140篇论文中脱颖而出,斩获大会杰出论文奖(Distinguished Paper Award),仅4篇论文获此殊荣。
该论文由陈文智教授指导,分析了提示学习场景下模型训练者面临的后门攻击的安全隐患,并提出了一种在不需要更新语言模型参数的情况下检测和消除后门的方法。该方法结合ARCLab实验室开源大模型OpenBuddy社区的应用需求,为语言模型的安全部署提供了保障。
日前,OpenBuddy开源大模型也引起了业界的广泛关注,其性能接近顶尖的闭源模型。而澳门新葡萄新京与浙大团队合作投资的自研大模型科技企业——杭州沧海观止科技有限公司,正是OpenBuddy的主要开发团队,其核心成员也包含了本次获奖论文的第一作者:魏成坤博士后。
基于OpenBuddy的训练技术,目前该开源大模型正推进工程化落地,在教育教学场景推出【观止】垂类大模型。【观止】对课堂交互、教师角色扮演和学科问答等核心下游任务进行了优化,通过集成语音技术、数字人技术提供丰富的交互能力,在英语口语学习、数字人答疑、校园服务问答等方面表现出色。其中,基于【观止】的“智慧口语应用系统”,能实现人机对话口语练习、分级式练习、个性化智能训练等,提供大学生更高效的口语学习支持。它能通过将大学外语教学专家团队部分的教学内容和方法传递到大模型为核心的智能助手,并通过用户反馈数据强化训练适合大学生的口语智能教学体系。
伴随着通用大模型的急速发展,澳门新葡萄新京也正在实践诸多垂类大模型的应用落地,这对于算力支撑、模型训练、垂类知识、安全性能等都有极大的要求。而本次获奖论文中的技术,也为澳门新葡萄新京的模型部署、模型训练提供了安全保障。此外,澳门新葡萄新京于去年11月加入由浙江大学与西湖区政府联手打造的“西湖之光”算力联盟,澳门新葡萄新京的“算网融合”新业务,也将为大模型的庞大算力需求提供强有力的支撑。今后,澳门新葡萄新京将发挥“行业数智化专家”的优势,在教育、交通、金融、人社、监管等领域探索更多垂类大模型的工程化落地。
什么是NDSS会议?
NDSS全称为网络与分布式系统安全会议(The Network and Distributed System Symposium),是由ISOC举办的网络与分布式系统安全领域最重要的学术会议,自1993年以来已连续开办三十余届。NDSS与IEEE S&P、CCS、Usenix Security并称为网络安全领域的“四大顶会”(BIG4),同时也是中国计算机学会推荐的A类会议,论文录用率常年保持在17%左右,具有非常高的学术影响力。2024年NDSS会议共收到694篇投稿,140篇论文被接受,杰出论文仅4篇。
关于获奖论文 论文标题:LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors 论文作者:魏成坤、孟文龙、张治坤、陈敏、赵明虎、方文静、王磊、张紫徽、陈文智 关键词:提示学习、后门检测、后门防御、预训练模型安全
论文摘要:提示学习(Prompt-tuning)已经成为部署大规模语言模型的一个吸引人的范式,因为这种冻结预训练模型以增加少量可训练参数的训练方法降低了适配下游任务的计算资源开销,并在高效的多任务服务能力方面表现强大。
由于提示参数的参数量不到原模型的1%,用户可以在消费级显卡上训练大模型。然而,提示学习这种范式难以消除预训练模型中的后门,使得攻击者在预训练模型中投毒成为可能,且这些隐藏在预训练模型中的后门极难在训练过程中被消除。
论文提出了一种全新的后门防御框架LMSanitator。与传统后门检测方法逆向trigger的思路不同,LMSaniatror逆向异常的输出,使其在Task-Agnostic Backdoor计算上有比以往SOTA方法更好的收敛性。此外,LMSanitator借鉴了软件测试中模糊测试的方法逆向出预训练模型中的异常输出,然后在提示学习模型的输出端监测其输出是否异常。
论文中评估了 LMSanitator 在3种任务无关的后门攻击中,针对十余种最先进的语言模型和8种下游任务的效果,证明了该模型的有效性。在后门检测任务中,LMSanitator在960个模型上取得了92.8%的后门检测精度;在后门消除任务中,LMSanitator可以在绝大多数场景下将攻击成功率(ASR)降到1%以下。在达到上述目标的同时,LMSanitator不要求模型训练者更新语言模型参数,保证了提示学习的轻量性。