为响应国家数据安全与人工智能治理战略,聚焦智能时代核心技术风险与合规挑战,A片直播研究生会学术科技部于2025年11月14日晚成功举办“智安共创:数据安全/人工智能安全圆桌论坛”。论坛旨在搭建产学研协同对话平台,激发研究生对AI安全核心议题的深度思考,推动科研成果向高可信、可监管的智能应用场景转化,共筑“技术驱动、安全护航”的数智未来。

本期论坛主题为“大模型安全:机理探索与应用实践”,学院邀请到A片直播
信息管理学院2024级数据科学专业博士生俞雯茜作为主讲嘉宾。

俞雯茜以“大模型安全:机理探索与应用实践”为题,围绕“大模型安全的必要性与背景、概念与内涵、机理与应用”四个方面展开系统分享,内容详实、观点鲜明、案例充实。
首先,她从大模型能力飞跃与广泛应用切入,指出当前面临的核心安全风险,包括事实幻觉与信息失真、隐私泄露与数据安全、偏见与歧视的固化、安全滥用与深度伪造、能源消耗与成本等,强调“大模型能力越强,其风险影响越深远,因此安全不是可选项,是大模型发展的前提”。在案例层面,她介绍了纽约律师因引用模型虚构判例受罚、ChatGPT对话历史漏洞引发隐私担忧等事件,并从治理角度梳理全球监管与规范进展。
随后,她从框架与标准出发,明确“大模型安全”的范畴与约束体系。基于OWASP LLM Top 10,她概述提示词注入、训练数据投毒、模型拒绝服务、供应链漏洞、敏感信息泄露等十大关键风险,提出“安全性、可靠性、可控性”三维度安全技术体系,并归纳出价值约束、事实约束、指令约束、边界约束四类多维约束的定义与对应风险,强调在复杂应用场景下用“多重约束共同定义可接受边界”。
再者,她深入解析大模型安全的机理,提出“安全是一个动态的内部计算过程”的核心观点:模型在推理时存在“遵循指令”与“遵守约束”的博弈。围绕对齐训练,她指出预训练与SFT、RLHF的协同作用与局限,阐释“对齐训练是封印而非删除”的安全知识观,并介绍“安全向量/价值观方向”等内部表征及其与知识的交织关系。在生成层面,她分析注意力机制的竞争与高维决策边界的脆弱性,指出越狱提示通过劫持注意力分布绕过安全约束;在多模态场景,她揭示文本到图像的安全语义传递鸿沟与扩散模型潜空间“有害子空间”的安全干预要点。
同时,她结合团队研究与应用实践,分享面向典型安全问题的多项技术路径与解决方案。针对越狱问题,提出基于令牌置信度的大模型越狱样本检测方法,可在推理期间以近乎零额外开销有效识别风险输入;面向有害内容生成,介绍“扩散潜空间概念向量引导”技术,实现对色情、暴力、血腥等有害元素的精准去除,兼顾图像质量与安全性;在多模态安全对齐方面,借鉴“deliberate alignment”,通过推理过程的重新思考识别用户真实意图,强化MLLM在图文跨模态下的安全对齐能力;围绕隐私与侵权风险,构建“指令遵循强化+版权边界学习+对抗性水印”的多层防护体系,支持动态授权验证与内容保护;针对虚假信息扩散,提出“外部知识库增强+对抗性训练优化+隐形水印与签名溯源”的综合策略,提升对诱导性、欺骗性指令的抵御能力与传播溯源能力;为同时缓解过度拒绝与安全性之间的张力,介绍Magic Image视觉提示框架,通过优化图像输入影响模型决策空间分布,在保持正常样本决策稳定的同时,提升边界与越狱样本的判别鲁棒性。
最后,她结合标准实践给出落地建议:建设研发与应用全生命周期安全能力与测评体系,实施应用分类与安全风险分级管理,完善数据安全与个人信息保护规范,强化开源生态与供应链安全,推进合成内容可追溯管理,促进产学研协同与国际交流合作,系统提升大模型的安全治理水平。。

在圆桌交流环节,围绕“大模型安全的责任主体”“大模型安全与效率的协同发展”等问题,俞雯茜与参加活动的同学进行了深入对话交流,实现了思想碰撞和知识共享。与此同时,本次圆桌论坛活动在现场设置了志愿者答疑台,邀请优秀学生代表为同学们答疑解惑,确保大家能够无障碍地获取活动中的关键信息与知识点。

本次论坛聚焦数据安全与人工智能安全的前沿热点与关键问题,系统呈现风险图谱、机理洞察与应用实践,进一步增强了学院师生的安全意识与治理能力。至此,“学术科技节|智安共创:数据安全/人工智能安全圆桌论坛”顺利结束,期待后续推出更多高质量学术活动。
来源:信息管理学院研究生会 审稿、责编:邹春航