文/傅宏宇 阿里研究院人工智能治理中心主任
近年来,各类大模型开始规模化应用于智能手机、PC、智能汽车等端侧设备,进一步强化了设备在图文等领域的处理能力,拓展了人机交互场景,能够更灵活地响应用户需求。尤其是最近deepseek的破圈,密集部署,加速了端侧AI进展。
云侧大模型拥有强大的算力,能够处理复杂的任务和大规模的数据,提供深度的分析和决策能力。而端侧模型虽然算力有限,但可以快速响应本地的简单任务,减少数据传输和等待时间,提高系统的整体效率。端侧模型和云侧模型配合使用,能够带来更为高效、便捷、经济的模型服务,满足各类场景中差异化的需求。
解决端云协同中的交互数据安全问题,首先需要保障执行环境安全、尊重用户权益,建立用户信任基础。保障用户-模型数据交互安全保障不是从零开始,首先需要建设云侧、端侧等执行环境的安全保障能力,采取协议承诺、技术管控等方式让用户对自身数据可控可管可审计,为用户进一步使用模型、与模型进行数据交互奠定信任基础。一是要保障用户数据处理环境的安全一致性。无论是端侧还是云侧,用户-模型交互处理的整体环境应当在数据安全保障级别上需要和用户私域等同,用户数据在各类执行环境中都受到同等的安全保护,例如对企业用户需高度关注企业商业秘密在传输、存储过程中的加密和防攻击,应用处理过程中的权限限制,对个人用户则要保障对其个人数据的控制权和安全性,保证对数据处理的知情同意。二是要保障用户对自身数据的高度可控性。严格遵守用户指令,以用户授权为前提,强化权限保护、数据可控性、可审计性,责任可追踪。通过授权和密钥控制,保障用户数据的私密性,对用户数据管控和滥用防控,让用户了解并控制各执行环境中的数据使用情况,避免超权限、超范围、超目的的数据访问,做到“操作可审计”。在发现事故后快速定位问题源头,区分是用户不当使用、系统漏洞还是外部攻击等行为所导致的安全风险,做到“责任可追溯”。
而在保障执行环境安全、尊重用户权益的基础,进一步针对用户使用模型的特点,基于数据交互状态进行链路解析和针对性的安全治理。在以模型推理为代表的、模型通过API接口接受或调取用户数据的场景里,用户通过API接口向模型输入用户数据,模型利用用户主动输入数据,依据用户指令,基于模型自身能力提供推理分析、内容生成等服务,如果用户对结果有精准度、实效性、定制化等仅依靠模特通用能力难以实现的要求,模型则会进一步调用用户的补充数据,以及在模型服务域中存储于RAG数据库里的用户数据。用户输入数据和模型调用的补充数据作为用户输入数据与模型交互,并与模型输出数据一起存储于模型服务域的交互数据存储之中。交互数据存储中除了存储用户和模型的交互数据外,还存储了用户调用模型日志、模型运行状态、生成内容的安全状况等元数据。
推理场景中用户提供的数据类型多样,交互数据存储可能包含更为全面的用户-模型交互历史记录数据,此类数据的敏感度高,但同时也构成了模型理解用户意图、了解用户需求、向用户提供定制化服务的信息基础。应对推理场景的用户-模型交互数据风险,需要更为全面的、体系化的模型服务用户数据安全保障机制,强化用户输入数据的源头管理,以及交互数据存储的安全保障,并对用户进行主动提示和告知,提高用户-模型数据交互的透明度和可审计性。具体包括进行输入数据提示和确认,实现交互数据可审计,规范模型服务安全等。
总体而言,用户-模型数据交互链路虽然较为复杂,但针对主要场景核心安全风险进行针对性的治理,可以实现用户数据向模型传输、在模型域存储、被模型训练或推理使用、在模型输出中呈现等各环节的有效管控,配合云执行环境基础安全保障、安全服务响应、模型内生安全加固等机制,引入可信第三方的评估审计,能够最大程度保障用户对模型数据使用的知情权和控制权,防止用户数据被非授权用于模型训练、通过模型泄露,让用户能够放心地使用模型,获得更好的模型服务。
参考资料:
1 Lucidworks,The State of Generative AI in Global Business: 2024 Benchmark Report,P9
2 Microsoft Security,Accelerate AI Transformation with Strong Security,P12