中国信通院联合RealAI发布《人工智能安全框架(
时间:2021-01-06 01:45

  摘要:针对全球人工智能安全框架缺失问题,在工业和信息化部网络安全管理局指导下,中国信息通信研究院联合瑞莱智慧RealAI、百度、腾讯、360、中科院信工所共同编制《人工智能安全框架(2020年)》蓝皮书于此前正式发布,提出涵盖人工智能安全目标,人工智能安全分级能力,以及人工智能安全技术和管理体系的人工智能安全框架。

  当前,随着全球人工智能规模化建设和应用的持续加速,人工智能基础设施、设计研发及融合应用面临的安全风险正日益凸显,保障人工智能应用安全可靠的需求日渐迫切。

  虽然人工智能安全话题的社会关注度不断提升,学术界也在积极推动安全攻防、联邦学习、差分隐私机器学习、深度伪造检测等方向的安全技术创新,但目前针对人工智能安全问题的分析研究仍存在不足,比如针对人工智能可能面临哪些安全,人工智能安全防御加固技术有哪些,面对新的安全企业应如何部署安全能力等等内容少有涉及。

  在传统网络安全领域,NIST网络安全框架、滑动标尺模型等能够很好的指导用户全面分析和解决网络安全问题。但目前在人工智能领域还缺少类似能够社会各方提升人工智能安全防护能力的框架。

  因而,《人工智能安全框架(2020年)》蓝皮书(下文简称“《框架》”)被提出,遵从实用性、前瞻性和整体性的原则,从全局化、体系化的角度打造人工智能风险地图、人工智能安全框架、安全技术图谱,便于有效部署实施人工智能技术,以及指导社会各方构建人工智能安全防护体系。

  《框架》蓝皮书不单单只看人工智能安全风险表现,结合人工智能系统设计运营全流程,根据人工智能所处的不同生命周期阶段对安全风险进行划分,以地图的方式进行全局展示,一方面有利于更全详尽、更深入的剖析人工智能所面临的风险,另一方面也将有助于分析定位人工智能安全问题。

  生命周期:根据国际标准化组织(ISO)对人工智能系统生命周期过程的划分,可以概括为初始、设计研发、检验验证、部署、运行、持续验证、重新评估、废弃八个阶段,分阶段描绘出人工智能存在的安全风险,用户可以根据自身情况有所侧重。

  风险来源:针对不同阶段的不同风险表现,地图罗列出背后的风险来源,分析导致该风险发生的根本原因,便于用户从根源定位安全问题,从源头给出应对措施。

  风险表现:目前人工智能在不同生命周期阶段会面临的安全问题。值得注意的是者可以从多个环节进行达到目的,例如算法后门即可在设计研发阶段通过修改训练数据植入,也可以在运行阶段通过模型文件植入,人工智能技术使用方需要对安全做通盘考虑。

  人工智能技术特点及安全风险与传统信息系统存在显著差异,传统网络安全框架无法直接适用于人工智能应用,但《框架》蓝皮书参考传统网络安全框架经验,围绕安全目标、安全能力、安全技术和安全管理四个维度,聚焦人工智能基础设施、设计研发以及应用行为决策过程中存在的安全风险,自顶向下、层层递进,为企业不断提升人工智能安全能力提供可遵循的迭代径。

  安全目标:明确人工智能安全目标将为人工智能安全防护工作的实施指明方向。本框架通过全面分析人工智能应用面临的安全风险,总结和提炼业界所提出的目标,最终从应用、功能、数据、决策、行为、事件六个方面明确安全目标。

  安全能力:框架以滑动标尺为参考,按照安全能力建设难度逐级递增,以及安全资源投入产出比逐级递减的方式提出了人工智能安全能力分级叠加演进模型,规划为架构安全、设被动防御、主动防御、情报和反制进攻五级人工智能安全能力。滑动标尺对企业安全能力建设的投入有指导性意义,比如从投入产出比的角度来看,用户应选择优先构建架构安全层面的能力,难度低、资源投入少,但安全能力提升最为显著。

  安全技术:构建人工智能应用涉及人工智能业务、人工智能算法、人工智能训练数据和机器学习框架平台四大核心层面,为此解决人工智能安全问题也不能只停留其中一个层面,如仅考虑算法安全方面的问题,忽略了深度学习平台相关的漏洞,也有可能被者找到突破口进而导致服务不可用等风险。本框架综合业务、算法、数据和平台四大层面所涉及的技术方法,完善了人工智能安全技术体系。

  安全管理:除了安全技术外,组织建设也是达到安全目标的重中之重。企业需在法律法规、标准规范等指导下,在人工智能安全组织、人员和制度等方面具体开展实践。虽然目前有人工智能安全相关的标准正在研制中,但推动人工智能安全能力的有效落地,还需要国家和行业人工智能安全法律法规、行业政策、伦理规范、技术标准等方面的持续努力。

  为便于企业有效部署实施人工智能业务、算法、数据和平台安全技术,《框架》描绘出完整的人工智能安全技术图谱,列举各环节部署的安全技术以应对不同阶段的安全问题。参照图谱,企业可结合自身业务特点选择应用合适的技术手段。

  同时,针对不同的技术手段,《框架》列举了业届已成熟落地的方案或者最有代表性的研究工作,为企业提供应用参考,比如目前在增强算法鲁棒性、数据隐私计算领域应用较为成熟的数据增强与联邦学习技术,《框架》中作了详细介绍。

  数据增强:通过模拟自然场景或对抗场景中可能出现的各类情况,支撑算法模型从数据中学习到相关特征提升算法鲁棒性,从而在各种场景下始终保持正常的性能水平。数据增强方法可用于提升算法自然鲁棒性。例如,可以通过旋转平移、添加自然噪声等模拟不同场景下的干扰数据,利用数据风格迁移生成不易收集的场景数据等方式生成训练数据提升模型鲁棒性。Dan Hendrycks等人开源的Corruption and Perturbation Robustness提供了可用于训练测试的多种场景下的模拟数据。同时,数据增强方法也可以用于提升对抗鲁棒性。例如,可以生成预加固模型的对抗样本数据用于对抗训练提升算法模型鲁棒性。Madry等人将对抗样本数据与真实数据混合后进行对抗训练可大幅提升模型应对对抗样本的表现,进而提升模型鲁棒性。

  联邦学习:指在各参与方数据不出本地的情况下,通过加密机制下的参数交换方式进行数据联合训练建立共享机器学习模型的过程。针对不同的应用场景,联邦学习有多种模式可供选择。在用户特征维度重叠较多而用户重叠较少的情况下可采用横向联邦学习。在用户重叠较多而特征维度重叠较少的情况下可采用纵向联邦学习。在用户与用户特征维度重叠都较少的情况下采用联邦迁移学习方式。微众银行推出了能提供一站式联邦模型服务解决方案的 FATE,覆盖横向联邦学习、纵向联邦学习和联邦迁移学习。腾讯T-Sec联邦学习方案能够有效提升联合建模场景下的安全性。瑞莱智慧发布的RealSecure在支持联邦学习核心特性的基础上,能够极大方便联邦学习算法开发和算法更新集成。

  除此之外,《框架》还针对对抗样本、模型后门、算法公平性、算法可解释性、数据隐私等问题给出了如鲁棒特征学习、模型自解释、算法公平性约束、多方安全计算、同态加密等在内的十余项热门安全加固防护技术的深入介绍。

  随着人工智能安全风险日益凸显,在关乎人类生命安全、财产安全以及国家社会安全的部分领域,人工智能应用安全防护的相关防护已有所开展,例如自动驾驶、智能信贷风控和深度伪造是开展人工智能安全防护较为领先的三个领域。为便于企业借鉴已有人工智能安全防护经验,《框架》蓝皮书将结合行业实践案例阐述上述三个领域人工智能安全防护工作开展。