数字化领航总第21期《AI赋能构建智能网络》

Attack and Defense 攻防

人工智能的安全风险与治理

文/金兆岩

摘要：AI给我们的生活带来很多便利，但同时也带来了诸多不确定性。要研发“负责任的”人工智能应用，自然离不开治理以及安全风险的防范。

随着谷歌的AlphaGo战胜了多位围棋大师，以深度学习为代表的人工智能（AI）再次引起全世界的关注。为了抓住AI发展的重大战略机遇，我国也将AI上升为国家战略，同时将其列为“新基建”的七大高科技领域之一。

AI作为一项新的基础设施，不仅仅是算法技术的研发，它应该具有完备的产业链，将重构生产、分配、交换、消费等经济活动各环节。作为新一轮产业变革的核心驱动力，图像处理、自然语言理解、语音识别、知识图谱、自动驾驶等AI技术将惠及医疗、教育、金融、交通等诸多领域。

相对于国家，AI是基础设施；相对于企业，AI是重要资产；相对于不法分子，AI也可以是工具。AI作为基础设施，难免存在安全风险，一旦产生危害，不仅范围广，而且影响大。AI作为企业的资产，往往成为不法分子的攻击目标。因此，大力发展AI的同时，更要重视AI的安全风险与治理问题。

AI的安全风险

AI解决的实际应用往往是一个优化问题，包含训练数据和目标函数（包括预测函数和损失函数）。以图像分类为例，其大致流程如下：

数据收集与标注：收集大量图像，并对每个图像的类别进行标注；

建模：定义目标函数，目标函数使得预测函数的预测损失尽量小；

训练：利用训练数据对预测函数的参数进行学习，得到预测模型；

预测：利用预测模型对待预测图像进行分类。

AI预测模型是运行在硬件上的智能程序，既面临传统的软/硬件的安全风险，又面临全新的安全风险。笔者从以下几方面介绍AI的安全风险。

1. AI固有的安全风险

AI模型是有偏见的，这种偏见体现在训练数据、预测函数和损失函数上。AI解决的问题往往是开放性问题，模型设计人员根据自身的认知设计预测函数和损失函数，难免引入设计者的偏见。此外，训练数据的采集方法，以及数据集合本身也可能存在着一定的偏见。例如，如果训练数据中包含的黑人图像比较少，那么对黑人进行预测的准确率将会小于其他种族。AI模型的偏见从某种程度上影响了社会的公平和公正，因而存在着一定的安全风险。

大多数AI模型是不可解释的。除了线性模型、决策树等少数模型可以对预测结果进行解释外，大多数AI预测模型都无法对预测结果进行合理的解释，例如支持向量机、深度神经网络等复杂AI模型。在某些特殊的应用领域，AI模型必须对预测结果进行合理的解释。例如，在医疗领域，通过对医学影像进行分析来识别疾病。可解释的预测模型可以对预测结果进行解释，从而对症下药进行后续诊断和治疗。AI模型的可解释性从某种程度上可以对预测结果进行佐证，而不能证明的预测结果存在一定的安全风险。

2. AI对抗的安全风险

AI算法与训练数据结合成AI模型，AI模型是企业的核心资产。AI模型向客户提供服务，同时又包含训练数据的相关信息，因此成为重点网络攻击目标。

（1）对数据的攻击。数据包含训练数据和待预测数据。攻击者可以在训练数据中投入带有后门的数据，这样在使用AI模型进行检测时便可以绕过检测；攻击者也可以在训练数据中投入带有错误标签的数据，降低AI模型检测时的准确率，从而产生误判。此外，攻击者还可以修改待预测数据生成对抗样本，从而绕过AI模型的检测。

（2）对AI模型的攻击。为了获取服务方的AI模型，甚至推断出模型中包含的数据信息，攻击者可以重复地向AI模型提供数据并获取判别结果，当获取大量的数据判别结果后，可以训练一个模型来逼近目标AI模型。进一步地，攻击者可以在自己训练的模型中包含生成模型，然后通过该生成模型生成大量的数据，以此来恢复或者推断训练数据中的重要信息。

3. AI滥用的安全风险

AI技术在人脸识别、语音合成、商品推荐、网页搜索等应用场景已经达到商用水平，大大提高了应用服务质量和社会生产力。然而，AI 是一把双刃剑，当其被不法分子滥用时，可以给国家、社会、企业和个人带来安全风险。

虚假新闻充斥着互联网空间，读者难辨真伪。AI技术的发展使得虚假新闻的制作更加方便、快捷，并且制作的新闻更逼真。可以应用图像处理和计算机视觉技术生成虚假视频，可以应用自然语言处理技术生成虚假文本，可以应用语音合成技术生成虚假语音。BuzzFeed网站公布一条合成的虚假视频，该视频将乔丹·皮尔更换为奥巴马，拟真程度极高。FakeApp是一个AI程序，可以将视频中某人物的脸更换为其他人的脸。部分恶作剧用户使用FakeApp将成人视频中人物的脸更换为其他明星的脸，从而造成一定的恐慌。

AI 是一把双刃剑，如果被网络黑客使用，将大大提高网络攻击行为的效率。以钓鱼攻击为例，攻击者利用社交媒体和电子邮件等通信工具向目标人群发送带有恶意程序或链接的内容，误导目标人员点击或者下载恶意程序。在鱼叉钓鱼攻击中，攻击者使用AI技术分析目标人员的社交媒体或者电子邮件内容，得到目标人员感兴趣的主题，然后依据该主题生成虚假恶意的电子邮件。经过AI技术生成的电子邮件，真实性和可信性都得以增强，可以躲避垃圾邮件检测，更容易误导目标人员点击或下载。

AI安全风险的治理

国家新一代人工智能治理专业委员会发布了《新一代人工智能治理原则——发展负责任的人工智能》，提出了人工智能治理的框架和行动指南，强调了“和谐友好、公平公正、包容共享、尊重隐私、安全可控、共担责任、开放协作、敏捷治理”八条指导原则。AI的安全治理需要从伦理、道德、政策、技术等多方面进行综合考虑。基于上文对AI安全风险的论述，笔者从对抗能力、可解释性、公平性和政策引导四个方面讨论AI的安全治理方法。

1. 提高AI系统的对抗能力

安全的AI系统应该能够抵挡来自攻击者的多种攻击，这需要从训练数据采集、模型训练和模型应用三个阶段进行应对。在训练数据采集阶段，可以过滤掉异常数据来对抗投毒攻击，可以将数据加入噪音来对抗后门攻击；在模型训练阶段，可以在模型中加入水印来防止模型被窃取；在模型使用阶段，可以对输入数据进行预处理来防止后门攻击，可以对输入数据进行重构、检测对抗样本等方式来抵御对抗攻击。

2. 设计可解释的AI

为了提高AI模型的可解释性，可以从算法的可解释性、推断过程的可解释性和推断结果的可解释性三个方向入手。具有可解释性的算法包含线性回归、决策树、贝叶斯网络等，未来需要研发功能更加强大的且具有可解释性的算法。对于不具备可解释性的黑盒模型，例如神经网络，研究其推断过程和推断结果，在特定场景下给数据赋予语义，从而增强AI模型的可解释性。

3. 设计公平的AI

AI模型的设计者要避免将自己的认知与偏见引入到AI模型中，要从用户的角度出发，以用户的需求作为服务目标，设计满足用户个性化需求的AI模型。AI模型的个性化服务不是一个系统的差异化服务，应该是满足用户个性化需求的差异化AI模型。此外，训练数据的收集要公平、公正，这是AI公平性的基础。

4. 制定政策给AI安全治理指明方向

对抗能力、可解释性、公平性是AI安全的重要指标，随着AI技术与产业的不断发展，AI安全将包含更多的指标。为了实现这些指标，不仅需要科技专家进行技术攻关，还需要伦理、道德、法律等人文、社科专家参与讨论、制定相关的政策，从而给科技发展指明方向。

结束语

伴随着AI产业的发展，AI的安全风险将日益突出，AI的安全治理将变得更加重要。随着人们对AI技术理解的加深，AI安全的评价指标将不断变化，AI的安全治理将变得更加困难。AI的安全治理需要人文、社科、科技等领域专家的共同努力，从政策和技术两方面共同推进AI的持续健康发展。