人工智能加强型媒体：我们还能信赖消息吗？| 中国工程院院刊

2022-11-17 10:12:16 作者：岁暮归南山

导读：人工智能增强型媒体：我们还能相信新闻吗？| 中国工程院院刊,关注风云之声提升思维层次导读人工智能（AI）正在用更复杂的程序进一步改变数字媒体，出于各种目的，人们可以使用这些程序近乎完美地处理...
中国工程院院刊人工智能2.0时代序幕开启

存眷风云之声

提拔头脑条理

导读
人工智能（AI）正在用更庞大的步伐进一步转变数字媒体，出于种种目标，人们可以利用这些步伐近乎完善地处置惩罚种种视频、照片、音频和文本。

本文选自中国工程院院刊《Engineering》2020年第7期

作者：Ramin Skibba

泉源：Media Enhanced by Artificial Intelligence: Can We Believe Anything Anymore?[J].Engineering,2020,6(7):723-724.

导语

在当今的数字天下，随着盘算机、互联网以及智能手机、交际媒体的显现，用来处置惩罚照片和其他媒体的东西越来越多，人工智能可以用更庞大步伐进一步转变数字媒体。出于种种目标，人们可以利用这些步伐近乎完善地窜改和处置惩罚种种视频、照片、音频和文本。这种人工智能加强型媒体（消息），我们还能信赖吗？

中国工程院院刊《Engineering》刊发《人工智能加强型媒体——我们还能信赖消息吗？》一文指出，在数字媒体范畴，针对人工智能带来的改变和挑衅，如视频“深度造假”“口型同步”等征象，促使盘算机科学家和工程师不停开辟人工智能算法（取证软件）来检测视频和音频是否被修改。文章指出，只管显现了一些人工智能的负面应用，但是也有很多正面的应用，如改进有言语停滞的人的视频或音频记载等，推动运用人工智能技能来天生可靠的文本和语音，促进科学技能的前进。

固然消息、信件乃至照片的内容和意图都有大概被窜改，但是人们通常不会以为它们被窜改了，由于这并不是件简单的事变。但在当今的数字天下中，情形已不再云云。随着盘算机、互联网以及比年来智能手机和交际媒体的显现，用来处置惩罚照片和其他媒体的东西也敏捷显现。如今，人工智能（AI）正在用更庞大的步伐进一步转变数字媒体，出于种种目标，人们可以利用这些步伐近乎完善地处置惩罚种种视频、照片、音频和文本。

纽约州立大学奥尔巴尼分校盘算机科学传授兼盘算机视觉和呆板进修试验室主任Siwei Lyu说：“处置惩罚照片的汗青与拍照自己一样陈腐。近来的改变则是其与AI联合，从而扩大照片处置惩罚的操纵范畴。已往，处置惩罚照片必要大量的时间、精神以及特别的培训和设置装备摆设。”Lyu说，有了功效壮大的盘算机和充足的知识来运行算法，如今就可以在更大的范畴内处置惩罚视频。

盘算机工程师也在高兴美满用于“天然说话处置惩罚”的AI体系，该体系可以天生与人类说话非常靠近的文本和语音。

比方，在2019年年头，位于旧金山的研究试验室OpenAI公布他们已经开辟出一种开始进的文本天生器，叫做GPT-2，该天生器可以依据少量提示，用英语写出连贯的句子，乃至写出短篇小说和诗歌。研究职员最初不肯公布该软件的完备模子，由于他们担忧该软件因成效太好，而被恶意使用，如被用于天生“假消息”。但是在看到“没有强有力的滥用证据”之后，他们在2019年11月放松了限定。但是，在这种媒体和其他媒体中，老话“目睹为实”彷佛已成为了假消息。

Photoshop等用来修改照片的软件已经存在了一段时间（图1），如今，人们也可以轻松地利用视频了。最常见的处置惩罚要领是深度造假（deepfake），指将一小我私家（目的）的脸与另一小我私家（供体）的脸互换。

深度造假的另一种范例是“口型同步”，指通过修改源视频，使得发言者嘴部的行动与另一个音频连结同等。假如处置惩罚得好，输出的视频将会非常传神，看起来发言者说出了一些现实上他们从未说过的话。此类诱骗性视频可以而且曾经被用来利用民众舆论，实行敲诈以及抹黑他人。

图1 利用Adobe Photoshop软件，用16张差别的照片创建了这个奇怪但传神的风物。由AI算法驱动的软件如今提供了东西，让人们可以更轻松地创建传神但被处置惩罚过和（或）模仿天生的视频、文本和语音。图片泉源：Wikimedia Commons (CC BY-SA 3.0)

在实践中，要天生深度造假视频，必要将数据（大量图片大概文本）输入到一种叫做天生反抗网络（GAN）的呆板进修东西中。最简洁的天生反抗网络包罗两个神经网络，用来开辟和革新模子将输入数据转化成新图片和新视频的本领。早期算法利用海量数据集举行练习，这些数据来自政客和名流等简单得到的图像。固然这一历程曾经必要步伐员举行某种水平上的监视，但最新的步伐险些是完全主动化的。

“不必要大量的练习数据，短短10 s的视频就充足了。”亚利桑那州立大学（位于坦佩市）盘算机科学与工程学传授Subbarao Kambhampati说，他也是人类感知AI的专家。但是利用较长的视频练习模子并利用具有至少1000个高质量帧的源视频，将得到质量更好的输出视频。对付视频中的每一帧，算法都可以或许绘制出人头上的“标志”，以及人的头部姿势、视线，以及更细致的特性，包罗眉毛、刺眼、眼睑、上下嘴唇、面颊、下巴和酒窝。

输出视频中，人的活动看起来像人类视觉所盼望的那样流利。但是，假如处置惩罚不妥，输出视频大概会有漏洞，这些内容大概会使敏锐的寓目者猜疑视频被修自新。“偶然候会显现惊奇的征象，比方，面部特性的拉伸或扭曲与正常面部特性不完全立室。”弗莱彻·琼斯盘算学者、美国加利福尼亚州克莱蒙特市斯克里普斯学院媒体研究专业的访问传授Doug Goodwin说。比方，假如练习数据的辨别率不敷，则输出视频大概具有含糊的地区，在嘴中显现白色条纹，而不是单个的牙齿，大概面部毛发没有根据应有的方法活动。Goodwin说，利用包罗种种面部心情和吐字的数据练习后，算法的成效会更好。

处置惩罚技能的前进促使了盘算机科学家和工程师开辟 AI算法（取证软件）来检测视频和音频是否被修改。“取证东西可以检测合成的媒体，并推断它是由呆板照旧由人天生的。但是，假如不合错误这些东西保密，那么总是可以制作出绕过东西的媒体。”加利福尼亚大学圣地亚哥分校盘算机科学博士Paarth Neekhara说，他的研究偏向包罗音频和视频的深度造假。

处置惩罚和检测之间的拉锯战雷同于病毒和防病毒软件的盘算机宁静武备比赛，此中，补丁步伐制止了黑客，而黑客又找到了绕过补丁步伐的要领。专家发觉了一个缺陷，使他们可以或许检测出被修自新的媒体，随后媒体的天生者调解算法，天生更传神的假媒体。比方，第一代的深度造假软件会天生不定期刺眼的脸，导致造假很简单被检测出来，而下一代深度造假软件便修复了这一题目。Kambhampati说，另一个例子是，一个包罗时任美国总统巴拉克·奥巴马的视频被人为修改，使其看起来像是他说了一些现实上没说过的话，但视频中他的眉毛活动与嘴唇活动不符。但在厥后的深度造假视频中，奥巴马的眉毛如预期般正常地震了起来。因为可以练习AI来检测和修复此类差别，是以最新一代的深度造假软件险些没有漏洞。

显现了很多AI的负面应用，但是也有很多正面的应用，它们推动了技能的前进。比方，改进有言语停滞的人的视频或音频记载，为影戏添加更传神的外语配音，乃至在影戏中重现已故演员扮演的脚色。比方，在《星球大战外传：侠盗一号》中，重现了已故演员卡丽·费雪扮演的莱娅公主。联合了该项技能的假造实际游戏或其他娱乐运动看起来很有进展远景。

正如上面提到的OpenAI，盘算机科学家也在利用 AI来天生可靠的文本和语音。像修改视频一样，这种技能也利用了GAN来天生传神的句子。比方，谷歌翻译如今就利用了这种AI算法。这些算法充足庞大精妙，可以以特定人物的气势派头天生文本，如天生看似出自已故作家简·奥斯汀之手的新故事。步伐员也在交际媒体等平台上制造了谈天呆板人，该谈天呆板人具有充足的阅读和真实听觉，可以像真人一样与潜伏客户互动。亚马逊的Alexa和苹果的Siri大概是利用最遍及的 AI通讯的贸易应用，它们基于云的语音办事被设定为仿照与客户的真实对话。固然Alexa和Siri不是真人，但它们简直可以或许给出题目的真实答案。

Goodwin说，迄今为止，步伐员在天生传神的视频和图像方面取得了更大的前进。他说，假如当前的趋向陆续进展下去，大概很快就可以构建AI算法，来制造全新且可信的语音，并主动将其与模仿音频和视频融合。这种远景及其在诈骗中的潜伏用途，促使研究职员开辟主动检测深度造假视频的代码，并号令交际媒体网站将此类媒体标识为被窜改过的媒体。2020年12月，Facebook与Microsoft、亚马逊和包罗Lyu在内的学术界盘算机科学家互助提倡了深度造假检测挑衅赛，招呼研究职员提交本身的主动检测东西，并有时机博得100万美元的奖金。美国国防高级研究打算局的工程师也在研究主动检测视频或照片是否被窜改的东西。

注：本文内容出现情势略有调解，若需可检察原文。

改编原文：

Ramin Skibba.Media Enhanced by Artificial Intelligence: Can We Believe Anything Anymore?[J].Engineering,2020,6(7):723-724.

相关推荐

精彩图集

图片推荐