呆板之心报道
呆板之心编辑部
在 WAIC 2021 AI 开辟者论坛上,知乎合资人兼 CTO 李大海颁发主题演讲《基于 AI 的智能社区多模态数据融合研究与实践》。在演讲中,他重要先容了知乎在智能社区期间多模态数据融合中的研究以及实践希望。
以下为李大海在 WAIC 2021 AI 开辟者论坛上的演讲内容,呆板之心举行了不转变原意的编辑、整顿:
我今日的主题是基于 AI 的智能社区多模态数据融合应用实践。
多模态近来很火,方才「好将来」的吴总也讲了这个主题。固然都是多模态,但家人们营业场景差别,利用的偏重面纷歧样。我们更偏重于比拟进修使用多模态把视频和文本对齐这个角度上做事情。
简洁说一下「知乎」,知乎是一个以问答为主的在线社区,本年已经是知乎上线的第十个年初,在十年内里,履历了四个阶段,第一个阶段是关闭阶段,关闭运营,运营两年,从 2013 年开始开放,就不停的在拓展商议的场景和商议话题,用户范围不停扩大。2018 年知乎提出了智能社区的观点跟计谋,通过技能升级把人工智能技能全面应用在内容生产、内容分发、社区管理等范畴内里。
这也是我第二次带到场 AI 开辟者大会,客岁由于疫情干系,通过直播参加。这两年我们也看到,也是因为疫情和 5G 技能的进展,视频、直播等的形态越来越遍及。知乎上也是一样,有越来越多用户,在知乎上通过视频分享本身的知识、履历、看法。在这个历程中我们也了解到视频跟图文有各自的优缺点和实用场景,视频会更直观,图文有非线性的布局,喜爱用户可以快速略过,可以在差别模块之间举行跳动,两个实用场景纷歧样。
一、图文多模态预练习
当知乎决定把视频当成重要的前言形态时,我们盼望通过前言升级,让它酿成知乎内容的紧张承载情势。这个是我们的一个认知,举行如许的事情在技能上必要对视频举行智能化。
从营业和产物上来看,视频在知乎的进展,不是凭空显现的,是从一个个题目和图文答复中渐渐涌现出来的,是以,在技能上,我们也不该该从零搭建针对视频的算法体系,那样既不经济,还必要思量图文和视频两套体系之间的兼容性题目。举个例子,颠末这么多年的进展,知乎已经有一个凌驾 50 万话题的话题树,我们没有须要在视频上放弃这套体系,那样既会增添产物庞大度,也必要思量两套话题体系的对齐题目。
在计划视频智能化技能事情的时间,很天然的就思量以多模态为焦点事情,背面规律很简洁,由于使用多模态的算法对齐本领,可以或许很快地把知乎已往积攒数据的本领和积攒的种种数据用起来,在事情内里起首做最根本的图文多模态的预练习。
预练习模子采纳的是双流比拟进修框架,很像是在推进内里用的双塔模子,左边是图像流,右边是文本流。
文本流这边会采纳成熟的天然说话预练习模子 Bert/Roberta。左边的图像流我们做了较多的实验。家人们看到右侧模子是当前做完实验今后,在线上发觉成效比力好的,是由三部门构成。
第一部门是用 ResNet 预练习模子去提取图像全局的信息,第二部门是使用 Detectron2 预练习模子去抽取图像的工具检测位置跟界限信息,第三部门是在图像内里举行工具检测今后得到的文本信息。对三个信息举行融合今后,作为图片流的输出;这部门输出与文本流的输出举行比对,将画面中的目的位置、目的种别与文本形貌举行对齐,使用知乎上的上亿级图片及图片附加的形貌信息作为练习样本,可以实现较好的对图片的了解本领。
图文的多模态预练习模子在视频范畴已经可以有很好的应用了。下面展示产物化此中一个事情,在客岁下半年公布了一款图文一键转视频东西,内部也叫做 PPT 视频创作东西,是给我们的图文创作者利用的。知乎上的图文创作者可以使用如许一个东西,快速把本身的笔墨答复大概文章转化成为一个视频。
这个转化历程中,重要思绪便是把文章里每一段话大概每一个句子通过模子找到相对应的图片大概动图大概一段短视频,通过预练习模子可以把每一段笔墨跟素材库内里的图片举行相干性盘算。相干性高的可以自动拿出来,通过这种方法可以去天生还不错的 PPT 视频。
同时另有另一个应用,创作者可以自动输入要害词,在素材库内里找到和要害词立室度最高图片,让它本身自动构建视频素材流。
二、视频搜刮相干性
完成了这些底子的事情今后,就具备了文本跟图片的对齐本领,可以开始基于本领去结构视频跟文本的对齐功效,形成对齐网络。
在现实事情中会把视频内里的要害帧抽取出来,通过练习模子对每个要害帧天生表现,通过 Transformer 模子举行转化,转化完今后再用搜刮的 query 举行预练习,就可以得到搜刮 query 和视频相干性的猜测。在线上现实效果,利用模子会比线上的用户搜刮中意度进步 1% 的肯定值,成效照旧非常明显的。
三、视频话题立室与排序
知乎自己颠末这么多年进展,构建了凌驾 50 万的话题数。除了视频搜刮之外,在用户公布一条视频的时间,我们也盼望视频可以或许跟 50 万个话题孕育发生干系,可以或许主动标注出视频跟哪个话题相干。有了如许一个标注后,对付后续视频的分发,视频的了解以及其他用户可见的产物特性都黑白常有关心的,尤其是基于前面的模子构建视频与话题的立室度的应用。
这个应用起首的底子要害帧抽取没有改变,但同时还会使用视频的标题,再去融合到一个 Encoder 中。然后会跟话题举行相干性的盘算,这是一个 Ranking 的部门,在 Ranking 之前有 50 万的话题底子,可以说是一个极限多立室的典范场景。
在这个场景内里,真实落地会有召回行动。在实操上综合利用多种索引方法去做召回,有 PMI 的索引,有 Embedding 的索引,以及简洁的 Lablel Name 的索引。这些索引用的都是视频的标题,在我们的产物内里,视频可所以视频实体,自己就有标题,也可所以视频答复,视频答复自己是跟题目相干的。
不管怎么样都市有对应文本信息,比方搜刮「饭后吃苹果的八大利益」「吃苹果都市有什么利益」,可以通过根本的文本信息,从几十万的话题内里招回几百个话题再举行精排。
四、后深度进修期间的 AI 应用
此次的主题是《后深度进修期间的 AI 应用》,实在在比拟后深度进修期间和前深度进修期间,可以看到业界、学术界的希望更多聚焦在相对底层的范畴,好比进修框架、调参的要领论,模子布局都在不停往前进展。但是到近来一两年,要领论加上数据联合在一路孕育发生的预练习模子,也生产出了大量的盘算效果。
知乎更方向于使用 AI 技能去开辟应用,那么在后深度进修期间 AI 技能怎么用?基于 AI 技能的应用要怎样做?这是我们要面对的挑衅。
我们必要用到预练习模子,用到抽象水平更高的,业界公认的最好的练习结果。方才展示的我们的产物和事情结果中,大量运用了种种百般的预练习模子。用了预练习模子今后,再针对场景去构建本身的练习样本,并基于目的做微调,这是在知乎内部重点做的事情。
「在 AI 期间,紧张的是古人栽树,后人纳凉。」我们也在思索,用优异的预练习模子完成本身事情的同时,能为后人带来什么呢?在我今日的分享内里提到的模子都是已经上线,已经孕育发生收益的详细模子,知乎还在不停去构建综合图文、视频另有声音等前言同一的大型预练习模子,如许预练习模子基于知乎积存的大量图文视频数据会越来越成熟。
盼望当我们事情做的比力成熟的时间,可以把这些模子完全开放出来,提提供学界和产业界更多的开辟者朋侪们利用。
固然,在整个知乎视频智能化事情中,光有多模态进修也是不敷的,我们还做了许多其他事情,这里我简洁先容下一项技能:语音复刻技能。这项技能是在我们推出的一个图文一键转视频的东西上。通过批量化复刻语音,进步生产服从。
下面请知乎的吉利物刘看山来展示一下我们做的语音合成事情,画面是做的动态模仿,声音是复刻我本人的声音。请家人们寓目。
视频加载中...