本文共 5755 字,大约阅读时间需要 19 分钟。
作为4G、5G时代最丰富的信息承载媒介,视频可以传达出的信息量远远超过声音、图像等单一渠道,浩如烟海的视频资源中蕴含的大量信息也还远未被充分挖掘。对于视频公司来说,如何将AI技术与海量视频资源结合,将成为一个潜力巨大的研发方向,带来的价值不可估量。在国内AI领域,多模态技术的研发历史虽然不久,但其带来的价值早已得到了充分验证。
本文中,来自优酷算法中心负责人王晓博将为我们解析,优酷是如何利用多模态技术,最大限度地挖掘视频信息,创造更大的价值。剪片子又快又好、还能制作鬼畜视频的AI视频剪辑师到底是如何做到的呢?让我们来一探究竟。
优酷作为一家超过12年的视频网站,其最大的数字资产便是存量数亿的视频,这不仅包括平台购买的版权OGC视频,更多的是用户上传的UGC视频。视频作为4G、5G时代信息最便捷的载体,给用户带来极大便利的同时也给各个互联网厂商带去了更大的挑战,富媒体信息的存储、计算以及分发对比单一的文字信息要困难很多。
模态是个专有名词,在计算机信息处理的场景下,专指人接受信息的方式,包括视频、图像、文字、语音等不同的手段。多模态学习按照其所研究的问题大致分为如下几个方向:
信息检索的技术发展已经走过了几十年,而视频内容检索在企业里之前一直停留在关键字层面,主要检索的信息来源是视频的标题和描述,与文章、网页的检索架构区别不大,其原因除了技术上的挑战外,还有用户的需求通过关键字检索基本能够满足。
图2呈现了目前优酷的主要业务模块构成以及其搜索索引库的内容类型及品类,单纯的基于标题和描述作为被检索文本会遇到如下困难:
图3是一个比较典型的视频素材寻找类的查询词,图中给出的搜索结果是基于文字模态来进行的,明显可以看出这与用户的预期之间的差异,索引的内容并没有体现出对视频内容本身的理解。
视频网站对标国际一线厂商的话,诸如Netflix和YouTube这些网站,推荐在其中都扮演着至关重要的作用,以Netflix为例,推荐系统贡献了超过70%的视频播放量,而在国内的三家长视频网站却不尽然,推荐的占比都在三分之一以下。中国大陆的用户和欧美的用户不同,国内的观众在电视剧上呈现出头部过于集中的现象,这与内容的供给方工业化程度低以及电视剧粗制滥造现象泛滥有直接关系,同时还受到主要电视台、视频网站的排播和宣推策略的影响。推荐和搜索类似,最擅长的是在信息爆炸的情境中解决信息过载的问题,如果视频节目候选集合比较小的情况下,推荐是否就失去了用武之地呢?回答是否定的,如抖音、快手这样的短视频APP,因每天上传量都超过百万,甚至千万,人力所不能及,只能采用机器算法分发;但一部电视剧的宣发要面对的用户也是超过亿的量级,从货找人的维度,人力也无法处理,如何高效的利用数据产生生产力对于长视频网站也是一项核心竞争力。
图8是目前优酷推荐的算法架构,在视频推荐的问题上如何提升用户和推荐系统之间的信任度是我们面临的核心问题,因此推荐系统的智能化在去年被提到很高的优先级。从图中我们可以看出,目前的主要召回方式分为如下几种:
图9给出了基于多模态分析技术的视频打标签示例,从这个例子我们可以看出,基于视频、音频、文字多个模态可以显著的提升标签分类的准确率,其缺点就是计算量较大,多个模态端到端的融合学习是一个技术难点。
目前各个视频网站处理视频数据的颗粒度多数情况下都是video本身,能通过深度模型、图模型等方法学习出一个video vector来刻画视频特征空间是近年来新兴起的一种向量化方法。然而这对于视频媒资库的智能化需求而言是远远不够的,内容的二次创作、三次创作对于视频内容的解构有很高的要求,内容理解和拆解的颗粒度决定了智能媒资库对于视频业务的新价值。
上图给出了智能媒资系统的两个主要技术应用,分别是视频多维解构分析和视频智能生产。
这里推荐大家阅读《STORY故事:材质 结构 风格和银幕剧作的原理》这本书,好的视频内容,无论形式是长还是短,其拍摄的时候都是有逻辑洞现的。而视频内容解构在一定程度上可以看做是拍摄过程的逆过程,即逆向工程(Reverse Engineering)。从一个完整的视频且分出不同的片段,进而到镜头、关键帧、关键元素,这些能够形成一个树形结构(或者网状结构),每个图中的元素都是一个节点。针对视频形式、题材的区别,内容运营产品会构建不同的领域模型来指导解构,常用的模式如时间、地点、场景、任务、动作等等。
当视频内容被拆解为细颗粒度的要素之后,智能媒资库才可能赋能视频生产,甚至视频原生广告。视频的全自动生成是一件很有挑战的事情,而内容的剪辑创作是机器目前比较难于胜任的工作,但是素材的搜索和推荐却是提效视频创作的有效手段。我们很多PGC合作伙伴在进行影剧综漫周边视频制作时都苦于视频元素的寻找和剪辑,而视频解构技术恰好可以赋能这一过程。
Netflix于2018年公布了一项很有意思的工作,即电影个性化海报推荐,其原理就是针对不同的用户、不同的上下文选择不同的海报素材来呈现同一部电影的推荐结果,他们利用了强化学习相关的策略来做分发提效,目的是提升视频的点击率。而优酷这边碰到的缺是新的问题,全站有上万部存量电视剧、电影,为它们专门制作海报投入太大,网上能够抓取到的海报图往往比较陈旧,对用户的吸引力也大幅度减弱。因此,能否自动给这些视频生成海报图变成为了一项很有业务和技术挑战的课题,优酷算法中心的工程师和达摩院的科学家一起进行了深入研究,初步拿到了一些结果。
图13、图14都来自于优酷和达摩院在NeurIPS 2018 Workshop of Video Understanding in Youku的分享,封面图的生成来源于对内容的准确分析和解构。
视频内容的理解对于采、制、宣、发、播这五个核心业务环节,视频的搜索交互形态也会呈现出多元化的模态,且视频本身的元素化结构将会极大的助力内容再次创作,赋能给PGC生态。我们将在如下几个方向上持续加大投入:
视频解构分析与智能生产
交互式动态视频技术
端到端的多模态视频理解与分发算法
基于视频理解的内容评估技术
多模态对话式搜索技术
好的视频内容是能够激发观众的情感共鸣的,而很多用户追剧、看电影的动力之一就是分享感动和快乐,如何能够在移动时代抓住用户的碎片化时间和整块娱乐时间是各个视频网站争夺的焦点之一。近年来深度学习在多媒体数据上的突破性进展给多模态内容理解带来了新的机会,如何能够让机器“看懂“视频内容将会是视频网站核心技术的制高点之一。
多模态内容理解作为一项逐渐走出学术象牙塔的技术,未来会在视频业务中扮演着越来越重要的角色。
王晓博,阿里大文娱集团资深算法专家,优酷算法中心负责人。2010年博士毕业于北京航空航天大学计算机学院数据挖掘方向,先后在百度、搜狗商务搜索部门从事算法策略研发工作。2015年加入阿里组建猜你喜欢算法团队,将猜你喜欢打造为手淘第一大导购场景,成为淘宝平台导购流量分发的核心入口。2018年起负责优酷算法中心,组建认知实验室,推出了多模态搜索推荐引擎、视频理解与智能生成平台等系列产品。主要研究方向为大规模分布式机器学习算法、多模态交互搜索推荐系统、算法博弈论。
王晓博老师将在 QCon北京2019 的**“人工智能技术”专题做题为“结构化视频分析算法与应用”**的演讲。该专题还有多位行业内人工智能场景落地的专家,他们将多维度为大家呈现 AI 对行业的改造,以及AI 升级带来的产业硕果。目前大会门票 9 折火热预定中,现在报名立减 880 元,团购还可享受更多优惠!点击 「 阅读原文 」或识别二维码即可查看大会完整日程。席位有限,马上拿起电话联系票务小姐姐 Ring 吧:电话/微信:17310043226
转载地址:http://flkdm.baihongyu.com/