长期以来,高质量的视频需要依靠专业的编辑工具来处理原始素材以生成引人入胜的视频画面,但这种的情况正在发生改变。在今年11月,来自清华大学和北京航空航天大学,美国哈佛大学和以色列IDC Herzliya的全球人工智能科学家团队,在澳大利亚布里斯班举行的ACM SIGGRAPH亚洲会议上展示团队开发的一种基于人工智能的 “由文本生成视频” 的视频生成技术。利用这个技术,只需要输入文本,算法可以自动从数据库中选择场景或镜头来描绘故事情节,即便是不会视频制作的 “新手” 也能制作高质量的视频蒙太奇,而无需专业的视频制作和编辑技能。
由文本生成视频蒙太奇
随着以卷积神经网络(CNN)及生成式对抗网络(GAN)为代表的人工智能算法技术在影像领域的应用和进一步的成熟,使得计算机视觉技术在近年来大放异彩。特别是在许多单一场景下的技术进步更是加速了智能影像时代的到来,人工智能影像技术不同于静态图片的识别和处理,融合了图、文、音、影等不同的信息内容,以其中的文本处理技术NLP为例,在过去的几十年间NLP技术一直未有重大的突破,直到2018年谷歌AI团队新发布的BERT模型(Bidirectional Encoder Representations from Transformers,即一种基于神经网络的自然语言处理预训练的技术),在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩,全部两个衡量指标上全面超越人类,BERT为NLP带来里程碑式的改变。这些技术的发展促进了图像、文字、音频、视频等不同信息载体之间实现任意的转换,编辑,生产和加工,将成为智能影像的重要基础设施。人类一直在追求极致的视觉享受,更有冲击力的视觉效果和更加有创意的影像内容,这些需求一直在推动影视和媒体行业的发展。正如前文所展示这一最新的进展,IDC Herzliya的Efi Arazi计算机科学学院院长Ariel Shamir教授强调:“由文本生成影像技术,展示了自然语言处理技术与技术机视觉技术结合的潜力,并通过独特的用户界面来实现更自然,更简单的视频制作。” 这是首次将人的能力和人工智能技术以最易用的方式结合在一起,形成的智能影像工具可以帮助人们实现创意过程,不仅可以定义场景的视觉风格,镜头的美学吸引力,还可以实现复杂的蒙太奇效果。
实际上,除了利用人工智能技术实现影片中的形象和一系列表演的制作自动化以外,影视行业也在向自然语言文本自动生成影视内容的这一课题发起挑战。迪士尼研究院的研究人员已经尝试通过人工智能系统,从创作人员的剧本中通过自然语言技术提取信息并理解剧本的故事主线,再形成以故事为中心以及以人物为中心的推理。 这些推理功能的构建通过直观的查询系统向创作人员开放,允许脚本编写者向系统询问有关故事和角色信息的问题,并形成可视化的动画或视频的展示,导演可以更直观地了解角色将如何在场景中进行表演,以及脚本的变化会怎样影响场景,并对剧本进行分析然后生成故事分镜和动画。这一技术在近期的迪士尼一系列影片创作过程中得到了应用,证明可以大幅节省影视编剧人员的精力,缩短电影创作所消耗的时间。迪士尼的研究团队通过在多个电影制作过程中的反馈,逐步地改进和优化这个系统。面对影视媒体这个万亿规模的市场,国内在影视和媒体制作方面也一直在发力追赶,将智能影像技术作为新型的内容生产工具已取得业界的重视。芒果TV独立制作的热播节目《我最爱的女人们》通过与国内智能影像技术厂商影谱科技合作,在播出过程中品牌商只需要给出品牌露出的需求文本,通过人工智能技术会自动匹配内容中最合适的场景,并自动化对节目内容加工,品牌的展示与影视内容无缝融合,利用人工智能技术取代了传统的 “事前” 、“事中”及“事后”布景、剪辑、编辑和加工所需的大量人力,这一技术同样可用于影视拍摄和制作。
由文本生成影像是智能影像技术领域的一个分支,这一应用的成熟可以用于很多不同领域,如电影剧本编写、创意营销、教学视频和公共安全等众多领域,发展前景十分广泛,但依然面临几方面的挑战:首先是数据的问题,人工智能算法的优化以及影像的生成需要有大量的可用于训练的数据以及高质量的素材,这一点对众多的企业和开发者形成了很高的门槛;其次是自然语言处理,BERT证明了一个非常深的模型可以显著提高 NLP 任务的准确率,而这个模型可以从无标记数据集中预训练得到,可以显著提高知识图谱质量,但仍需要在特定的场景中进行训练以提高准确度;最后就是平台化,除了少数在线视频互联网企业外,多数的影视及视频行业仍缺乏对计算机视觉以及NLP方面的专业能力和经验,更需要融合了算法、算力、数据以及用例的平台。
国际及国内的影视、广电、在线视频等产业各方充分认识到了人工智能对这一产业的颠覆性意义,都在加大在智能影像领域的投入,以爱奇艺为例,其研发团队调整了研发方向,在2019年提交的专利申请中超过60%都是与人工智能相关。智能影像行业的快速发展将出现新的产业格局,一方面是在产业核心生产流程中更为广泛的引入人工智能技术,加速自身的智能化升级,另一方面是将涌现众多融合算法、模型、数据、算力等多种能力的智能影像平台企业,这一领域目前以影谱科技为代表企业。随着智能影像平台化企业的发展和生态的繁荣,将更深度地助力影视和媒体行业充分利用人工智能技术升级自身业务流程,并推动实现数字化到智能化的跨域。