对于大多数人来说,当我们看到梵高的《星空》、毕加索的立体主义、蒙克的《尖叫》……虽然没法像艺术史教授那样分析每一位画家的技术,但是都会一看就感觉到,每位艺术家都有一种强烈、独特的个人风格。即使不知道作者是谁,也会感觉“恩,这幅画感觉很梵高”。
那么机器人看画展会是什么感觉呢?深度神经网络正在改变机器识别和解读世界的方式。机器视觉现在已经能在某些任务上超过人类,例如物品和面部识别,这在几年前还是不可想象的。
最近,机器也开始尝试理解艺术风格,并玩了一把山寨。我们还不知道这项技术能做到多少。例如,能不能给机器一张图片,然后将图片风格复制到另一个视频中?并且,维持良好顺畅的视觉体验?
今天,德国弗莱堡大学的Manuel Ruder及伙伴们成功了。他们复制了梵高的《星空》和蒙克的《尖叫》等著名作品中的风格,粘贴至各种电影和电视剧的视频片段中,例如超萌的动画电影《冰川世纪》,以及由作家阿加莎·克里斯蒂小说改编而成的英国悬疑犯罪电视剧《马普尔小姐》。项目带来了超级惊艳的视频,让我们看到,几乎任何你能想到的视觉风格都可以复制粘贴。
深度神经网络由许多层组成,每一层从图像中抽取信息,然后将剩余信息传递给下一层。第一层抽取颜色等较明显的模式,越深的层所抽取的信息越细节化,以此实现视觉识别。比较深的层所抽取的信息非常重要,这实际上就是图像减去例如颜色、材质等等所有环境信息。从某种意义上来说,这就是电脑在画简笔画。
去年,德国图宾根大学的Leon Gatys及伙伴们开始用这种方式研究艺术风格。他们发现,要抓住艺术风格的本质不一定得了解每一层所抓取的信息,而是研究各层之间的关联性。艺术家画人脸的方式,与他或她画一棵树、一栋房子或者星星月亮的方式应该是有关联的。抓住了关联性,也就是抓住了风格的本质。
不过,他们的关键发现是,图像的内容可以完全与其艺术风格分离。他们还发现,艺术风格可以被复制粘贴,放到随便什么其他图像上去。
所以提升逼格的利器来了!你可以拍一张你家喵星人的睡姿,然后把它变成高大上的现代抽象主义康定斯基画风。或者来一张蒙克尖叫式的自拍也行。除了搞笑,这项技术还可以玩些啥呢?
还可以将画风粘贴到连续的图像上,做一个视频。但这引起了别的问题。连续帧之间的小差异,有可以导致艺术风格全盘崩坏,甚至让整个视频看起来磕磕碰碰、毫不连贯。其中一个问题就是物体在移动或被遮蔽时,如何处理物体的边缘。
现在,Ruder和同事们解决了这个问题。“基于一个艺术图像,我们可以成功将其风格转化到整个视频中去。”他们说。他们的方法是使用一个算法来分析连续处理帧之间的差异,避免大的变化,同时忽略画面中被遮蔽的部分。他们说:“这让我们可以重建取消遮蔽的区域和变形的移动边界,同时保留图像中其余部分的样子。”
结果超级神奇。团队使用算法来从各种不同的艺术作品中抽取出艺术风格,包括康定斯基、毕加索、马蒂斯、特纳以及人气最高的蒙克和梵高。他们用1024 x 436像素的NVIDIA TITAN X GPU处理系列中的每一个图像,以及一个CPU在同时平行运行。刚开始,处理每一帧需要8分钟。但是经过优化之后,处理每一帧只需要3分钟。团队的方法在计算方面变得越来越强大。
当然,还是有一些可以改进的地方。如果帧与帧之间的变化非常快速或非常大,算法的表现还是差强人意。而且,计算时间应该还可以进一步优化降低。不过这些问题不影响我们欣赏视频里的惊艳效果。
人们不禁思考,这项技术还有哪些应用空间。我们可以想到的是,也许之后会有一些基于云端的APP,让你可以用你的手机拍视频,然后加入艺术风格。但是,有没有可能将蒙克的《尖叫》风格转化到3D空间,通过虚拟现实(VR)实现出来呢?
另一方面,这项技术也为摄影和艺术领域打开了新的可能性。如果艺术风格变成了一种商品,人们可以购买下来,然后复制粘贴到不同的图像上,那么艺术家本身的价值是否会改变?甚至,我们还可以买下几个不同的风格,混搭起来再进行编辑,也许又会有新的玩法。
到那时,我们可以掏出手机或者VR设备,来一张古典主义+野兽派+超现实主义+立体主义+未来主义+波普艺术的混搭风格自拍。
评论 (0)