还记得哈利波特的隐身斗篷吗?
披上斗篷的哈利波特瞬间隐身,毫无痕迹。
现在只需要一个AI算法,你也可以拥有这件AI隐身衣。
视频『擦除』,这个AI就够了
在视频后期处理中,经常会遇到一项难搞的需求:如何把一个人/物从视频中完美剔除?虽然Ps技术已经很普及,但也很难处理视频问题。
而现在,只需要一个名为光流边缘引导(Flow-edge Guided)的AI修复算法,这项耗时又费力的工作分分钟就可以搞定。
至于效果怎么样?我们直接看演示图。
上一秒还在路上行驶的汽车,下一秒好像从未出现过。
背景也被高度还原,看不出一点痕迹,比如下图女孩消失后,秋千依然还在。
另外,它也能处理更复杂的场景和物体,比如还有漂浮在海上的帆船,正在跨越栏杆的赛马选手。
如此完美的视频处理效果,也让网友惊呼:现实版《真相捕捉》,视频可能再也不是可靠的证据。
研究人员表明,这款AI算法在视频物体移除、去水印和画面扩展方面均达到了目前的最佳SOTA。而且它还刚刚还被ECCV 2020顶会收录。
ECCV全称欧洲计算机视觉国际会议(European Conference on Computer Vision),是计算机视觉三大会议之一,每两年举办一次,论文录取率仅为27%。
光流边缘引导修复算法
这项隐身AI修复技术,主要采用的是光流边缘引导修复算法。
与现有方法相比,该算法能够更精准的识别目标物体的运动边界。
现有算法主要通过相邻帧的局部流连接传播色彩,这种方式不能保证所有视频在删除目标物体后,其背景都能恢复原貌,因此,很容易留下伪影。
该算法通过引入非局部流连接(Non-local Flow Connections)解决了这个问题,并使得视频内容能够在运动边界上传播。
通过在DAVIS数据集上的验证,其可视化和定量结果都表明,该算法具有更好的性能。
具体来说,它主要是通过以下几个方面的改进实现了最终的效果:
光流边缘(Flow edges):补全分段光滑流。(图1b)
非局部流(Non-local flow):连接不能通过传递流(transitive flow)到达的区域。(图1C)
无缝融合(Seamless blending):通过在梯度域中执行融合操作避免结果中的可见接缝(图1d)。
内存效率(Memory efficiency),处理4K分辨率的视频,其他方法由于GPU内存需求过大而无法实现。
以下是实现过程的完整架构图,图1a部分是模型的输入源,由彩色视频和二进制的掩码视频两部分构成其中,被遮罩的像素称为缺失区域,代表需要合成的部分。
图1:算法模型概览
(1)光流补全(Flow completion)
计算相邻帧之间的正向和反向流以及一组非相邻帧,并补全这些流场中的缺失区域。(缺失区域的值往往为零,白色)
由于边缘通常是流映射中最显著的特征,因此首先完成边缘的提取,然后,再以补全之后的边缘为导向,逐步完成分段平滑流。
(2) 时间传播(Temporal propagation):
接下来,沿着流的轨迹为每个丢失像素传播一组候选像素。从链接前向和后向的流向量得到两个候选点,直到到达一个已知像素。
这一过程利用的是非局部流向量:通过检查三个时间间隔的帧来获得另外三个候选帧,对于每个候选者,估计一个置信分数以及一个二进制有效性指标。
如图,绿色区域代表缺失部分,黄色、橙色和棕色线分别代表第一个非局部帧、当前帧和第三个非局部帧的扫描线。
通过跟踪流动轨迹(黑色虚线)达到缺失区域的边缘,可以获得蓝色像素的局部候选对象。但由于人腿部运动形成的流动障碍,无法获取红色像素的候选对象。
在这里研究人员借助于连接到时间距离帧的非局部流,获得了红色像素的额外非局部邻域,并还原了腿部覆盖的真实背景。
(3) 融合(Fusion)
使用置信加权平均值(A Confidence-weighted Average)将每个缺失像素的候选像素与有效候选像素进行融合(至少一个)。这一过程在梯度域内进行,以避免可见的彩色接缝(图2d)。
如果在此过程之后仍有缺失的像素,且无法通过时间传播来填充,将采用一个关键帧,使用单个图像完成技术来填充它。
最后将整个过程不断迭代输入,并将结果传播到视频的其余部分,以便在下一次迭代中加强时间一致性。
与先进算法相比,性能最佳
论文中,研究人员利用DAVIS数据集,与其他六种现有方法进行了比较,并进一步评估了PSNR,SSIM和LPIPS三项指标。
由于内存限制,并不是所有的方法都能处理960×512的分辨率,所以将其缩小到了720×384,并报告了两种分辨率的数值。结果显示,在这三个指标上,本次研究算法性能表现最佳(红色加粗数据)。
另外,在光流补全方面,与最新进的Diffusion和徐瑞(商汤)的算法相比,该方法也能更好地呈现锐利且平滑的运动边界。
此外,在修复任务(前三列)和对象移除任务(后三列)方面,也有视觉上也有更好的体现。
关于作者
这篇论文由四位研究人员合力完成,包括弗吉尼亚大学的Chen Gao和Jia-Bin Huang,以及Facebook的Ayush Saraf和Johannes Kopf。其中,Chen Gao是本篇论文的一作。
Chen Gao是弗吉尼亚大学的一名在读博士,专攻计算摄影和计算机视觉领域,研究重点是图像/视频操作和场景理解。在此之前,曾就读于密歇根大学和俄勒冈州立大学。
2019年夏季,Johannes Kopf博士的帮助下,Chen Gao成为了Facebook Seattle的一名研究实习生,并且与其团队成员合作完成了这篇论文,此外,他还是Google的研究实习生,与Shi Yichang Chang和Lai Wei-Sheng Li都有过深度合作。
最后,该团队表示会在近期将这项技术开源。