admin管理员组

文章数量:1794759

预测未来

预测未来

《Stochastic Video Generation with a Learned Prior》是201净网8年ICML上的一篇文章,作者提出一种随机视频生成方法SVG(stochastic video genertion),可以根据现有的视频预测生成出接下来一段时间的视频。

这个问题可以如下形式化:给定视频帧序列 S_X=[x_1, x_2, 台球厅\\cdots,x好看的头像女生_T] , 如何预测接滑翔机下来一段时间的视频序列 S_Y = [y1, y2,\\cdots, y_{T'}]

视频生成的思路比较直接:将已有的视频帧编码至一个latent space中去,再用LSTM在隐空间中学习到视频帧时域上的联系。最后再将LSTM输出的latent vector解码至图像空间。

直接说可能有些笼统。用 Enc:\\mathbb{R}^{h \\t舌吻教程imes w \\times c} \\rightarrow \\mathbb{R}^{杭州夜校Nz} 表示encoder, 用 Dec:\\mathbb{R}^{Nz} \\rightarrow \\mathbb{R}^{h \\times w \\times c} 表示decoder,用 LSTM:\\mathbb{R}^{Nz} \\right衡泰信高尔夫arrow \\mathbb{R}^{Nz} 表示LSTM。上述训练过程可以表示如下:

z_1 = Enc(x本手1), \\quad z_2 = LSTM(z_1), \\quad x_2^* = Dec(z大家都懂的网站_2) \\\\ z_2 = Enc(x2), \\quad z_3 = LSTM(z_2), \\quad x_3^* = Dec(z_3) \\\\ \\vdots \\\\ z_{T-1} = Enc(x_{T-1}), \\quad z_T = LSTM(z_{T-1}), \\quad x_T^* = Dec(z_T) \\\\

这种方式训练得到的网络具有更具当前帧预测下面帧的能力。

不难发现,这种方式生成的视频都是确定性的。那么标题中所说的stochastic体现在哪儿呢?

本文的一个创新点就在于,采用VAE的思路,在隐空间中引入另一个随机变量z,用它和encoder编码的特征一刷牙牙龈出血起来对未来进行预测。

直接上图:

这里所说的 z_t 就是引入的随机变量。正是由于它的随机性,带来了生成结果的stochastic. 所以这样来看,这个模型就变为了修改版的VAE. 这里的修改主要体现在以下方面:

encoder学习的latent vector的概率分布不再是基于当前样本的 p(z|x) , 而是相对于一个婴儿发育序列 p(z_t|x_{1:t})缎带骑士 。这部分通过 LSTM_{\\phi} 实现用于decode的不再仅仅是重采样得到的latent vector,同时还有前一帧通过encoder得到的特征decoder学习的也不再是基于当前latent vector的数据分布,而是基于一个latent vector序列的分布 p(x_t|x_{1:t-1}, z_{1:t})

因此, 要优化这样一个修改版的VAE,其变分下界具有如下的尴尬瞬间形式:

仅仅这样还不够。这里的先验 p_z 如果直接采用固定的高斯分布,无法刻画视频中帧出轨的妻子与帧之间的联系。因此作者又提出另一个版本:再通过一个LSTM来学习这里的先验,也即SVG-LP(learned prior).

这样inference时候,隐变量 z 不再是从 \\mathcal{N}(0,I) 中采样,而是从 \\matballancehcal{N}(\\mu_{\\psi(t)},\\sigma_{\\psi(t)}) 中采样。其中, \\psi女律师 是用于先验学习的LSTM网络的参数一克拉钻石。

这是与其他方法的对比结果。可以看到生成图片质量的确更加清晰了:

同时,作者也可视化了学习到的先验 \\sigma_{\\psi} 在时间序列中不同时刻的值的大小。它反映了decoder的冬天喝什么茶好输入是更依赖与前一帧的特征,还是从学习到的分布中采样出的结果。

结果表明,在SM-MINST数厦大mba据集上,当数字与边缘要发生碰撞时(图中竖线标明的位置),stocha唯物主义一元论stic项的权重会迅速增大。这是由于发生碰撞时,下一时刻的不确定性大大增加,因此网络的生成会更加依赖随机采样的结果。

欢迎讨论指正(*^_^*)

本文标签: 未来