论文解读：语义一致的视频描述生成-FlyAI

论文标题：Attention-based LSTM with semantic consistency for videos captioning

论文地址：https://dl.acm.org/doi/abs/10.1145/2964284.2967242

基于编码器、解码器和注意力机制，video caption出具成效。而这篇文章认为，视频描述不仅仅需要将视频序列动态注意力信息建模和集成为自然语言，还需要考虑句子语义和视觉内容之间的关系。

文中首先使用预训练的用于图像分类的2D 卷积神经网络和用于动作识别的3D 卷积神经网络提取视频的特征向量，然后使用注意力机制对这些向量的动态加权和作为decoder的输入。而这篇文章的创新之处在于使用了一个公共特征向量空间，即将解码器输出的向量与卷积神经网络提取的特征向量映射到同一个特征空间中，通过这样的跨模态模型来强制生成的文本语义与视频的视觉语义一致。具体做法是将所有提取出的视频特征向量取平均作为视觉语义特征输入，对预测语句中所有词对应的词向量取平均作为文本语义特征输入，分别经过两个全连接层映射至相同的特征空间。训练模型使用两种损失函数，一种损失函数，也就是针对本文提出的common space的损失函数（loss1），为视觉语义特征向量进过变换后得到的向量，与文本语义特征向量经过变换后得到的向量之间的范数差，优化该损失函数可使生成语言的语义更接近视频内容的语义；另一种是常规的交叉熵损失，使生成的单词应以语言连贯地组织起来（loss2）；以两个损失函数的加权和作为最终要优化的损失函数，表示为：loss = (1-p)*loss1 + p*loss2

截屏2020-05-10上午10.11.46.png

本文使用Sport1M 数据集训练3D-CNN,使用UCF10数据集对模型3D-CNN进行微调；使用Youtube2Text数据集作为训练生成标题的神经网络的数据集，该数据集包含1970个视频，按照1200:100:670的比例切分为训练集、验证集、测试集，每个视频在前240帧中等距采样22帧输入2D-CNN提取视频静态特征，通过预训练GoogleNe的pool5/7x7 s1 layer得到1024维的特征向量，视频中等距采用6个由16帧组成的视频镜头分别输入预训练的3D-CNN提取1024维的视频动态特征向量，静态特征向量与动态特征向量组成的整体作为视频特征的表征。在评价生成的视频描述上，使用三种标准的评价矩阵BLUE ， METEOR 和 CIDEr 。生成描述时采用束搜索，k取10。

作者研究了模型效果与p值之间的关系，如图当p=0.9时效果到达峰值。并将其方法与其它多种方法对照，在当时取得较好效果。截屏2020-05-10上午10.41.41.png 截屏2020-05-10上午10.41.53.png 个人认为该论文的主要缺陷如下：

将视频特征和文本特征映射到common space中时，仅仅使用特征向量取平均的方法作为输入，这样丢失了视频和文本的时序特征和局部特征，并不能完整地表示二者的语义特征
使用预训练的2D-CNN提取静态特征，该CNN用于图像分类，在提取图像的局部特征、细粒度特征上功能不佳
视频特征与文本特征映射到相同的特征空间，需要两个全连接层，将这两个全连接层的特征在随机初始化的情况下与其它网络参数一起学习有点不妥，容易造成过拟合，因为它们可能刻意“迎合”视频特征和文本特征的输入，从而无法真正衡量它们之间的相似性
直接使用视频不同特征向量的动态加权和作为decoder的输入，同样会丢失部分有效特征

这篇论文的核心思想是拉近视频视觉语义与生成描述的文本语义之间的差距，是一个创新点，但是实现上相对有点简单粗暴，还有诸多需要优化的地方。

图片均源自原论文