有关GNN的三篇论文导读
图像分类
最后更新 2020-04-15 15:56 阅读 7254
最后更新 2020-04-15 15:56
阅读 7254
图像分类
1. 《Perserving Structural RelationShips for Person Re-Identification》
论文链接:http://vipl.ict.ac.cn/uploadfile/upload/2019071008513883.pdf
许多计算机视觉的研究在很大程度上依赖于结合有池化层的卷积神经网络(CNN),其中池化操作减少了参数数量并带来了旋转不变性。但是,本文发现池化操作可能会破坏有价值的结构关系信息,从而导致在诸如行人重识别之类的任务中进行有缺陷的特征学习。 在本文中,提出了一种称为“结构关系学习”(SRL)的方法,该方法通过基于卷积特征和边缘传播信息构造空间结构图来捕获结构关系。
SRL模块首先通过一个特征提取器提取一个二维原始特征,维度为H*W*C,然后将二维特征展成一个一维的特征N*C,N=H*W,每个特征代表GCN的一个节点,然后通过特征二维上的空间相邻性构造一个邻接矩阵A,A的维度为N*N。邻接矩阵A的构造规则为:
得到了特征节点和邻接矩阵后,输入到GCN里进行计算,公式为:
经过若干层GCN之后即可得到SR feature,该特征即包含了原始特征的空间结构关系。
2. 《Rethinking Knowledge Graph Propagation for Zero-Shot Learning》
论文链接:https://munin.uit.no/bitstream/handle/10037/14264/paper_VII.pdf
由于多层GCN结构需要将知识传播到图中较远的节点(传递并吸收较远节点的知识),在每一层都要执行Laplacian平滑,会稀释知识导致性能降低。
为了利用图结构的优势,同时防止较远节点导致的知识稀释问题,本文提出Dense Graph Propagation (DGP)模型(研究如何设计与较远节点的直接连边)。DGP模型通过这些直连边来利用知识图谱的层次图结构。这些连边是根据节点与其祖先和后代的关系添加的。为了进一步改进图中的信息传播,采用了一种权重方案,根据到节点之间的距离来对它们的贡献进行加权。DGP模型得到分类器参数后,采用两阶段训练方式来微调预训练的CNN特征提取网络。
DGP中考虑了所有的 seen 和 unseen 特征,使用词嵌入向量的方式。
对于 zero-shot 的任务,目标就是通过预测一组新的参数来扩展CNN,使得这组参数能够适应 unseen classes 的分类。训练过程中,DGP使用了一种半监督的方法来预测 CNN 最后一层的参数(对于所有 seen 和 unseen 的类),这样就能够利用知识图谱提供的类别的语义描述之间关系的信息来扩展原有的 CNN 分类器,使之能够适应 unseen 的类。
给定一个有 N个节点的图,每个节点使用 S 维输入特征表示 特征矩阵X维度为N×S。这里每一个节点表示一个不同的概念/类经过词嵌入后的类别向量。类之间的连接使用对称的邻接矩阵A表示 ,H0为X,GCN计算公式为:
最后借鉴model-of-models的思想,即通过一个模型来预测另一个模型中使用的参数。计算损失函数为:
3. 《DOCK: Detecting Objects by transferring Common-sense Knowledge》
论文链接:
通过将常识知识(DOCK)从源类别转移到目标类别,本文提出了一种可伸缩的检测对象方法。 本文尝试在区域级别而不是图像级别使用相似性,并且利用更丰富的常识(基于属性,空间等)来指导算法 学习正确的检测器。 这些常识从容易获得的知识库中自动获取,而无需任何额外的人工操作。
本文提出的方法首先使用一个基础检测网络,然后向其中注入常识知识,同时介绍了如何从不同资源库中自动收集不同类型的常识知识。
(1). 基础的检测网络 这一部分使用一个常用的目标检测网络,输出一个分类矩阵X,X的维度为P*C,P为候选框的个数,C为类别数,该矩阵代表每个候选框为某个特定类别的概率。
(2). 常识迁移为了将常识知识从具有图像和边界框注释的源类别转移到仅具有图像级注释的目标类别,本文使用了一个常识矩阵Y,Y的维度与X一样,也是P*C,常识矩阵中的每个元素可以被认为是每个候选框为某个特定类别的一种先验概率。 将X与Y按位相乘得到一个最终的分类矩阵Z,然后对Z进行按列求和即可得到图像级的类别概率,最后利用该概率进行图像级的分类。
(3). 常识的获取 本文将常识分为三类,分别为类别相似常识、属性常识、空间常识
- 类别相似常识的获取 对于相似常识,为了构造类别相似常识矩阵Ys,要先找到目标数据类别中某类ci在源数据类别中的相似类别,本文首先使用word2vec textual feature representation的方法将所有类别(包括源数据类别和目标数据类别)进行表征,然后计算他们的余弦相似度,将相似度>0.35的源数据类别Sci作为ci的相似类别。最后用基础检测器检测出的P个候选框在Sci这些类别中的概率最大值作为P个候选框在ci类上的先验概率。
- 属性常识的获取 属性是一种中级的视觉概念,可以在不同对象类别中共享。为了构造属性常识矩阵Ya,本文利用ImageNet Attribute知识库中预训练的属性分类器集和Visual Genome [19]中易于获得的对象-属性关系集知识库。基础检测器检测出的P个候选框再通过类别ci的属性分类器集,然后对每个候选框计算该属性分类器集的最大值作为该候选框为类别ci的先验概率。
- 空间常识的获取 为了获得空间关系常识矩阵Ysp,本文利用了Visual Genome [19]知识库中与源类别的相对位置和大小有关的信息,该知识库包含具有视觉基础的三元组{object1,relation,object2}。针对某个候选框rn与某个类别ci,分别计算该候选框中心坐标与大小的相对位置分布的平均值的最大值作为rn为ci的空间先验概率。