CAP：多重注意力机制，有趣的细粒度分类方案 | AAAI 2021

如题所述

第1个回答 2022-07-03

论文: Context-aware Attentional Pooling (CAP) for Fine-grained Visual Classification

论文认为大多数优秀的细粒度图像识别方法通过发掘目标的局部特征来辅助识别，却没有对局部信息进行标注，而是采取弱监督或无监督的方式来定位局部特征位置。而且大部分的方法采用预训练的检测器，无法很好地捕捉目标与局部特征的关系。为了能够更好地描述图片内容，需要更细致地考虑从像素到目标到场景的信息，不仅要定位局部特征/目标的位置，还要从多个维度描述其丰富且互补的特征，从而得出完整图片/目标的内容。
论文从卷积网络的角度考虑如何描述目标，提出了context-aware attentional pooling(CAP)模块，能够高效地编码局部特征的位置信息和外观信息。该模块将卷积网络输出的特征作为输入，学习调整特征中不同区域的重要性，从而得出局部区域的丰富的外观特征及其空间特征，进而进行准确的分类。
论文的主要贡献如下：

论文算法的整体流程如上图所示，输入图片，输出具体从属类别，包含3个组件(3组参数)：

[图片上传失败...(image-bc43b-1644805770766)]

定义卷积网络输出的特征为，CAP的模块综合考虑像素级特征、小区域特征、大区域特征以及图片级特征的上下文信息进行分类。

[图片上传失败...(image-818dc8-1644805770766)]

像素级特征的上下文信息主要学习像素间的关联度，在计算位置的输出时根据关联度综合所有其他像素特征，直接使用self-attention实现，特征转化使用卷积。这一步直接对主干网络输出的特征进行操作，但没在整体流程图中体现。

为了更高效地学习上下文信息，论文在特征图上定义不同粒度级别的基本区域，粒度级别由区域的大小决定。假设位置上的最小的区域为为例，可通过放大宽高衍生出一系列区域，，。在不同的位置产生相似的区域合集，得到最终的区域合集。覆盖了所有的位置的不同宽高比区域，可以提供全面的上下文信息，帮助在图片的不同层级提供细微特征。

按照上一步，在特征图上得到个区域，大小从最小的到最大的，论文的目标是将不同大小的区域表示为固定大小的特征，主要采用了双线性插值。定义为坐标转换函数，为区域坐标，对应的特征值为，则转换后的图片的坐标上的值为:

为采样函数，为核函数，这里采用的是最原始的方法，将目标坐标映射回原图，取最近的四个点，按距离进行输出，最终得到池化后的固定特征。

这里，论文使用全新的注意力机制来获取上下文信息，根据与其他特征的相似性进行加权输出，使得模型能够选择性地关注更相关的区域，从而产生更全面的上下文信息。以查询项和一组关键词项，输出上下文向量：

参数矩阵和用来将输入特征转换为查询项核关键项，为非线性组合，和为偏置项，整体的可学习参数为，而注意力项则代表两个特征之间的相似性。这样，上下文向量能够代表区域蕴含的上下文信息，这些信息是根据其与其他区域的相关程度获得的，整体的计算思想跟self-attention基本相似。

上下文向量描述了区域的关键程度和特点，为了进一步加入空间排列相关的结构信息，论文将区域的上下文向量转为区域序列(论文按上到下、左到右的顺序)，输入到循环神经网络中，使用循环神经网络的隐藏单元来表达结构特征。
区域的中间特征可表示为，采用LSTM，包含LSTM的相关参数。为了增加泛化能力和减少计算量，上下文特征由进行全局平均池化得到，最终输出上下文特征序列对应的隐藏状态序列，后续用于分类模块中。

[图片上传失败...(image-aab286-1644805770766)]

为了进一步引导模型分辨细微的变化，论文提出可学习的池化操作，能够通过组合响应相似的隐藏层来整合特征信息。论文借鉴NetVLAD的思想，用可导的聚类方法来对隐藏层的响应值进行转换，首先计算隐藏层响应对类簇的相关性，再加权到类簇的VLAD encoding中：

[图片上传失败...(image-2d95b2-1644805770766)]

每个类簇都有其可学习的参数和，整体思想基于softmax，将隐藏层的响应值按softmax的权重分配到不同的类簇中。在得到所有类簇的encoding向量后，使用可学习的权值和softmax进行归一化。因此，分类模块的可学习参数为。

[图片上传失败...(image-d9e014-1644805770766)]

在不同的数据集上，对不同方法进行对比。

不同主干网络下的准确率对比。

不同模块输出特征的可视化，图b是加入CAP后，主干网络输出的特征。

论文提出细粒度分类解决方案CAP，通过上下文感知的注意力机制来帮助模型发现目标的细微特征变化。除了像素级别的注意力机制，还有区域级别的注意力机制以及局部特征编码方法，与以往的视觉方案很不同，值得一看。

相似回答

3D目标检测,第一步要做的是什么?答：进一步，F-ConvNet (IROS 2019)引入了frustum-level特征，与F-PointNet的点级处理相比，它能更好地捕捉对象结构，通过端到端学习提供更丰富的上下文信息。而TANet (AAAI 2020)则凭借其三重注意力机制，为点云3D对象检测带来了显著的鲁棒性提升。这些技术的融合和优化，揭示了3D目标检测领域的深度和多样性...

AAAI 2021:商业应用的顶级研究论文答：TabNet: Explainable Tabular Learning with Attention Mechanism Sercan Arik和Tomas Pfister的研究提出TabNet，一种可解释的深度表数据学习架构。通过顺序注意机制，模型在每个决策阶段选择特征，提高学习效率和可解释性，尤其在表格数据的无监督学习中性能优秀。 Traina: Large-Scale Instance Classifier for ...

重庆大学冯磊本科在哪读的答：主要成就：截至2021年，近三年来，已在ICML、NeurIPS、KDD、CVPR、AAAI、IJCAI等国际顶级（CCF A类）会议与中科院一区期刊上以第一作者或通讯作者发表论文十余篇。研究成果在弱监督学习领域做出了许多重要的贡献。2021年7月间，重庆大学计算机学院消息透露，冯磊撰写的论文《Pointwise Binary Classification wit...

AAAI 2021最佳论文奖出炉,北航成最大赢家,还有这样一批华人学术新星...答：在第 35 届AAAI 2021人工智能会议中，北京航空航天大学（北航）成为最大赢家，学者们凭借卓越的科研成果摘得奖项。会议上，三篇论文荣获最佳论文奖，其中两篇由华人学者一作，分别来自北航的Haoyi Zhou和达特茅斯学院的Ruibo Liu。这些获奖论文聚焦于长序列时间序列预测和多智能体学习中的探索-利用问题，...

MCTS方法在强化学习和组合优化中的调研答：最后这篇文章是AAAI21,我曾经做过一个论文复盘论文复盘:Generalize a Small Pre-trained Model to Arbitrarily Large TSP Instances-AAAI2021大规模tsp监督学习方法。他就是在这个操作前监督学习train了小网络并且拼接得到热图来生成初始解。但是读了前一篇文章我对这个结果就有点不解了...总结一下:MCTS是一个解决...

2021年NLP重要国际会议时间答：AAAI-22：预计截稿时间在2021年9月 ICLR 2022：预计截稿时间在2021年10月已建立机器学习算-自然语言处理微信交流群！想要进交流群进行学习的同学，可以直接加我的微信号：HIT_NLP。加的时候备注一下：知乎+学校+昵称（不加备注不会接受同意，望谅解），想进pytorch群，备注知乎+学校+昵称+Pytorch即可...

大家正在搜

注意力机制可以用在哪些地方注意力机制的改进多层注意力机制什么是注意力机制注意力机制概述双注意力机制局部注意力机制知识注意力机制注意力机制实例