首页 >热点 > > 正文

【报资讯】超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former

2022-12-27 15:06:52
↑ 点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台

极市导读

本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效,称为 Conv2Former。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。>>加入极市CV技术交流群,走在计算机视觉的最前沿


(资料图)

本文目录

1 Conv2Former:Transformer 风格的卷积网络视觉基线模型(来自南开大学,字节跳动)1.1 Conv2Former 论文解读1.1.1 背景和动机1.1.2 卷积调制模块1.1.3 Conv2Former 整体架构1.1.4 实验结果

1 Conv2Former:Transformer 风格的卷积网络视觉基线模型

论文名称:Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition

论文地址:https://arxiv.org/pdf/2211.11943.pdf

1.1.1 背景和动机

以 VGGNet、Inception 系列和 ResNet 系列为代表的 2010-2020 年代的卷积神经网络 (ConvNets) 在多种视觉任务中取得了巨大的进展,它们的共同特点是顺序堆叠多个基本模块 (Basic Building Block),并采用金字塔结构 (pyramid network architecture),但是却忽略了显式建模全局上下文信息的重要性。SENet 模块系列模型突破了传统的 CNN 设计思路,将注意力机制引入到 CNN 中以捕获远程依赖,获得了更好的性能。

自从 2020 年以来,视觉 Transformer (ViTs) 进一步促进了视觉识别模型的发展,在 ImageNet 图像分类和下游任务上表现出比最先进的 ConvNets 更好的结果。这是因为与只进行局部建模的卷积操作相比,Transformer 中的自注意力机制能够对全局的成对依赖进行建模,提供了一种更有效的空间信息编码方法。然而,在处理高分辨率图像时,自注意力机制导致的计算成本是相当大的。

为了解决这个问题,一些 2022 年经典的工作试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型?

比如 ConvNeXt[1]:将标准 ResNet 架构现代化,并使用与 Transformer 相似的设计和训练策略,ConvNeXt 可以比一些 Transformer 表现得更好。

从原理和代码详解FAIR去年的惊艳之作:全新的纯卷积模型ConvNeXt

再比如 HorNet[2]:通过建模高阶的相互作用,使得纯卷积模型可以做到像 Transformer 一样的二阶甚至更高的相互作用。

精度超越ConvNeXt的新CNN!HorNet:通过递归门控卷积实现高效高阶的空间信息交互

再比如 RepLKNet[3],SLaK[4]:通过 31×31 或者 51×51 的超大 Kernel 的卷积,使得纯卷积模型可以建模更远的距离。

又对ConvNets下手了!详解SLaK:从稀疏性的角度将卷积核扩展到 51×51

到目前为止,如何更有效地利用卷积来构建强大的 ConvNet 体系结构仍然是一个热门的研究课题。

1.1.2 卷积调制模块

本文的关键就是本小节介绍的卷积调制模块。如下图1所示, 对于传统的 Self-attention, 给定一个序列长度为 的输入 , 自注意力模块首先通过线性层得到 key , query , 和 value , 其中 是通道数。 是输入的空间大小。输出是注意力矩阵 (本质是相似度得分矩阵) :

式中,度量每一对输入令牌之间的关系,可以写成:

为了简单起见,这里省略了 scale factor,自注意模块的计算复杂度随着序列长度N的增加呈二次增长,带来了更高的计算代价。

在卷积调制模块中, 不通过2式计算相似度得分矩阵 。具体来说, 给定输入 , 作者使用一个大小为 的 Depth-wise 卷积 和 Hadamard 积计算输出:

式中, 是 Hadamard 积, 是两个线性层的参数。上述卷积调制操作使每个空间位置 与以 为中心的 平方区域内的所有像素相关, 通道之间的信息交互可通过线性层实现。每个空间位置的输出是正方形区域内所有像素的加权和。

优势: 卷积调制模块利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。

图1:卷积调制模块示意图

ConvNeXt 表明,将 ConvNets 的核大小从3扩大到7可以提高分类性能。然而,进一步增加 Kernel 的大小几乎不会带来性能上的提升,反而会在没有重新参数化的情况下增加计算负担。但作者认为,使 ConvNeXt 从大于 7×7的 Kernel Size 中获益很少的原因是使用空间卷积的方式。对于 Conv2Former,当 Kernel Size 从 5×5 增加到 21×21 时,可以观察到一致的性能提升。这种现象不仅发生在 Conv2Former-T (82.8→83.4) 上,也发生在参数为80M+ 的 Conv2Former-B (84.1→84.5) 上。考虑到模型效率,默认的 Kernel Size 大小可以设置为 11×11。

图2:几种模块的空间编码过程比较

权重策略的优化: 注意这里作者直接将深度卷积的输出作为权重,对线性投影后的特征进行调制。Hadamard 积之前既没有使用激活层,也没有使用归一化层 (例如 Sigmoid 或 LN 层),如果像 SE 模块那样加一个 Sigmoid 函数,会使性能降低 0.5% 以上。

1.1.3 Conv2Former 整体架构

如下图3所示,与ConvNeXt 和 Swin Transformer 相似,作者的 Conv2Former 也采用了金字塔架构。总共有4个 Stage,每个 Stage 的特征分辨率依次递减。根据模型大小尺寸,一共设计了5个变体:Conv2Former-N,Conv2Former-T, Conv2Former-S, Conv2Former-B,Conv2Former-L。

图3:Conv2Former 整体架构

当可学习参数数量固定时,如何安排网络的宽度和深度对模型性能有影响。原始的 ResNet-50 将每个 Stage 的块数设置为 (3,4,6,3)。ConvNeXt-T 按照 Swin-T 的模式将 Block 数之比更改为 (3,3,9,3),并对较大的模型将 Block 数之比更改为 (1,1,9,1)。Conv2Former 的设置如下图4所示。可以观察到,对于一个小模型 (参数小于30M),更深的网络表现更好。

图4:Conv2Former 的架构配置
1.1.4 实验结果

ImageNet-1K 实验分为两种,一种是直接在 ImageNet-1K 上面训练和验证,另一种是先在 ImageNet-22K 上预训练,再在 ImageNet-1K 上微调和验证。

ImageNet-1K 实验设置

数据集:ImageNet-1K 训练 300 Epochs,ImageNet-1K 验证。

优化器: AdamW, lr batch_size :1024, , weight decay 为 , 数据增强: MixUp, CutMix, Stochastic Depth, Random Erasing, Label Smoothing, RandAug。

ImageNet-22K 实验设置

数据集:ImageNet-22K 预训练 90 Epochs,ImageNet-1K 微调 30 Epochs,ImageNet-1K 验证。

如下图5所示是 ImageNet-1K 实验结果。对于小型模型 (< 30M),与 ConvNeXt-T 和 Swin-T 相比,Conv2Former 分别有 1.1% 和 1.7% 的性能提升。即使 Conv2Former-N 只有 15M 参数和 2.2G FLOPs,其性能也与具有 28M 参数和 4.5G FLOPs 的 SwinT-T 相同。对于其他流行的模型,Conv2Former 也比类似模型尺寸的模型表现更好。Conv2Former-B 甚至比 EfficientNetB7 表现得更好 (84.4% vs . 84.3%),后者的计算量是 Conv2Former 的两倍 (37G vs. 15G)。

图5:ImageNet-1K 实验结果

如下图6所示是 ImageNet-22K 的实验结果。作者遵循 ConvNeXt 中使用的设置来训练和微调模型。与 ConvNeXt 的不同变体相比,当模型尺寸相似时,Conv2Former 都表现得更好。此外,我们可以看到,当在更大的分辨率384×384 上进行微调时,Conv2Former-L 获得了比混合模型 (如 CoAtNet 和 MOAT) 更好的结果,Conv2Former-L 达到了 87.7% 的最佳结果。

图6:ImageNet-22K 实验结果

如下图8所示是关于卷积核大小的消融实验结果。在 大小增加到 21 × 21 之前,性能增益似乎已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel 不会带来明显的性能提升。

图7:onv2Former 对于大卷积核的泛化效果很好

消融实验1:卷积核大小

如下图8所示是关于卷积核大小的消融实验结果。在 Kernel Size 增加到 21 × 21 之前,性能增益已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel Size 不会带来明显的性能提升。这表明 Conv2Former 的做法能比传统方式更有效地利用大 Kernel 的优势。

图8:卷积核大小,融合策略的消融实验结果

消融实验2:不同融合策略的影响

如下图8, 9所示是关于不同融合策略影响的消融实验结果。除了上述两种融合策略外, 作者还尝试使用其他方法来融合特征映射, 包括在 之后添加一个 Sigmoid 函数, 对 进行 归一化 处理, 将 的值线性归一化到(0,1]。可以看到, Hardmard 积比其他操作的结果更好。作者发现, 无论是通过 Sigmoid 函数, 还是通过线性的归一化操作, 将 线性化到 之间, 都会对性能有损害。

直筒架构实验结果

遵循 ConvNeXt 的做法,作者也训练了 Conv2Former 的直筒架构 (Isotropic Models) 版本,结果如下图9所示。作者将 Conv2Former-IS 和 Conv2Former-IB 的块数设置为18,并调整通道数以匹配模型大小。字母 "I" 表示直筒架构,可以看到,对于 22M 参数左右的小型模型,Conv2Former-IS 比 DeiT-S 的表现要好得多。当将模型尺寸放大到 80M+ 时,Conv2Former-IB 达到了 82.7% 的 Top-1 Accuracy,这也比 ConvNeXt-IB 高 0.7%,比 DeiT-B 高0.9%。

图9:直筒架构实验结果

目标检测实验结果

如下图10所示是不同骨干网络,以 Mask R-CNN 为检测头和 Cascade Mask R-CNN 为实例分割头在 COCO 数据集的实验结果。训练策略遵循 ConvNeXt。对于小模型,使用 Mask R-CNN 框架时,Conv2Former-T 比 SwinT-T 和 ConvNeXt-T 获得了约 2% AP 的改进。

图10:目标检测实验结果

语义分割实验结果

如下图11所示是不同骨干网络,以 UperNet 为分割头在 ADE20k 上的实验结果。对于不同尺度的模型,我们的Conv2Former可以优于Swin Transformer和ConvNeXt。

总结

本文试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型。本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。最终的模型称为 Conv2Former,它通过只使用卷积和 Hadamard 积,简化了注意力机制。卷积调制操作是一种利用大核卷积的更有效的方法。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。

参考

^A ConvNet for the 2020s^HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions^Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs^More ConvNets in the 2020s: Scaling up Kernels Beyond 51 × 51 using Sparsity

公众号后台回复“CNN100”,获取100 篇 CNN 必读的经典论文资源下载

极市干货

技术干货:数据可视化必须注意的30个小技巧总结|如何高效实现矩阵乘?万文长字带你从CUDA初学者的角度入门实操教程:Nvidia Jetson TX2使用TensorRT部署yolov5s模型|基于YOLOV5的数据集标注&训练,Windows/Linux/Jetson Nano多平台部署全流程

#极市平台签约作者#

科技猛兽

知乎:科技猛兽

清华大学自动化系19级硕士

研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。

作品精选

搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了用Pytorch轻松实现28个视觉Transformer,开源库 timm 了解一下!(附代码解读)轻量高效!清华智能计算实验室开源基于PyTorch的视频 (图片) 去模糊框架SimDeblur投稿方式:添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿△长按添加极市平台小编觉得有用麻烦给个在看啦~

上一篇: 下一篇:
x
推荐阅读

【报资讯】超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former

2022-12-27

高争民爆:这轮疫情对公司生产经营有一定的影响,部分业主单位因疫情停工停产|世界看热讯

2022-12-27

前沿资讯!雪耳能煮多久才能吃啊 雪耳能煮多长时间才能吃

2022-12-26

福莱蒽特: 中信证券股份有限公司关于杭州福莱蒽特股份有限公司2022年持续督导工作现场检查报告|每日报道

2022-12-26

中基协再开4张罚单 2家机构和2名高管受处分_世界快讯

2022-12-26

当前信息:投资38.57亿元新建煤化工项目报批

2022-12-25

世界焦点!羡慕吗?圣马力诺将为每一位新生儿赠送国家队婴儿款球衣

2022-12-25

贵州遵义电厂社区—— 文明创建点亮夜经济

2022-12-24

天天微头条丨兼具高颜值和“有趣灵魂”!虚拟员工“Art鹅”在国家大剧院等你!

2022-12-23

隆基绿能董秘回复:鉴于钙钛矿电池技术的尚未完全具备规模化的条件,目前商业化大规模应用尚不成熟,此外

2022-12-23

这是50位经济学家眼中的2023年 天天新资讯

2022-12-23

青海玉树:36条惠企惠民措施促进经济持续平稳健康运行

2022-12-22

小米汽车“动力电池”专利获授权

2022-12-22

今日快看!【机构调研记录】天治基金调研国盛智科

2022-12-22

郑煤机: 郑州煤矿机械集团股份有限公司关于公司2019年股票期权激励计划第二个行权期行权条件成就的公告_每日快讯

2022-12-21

新创建集团(00659)结算收购要约 本金9230.1万美元的票据已购买及赎回

2022-12-21

康缘药业多款药品入选《江苏省新冠病毒 感染者居家中医药(中成药)干预专家共识》 全球时讯

2022-12-21

江苏北人: 2021年限制性股票激励计划预留授予部分第一个归属期符合归属条件的公告

2022-12-20

全球快报:福星股份:12月19日融券卖出金额11.20万元,占当日流出金额的0.18%

2022-12-20

12月16日基金净值:华安优势企业混合A最新净值0.6843,涨0.32%

2022-12-20

天天微资讯!迈为股份(300751.SZ):减持期已过半、上海浩视已减持0.39万股

2022-12-19

世界观点:涨停雷达:ST板块异动 ST熊猫触及涨停

2022-12-19

我真的很丑吗?米娜被评论太丑心情emo,直言存够100万就不直播了!-今日讯

2022-12-19

9岁的一加,成了改变行业的“尖刀”_天天简讯

2022-12-18

新股消息丨友宝在线再度递表港交所 近三年来亏损已超15亿元

2022-12-17

新能源汽车的2022,谁快跑?谁输了?_世界百事通

2022-12-17

探索科技与公益融合共生,TCL魏雪荣获“年度十大公益人物”

2022-12-16

一文搞定微粒贷怎么开通,需要的小伙伴速看

2022-12-16

瑞康医药: 瑞康医药独立董事对第四届董事会第二十五次会议相关事项的独立意见

2022-12-15

曙光数创(872808)12月15日主力资金净买入73.61万元

2022-12-15

焦点热讯:法媒:澳大利亚开建巨型射电望远镜

2022-12-15

巴安水务(300262.SZ):2023年度拟向金融机构及类金融企业申请不超25亿元综合授信额度:当前速讯

2022-12-14

焦点要闻:神奇B股(900904)12月14日主力资金净卖出1.04万元

2022-12-14

世嘉科技:12月13日获融资买入1027.68万元 世界关注

2022-12-14

环球信息:渭南市悬赏狩猎野猪每头2500元 要求不能下毒不能用枪

2022-12-13

一句话介绍自己 介绍自己的句子_天天新消息

2022-12-13

12月13日起上海轨道交通所有车站不再查验核酸阴性证明和健康码 不再要求扫“场所码”

2022-12-12

钠硫电池突围有望!全新版本容量4倍于锂电 稳定性良好成本更低:环球新要闻

2022-12-12

中信建投:汽车板块预期已向上修复 后续应紧盯景气拐点 世界今亮点

2022-12-12

港股异动 | 康方生物-B(09926)拉升逾7% AK112达成海外授权合作 大摩称预付款显著增强集团现金状况-每日资讯

2022-12-09

港股异动 | 创梦天地一度涨超8% 在Fanbook社区开展中国移动积分兑换活动

2022-12-08

【环球新视野】创耀科技(688259)12月6日主力资金净买入498.96万元

2022-12-07

文化 广东话老豆是什么意思

2022-11-25

文化 历史上三次世界格局分别是什么

2022-11-25

什么是市盈率?730905中签市盈率多少?

2022-06-23

股票黄线和白线代表什么?黄白线指的是什么意思?

2022-06-23

哈银金租月内因违规累计被罚120万元 相关责任人同时被处以警告处罚

2022-06-23

保定银行及旗下分行因未按照规定履行客户身份识别义务等合计被罚100万

2022-06-23

云南勐腊农商银行因违规发放社团贷款等被罚75万元

2022-06-23

因贷后管理不到位等 泸水市农村信用合作联社被罚95万元

2022-06-23

因贷款管理不到位等 浙江衢州柯城农商银行被罚60万元

2022-06-23

证券公司理财产品安全吗?开证券账户有什么风险?

2022-06-23

温州银行衢州分行信贷资金被违规挪用被罚70万

2022-06-23

12天连收8张罚单 泗阳农商行承兑汇票授信管理严重不尽职被罚50万元

2022-06-23

友利银行(中国)被罚90万元 存在个人贷款严重违反审慎经营规则等案由

2022-06-23

因未按规定履行报告义务等 青岛百森通支付三项违规被罚

2022-06-23

新疆北部有降雪 湖北、湖南等地出现大雾

2021-12-13

黑龙江新增本土核酸检测初筛阳性人员5例 均在讷河市

2021-12-13

“恋爱盲盒”抽的不是爱情,是急功近利的心

2021-12-13

北京12月12日新增2例境外输入确诊病例

2021-12-13

满洲里本轮疫情社会面“清零”,迎来拐点!

2021-12-13

北京今日晴冷在线气温低 本周中后期或再遭冷空气侵袭

2021-12-13

近六成受访大学生表示自己不能脱离表情包

2021-12-13

停车费上涨,昆明部分医院停车难缓解了吗?

2021-12-13

救人快递小哥:我不想成为网红 将继续踏实工作

2021-12-13

野猪拟从“三有”野生动物名录中除名

2021-12-13

“三有”名录删除野猪,要把握好捕杀与保护的度

2021-12-13

齐齐哈尔讷河发现5例核酸检测初筛阳性人员

2021-12-13

野猪退出“三有”名录不是一道“滥捕滥杀令”

2021-12-13

网红蹭“遗孤”流量是变相吃“血馒头”

2021-12-13

演员涂们病逝 曾被称为“草原王爷专业户”

2021-12-13

被偷走的那些年:被拐14年后他们成夹在中间的孩子

2021-12-13

文峰道歉:官微官网整改,10个工作日内对接预付卡备案

2021-12-13

山东烟台海域货船沉没已致9人遇难 搜救仍在进行

2021-12-13

浙江绍兴累计报告确诊病例107例 无症状感染者1例

2021-12-13

第三届国际白鹤论坛举办 中外专家聚焦生物多样性保护

2021-12-13

浙江绍兴本轮疫情已累计报告107例确诊病例

2021-12-13

“零容忍” 浙江宁波公安机关将严厉打击涉疫违法犯罪行为

2021-12-13

宁波镇海疫情未发生外溢 44例感染者均在蛟川街道管控区内

2021-12-13

来华留学生游梵净山 感知贵州多彩文化

2021-12-13

货船触礁进水 福建海警成功营救6名船员

2021-12-13

战“疫”时刻:浙江疫情下的“特殊”二三事

2021-12-13

浙江宁波44人已确诊 年龄最小为2岁 最大为70岁

2021-12-13

浙江宁波此轮疫情病毒为德尔塔变异株(AY.4 进化分支)华沙株

2021-12-13

南粤古驿道徒步体验活动(西京古道站)韶关举行

2021-12-13

上海试点驾驶证“学法减分” 一年最多减6分

2021-12-13

河南周口发布公告 明确过节确需返乡应提前3天报备

2021-12-13

浙江越城区新增1例确诊病例 系上虞区病例的密接者

2021-12-13

浙江已报告阳性感染者139例 明确严控跨省出行

2021-12-13

第二届鄱阳湖国际观鸟周在“中国候鸟小镇”江西吴城开幕

2021-12-13

“酥油茶‘遇见’咖啡,好比空气中飘着香水味”

2021-12-13

西安新增1例本土确诊病例 活动轨迹公布

2021-12-13

浙江三地病例感染病毒均属于德尔塔变异株

2021-12-13

山东烟台海域一载有14人货船沉没 9人已无生命体征

2021-12-13

浙江严控跨省出行 中高风险地区人员严格限制出行

2021-12-13

陕西西安一诊所工作人员确诊 8份核酸检测环境样本结果呈阳性

2021-12-13

浙江绍兴越城区在集中隔离点发现1名核酸检测阳性感染者

2021-12-13

截至12日15时 西安已追踪管控密切接触者486人

2021-12-13

陕西西安一诊所工作人员被诊断为确诊病例 活动轨迹公布

2021-12-13

抗疫特写:交通封控后的上虞“24小时”

2021-12-13