admin管理员组文章数量:1794759
YoloV8改进策略:AAAI 2024 最新的轴向注意力
摘要
涨点效果:在我自己的数据集上,改进一的mAP50 由0.986涨到了0.991,mAP50-95由0.737涨到0.753,涨点明显!
本文提出了一种名为Multi-scale Cross-axis Attention(MCA)的方法,用于解决医学图像分割中的多尺度信息和长距离依赖性问题。该方法基于高效轴向注意力,通过计算两个平行轴向注意力之间的双向交叉注意力,更好地捕获全局信息。为了处理病变区域或器官的个体尺寸和形状的显著变化,我们还在每个轴向注意力路径中使用多个具有不同内核大小的条形卷积,以提高编码空间信息的效率。我们将提出的MCA构建在MSCAN主干上,形成名为MCANet的网络。我们的MCANet仅使用4M+参数,在四个具有挑战性的任务上,包括皮肤病变分割、核分割、腹部多器官分割和息肉分割,性能超过了大部分先前使用重型主干的工作。该方法可用于医疗图像分割,帮助医生进行诊断和病理研究,提高诊断的准确性。
链接:
代码语言:javascript代码运行次数:0运行复制.2014.3001.5502
YoloV8官方结果
代码语言:javascript代码运行次数:0运行复制YOLOv8l summary (fused): 268 layers, 43631280 parameters, 0 gradients, 165.0 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [
all 230 1412 0.922 0.957 0.986 0.737
c17 230 131 0.973 0.992 0.995 0.825
c5 230 68 0.945 1 0.995 0.836
helicopter 230 43 0.96 0.907 0.951 0.607
c130 230 85 0.984 1 0.995 0.655
f16 230 57 0.955 0.965 0.985 0.669
b2 230 2 0.704 1 0.995 0.722
other 230 86 0.903 0.942 0.963 0.534
b52 230 70 0.96 0.971 0.978 0.831
kc10 230 62 0.999 0.984 0.99 0.847
command 230 40 0.97 1 0.995 0.811
f15 230 123 0.891 1 0.992 0.701
kc135 230 91 0.971 0.989 0.986 0.712
a10 230 27 1 0.555 0.899 0.456
b1 230 20 0.972 1 0.995 0.793
aew 230 25 0.945 1 0.99 0.784
f22 230 17 0.913 1 0.995 0.725
p3 230 105 0.99 1 0.995 0.801
p8 230 1 0.637 1 0.995 0.597
f35 230 32 0.939 0.938 0.978 0.574
f18 230 125 0.985 0.992 0.987 0.817
v22 230 41 0.983 1 0.995 0.69
su-27 230 31 0.925 1 0.995 0.859
il-38 230 27 0.972 1 0.995 0.811
tu-134 230 1 0.663 1 0.995 0.895
su-33 230 2 1 0.611 0.995 0.796
an-70 230 2 0.766 1 0.995 0.73
tu-22 230 98 0.984 1 0.995 0.831
Speed: 0.2ms preprocess, 3.8ms inference, 0.0ms loss, 0.8ms postprocess per image
改进一
测试结果
代码语言:javascript代码运行次数:0运行复制YOLOv8l summary (fused): 288 layers, 44244664 parameters, 0 gradients, 169.3 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 15/15 [00:05<00:00, 2.63it/s]
all 230 1412 0.954 0.981 0.988 0.754
c17 230 131 0.975 0.992 0.995 0.837
c5 230 68 0.971 0.968 0.993 0.839
helicopter 230 43 0.931 1 0.975 0.613
c130 230 85 0.979 0.976 0.994 0.668
f16 230 57 0.979 0.965 0.99 0.687
b2 230 2 0.853 1 0.995 0.752
other 230 86 0.976 0.964 0.975 0.562
b52 230 70 0.98 0.971 0.976 0.839
kc10 230 62 0.988 0.984 0.989 0.851
command 230 40 0.986 1 0.995 0.84
f15 230 123 0.96 1 0.993 0.707
kc135 230 91 0.984 0.989 0.987 0.709
a10 230 27 0.99 0.704 0.886 0.48
b1 230 20 0.98 1 0.995 0.715
aew 230 25 0.946 1 0.995 0.775
f22 230 17 0.975 1 0.995 0.754
p3 230 105 1 0.994 0.995 0.805
p8 230 1 0.779 1 0.995 0.796
f35 230 32 0.965 1 0.995 0.571
f18 230 125 0.992 0.989 0.993 0.827
v22 230 41 0.983 1 0.995 0.717
su-27 230 31 0.983 1 0.995 0.865
il-38 230 27 0.982 1 0.995 0.869
tu-134 230 1 0.764 1 0.995 0.895
su-33 230 2 0.999 1 0.995 0.754
an-70 230 2 0.853 1 0.995 0.796
tu-22 230 98 0.996 1 0.995 0.835
Speed: 0.5ms preprocess, 6.6ms inference, 0.0ms loss, 2.4ms postprocess per image
将最后一行的融合方式改变后的结果,代码如下:
代码语言:javascript代码运行次数:0运行复制 out = torch.sigmoid(self.project_out(out3) + self.project_out(out4)) * x
代码语言:javascript代码运行次数:0运行复制YOLOv8l summary (fused): 288 layers, 44244664 parameters, 0 gradients, 169.3 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 15/15 [00:02<00:00, 7.03it/s]
all 230 1412 0.956 0.973 0.991 0.753
c17 230 131 0.988 0.992 0.995 0.838
c5 230 68 1 0.997 0.995 0.835
helicopter 230 43 0.938 1 0.98 0.59
c130 230 85 0.999 1 0.995 0.666
f16 230 57 0.982 0.944 0.994 0.678
b2 230 2 0.863 1 0.995 0.804
other 230 86 0.951 0.942 0.98 0.543
b52 230 70 0.978 0.971 0.986 0.845
kc10 230 62 0.994 0.984 0.989 0.859
command 230 40 0.99 1 0.995 0.84
f15 230 123 0.962 1 0.995 0.701
kc135 230 91 0.972 0.989 0.991 0.713
a10 230 27 1 0.728 0.945 0.501
b1 230 20 1 0.973 0.995 0.718
aew 230 25 0.932 1 0.995 0.798
f22 230 17 0.958 1 0.995 0.734
p3 230 105 0.99 0.992 0.995 0.806
p8 230 1 0.784 1 0.995 0.697
f35 230 32 0.968 1 0.995 0.594
f18 230 125 0.984 0.989 0.994 0.832
v22 230 41 0.979 1 0.995 0.713
su-27 230 31 0.987 1 0.995 0.853
il-38 230 27 0.984 1 0.995 0.867
tu-134 230 1 0.784 1 0.995 0.895
su-33 230 2 1 0.769 0.995 0.771
an-70 230 2 0.854 1 0.995 0.796
tu-22 230 98 0.996 1 0.995 0.834
将最后一行的融合方式改变后的结果,代码如下:
代码语言:javascript代码运行次数:0运行复制 out = torch.sigmoid(self.project_out(out3) + self.project_out(out4)) +x
代码语言:javascript代码运行次数:0运行复制YOLOv8l summary (fused): 288 layers, 44244664 parameters, 0 gradients, 169.3 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 15/15 [00:02<00:00, 6.57it/s]
all 230 1412 0.962 0.968 0.987 0.75
c17 230 131 0.998 0.992 0.995 0.831
c5 230 68 0.949 1 0.995 0.84
helicopter 230 43 0.945 1 0.988 0.619
c130 230 85 0.993 0.988 0.994 0.673
f16 230 57 0.982 0.944 0.99 0.671
b2 230 2 0.889 1 0.995 0.751
other 230 86 0.952 0.942 0.97 0.554
b52 230 70 0.986 0.978 0.984 0.843
kc10 230 62 1 0.978 0.989 0.835
command 230 40 1 0.997 0.995 0.821
f15 230 123 0.928 0.992 0.993 0.698
kc135 230 91 0.988 0.989 0.991 0.721
a10 230 27 1 0.527 0.856 0.441
b1 230 20 0.987 1 0.995 0.715
aew 230 25 0.941 1 0.983 0.784
f22 230 17 0.97 1 0.995 0.742
p3 230 105 1 0.992 0.995 0.805
p8 230 1 0.814 1 0.995 0.796
f35 230 32 1 0.868 0.995 0.634
f18 230 125 0.982 0.992 0.993 0.824
v22 230 41 0.992 1 0.995 0.724
su-27 230 31 0.988 1 0.995 0.862
il-38 230 27 0.988 1 0.995 0.85
tu-134 230 1 0.823 1 0.995 0.895
su-33 230 2 1 0.968 0.995 0.655
an-70 230 2 0.878 1 0.995 0.829
tu-22 230 98 0.997 1 0.995 0.846
Speed: 0.6ms preprocess, 4.1ms inference, 0.0ms loss, 0.6ms postprocess per image
改进二
测试结果
代码语言:javascript代码运行次数:0运行复制YOLOv8l summary (fused): 288 layers, 44244664 parameters, 0 gradients, 169.3 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 15/15 [00:02<00:00, 6.57it/s]
all 230 1412 0.962 0.968 0.987 0.75
c17 230 131 0.998 0.992 0.995 0.831
c5 230 68 0.949 1 0.995 0.84
helicopter 230 43 0.945 1 0.988 0.619
c130 230 85 0.993 0.988 0.994 0.673
f16 230 57 0.982 0.944 0.99 0.671
b2 230 2 0.889 1 0.995 0.751
other 230 86 0.952 0.942 0.97 0.554
b52 230 70 0.986 0.978 0.984 0.843
kc10 230 62 1 0.978 0.989 0.835
command 230 40 1 0.997 0.995 0.821
f15 230 123 0.928 0.992 0.993 0.698
kc135 230 91 0.988 0.989 0.991 0.721
a10 230 27 1 0.527 0.856 0.441
b1 230 20 0.987 1 0.995 0.715
aew 230 25 0.941 1 0.983 0.784
f22 230 17 0.97 1 0.995 0.742
p3 230 105 1 0.992 0.995 0.805
p8 230 1 0.814 1 0.995 0.796
f35 230 32 1 0.868 0.995 0.634
f18 230 125 0.982 0.992 0.993 0.824
v22 230 41 0.992 1 0.995 0.724
su-27 230 31 0.988 1 0.995 0.862
il-38 230 27 0.988 1 0.995 0.85
tu-134 230 1 0.823 1 0.995 0.895
su-33 230 2 1 0.968 0.995 0.655
an-70 230 2 0.878 1 0.995 0.829
tu-22 230 98 0.997 1 0.995 0.846
Speed: 0.6ms preprocess, 4.1ms inference, 0.0ms loss, 0.6ms postprocess per image
总结
本文尝试了两种改进方式,均有不同程度的涨点。欢迎大家在自己的数据集上做尝试!
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2024-02-05,如有侵权请联系 cloudcommunity@tencent 删除性能测试数据网络效率本文标签: YoloV8改进策略AAAI 2024 最新的轴向注意力
版权声明:本文标题:YoloV8改进策略:AAAI 2024 最新的轴向注意力 内容由林淑君副主任自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.xiehuijuan.com/baike/1754668955a1704991.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论