您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   模型库  
会员   
   
DeepSeek大模型应用开发实践
6月12-13日 厦门
基于 UML 和EA进行分析设计
6月23-24日 北京+线上
人工智能、机器学习 TensorFlow+Keras
6月22-23日 北京
     
   
 
 订阅
基于改进Yolov3的飞机目标检测算法
 
作者:张驰等
  104  次浏览      5 次
 2025-5-26
 
编辑推荐:
本文主要介绍了基于改进Yolov3的飞机目标检测算法相关内容。希望对你的学习有帮助。
本文来自于微信公众号无人系统技术 ,由火龙果软件Linda编辑,推荐。

摘 要

为了解决军用飞机目标检测过程中难以兼顾检测精度与检测速度的问题,提出了一种新的飞机目标检测算法。该算法建立在Yolov3的基础上,其特点是在保证检测速度的情况下,大幅提升检测精度。在提出的方法中,首先使用K-Means++聚类算法,解决了由随机初始化聚类中心带来的误差问题;其次对通过聚类得到的先验框(Anchors)进行线性拉伸,使其在贴合数据集目标大小的同时具有不同的尺度;再次,用CARAFE上采样算子构建上采样过程,使得网络能够捕捉到丰富的语义信息;最后,在网络中加入改进的通道显著性注意力机制CS-SE,使得网络能够有效关注图像前景内容,从而提高检测精度。实验表明,相比于Yolov3,所提方法mAP@0.5增加了5.3%,mAP@0.5:0.95增加了8.0%,提高了飞机的目标检测准确率和可靠性,减少误判和漏判,使其在不同的气象条件、光线条件和目标形态下实现准确的目标检测。

1 概 述

在现代战争中,军用飞机对战场局势的走向起到决定性的作用。它不仅能够在战前进行侦察、收集信息,得到关键情报,也能够在战争中对敌方战场进行定点打击,造成毁灭性伤害,直接决定战场的走势与结局。及时检测到飞机目标的实时信息并掌握其意图,就能够在战争中占取主动权,为战争胜利打下坚实的基础。因此,如何在大规模图像、视频数据集中实现军用飞机目标的快速精准检测、识别和定位,从而提高军用飞机的作战能力,将具有非常重要的意义。

早期的飞机目标检测方法大多基于传统信号处理。随着人工智能技术的发展[1-3],深度学习在视觉目标检测与识别领域具有重要应用,近年来产生了一批基于深度学习的目标检测算法。凭借着深度卷积神经网络强大的特征提取能力,基于深度学习的目标检测算法取得了远超传统检测算法的成绩,成为了目标检测技术发展的主流,这使得以智能化方式进行自动化军用飞机目标检测与识别成为可能。

考虑到军用飞机目标检测与识别的特殊性,现存的视觉目标检测方法难以兼顾检测精度和检测速度,例如Faster R-CNN[4]能够保证较高的检测精度但难以满足实时检测的速度要求,相反,Yolov5s具有较少的参数和较快的检测速度,但检测精度难以与高精度算法媲美。因此,发展精度高、速度快的智能化飞机目标检测算法对于实现战场指挥智能化和自动化具有非常重要的意义。

在本文中,通过改进Yolov3[5]目标检测算法,提出了一种高精度且快速的飞机目标检测算法,主要贡献有:

(1)使用K-Means++聚类算法替代Yolov3中的聚类算法,降低了原算法中随机初始化聚类中心所带来的误差。

(2)针对飞机目标的特殊性,本文引入线性拉伸算法对先验框进行调整,使其既符合数据集中目标的大小,又具有不同的尺度,能够快速吻合飞机目标的视觉特征。

(3)针对Yolov3结构中的多尺度融合网络的上采样过程无法捕捉丰富语义信息的问题,本文引入内容感知的特征重组(Content-Aware ReAssembly of Features,CARAFE)[6]上采样算子,通过学习机制来代替插值过程,使网络能够捕获到图像内容的高级语义信息,从而提升检测精度。

(4)引入改进的通道注意力机制(Channel Significant Squeeze-and-Excitation,CS-SE),使网络模型能够更好地关注图像前景信息,在保证检测速度的前提下提升了网络模型的检测精度。

2 国内外研究现状

要同时满足检测精度和检测速度的要求,使得军用飞机目标检测成为一个具有挑战性的任务。又因其具有重要的实际应用价值,所以一直以来都引起工业界和学术界的极大关注,并涌现出许多优秀的方法。早期的方法主要基于传统的信号处理,近年来则是涌现出许多基于深度学习的检测方法,下面对近年来的经典算法进行讨论和分析。

2.1 基于传统信号处理的飞机目标检测方法

该类方法建立在数学、物理模型的基础上,典型方法主要有模板匹配法、特征提取法等。模板匹配法是早期提出的一种常用的目标检测方法,主要是通过使用已知模板去搜索并匹配目标图像中具有相似视觉特征的对象来达到检测目标的目的。对于形状固定的目标,例如飞机、桥梁、船舰、操场等,其视觉特征一般具有共性,使用固定的模板可以实现有效匹配。Liu等[7]提出了一种整合形状先验信息的飞机目标检测方法,该方法可以分为从粗到细两个阶段,在粗略阶段,使用模板匹配法找出飞机目标存在的可能区域,在精细阶段,使用主成分分析与核密度函数推导出参数形状模型,并对飞机模板进行匹配。实验证明该方法具有良好的检测精度与鲁棒性。Xu等[8]提出了一种新的形状匹配方法,用于低空飞行器的视觉目标识别。该方法提出了一种带有边界的势函数,为轮廓匹配提供一种新的方式,并在检测过程中应用了人工蜂群算法,该方法参数较少,算法效率高,当目标图像平移、重新定向和缩放时,仍可以获得最佳匹配。刘文超[9]提出了一种以旋转模板匹配飞机目标的检测方法。该方法首先对图像进行形态学膨胀预处理,消除背景与阴影部分的影响,再使用图像金字塔对模板进行旋转,以匹配不同方向的飞机。该方法的主要贡献是摒弃圆形模板,使用方形模板以更好地匹配飞机目标,进一步提高了检测精度。

虽然模板匹配法已有众多相关研究,但针对飞机目标,因为目标角度、旋转等因素的局限性,检测难度较大,检测精度始终无法让人满意。

Herish等[10]提出了一种层次分类算法来准确识别卫星图像中的飞机。该方法首先提取目标的 Zernike 矩, 结合小波系数、距离和边缘等特征, 并对各个特征进行加权融合, 通过提取的特征对飞机目标进行识别,提高了飞机目标的检测精度。Li等[11]提出了一种基于定位候选飞机和使用支持向量机的飞机目标检测算法,该算法包含两个模块,第一个模块利用基于统计区域合并和线段的分割技术快速定位飞行器候选目标,第二个模块通过将分割和线段特征相结合训练SVM分类器来完成检测过程。该算法对飞机目标检测具有较高的检测精度。

2.2 基于深度学习的飞机目标检测方法

基于信号处理的目标检测方法一般都是针对具有特定视觉特点的某类目标而专门设计的,因此不具有通用性。随着深度学习逐渐进入计算机视觉领域,Fast R-CNN[12]、Faster R-CNN等网络框架的发布使得基于深度学习的目标检测算法占据主流。根据检测过程,此类方法分为“两阶段检测(Two-stage Detection)” 和 “一阶段检测(One-stage Detection)”,前者将目标检测任务视为一个“从粗到细”的过程,而后者将目标检测任务定义为“一步到位”的“端到端”过程。

两阶段算法的检测过程是首先产生包含目标对象的区域候选框(Anchor),其次提取每个候选框的特征,最后通过特征来预测目标的位置和对应的类别。Ji等[13]提出了一种基于Faster R-CNN的飞机目标检测方法,该方法结合了多角度特征驱动和多投票策略,设计了一个多角度变换模块对输入图像进行变换,实现图像中目标的多角度特征提取,并在模型末尾添加了多投票机制来处理多角度特征提取的结果,在检测飞机方面具有较好的性能。祝文韬等[14]提出了一种基于Faster R-CNN 的飞机目标检测算法,该方法使用双线性插值改进了ROI Pooling,解决了两次量化导致的区域失配问题,降低了小目标漏检率和虚警率,提升了检测精度。

这些方法虽然提高了飞机目标检测的精度,但由于需要产生大量的候选区域(Region Proposals)并采用两阶段检测,因此其运行速度较慢,难以落地应用。而随着基于深度学习的目标检测方法的发展,涌现出SSD[15]、Yolo[16-18]系列、Centernet[19]等一阶段的目标检测算法。该类算法为端到端的网络结构,在产生候选框的同时进行分类和目标框回归,显著提高了检测速度。吴杰等[20]基于Yolov4提出一种轻量级多尺度飞机目标检测方法。该方法改进Yolov4中的三组多尺度融合预测层的结构,增强融合不同尺度的飞机,并针对目标关联度问题引入一致性监督损失函数,提升了检测精度、增强了模型的抗过拟合能力与鲁棒性。Han等[21]针对普通的卷积神经网络(Convolutional Neural Network,CNN)缺乏对方向变化建模的问题,提出了一种旋转等变检测器,编码了旋转等变和旋转不变性,提取了旋转等变特征,在准确预测方向的同时使得网络模型的大小骤减,在几个大型航空图像数据集上达到了先进的性能。Cao等[22]提出一种基于 Yolov3 的改进的飞机目标检测算法,该算法通过在DOTA [23]数据集中筛选特定类型的训练样本,在网络的深层特征中加入检测尺度,以获得更小的感受野,提高网络对小目标的定位精度。戴伟聪等[24]基于Yolov3提出一种新的飞机目标检测算法,该算法在原始 Yolov3 的主干网络中引入DenseNet [25]结构,并对密集相连模块进行改进,使用最大池化增强各个模块之间的特征交流,提升了一定的精度。

基于深度学习的飞机目标检测在应用中取得了显著的成效,但考虑到军用飞机目标检测的高精度与实时性要求,现有的方法难以达到精度与速度的兼顾,研发快速精确的飞机目标检测算法具有重要的实际应用价值。

3 提出的方法

3.1 Yolov3网络结构

不同于两阶段目标检测方法将检测任务分为候选框生成与框内物体识别这两个不连续的阶段,Yolo系列采用端到端的模式对网络进行训练,通过对边界框(Bounding Boxes)进行回归得到预测结果。

Yolov3网络包含特征提取、多尺度特征融合以及目标预测三个部分,网络框架如图1所示。

图1 Yolov3网络结构

Fig.1 The structure of Yolov3 network

Yolov3的特征提取模块使用全卷积网络(Fully Convolutional Networks,FCN)Darknet-53作为骨干网络,该网络借鉴了Resnet[26]的思想,加入残差模块,以防止在网络过深的情况下出现过拟合和梯度爆炸的问题;另外Darknet-53使用步长为2的卷积层进行下采样,使得计算量更小,与能达到相同精度的Resnet网络相比,速度更快。

通过特征提取网络输出的特征图会进入到特征金字塔网络[27](Feature Pyramid Networks,FPN)进行特征融合,该特征融合网络通过简单的网络连接改变,在基本不增加原有模型计算量的情况下,大幅度提升了对小物体检测的性能。特征融合网络构建不同尺度的特征结构,并分别进行特征提取,可以同时利用低层特征的高分辨率和高层特征的高语义信息,从而产生多尺度的特征表示,最终通过融合这些不同层的特征达到预测的效果。具体地,该网络将图像划分为P(P=3)种不同尺度的网格,大小为,输入到三个并行的目标预测网络进行预测。Yolov3在预测阶段并不是直接预测出框的中心点坐标和宽高,而是先预测出先验框的偏移量,通过解码过程将偏移量转换为框的中心点坐标和宽高再进行输出。Yolov3预测网络会在输出特征图的每个网格上预测出5 个边界框,并且预测每个边界框的4个参数图片。如果单元格从图像的左上角偏移,且先验框的宽度和高度为,则对应的预测结果为

图2 边界框位置预测图

Fig.2 The position prediction map of the bounding box

最后,使用非最大值抑制算法(Non-Maximum Suppression,NMS)对同一目标上产生的大量候选框进行筛选,以此来找到最佳的目标边界框,消除冗余的边界框,得到最终预测结果。

3.2 提出的算法

在本节中,将具体描述本文提出的算法。本文的算法建立在Yolov3的基础上,主要改进体现在以下几个方面。首先,用K-Means++聚类算法代替Yolov3中的聚类算法,减少随机初始化聚类中心带来的误差;其次,考虑到经聚类得到的先验框尺度单一,此时引入线性拉伸算法,使其具有不同的尺度以精确匹配目标;再次,使用CARAFE轻量级上采样因子代替特征金字塔中的上采样方法,扩大感受野,使网络能够捕捉到丰富的语义信息;最后,在网络中引入通道显著性注意力机制,使网络能够更加关注图像前景内容,提高检测精度。

3.2.1 先验框生成方法

(1)先验框聚类

对于基于先验框的目标检测模型,初始先验框的大小将直接影响到网络模型的训练以及最后的预测结果,并且针对飞机目标检测的数据集,因飞机目标较小、难以识别,所以先验框的初始化对检测结果至关重要。在Yolov3中,使用K-Means聚类算法从已经标注的数据集中聚类出最有可能的目标形状,以匹配用于训练的数据。但是,K-Means聚类算法由于随机选择多个初始聚类中心而不可避免地为聚类结果带来了偏差。为了解决这个问题,本文使用K-Means++算法代替K-Means聚类算法。

在生成先验框任务中,使用交并比来表示边界框与聚类中心的距离,其表达式为

(5)

通过K-Means++算法聚类出9组先验框,作为网络的初始生成框。

(2)线性拉伸

现有的公共大型数据集例如COCO(Microsoft COCO:Common Objects in Context)[28]、PASCAL VOC等,拥有大量的图片数据和丰富的目标种类,对数据集标注后,可以得到各种尺寸的标签,在用于目标预测时会使得网络不仅能生成不同尺度的先验框,而且能够在训练前得到关于数据集的信息,在生成先验框时最大限度地接近数据集标注的边界框的大小。

针对飞机目标检测的数据集,因其目标种类单一、数据量少,若使用聚类算法对先验框进行聚类,会使得先验框尺度较集中,尺寸大小相近,无法体现出网络模型多尺度输出的优势。为了解决这个问题,本文引入线性拉伸算法,在对先验框进行聚类之后,再次对经聚类得到的先验框进行优化,使其既符合数据集的标注信息,又具有不同的尺度。线性拉伸的计算过程为

3.2.2 轻量级通用上采样算子

对特征图上采样的操作可以看作是特征重组的过程,这对于稠密预测非常重要。在Yolov3中,使用常规的最近邻插值或者双线性插值,这类上采样方式仅通过像素点的空间位置来决定上采样核,并没有利用到特征图的语义信息,可以看作是一种“均匀”的上采样,只考虑亚像素邻域,无法捕捉密集预测任务所需的丰富语义信息。另一种实现自适应上采样的方法是反卷积(Deconvolution),该方法的上采样核不是通过像素间的距离计算的,而是通过网络学习得到的,但由于对特征图的每个位置都应用了相同的上采样核,因此无法捕捉到特征图内容的高级语义信息,另外,该过程引入了大量参数,增加了计算量,降低了检测速度。

为解决这些问题,本文使用通用的轻量级上采样算子CARAFE来代替Yolov3的 FPN中的上采样方法,通过学习机制来代替插值过程,使网络能够捕获到更丰富的高级语义信息,从而提升检测精度。CARAFE是一个具有内容感知内核的重组操作符。它包括两个步骤:第一步是根据每个目标位置的内容预测重组核,第二步是将特征与预测的核进行重组。给定一个尺寸为图片的特征图图片和上采样率图片,通过CARAFE网络会产生一个尺寸大小为 的新的特征图 ,对于任何输出特征图图片的每一个像素点 ,在输入特征图中都有一个与之对应的点 。CARAFE网络结构图如图3所示。

图3 CARAFE上采样算子网络结构图

Fig.3 The structure of the CARAFE network

使用重组内核, 区域中的每个像素对上采样后像素图片的贡献不同。因为局部区域相关点的信息可以得到更多的关注,重组后的特征图比原特征图语义更强,更能准确捕获到飞机目标的特征。图4为CARAFE在FPN网络中的应用释义图。

图4 CARAFE在FPN中的应用

Fig.4 The application of CARAFE in FPN

3.2.3 改进的通道注意力机制

注意力机制对特征图的不同部分赋予不同的权重,用来强调目标对象的重要信息,并且抑制无关的细节信息。在飞机目标检测中,由于飞机目标较小,难以检测,所以我们更加希望将注意力集中在飞机目标上,忽略不重要的背景信息,因此本文在Yolov3中引入一种改进的通道注意力机制,使网络更加关注目标的位置,推理出更具分辨性的特征表示,从而带来持续的性能提升。为此,首先改进挤压激发网络(Squeeze-and-Excitation Network,SE-NET)[29],构建一种通道显著性注意力模块CS-SE,并将其添加到骨干网络之后,通过建模通道之间的相互依赖关系,自适应地重新校准不同通道的特征响应,提升网络性能。

(11)

图5 SE-block网络结构图

Fig.5 The structure of SE-block

通过该步骤可以得到一个大小为1x1xc的具有全局信息的特征向量,紧接着将该向量送入一个降维率为的FC层(Full Connection Layer)中,将其大小变为图片,并通过RELU函数对其激活。该步骤是一个编码的过程,然后对其进行解码,使其进入升维率为图片的FC层以及Sigmoid激活函数中,使该向量恢复1x1xc的大小。通过编解码过程,利用在挤压操作中聚合的信息,充分捕获了通道间的依赖项。最后使用1x1xc的通道权重向量与输入特征图按照通道相乘,完成在通道维度上对原始特征的重标定。

SE-NET的提出最早用于图像分类任务,强调图像的整体区别,使用全局平均池化能很好地提取到这一信息。但是针对目标检测问题,尤其针对飞机目标检测任务,图像中有许多难以检测的小目标,通过全局平均池化后,这些细小的信息更加难以捕捉,无法从图像中准确提取到前景信息。全局最大池化能够突出图像中的显著信息,比较符合飞机目标检测的要求。所以,本文对SE-NET进行修改,将全局平均池化与最大池化均用在通道注意力机制中。

本文提出的CS-SE注意力机制的结构如图6所示。针对输入特征图X,首先逐通道进行全局最大池化和全局平均池化,得到两个大小为1x1xc的特征向量,这两个向量分别包含了特征图中的显著信息和平均信息,然后将这两个特征向量在空间进行融合,得到一个1x1xc的特征向量,该向量整合了上述两个特征向量的丰富信息。紧接着将其输入2个FC层,分别对其进行编解码,最后经过Sigmoid激活函数,获得图片之间归一化的权重,最后将得到的特征向量与原特征图相乘,将归一化后的权重加权到每个通道的特征上。

图6 CS-SE-block网络结构图

Fig.6 The structure of CS-SE-block

4 实验结果及分析

在本节中,通过仿真实验对提出的方法进行性能评估。实验环境如表1所示。

表1 实验环境

4.1 数据集及数据预处理

本研究使用中科院大学高清航拍目标数据集(UCAS-High Resolution Aerial Object Detection Dataset,UCAS-AOD),共有飞机图像600张,飞机样本7482个。在此基础上,本文扩充了400张飞机图像,并使用Labelimg软件进行标注,建立了包含1000张图像的标注样本数据集,包含13095个飞机目标。

首先使用K-Means++聚类方法对数据集进行先验框聚类,并使用遗传算法对聚类框进行优化,得到结果如表2所示。

表2 由K-Means++聚类得到的先验框

由表2可以看出,针对飞机目标检测的数据集,通过聚类后得到的先验框尺度单一,无法体现多尺度输出的优势,所以本文将通过聚类得到的先验框进行线性拉伸,得到结果如表3所示。Samall、Medium、Large检测层对应Yolov3不同尺度的检测层。

表3 由线性拉伸得到的先验框

在数据预处理方面,使用马赛克(Mosaic)数据增强方法。在数据集中随机选取四张图像,对其进行左右翻转、缩放、色域变化(对原始图片的明亮度、饱和度、色调进行改变)等操作,然后将它们拼接成一张新的图像。通过Mosaic数据增强,一方面扩充了数据集,增加了数据量,防止过拟合,另一方面也相当于增加了批量大小(Batch Size),一定程度上减少了硬件对模型性能的限制。数据增强后效果如图7所示。

图7 Mosaic数据增强图像,(a)、(b)为Mosaic增强后的图像

Fig.7 Image preprocessing by Mosaic, (a) and (b) are the images preprocessing by Mosaic

4.2 评价指标

本文采用四项评估指标:平均精度(Average Precision,AP)、平均精度均值(Mean Average Precision,mAP)、每秒传输帧数(Frames per Second,FPS)以及召回率(Recall)进行模型评估。平均精度与召回率以及准确率相关,通过绘制准确率和精度曲线并计算曲线下面积得到。mAP指各个类别的平均精度,其中mAP又包含mAP@0.5、mAP@0.5:0.95两项,分别指IOU阈值为0.5时的平均精度与IOU阈值为0.5到0.95,步长为0.05时的平均精度。计算公式为

4.3 实验结果与分析

4.3.1 CS-SE模块的有效性

为了证明本文提出的CS-SE模块的有效性,通过分别使用全局最大池化、全局平均池化、全局平均池化与全局最大池化相加、全局平均池化与全局最大池化拼接这四种压缩特征方式进行实验,均将通道显著性注意力模块添加在Yolov3网络中相同位置,并采用相同的训练方式,所得mAP@0.5与召回率如表4所示。

表4 不同压缩方式对比

由表4可以看出,在上述四种压缩特征的方式中,使用改进方法的效果优于其他方法。

4.3.2 消融实验

为了定量分析本文提出的改进方法的有效性,将消融实验设计为5组:(1)原始网络框架Yolov3;(2)使用K-Means++聚类方法;(3)对聚类框进行线性拉伸;(4)使用CARAFE上采样因子;(5)在模型中添加CS-SE。每组实验都使用相同训练并在相同的测试集上进行测试,实验结果如表5所示。

表5 消融实验结果

在表5中,“√”表示在网络中使用了对应的改进,“×”代表在网络中没有使用该项功能,从表5可以看出,第(2)组通过对聚类算法进行替换,提升了0.5%的mAP@0.5精度;第(3)组通过对聚类得到的先验框进行线性拉伸,增加了丰富的尺度信息,在预测精度上有明显的提升,且该改进没有参数量的增加,不会影响模型的训练速度与推理速度,由上表可知,该改进增加了2.6%的mAP@0.5精度与4.5%的mAP@0.5:0.95精度,对网络的性能有巨大提升;第(4)组通过改变FPN网络中上采样方式,使得上采样不再仅仅通过位置信息决定,而是可以整合到图像丰富的语义特征,该改进在几乎不增加参数量的情况下提升了1.1%的mAP@0.5精度与1.5%的mAP@0.5:0.95精度,实现精度的提升;第(5)组通过在网络中添加注意力结构,使得网络更多关注图像的前景信息,忽略一些冗余的细节信息,使得网络在mAP@0.5精度上增加了1.2%,在mAP@0.5:0.95精度上增加了1.3%。最终改进后的模型与Yolov3相比,在参数量增加不多的情况下,mAP@0.5:0.95增加了5.3%,mAP@0.5:0.95增加了8.0%,模型对飞机目标的识别能力进一步加强,同时也不需要增加过多的计算量。图8为本文所提方法与Yolov3的检测对比结果。

图8 Yolov3算法与本文算法目标检测结果对比

Fig.8 The Comparison of the detection results between the proposed method and Yolov3

从图8可以看出,经改进的算法在对飞机目标进行检测时,消除了许多误检,提升了检测精度。

4.3.3 定量评价

为了证明本文所提出算法的优越性,与当前主流的部分一阶段与二阶段目标检测算法进行对比,实验结果如表6所示。

表6 检测结果的比较

在本实验中,对比了Faster-rcnn、ssd、centernet、Yolov3-spp、Yolov4、Yolov5s这6种主流目标检测框架,可见本文所提方法在没有大量增加参数量的情况下,mAP@0.5与mAP@0.5:0.95都有较大的提升,均在降序排列中位列第一,同时在GPU下的FPS达到123.6。与参数量较接近的Yolov4相比,本文方法在mAP@0.5上比其高2.2%,在mAP@0.5:0.95上高3.2%;与二阶段方法Faster-rcnn相比,在mAP@0.5仅差1.6%的情况下,mAP@0.5:0.95比其高2.2%,FPS比其高92.7。由上述实验结果可知,与当前主流的一阶段和二阶段目标检测算法相比,本文方法在飞机目标检测方面,其性能具有很强的竞争性,在检测速度接近Yolov3的情况下,显著提高了检测精度。

4.3.4 鲁棒性实验

在飞机目标检测中,由于受到天气、高空气流等因素的影响,所以模型的鲁棒性成为性能评价的一个重要指标。为了测试本文所提模型的鲁棒性,对验证集图像分别进行了JPEG压缩、添加高斯噪声、旋转90°、Gamma矫正等操作,并用本文所提出的算法对这些操作后的图像进行检测,其结果如表7所示。

表7 鲁棒性实验

从表7可以看出,经过旋转、Gamma矫正后的图像,mAP@0.5仅仅下降了0.5%和0.2%,另外针对JPEG压缩与添加高斯噪声后的图像,mAP@0.5分别下降了1.6%和2.7%,这说明所提方法具有极强的鲁棒性,在受到上述各种操作影响的情况下,仍然能够达到很高的精度。

5 结 论

本项研究工作改进了Yolov3,提出了一种高精度飞机目标检测算法。在该算法中利用K-Means++代替原有的聚类算法,并对聚类后所得先验框进行线性拉伸,使其初始的聚类框在最大程度接近数据框的同时增加尺度多样性;通过引入CARAFE轻量级上采样因子,利用学习机制代替FPN中的上采样方法,使得在上采样时具有更大的感受野,且根据输入图像特征来指导重建过程,在不增加计算量的情况下明显提高了检测性能;在网络结构中加入一种改进的通道显著性注意力机制,使得网络忽略部分不重要信息,更关注目标前景信息。实验结果表明,本文所提出的方法能够精准、快速地检测图像中的飞机目标,相比于Yolov3网络,提升了5.3%的mAP@0.5和8.0%的mAP@0.5:0.95。在后续工作中,将致力于减小模型的参数量和复杂度,构建出更为轻量化的网络,以便更好地应用于工业生产中。这将使本文提出的算法能够更快速地处理大量数据,提高检测效率,从而在实际应用中发挥更大的作用。此外,未来将继续研究其他方法,如结合多种传感器信息的融合技术、自适应学习等方法,进一步提高算法的准确性和鲁棒性,以满足实际应用中的多种需求。

 

 
   
104 次浏览       5
相关文章

基于图卷积网络的图深度学习
自动驾驶中的3D目标检测
工业机器人控制系统架构介绍
项目实战:如何构建知识图谱
 
相关文档

5G人工智能物联网的典型应用
深度学习在自动驾驶中的应用
图神经网络在交叉学科领域的应用研究
无人机系统原理
相关课程

人工智能、机器学习&TensorFlow
机器人软件开发技术
人工智能,机器学习和深度学习
图像处理算法方法与实践

最新活动计划
DeepSeek大模型应用开发 6-12[厦门]
人工智能.机器学习TensorFlow 6-22[北京]
基于 UML 和EA进行分析设计 6-23[北京]
嵌入式软件架构-高级实践 7-9[北京]
用户体验、易用性测试与评估 7-25[西安]
图数据库与知识图谱 8-23[北京]
 
 
最新文章
AIGC技术与应用全解析
详解知识图谱的构建全流程
大模型升级与设计之道
自动驾驶和辅助驾驶系统
ROS机器人操作系统底层原理
最新课程
人工智能,机器学习和深度学习
人工智能与机器学习应用实战
人工智能-图像处理和识别
人工智能、机器学习& TensorFlow+Keras框架实践
人工智能+Python+大数据
成功案例
某综合性科研机构 人工智能与机器学习
某银行 人工智能+Python+大数据
北京 人工智能、机器学习& TensorFlow
某领先数字地图提供商 Python数据分析
中国移动 人工智能、机器学习和深度学习