- 深度學(xué)習(xí)之圖像目標檢測與識別方法
- 史朋飛等
- 2119字
- 2024-10-18 15:05:59
前言
黨的二十大報告指出“發(fā)展海洋經(jīng)濟,保護海洋生態(tài)環(huán)境,加快建設(shè)海洋強國?!?/p>
海洋是地球宜居的命脈,是維系人類生存與高質(zhì)量發(fā)展的戰(zhàn)略要地。認識海洋、經(jīng)略海洋,建設(shè)海洋強國,特別需要依靠科技創(chuàng)新來引領(lǐng)發(fā)展。2024年政府工作報告提出了開展“人工智能+”行動。各行業(yè)在人工智能引領(lǐng)下加速轉(zhuǎn)型升級,為新質(zhì)生產(chǎn)力的培育和發(fā)展提供新的動能。
目標檢測技術(shù)在海洋資源勘探、海洋環(huán)境保護、水下安全保障、水下考古研究、軍事應(yīng)用、科學(xué)研究等領(lǐng)域具有極其重要的意義,是推動海洋科學(xué)研究和保護、促進海洋資源開發(fā)利用、保障水下安全的重要技術(shù)手段。目標檢測技術(shù)在水下應(yīng)用的不足主要包括光照問題、攝像機抖動、復(fù)雜背景干擾、目標類型多樣化、目標運動速度較快、背景光源變化、目標物體的顏色和分布變化、攝像機抖動造成的背景區(qū)域變化、目標遮擋、運動目標檢測和識別的運算量大等。
針對目標檢測技術(shù)的不足,研究人員將深度學(xué)習(xí)引入圖像目標檢測技術(shù),但依舊存在數(shù)據(jù)集的規(guī)模不大和質(zhì)量不準、水下圖像質(zhì)量不佳、光線影響導(dǎo)致模型識別精度下降等問題。
本書主要針對水下目標檢測的場景,對常用的基于深度學(xué)習(xí)的目標檢測技術(shù)進行了改進,使它們更加適合水下目標檢測場景。本書系統(tǒng)地總結(jié)了作者十多年的科研實踐成果,主要內(nèi)容如下:
第0章為緒論,主要介紹深度學(xué)習(xí)在水下圖像目標檢測領(lǐng)域的研究背景、意義,以及國內(nèi)外的研究現(xiàn)狀。
第1章是基于UNet的圖像去霧算法。本章提出了一種結(jié)合注意力機制的多尺度特征融合圖像去霧算法,該算法利用類似于UNet的編碼器-解碼器結(jié)構(gòu)來直接學(xué)習(xí)、輸入自適應(yīng)的去霧模型,具有較好的去霧效果。
第2章是基于特征融合GAN的圖像增強算法。本章主要利用GAN的優(yōu)勢設(shè)計了基于特征融合 GAN 的水下圖像增強算法,通過生成器和判別器之間的對抗訓(xùn)練,獲得魯棒性較高的水下圖像增強模型。
第3章是基于ESRGAN的圖像超分辨率重建算法。本章主要闡述基于單幀圖像超分辨率(SISR)算法ESRGAN,并對其生成器結(jié)構(gòu)進行了改進,設(shè)計了重建質(zhì)量更高的水下圖像超分辨算法。
第4章是基于嵌套UNet的圖像分割算法。本章提出了一種結(jié)合自注意力機制的基于嵌套UNet的裂縫圖像分割模型Att_Nested_UNet,該模型沿用UNet模型的設(shè)計思想,使用將多層UNet嵌套在一起的UNet++模型,并在每層的UNet模型中融入了注意力機制,能夠較好地提高裂縫圖像分割的準確性,消除噪聲,保留細節(jié)。
第5章是基于對抗遷移學(xué)習(xí)的水下大壩裂縫圖像分割算法。本章主要通過多級對抗遷移學(xué)習(xí)來實現(xiàn)水下大壩裂縫特征的無監(jiān)督學(xué)習(xí)領(lǐng)域自適應(yīng),能有效地將提取到的地面裂縫圖像特征應(yīng)用于水下大壩裂縫圖像分割,并保證檢測精度。
第6章是基于改進Faster-RCNN的海洋生物檢測算法。本章使用ResNet替換Faster-RCNN的VGG特征提取網(wǎng)絡(luò),并且在ResNet后添加BiFPN,形成了ResNet-BiFPN結(jié)構(gòu),提高了網(wǎng)絡(luò)模型特征提取能力和多尺度特征融合能力;使用EIoU代替Faster-RCNN中的IoU,通過添加中心度權(quán)重來降低訓(xùn)練數(shù)據(jù)中冗余邊界框占比,改善邊界框質(zhì)量;使用K-means++算法生成更適合的錨定框。本章對Faster-RCNN的改進,取得了良好的效果。
第7章是基于YOLOv4的目標檢測算法。本章提出了一種在YOLOv4上使用PredMix、卷積塊注意力模塊和DetPANet的目標檢測算法。在YOLOv4的特征提取網(wǎng)絡(luò)CSPDarknet53中添加CBAM,可以提高算法的特征提取能力;DetPANet在路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)中添加了同層跳躍連接結(jié)構(gòu)和跨層跳躍連接結(jié)構(gòu),可以增強算法的多尺度特征融合能力;PredMix(Prediction-Mix)可以增強算法的魯棒性。
第8章是基于RetinaNet的密集目標檢測算法。本章綜合考慮了目標檢測精度與檢測速度,以單階段目標檢測算法RetinaNet為基礎(chǔ)方法,針對遙感圖像中密集目標的場景提出相應(yīng)的改進,以提高對密集目標的檢測準確率。
第9章是基于LSTM網(wǎng)絡(luò)的視頻圖像目標實時檢測算法。本章主要針對傳統(tǒng)圖像目標檢測算法在檢測視頻圖像目標時存在的問題,提出了一種基于LSTM網(wǎng)絡(luò)的視頻圖像目標檢測算法,通過改進記憶引導(dǎo)網(wǎng)絡(luò)并引入交叉檢測框架,充分利用了視頻連續(xù)幀中的時序信息,提升了視頻圖像目標檢測的精度和速度。
第10章是基于改進YOLOv4的嵌入式變電站儀表檢測算法。本章主要針對嵌入式平臺、移動邊緣計算等性能受限的設(shè)備,在模型設(shè)計階段和推理階段同時實現(xiàn)輕量化網(wǎng)絡(luò),對YOLOv4進行了改進,并利用TensorRT對改進后的YOLOv4進行了重構(gòu)和優(yōu)化,將改進后的YOLOv4部署到嵌入式平臺,滿足了變電站儀表的實時檢測需求。
本書內(nèi)容涉及眾多項目的研究成果,特別是國家重點研發(fā)計劃(2022YFB4703400)、國家自然科學(xué)基金(62476080)、江蘇省自然科學(xué)基金(BK20231186)、常州市科技支撐計劃(社會發(fā)展)(CE20235053)、湖北省智慧水電技術(shù)創(chuàng)新中心開放研究基金項目(1523020038)、江蘇省輸配電裝備技術(shù)重點實驗室項目(2023JSSPD01)等。
史朋飛負責(zé)編寫與圖像目標檢測與識別相關(guān)部分的內(nèi)容,約10萬字;范新南負責(zé)編寫與圖像增強相關(guān)部分的內(nèi)容,約5萬字;辛元雪負責(zé)編寫與圖像目標定位相關(guān)部分的內(nèi)容,約4萬字;萬剛負責(zé)編寫與水下大壩裂縫檢測相關(guān)部分的內(nèi)容,約4萬字;王慶穎負責(zé)編寫與遙感圖像檢測相關(guān)部分的內(nèi)容,約3萬字。河海大學(xué)的博士研究生周仲凱、王嘯天、萬瑾、楊旭東,碩士研究生汪杰、薛瑞陽、韓松、鹿亮、嚴煒、楊鑫、曹鵬飛、方小龍、朱鳳婷、周潤康、黃偉盛等參加了本書的部分章節(jié)的校對工作,謹向他們表示衷心的感謝!
由于作者的理論水平有限,以及研究工作的局限性,特別是深度學(xué)習(xí)處于快速的發(fā)展中,本書中難免存在一些不足,懇請廣大讀者批評指正。
作者
2024年8月
- 剪映:剪輯+調(diào)色+字幕+配音+特效從新手到高手
- 數(shù)碼攝影后期處理秘笈:Photoshop CC一招出牛片
- 攝影后期與短視頻剪輯零基礎(chǔ)一本通
- 影視后期制作(After Effects+3ds Max)
- R語言數(shù)據(jù)可視化之美:專業(yè)圖表繪制指南(增強版)
- 調(diào)色師手冊:視頻和電影調(diào)色從入門到精通(剪映版)
- AutoCAD基礎(chǔ)教程
- UI設(shè)計啟示錄:創(chuàng)意+對比+實戰(zhàn)(培訓(xùn)教材版)
- 數(shù)碼攝影與短視頻拍攝零基礎(chǔ)一本通
- Flash 8商業(yè)案例精粹(中文版)
- 手機短視頻制作從新手到高手
- 創(chuàng)意的Photoshop CS6設(shè)計之路
- 老郵差數(shù)碼照片處理技法 RAW篇
- 短視頻制作基礎(chǔ)
- 設(shè)計的思考:用戶體驗設(shè)計核心問答(加強版)