- 計(jì)算機(jī)視覺的對象級場景理解及其應(yīng)用
- 李青
- 969字
- 2023-08-28 20:17:42
前言
計(jì)算機(jī)視覺是研究如何讓計(jì)算機(jī)像人一樣“看”并“理解”世界的科學(xué),所處理的多為圖像、視頻或三維信息等數(shù)據(jù)類型,所涵蓋的研究點(diǎn)涉及很多方面,例如物體檢測與識別、語義分割、運(yùn)動檢測與跟蹤、三維重建等。隨著技術(shù)的發(fā)展,計(jì)算機(jī)視覺與人工智能、醫(yī)學(xué)影像、公共安全、數(shù)字媒體等領(lǐng)域?qū)崿F(xiàn)多學(xué)科交叉融合,衍生出了很多新的研究熱點(diǎn)和技術(shù)應(yīng)用。在這些行業(yè)快速發(fā)展的大背景下,計(jì)算機(jī)視覺相關(guān)領(lǐng)域的科研和技術(shù)也取得了較大的進(jìn)步,并在這些行業(yè)應(yīng)用中發(fā)揮了重要的作用。尤其是在圖像、視頻采集設(shè)備(如照相機(jī)、攝像機(jī)、手機(jī)等)較為普及的情況下,圖像、視頻數(shù)據(jù)越來越容易獲得,計(jì)算機(jī)視覺相關(guān)的應(yīng)用也逐漸進(jìn)入到社會生活的方方面面。
在計(jì)算機(jī)視覺領(lǐng)域眾多的研究熱點(diǎn)中,圖像場景內(nèi)容理解是基礎(chǔ)且重要的研究問題。場景的內(nèi)容包含場景的環(huán)境、物體、人物等,場景的理解不僅包括對場景內(nèi)容的識別和理解,還包括對場景內(nèi)容所蘊(yùn)含的更深層次信息的理解,例如場景的三維信息、物體或?qū)ο蟮膶傩孕畔⒌取_@些更深層次信息的理解,可以為計(jì)算機(jī)視覺的其他研究熱點(diǎn)或者是多學(xué)科的交叉應(yīng)用提供更多的技術(shù)支撐。
作者多年從事圖像場景內(nèi)容理解方面的研究工作,總結(jié)自己多年科研工作的成果撰寫此書。本書圍繞圖像場景內(nèi)容理解這個核心,從圖像場景的語義理解、圖像空間的幾何理解、對象級場景解析三個方面詳細(xì)闡述。從章節(jié)結(jié)構(gòu)來說,第1章緒論部分概述了圖像場景內(nèi)容理解的背景與意義以及發(fā)展歷程;第2章、第3章的內(nèi)容分別對應(yīng)場景語義和場景幾何的理解,是從場景級圖像內(nèi)容理解入手;在第4章轉(zhuǎn)入對象級圖像內(nèi)容理解;第5章概述了對象級場景理解在人工智能中的應(yīng)用。在一定程度上來說,場景級圖像內(nèi)容理解是基礎(chǔ),對象級圖像內(nèi)容理解是提升。因此,本書從場景級圖像內(nèi)容理解入手,分析了難點(diǎn)與存在的問題,并給出了自己的解決方法;其后,轉(zhuǎn)為對象級圖像內(nèi)容理解,并分析了場景級與對象級圖像內(nèi)容理解的不同。
本書所介紹的工作得到了國家自然科學(xué)基金青年科學(xué)基金項(xiàng)目(61502036)、北京市教委科技計(jì)劃一般項(xiàng)目(KM201611417015)以及北京聯(lián)合大學(xué)科研項(xiàng)目(ZK50202002)的資助。在本書的撰寫過程中,作者得到了一些專家的支持,他們對本書提出了寶貴意見,在此表示感謝!本書涉及相關(guān)專業(yè)背景知識,對于一些專業(yè)術(shù)語也給出了相應(yīng)解釋。由于水平有限,書中難免存在差錯或疏漏,歡迎廣大讀者批評指正。
作者
2022年1月
- AIGC:讓生成式AI成為自己的外腦
- 虛擬現(xiàn)實(shí):商業(yè)化應(yīng)用及影響
- 機(jī)器人設(shè)計(jì)與制作
- Arduino開發(fā)實(shí)戰(zhàn)指南:機(jī)器人卷
- 聯(lián)邦學(xué)習(xí)實(shí)戰(zhàn)
- 統(tǒng)計(jì)學(xué)習(xí)必學(xué)的十個問題:理論與實(shí)踐
- AI自媒體寫作超簡單
- 移動機(jī)器人技術(shù)及其應(yīng)用
- 創(chuàng)造性思維:人工智能之父馬文·明斯基論教育
- 深入淺出人工智能:原理、技術(shù)與應(yīng)用
- 強(qiáng)化學(xué)習(xí):原理與Python實(shí)現(xiàn)
- ChatGPT時代:ChatGPT全能應(yīng)用一本通
- 無人機(jī):知道這些就夠了
- 人機(jī)大戰(zhàn)
- 揭秘大模型:從原理到實(shí)戰(zhàn)