前言

計(jì)算機(jī)視覺是研究如何讓計(jì)算機(jī)像人一樣“看”并“理解”世界的科學(xué)，所處理的多為圖像、視頻或三維信息等數(shù)據(jù)類型，所涵蓋的研究點(diǎn)涉及很多方面，例如物體檢測與識別、語義分割、運(yùn)動檢測與跟蹤、三維重建等。隨著技術(shù)的發(fā)展，計(jì)算機(jī)視覺與人工智能、醫(yī)學(xué)影像、公共安全、數(shù)字媒體等領(lǐng)域?qū)崿F(xiàn)多學(xué)科交叉融合，衍生出了很多新的研究熱點(diǎn)和技術(shù)應(yīng)用。在這些行業(yè)快速發(fā)展的大背景下，計(jì)算機(jī)視覺相關(guān)領(lǐng)域的科研和技術(shù)也取得了較大的進(jìn)步，并在這些行業(yè)應(yīng)用中發(fā)揮了重要的作用。尤其是在圖像、視頻采集設(shè)備（如照相機(jī)、攝像機(jī)、手機(jī)等）較為普及的情況下，圖像、視頻數(shù)據(jù)越來越容易獲得，計(jì)算機(jī)視覺相關(guān)的應(yīng)用也逐漸進(jìn)入到社會生活的方方面面。

在計(jì)算機(jī)視覺領(lǐng)域眾多的研究熱點(diǎn)中，圖像場景內(nèi)容理解是基礎(chǔ)且重要的研究問題。場景的內(nèi)容包含場景的環(huán)境、物體、人物等，場景的理解不僅包括對場景內(nèi)容的識別和理解，還包括對場景內(nèi)容所蘊(yùn)含的更深層次信息的理解，例如場景的三維信息、物體或?qū)ο蟮膶傩孕畔⒌取＿@些更深層次信息的理解，可以為計(jì)算機(jī)視覺的其他研究熱點(diǎn)或者是多學(xué)科的交叉應(yīng)用提供更多的技術(shù)支撐。

作者多年從事圖像場景內(nèi)容理解方面的研究工作，總結(jié)自己多年科研工作的成果撰寫此書。本書圍繞圖像場景內(nèi)容理解這個核心，從圖像場景的語義理解、圖像空間的幾何理解、對象級場景解析三個方面詳細(xì)闡述。從章節(jié)結(jié)構(gòu)來說，第1章緒論部分概述了圖像場景內(nèi)容理解的背景與意義以及發(fā)展歷程；第2章、第3章的內(nèi)容分別對應(yīng)場景語義和場景幾何的理解，是從場景級圖像內(nèi)容理解入手；在第4章轉(zhuǎn)入對象級圖像內(nèi)容理解；第5章概述了對象級場景理解在人工智能中的應(yīng)用。在一定程度上來說，場景級圖像內(nèi)容理解是基礎(chǔ)，對象級圖像內(nèi)容理解是提升。因此，本書從場景級圖像內(nèi)容理解入手，分析了難點(diǎn)與存在的問題，并給出了自己的解決方法；其后，轉(zhuǎn)為對象級圖像內(nèi)容理解，并分析了場景級與對象級圖像內(nèi)容理解的不同。

本書所介紹的工作得到了國家自然科學(xué)基金青年科學(xué)基金項(xiàng)目（61502036）、北京市教委科技計(jì)劃一般項(xiàng)目（KM201611417015）以及北京聯(lián)合大學(xué)科研項(xiàng)目（ZK50202002）的資助。在本書的撰寫過程中，作者得到了一些專家的支持，他們對本書提出了寶貴意見，在此表示感謝！本書涉及相關(guān)專業(yè)背景知識，對于一些專業(yè)術(shù)語也給出了相應(yīng)解釋。由于水平有限，書中難免存在差錯或疏漏，歡迎廣大讀者批評指正。

作者

2022年1月

官术网_书友最值得收藏!

計(jì)算機(jī)視覺的對象級場景理解及其應(yīng)用

前言