- 5G+AI融合全景圖
- 王志勤 劉曉峰 沈嘉 吳曉波 劉亮 彭木根
- 11字
- 2025-02-07 17:41:16
2.1 人工智能領(lǐng)域基礎(chǔ)知識
2.1.1 數(shù)據(jù)集
數(shù)據(jù)集是基于AI算法解決實(shí)際問題的基礎(chǔ)。數(shù)據(jù)集的質(zhì)量直接影響算法和模型的設(shè)計(jì)及性能。好的、公認(rèn)的數(shù)據(jù)集建立對推動AI算法的發(fā)展也發(fā)揮著重要作用。在圖像處理、自然語言處理、語音處理等眾多領(lǐng)域有大量著名數(shù)據(jù)集的存在,基于這些數(shù)據(jù)集,也開發(fā)出各種經(jīng)典的算法及模型,極大地推動了人工智能技術(shù)的發(fā)展。表2-1給出了深度學(xué)習(xí)領(lǐng)域一些比較著名的數(shù)據(jù)集。
表2-1 深度學(xué)習(xí)領(lǐng)域一些著名的數(shù)據(jù)集

續(xù)表

建立數(shù)據(jù)集也要遵循一定的步驟。首先,根據(jù)要解決的問題,需要構(gòu)思數(shù)據(jù)集的類型,如分類問題、識別問題、回歸問題等。然后,進(jìn)行數(shù)據(jù)收集工作,除了要考慮數(shù)據(jù)的類型、格式,還要兼顧數(shù)據(jù)的有效性、一致性和隱私性等問題。為了解決這些問題,需要在收集完數(shù)據(jù)后,對數(shù)據(jù)進(jìn)行清洗。數(shù)據(jù)清洗過后,還可以進(jìn)行數(shù)據(jù)的標(biāo)注。數(shù)據(jù)清洗和標(biāo)注可以通過人工或者基于程序的方式進(jìn)行。為達(dá)到穩(wěn)定可用的性能,一般的機(jī)器學(xué)習(xí)算法要求的數(shù)據(jù)量較大,基于人工的數(shù)據(jù)清洗和標(biāo)注方式需要巨大的工作量。
建立數(shù)據(jù)集也會遇到一些問題,比較常見的問題如數(shù)據(jù)集的完整性、一致性、均勻性等。面對各種復(fù)雜的場景及情況,數(shù)據(jù)集的完整性是比較難以直接證明的。數(shù)據(jù)集的構(gòu)建也需要與相應(yīng)的算法和模型有個互動更新與完善的過程。數(shù)據(jù)集樣本數(shù)提升,可以支持更靈活的數(shù)據(jù)集構(gòu)建方式和更復(fù)雜的算法及模型的訓(xùn)練,相應(yīng)地,得到好的算法及模型的概率也得到提升。在構(gòu)建數(shù)據(jù)集時并不是越大的數(shù)據(jù)集越好,大的數(shù)據(jù)集進(jìn)行訓(xùn)練需要的算力資源也會增加,訓(xùn)練的時間也會提升,但是建立模型的性能并不會必然提升。數(shù)據(jù)集的建立需要和模型一起,在面對實(shí)際的問題時不斷探索與驗(yàn)證。
- 小哥Cadence Allegro PCB軟件操作技巧260例(配視頻教程)
- 基于EDA的電子技術(shù)課程設(shè)計(jì)
- 5G通信系統(tǒng)定位技術(shù)原理與方法
- 數(shù)字圖像處理及應(yīng)用:使用MATLAB分析與實(shí)現(xiàn)
- Building a Pentesting Lab for Wireless Networks
- 隨機(jī)多址通信系統(tǒng)理論及仿真研究
- Premiere Pro CS6影視編輯剪輯制作實(shí)戰(zhàn)從入門到精通(全彩超值版)
- 配電網(wǎng)可靠性規(guī)劃
- 數(shù)據(jù)鏈理論與系統(tǒng)
- Identity with Windows Server 2016:Microsoft 70-742 MCSA Exam Guide
- 微波射頻電路設(shè)計(jì)與仿真100例
- 現(xiàn)代通信技術(shù)及應(yīng)用(第3版)
- 經(jīng)典礦石機(jī)鑒賞與現(xiàn)代礦石機(jī)制作
- 數(shù)字圖像處理(MATLAB版)(第2版)
- 電子整機(jī)原理:數(shù)字視聽設(shè)備