官术网_书友最值得收藏!

  • 5G+AI融合全景圖
  • 王志勤 劉曉峰 沈嘉 吳曉波 劉亮 彭木根
  • 11字
  • 2025-02-07 17:41:16

2.1 人工智能領(lǐng)域基礎(chǔ)知識

2.1.1 數(shù)據(jù)集

數(shù)據(jù)集是基于AI算法解決實(shí)際問題的基礎(chǔ)。數(shù)據(jù)集的質(zhì)量直接影響算法和模型的設(shè)計(jì)及性能。好的、公認(rèn)的數(shù)據(jù)集建立對推動AI算法的發(fā)展也發(fā)揮著重要作用。在圖像處理、自然語言處理、語音處理等眾多領(lǐng)域有大量著名數(shù)據(jù)集的存在,基于這些數(shù)據(jù)集,也開發(fā)出各種經(jīng)典的算法及模型,極大地推動了人工智能技術(shù)的發(fā)展。表2-1給出了深度學(xué)習(xí)領(lǐng)域一些比較著名的數(shù)據(jù)集。

表2-1 深度學(xué)習(xí)領(lǐng)域一些著名的數(shù)據(jù)集

續(xù)表

建立數(shù)據(jù)集也要遵循一定的步驟。首先,根據(jù)要解決的問題,需要構(gòu)思數(shù)據(jù)集的類型,如分類問題、識別問題、回歸問題等。然后,進(jìn)行數(shù)據(jù)收集工作,除了要考慮數(shù)據(jù)的類型、格式,還要兼顧數(shù)據(jù)的有效性、一致性和隱私性等問題。為了解決這些問題,需要在收集完數(shù)據(jù)后,對數(shù)據(jù)進(jìn)行清洗。數(shù)據(jù)清洗過后,還可以進(jìn)行數(shù)據(jù)的標(biāo)注。數(shù)據(jù)清洗和標(biāo)注可以通過人工或者基于程序的方式進(jìn)行。為達(dá)到穩(wěn)定可用的性能,一般的機(jī)器學(xué)習(xí)算法要求的數(shù)據(jù)量較大,基于人工的數(shù)據(jù)清洗和標(biāo)注方式需要巨大的工作量。

建立數(shù)據(jù)集也會遇到一些問題,比較常見的問題如數(shù)據(jù)集的完整性、一致性、均勻性等。面對各種復(fù)雜的場景及情況,數(shù)據(jù)集的完整性是比較難以直接證明的。數(shù)據(jù)集的構(gòu)建也需要與相應(yīng)的算法和模型有個互動更新與完善的過程。數(shù)據(jù)集樣本數(shù)提升,可以支持更靈活的數(shù)據(jù)集構(gòu)建方式和更復(fù)雜的算法及模型的訓(xùn)練,相應(yīng)地,得到好的算法及模型的概率也得到提升。在構(gòu)建數(shù)據(jù)集時并不是越大的數(shù)據(jù)集越好,大的數(shù)據(jù)集進(jìn)行訓(xùn)練需要的算力資源也會增加,訓(xùn)練的時間也會提升,但是建立模型的性能并不會必然提升。數(shù)據(jù)集的建立需要和模型一起,在面對實(shí)際的問題時不斷探索與驗(yàn)證。

主站蜘蛛池模板: 鄂尔多斯市| 郧西县| 精河县| 舒城县| 阿瓦提县| 肇东市| 孙吴县| 沁源县| 横峰县| 渑池县| 文登市| 靖江市| 锦州市| 墨江| 台湾省| 安乡县| 灵璧县| 永州市| 神农架林区| 滁州市| 西畴县| 盐津县| 昔阳县| 离岛区| 晋城| 白玉县| 关岭| 娱乐| 南木林县| 外汇| 宁海县| 新宾| 枣强县| 嘉善县| 临洮县| 平和县| 镇雄县| 普兰店市| 永州市| 微山县| 舞阳县|