書名: 大數(shù)據(jù)可視分析方法與應用作者名: 陳為 巫英才 鮑虎軍等本章字數(shù): 1845字更新時間: 2020-05-07 14:46:12
1.6 基于遷移學習的數(shù)據(jù)分類可視分析方法
傳統(tǒng)分類問題中,訓練數(shù)據(jù)和未標記數(shù)據(jù)通常被認為是來自于同一個特征空間和數(shù)據(jù)分布。遷移學習方法希望通過“知識遷移”的手段,將不同特征空間和分布的數(shù)據(jù)結(jié)合在一起。遷移學習的內(nèi)部機制類似于“從類比中學習”,其機制源自于認知心理學,即通過構(gòu)造共有特征等方法,將已有的模型和知識適配在新的任務(wù)上。
對于沒有任何先驗知識(例如類別標記等)的新任務(wù)和數(shù)據(jù),遷移學習方法可以重用已有模型或有標記數(shù)據(jù),以降低探索新任務(wù)和數(shù)據(jù)的成本。一個典型的例子是網(wǎng)頁文本的情感分類,由于網(wǎng)絡(luò)語言的內(nèi)容發(fā)展迅速,表達正向或負向情感的詞語隨著時間的推移會發(fā)生天翻地覆的變化。如果使用過去已有的情感分類模型去對現(xiàn)有的文本進行情感分析,則準確率可能會因為詞語分布的變化而大大下降。遷移學習方法可以通過抽取前后兩個時間段上共有的詞語分布特征,以及從過去帶有情感分類標記的數(shù)據(jù)中挑選出仍舊可以復用的部分,來對已有的模型進行適配,或是復用已有的帶標記訓練數(shù)據(jù)。在很多論文中,遷移學習已被證明能夠提高對新任務(wù)的分析能力。
目前遷移學習這一領(lǐng)域已經(jīng)得到了長足的發(fā)展,然而在實際應用中仍舊有很多問題需要解決。其中最重要的兩個挑戰(zhàn)是估算已有模型的“可遷移性”和已有標記數(shù)據(jù)的“可復用性”。
①“可遷移性”用于度量已有模型相對于新分析任務(wù)的適配程度。在分析新任務(wù)時,用戶可以基于“可遷移性”這一度量來尋找合適的已有模型。
②從數(shù)據(jù)角度講,“可復用性”用于表示已有的標記數(shù)據(jù)在多大程度上可以在訓練新模型時進行復用。可復用性高的已有標記數(shù)據(jù)可以減輕從新數(shù)據(jù)集上獲取標記數(shù)據(jù)的壓力。
然而在基于自動過程的遷移學習方法和復雜的分析任務(wù)中,這兩個挑戰(zhàn)仍未被很好地解決,因此我們提出,交互式可視化方法是一種可行的解決方案。該方案能夠很好地融合用戶的專家知識,以達到使用人類智能解決遷移學習中判斷可遷移性和可復用性的問題。本案例以文本分類為背景,其核心在于一系列交互式可視化設(shè)計與方法,用于幫助用戶理解和操作遷移學習過程,包括對已有文本分類任務(wù)和目標任務(wù)之間可遷移性的探索和判斷,以及舊任務(wù)中帶標記文本能夠重用于新任務(wù)中的程度。
1.6.1 概念定義
(1) 應用背景
本案例場景使用文本二類分類作為應用場景,其中會使用詞袋模型將所有文本(Bag of Words,BOW)轉(zhuǎn)化為詞頻向量,并進行tf-idf(term frequency-inverse document frequency)加權(quán),文本的分類標記只有兩個。
(2)“任務(wù)”“領(lǐng)域”和“模型”
相對于傳統(tǒng)文本分類場景中訓練數(shù)據(jù)和測試數(shù)據(jù)來源相同、數(shù)據(jù)分布相同這一特征,遷移學習強調(diào)訓練數(shù)據(jù)和測試數(shù)據(jù)來自不同的數(shù)據(jù)源(例如來自不同網(wǎng)站、不同時間段、不同的專業(yè)方向等),數(shù)據(jù)分布也可能不同。這些不同的數(shù)據(jù)來源被定義為數(shù)據(jù)的領(lǐng)域(domain)。每個領(lǐng)域可基于其中有分類標記的數(shù)據(jù)(例如新聞網(wǎng)站上被標記為“體育新聞”的頁面,或是學校大量課程報告中被標記為“計算機科學”類型的課程報告)訓練出相應的文本分類模型(model)。領(lǐng)域和模型結(jié)合起來,可以用于解決一個特定的分類任務(wù)(例如從新聞網(wǎng)站上分出與體育相關(guān)的新聞文本,或是從課程報告中篩選出與計算機科學相關(guān)的報告)。在這里,我們將數(shù)據(jù)領(lǐng)域和基于該領(lǐng)域訓練出的模型稱作一個任務(wù)。
(3)“源”與“目標”
如果用戶已經(jīng)獲得了某個任務(wù)中的帶標記數(shù)據(jù)和訓練好的模型,并希望將其遷移到一個新的任務(wù)上,那么這個已有的任務(wù)被稱作遷移學習過程中的“源任務(wù)”,其數(shù)據(jù)領(lǐng)域被稱作“源領(lǐng)域”。相對來說,這個新的任務(wù)和涉及的數(shù)據(jù)領(lǐng)域被稱作“目標任務(wù)”和“目標領(lǐng)域”。
基于上述定義,這里將本案例中涉及的遷移學習過程定義為:利用來自源領(lǐng)域中的標記數(shù)據(jù)和源任務(wù)中已訓練好的模型來訓練一個新的分類模型,使得這個分類模型能夠在目標分類任務(wù)和目標領(lǐng)域上獲得最好的分類性能。
1.6.2 方法概覽
圖1-40展示了本案例的方法框架。本框架主要分成四個階段。

圖1-40 本案例的方法概覽圖
①對于給定的一個目標任務(wù),一系列源任務(wù)及其相關(guān)數(shù)據(jù)會被導入到系統(tǒng)中。
②源任務(wù)和目標任務(wù)之間的可遷移性會被自動計算出來,用戶使用任務(wù)探索視圖對一系列源任務(wù)和給定的目標任務(wù)之間的相似程度和可遷移程度進行探索,最后選出一個適合的源任務(wù)。
③對于選定的源任務(wù),用戶使用任務(wù)遷移視圖對源任務(wù)中可被遷移的標記數(shù)據(jù)進行選擇。每次選擇后都可以用于目標任務(wù)中新模型的訓練。
④已經(jīng)訓練好的新任務(wù)可以重新添加至任務(wù)列表中,作為其他新任務(wù)的源任務(wù)使用。
圖1-41展示了本案例方法的系統(tǒng)界面,其主要包含四個視圖:任務(wù)探索視圖、數(shù)據(jù)遷移視圖、任務(wù)詳細信息視圖、數(shù)據(jù)詳細信息視圖。

圖1-41 系統(tǒng)界面
- 基于C語言的程序設(shè)計
- 并行數(shù)據(jù)挖掘及性能優(yōu)化:關(guān)聯(lián)規(guī)則與數(shù)據(jù)相關(guān)性分析
- 機艙監(jiān)測與主機遙控
- Photoshop CS3圖像處理融會貫通
- Prometheus監(jiān)控實戰(zhàn)
- 深度學習與目標檢測
- R Data Analysis Projects
- PLC與變頻技術(shù)應用
- AMK伺服控制系統(tǒng)原理及應用
- 西門子S7-1200/1500 PLC從入門到精通
- Practical Network Automation
- Hands-On Geospatial Analysis with R and QGIS
- Qt中的C++技術(shù)
- Hands-On Data Analysis with NumPy and pandas
- 計算機導論:實訓篇(第2版)