官术网_书友最值得收藏!

1.6 基于遷移學習的數(shù)據(jù)分類可視分析方法

傳統(tǒng)分類問題中,訓練數(shù)據(jù)和未標記數(shù)據(jù)通常被認為是來自于同一個特征空間和數(shù)據(jù)分布。遷移學習方法希望通過“知識遷移”的手段,將不同特征空間和分布的數(shù)據(jù)結(jié)合在一起。遷移學習的內(nèi)部機制類似于“從類比中學習”,其機制源自于認知心理學,即通過構(gòu)造共有特征等方法,將已有的模型和知識適配在新的任務(wù)上。

對于沒有任何先驗知識(例如類別標記等)的新任務(wù)和數(shù)據(jù),遷移學習方法可以重用已有模型或有標記數(shù)據(jù),以降低探索新任務(wù)和數(shù)據(jù)的成本。一個典型的例子是網(wǎng)頁文本的情感分類,由于網(wǎng)絡(luò)語言的內(nèi)容發(fā)展迅速,表達正向或負向情感的詞語隨著時間的推移會發(fā)生天翻地覆的變化。如果使用過去已有的情感分類模型去對現(xiàn)有的文本進行情感分析,則準確率可能會因為詞語分布的變化而大大下降。遷移學習方法可以通過抽取前后兩個時間段上共有的詞語分布特征,以及從過去帶有情感分類標記的數(shù)據(jù)中挑選出仍舊可以復用的部分,來對已有的模型進行適配,或是復用已有的帶標記訓練數(shù)據(jù)。在很多論文中,遷移學習已被證明能夠提高對新任務(wù)的分析能力。

目前遷移學習這一領(lǐng)域已經(jīng)得到了長足的發(fā)展,然而在實際應用中仍舊有很多問題需要解決。其中最重要的兩個挑戰(zhàn)是估算已有模型的“可遷移性”和已有標記數(shù)據(jù)的“可復用性”。

①“可遷移性”用于度量已有模型相對于新分析任務(wù)的適配程度。在分析新任務(wù)時,用戶可以基于“可遷移性”這一度量來尋找合適的已有模型。

②從數(shù)據(jù)角度講,“可復用性”用于表示已有的標記數(shù)據(jù)在多大程度上可以在訓練新模型時進行復用。可復用性高的已有標記數(shù)據(jù)可以減輕從新數(shù)據(jù)集上獲取標記數(shù)據(jù)的壓力。

然而在基于自動過程的遷移學習方法和復雜的分析任務(wù)中,這兩個挑戰(zhàn)仍未被很好地解決,因此我們提出,交互式可視化方法是一種可行的解決方案。該方案能夠很好地融合用戶的專家知識,以達到使用人類智能解決遷移學習中判斷可遷移性和可復用性的問題。本案例以文本分類為背景,其核心在于一系列交互式可視化設(shè)計與方法,用于幫助用戶理解和操作遷移學習過程,包括對已有文本分類任務(wù)和目標任務(wù)之間可遷移性的探索和判斷,以及舊任務(wù)中帶標記文本能夠重用于新任務(wù)中的程度。

1.6.1 概念定義

(1) 應用背景

本案例場景使用文本二類分類作為應用場景,其中會使用詞袋模型將所有文本(Bag of Words,BOW)轉(zhuǎn)化為詞頻向量,并進行tf-idf(term frequency-inverse document frequency)加權(quán),文本的分類標記只有兩個。

(2)“任務(wù)”“領(lǐng)域”和“模型”

相對于傳統(tǒng)文本分類場景中訓練數(shù)據(jù)和測試數(shù)據(jù)來源相同、數(shù)據(jù)分布相同這一特征,遷移學習強調(diào)訓練數(shù)據(jù)和測試數(shù)據(jù)來自不同的數(shù)據(jù)源(例如來自不同網(wǎng)站、不同時間段、不同的專業(yè)方向等),數(shù)據(jù)分布也可能不同。這些不同的數(shù)據(jù)來源被定義為數(shù)據(jù)的領(lǐng)域(domain)。每個領(lǐng)域可基于其中有分類標記的數(shù)據(jù)(例如新聞網(wǎng)站上被標記為“體育新聞”的頁面,或是學校大量課程報告中被標記為“計算機科學”類型的課程報告)訓練出相應的文本分類模型(model)。領(lǐng)域和模型結(jié)合起來,可以用于解決一個特定的分類任務(wù)(例如從新聞網(wǎng)站上分出與體育相關(guān)的新聞文本,或是從課程報告中篩選出與計算機科學相關(guān)的報告)。在這里,我們將數(shù)據(jù)領(lǐng)域和基于該領(lǐng)域訓練出的模型稱作一個任務(wù)。

(3)“源”與“目標”

如果用戶已經(jīng)獲得了某個任務(wù)中的帶標記數(shù)據(jù)和訓練好的模型,并希望將其遷移到一個新的任務(wù)上,那么這個已有的任務(wù)被稱作遷移學習過程中的“源任務(wù)”,其數(shù)據(jù)領(lǐng)域被稱作“源領(lǐng)域”。相對來說,這個新的任務(wù)和涉及的數(shù)據(jù)領(lǐng)域被稱作“目標任務(wù)”和“目標領(lǐng)域”。

基于上述定義,這里將本案例中涉及的遷移學習過程定義為:利用來自源領(lǐng)域中的標記數(shù)據(jù)和源任務(wù)中已訓練好的模型來訓練一個新的分類模型,使得這個分類模型能夠在目標分類任務(wù)和目標領(lǐng)域上獲得最好的分類性能。

1.6.2 方法概覽

圖1-40展示了本案例的方法框架。本框架主要分成四個階段。

圖1-40 本案例的方法概覽圖

①對于給定的一個目標任務(wù),一系列源任務(wù)及其相關(guān)數(shù)據(jù)會被導入到系統(tǒng)中。

②源任務(wù)和目標任務(wù)之間的可遷移性會被自動計算出來,用戶使用任務(wù)探索視圖對一系列源任務(wù)和給定的目標任務(wù)之間的相似程度和可遷移程度進行探索,最后選出一個適合的源任務(wù)。

③對于選定的源任務(wù),用戶使用任務(wù)遷移視圖對源任務(wù)中可被遷移的標記數(shù)據(jù)進行選擇。每次選擇后都可以用于目標任務(wù)中新模型的訓練。

④已經(jīng)訓練好的新任務(wù)可以重新添加至任務(wù)列表中,作為其他新任務(wù)的源任務(wù)使用。

圖1-41展示了本案例方法的系統(tǒng)界面,其主要包含四個視圖:任務(wù)探索視圖、數(shù)據(jù)遷移視圖、任務(wù)詳細信息視圖、數(shù)據(jù)詳細信息視圖。

圖1-41 系統(tǒng)界面

主站蜘蛛池模板: 武城县| 德安县| 青冈县| 沽源县| 南漳县| 新宁县| 紫金县| 乐陵市| 德保县| 修水县| 双流县| 大田县| 定南县| 上饶市| 凤山县| 玛纳斯县| 会同县| 阿拉善右旗| 广宁县| 京山县| 洪洞县| 两当县| 樟树市| 苍梧县| 西充县| 辰溪县| 义乌市| 萨嘎县| 新建县| 儋州市| 涪陵区| 扶沟县| 临沭县| 阿克| 黔江区| 黄山市| 来凤县| 荆州市| 四川省| 黄陵县| 民乐县|