- 數(shù)據(jù)處理與深度學習
- 朱定局
- 10995字
- 2019-11-15 20:43:28
1.2 基于聯(lián)合聚類深度學習模型的數(shù)據(jù)識別
現(xiàn)有深度學習模型能通過輸入數(shù)據(jù)得到輸出標簽,例如,通過頭像得到該人身份證號,或者通過語音得到該人身份證號。但在自頂向下的監(jiān)督學習階段必須要通過帶標簽數(shù)據(jù)的監(jiān)督學習,例如,帶有身份證號的頭像,或者帶有身份證號的語音。如果同時具備帶有身份證號的頭像和帶有身份證號的語音,則可以將一個頭像輸入頭像類對應的深度學習模型,從而得到輸出的身份證號。將一個語音輸入語音類對應的深度學習模型得到輸出的身份證號,然后判斷通過輸入頭像和輸入語音分別得到的輸出的身份證號是否相同。如果相同則判斷一個頭像與一個語音對應的是同一人,如果不同則判斷一個頭像與一個語音對應的不是同一人。
但是,由于深度學習模型的準確率無法達到100%[3,4],所以一個頭像輸入頭像類對應的深度學習模型后輸出的身份證號可能是另一個頭像相似的人的身份證號,一個語音輸入語音類對應的深度學習模型后輸出的身份證號可能是另一個語音相似的人的身份證號,那么就會導致不屬于同一個人的一個頭像和一個語音被判定為對應同一個人,也會導致屬于不同人的一個頭像和一個語音被判定為對應同一個人。當判斷出一個頭像和一個語音對應不同人時,卻無法計算出該頭像和該語音可能對應同一個人的概率;或者當判斷出一個頭像和一個語音對應同一個人時,卻無法計算出該頭像和該語音可能對應不同人的概率或其他人的概率。
當通過語音、頭像,甚至更多其他類型的數(shù)據(jù)來識別對象時,使用現(xiàn)有深度學習技術,無法綜合利用相似度及多種深度學習的結果來計算出其他可能性輸出及最優(yōu)輸出,從而無法進行進一步的精準識別和判斷。
本技術方案研究并給出了一種新的基于聯(lián)合聚類深度學習模型的數(shù)據(jù)識別方法,步驟如下:①獲取N類數(shù)據(jù)樣本集及對應的標簽集并進行預處理,同時獲取數(shù)據(jù)預設格式、標簽預設格式;②對深度學習模型進行訓練;③將每一類任一測試數(shù)據(jù)轉化為該類數(shù)據(jù)預設格式后作為該類深度學習模型的輸入,得到對應的測試輸出標簽;④根據(jù)測試輸出標簽所在標簽集的元素個數(shù)及數(shù)據(jù)集之間相似度的計算,確定可能輸出標簽及最優(yōu)輸出標簽;⑤計算各類輸出標簽一致和不一致的概率;⑥將可能、最優(yōu)輸出標簽及步驟⑤中的概率輸出。
本技術方案通過相似度計算彌補深度學習模型在輸出標簽數(shù)量多而輸入樣本量不足時輸出準確性的不足,進而提高輸出的準確性。
1.2.1 基于聯(lián)合聚類深度學習模型的數(shù)據(jù)識別方法
1. 基于聯(lián)合聚類深度學習模型的N類數(shù)據(jù)識別
基于聯(lián)合聚類深度學習模型的數(shù)據(jù)識別方法,包括以下步驟。
(1)步驟S1,先獲取N類數(shù)據(jù)樣本集及每一類數(shù)據(jù)樣本集對應的標簽集,再獲取N類數(shù)據(jù)樣本集中每一類數(shù)據(jù)樣本的數(shù)據(jù)預設格式,并獲取標簽預設格式,然后對N類數(shù)據(jù)樣本集和標簽集進行預處理;N≥1。其中,獲取N類中每一類數(shù)據(jù)樣本的數(shù)據(jù)預設格式,并獲取標簽預設格式,具體步驟為:
獲取每一類數(shù)據(jù)樣本集中每一個數(shù)據(jù)樣本的數(shù)據(jù)格式,將該類中相同的數(shù)據(jù)格式進行合并得到s種數(shù)據(jù)格式,統(tǒng)計該類數(shù)據(jù)樣本集中每一種數(shù)據(jù)格式Pi對應的數(shù)據(jù)樣本數(shù)量Mi,將最大的Mi對應的數(shù)據(jù)格式Pi作為該類數(shù)據(jù)樣本的數(shù)據(jù)預設格式;其中,s≥1,i≥1且i≤s。
獲取每一類數(shù)據(jù)樣本集對應的標簽集中每一個標簽的標簽格式,將所有類中相同的標簽格式進行合并得到至少t種標簽格式,統(tǒng)計該類標簽集中每一種標簽格式Qj對應的標簽數(shù)量Nj,將最大的Nj對應的標簽格式Qj作為標簽預設格式;其中,t≥1,j≥1且j≤t。
對N類數(shù)據(jù)樣本集和標簽集進行預處理,具體步驟如下。
步驟S1-1,判斷每一類數(shù)據(jù)樣本集中每一數(shù)據(jù)樣本的數(shù)據(jù)格式是否與該類數(shù)據(jù)樣本的數(shù)據(jù)預設格式一致,如果不一致,則將該類數(shù)據(jù)樣本的數(shù)據(jù)格式轉化為該類數(shù)據(jù)樣本的數(shù)據(jù)預設格式;
步驟S1-2,判斷每一類數(shù)據(jù)樣本集中每一個數(shù)據(jù)樣本對應的標簽的數(shù)據(jù)格式是否與標簽預設格式一致,如果不一致,則將該類數(shù)據(jù)樣本對應的標簽的數(shù)據(jù)格式轉化為標簽預設格式;
步驟S1-3,對N類數(shù)據(jù)樣本集中的每類數(shù)據(jù)樣本集進行聚類處理,獲得J個聚類后的數(shù)據(jù)樣本集及其對應的輸出標簽集;
步驟S1-4,對J個聚類后的輸出標簽集中每個類中相同的標簽進行合并,得到更新后的J個輸出標簽集;
步驟S1-5,將更新后的J個輸出標簽集中具有相同標簽的標簽集及對應的數(shù)據(jù)樣本集分別進行合并,得到預處理后的數(shù)據(jù)樣本集及其對應的輸出標簽集。
(2)步驟S2,初始化N類數(shù)據(jù)樣本集對應的N個深度學習模型。具體為:
步驟S2-1,將每一類數(shù)據(jù)樣本的數(shù)據(jù)預設格式作為該類對應的深度學習模型的輸入格式;
步驟S2-2,將標簽預設格式作為每一類對應的深度學習模型的輸出格式;
步驟S2-3,獲取每一類對應的深度學習模型的配置信息,將其作為該類對應的深度學習模型的配置信息,然后對該類對應的深度學習模型進行配置。具體為:
①從深度學習模型配置知識庫中獲取輸入格式、輸出格式與每一類數(shù)據(jù)預設格式及標簽預設格式最為匹配的深度學習模型對應的配置信息,將其作為該類對應的深度學習模型的預設配置信息。
其中,
輸入格式、輸出格式與每類數(shù)據(jù)預設格式及標簽預設格式的匹配度
=輸入格式與該類數(shù)據(jù)預設格式的匹配度×u%+
輸出格式與標簽預設格式的匹配度×(1-u%)
u的默認值為90。
②將每一類對應的深度學習模型的預設配置信息輸出給用戶。
③獲取用戶對每一類對應的深度學習模型的預設配置信息的修改。
④將修改后的每一類對應的深度學習模型的預設配置信息,作為該類對應的深度學習模型的預設配置信息。
(3)步驟S3,將步驟S1獲取的每一類數(shù)據(jù)樣本集作為輸入,將其對應的標簽集作為輸出,對該類對應的深度學習模型進行訓練,得到N個訓練后的深度學習模型。具體為:
步驟S3-1,將每一類數(shù)據(jù)樣本集中每一個數(shù)據(jù)樣本作為該類對應的深度學習模型的輸入,對該類對應的深度學習模型進行自下而上的無監(jiān)督訓練。
步驟S3-2,將每一類數(shù)據(jù)樣本集中每一個數(shù)據(jù)樣本作為該類對應的深度學習模型的輸入,將該類數(shù)據(jù)樣本集對應的標簽集中該數(shù)據(jù)樣本對應的標簽作為輸出,對該類對應的深度學習模型進行自頂向下的監(jiān)督學習,得到N個訓練后的深度學習模型。
(4)步驟S4,為每一類對應的深度學習模型獲取一個測試數(shù)據(jù),將每一類測試數(shù)據(jù)的數(shù)據(jù)格式轉化為該類數(shù)據(jù)樣本的數(shù)據(jù)預設格式,然后將該測試數(shù)據(jù)作為該類對應的深度學習模型的輸入,通過該深度學習模型的計算得到該類對應的測試輸出標簽。
(5)步驟S5,在步驟S1預處理的標簽集中查找每一類的測試輸出標簽所在的標簽集,之后判斷該標簽集是否只有一個標簽元素。如果每一類的測試輸出標簽所在的標簽集只有一個標簽元素,則將每一類的測試輸出標簽作為該類的最優(yōu)輸出標簽;否則執(zhí)行下一步。
(6)步驟S6,計算每一類的測試輸出標簽所對應的數(shù)據(jù)樣本集與該類測試輸出標簽所在的標簽集中每一標簽元素對應的數(shù)據(jù)樣本集的相似度,并根據(jù)該相似度計算并確定每一組可能輸出標簽;其中,每一組可能輸出標簽中包含了每一類的一個可能輸出標簽。具體為:
如果N=1,則計算測試輸出標簽所對應的數(shù)據(jù)樣本集與測試輸出標簽所在的標簽集中每一標簽元素對應的數(shù)據(jù)樣本集的相似度,將相似度大于第一預設值a的所有標簽元素作為一組可能輸出標簽;
如果N>1,則獲取第i類測試輸出標簽所對應的數(shù)據(jù)樣本集Di;獲取第i類測試輸出標簽所在的標簽集中標簽元素的個數(shù)mi;獲取第i類測試輸出標簽所在的標簽集中第j個標簽元素對應的數(shù)據(jù)樣本集Dij;計算Di與Dij的相似度Pij,其中,i取從1~N中的每一個自然數(shù),j取從1~mi中的每一個自然數(shù)。
對k1,k2,…,kN的每一個取值,計算相似度第一綜合值f(P1k1,P2k2,…,PNkN),如果f(P1k1,P2k2,…,PNkN)大于第二預設值b,則將第1類測試輸出標簽所在的標簽集中第k1個標簽元素,第2類測試輸出標簽所在的標簽集中第k2個標簽元素,……,第N類測試輸出標簽所在的標簽集中第kN個標簽元素,作為一組可能輸出標簽;其中,k1取從1~m1中的每一個自然數(shù),k2取從1~m2中的每一個自然數(shù),……,kN取從1~mN中的每一個自然數(shù);f(P1k1,P2k2,…,PNkN)表示求(P1k1,P2k2,…,PNkN)的乘積。
(7)步驟S7,計算每一組可能輸出標簽中每一類的可能輸出標簽對應的數(shù)據(jù)樣本集與該類測試數(shù)據(jù)集的相似度,并根據(jù)該相似度計算并確定一組可能輸出標簽作為最優(yōu)輸出標簽。具體為:
如果N=1,則計算每一組可能輸出標簽對應的數(shù)據(jù)樣本集與該類測試數(shù)據(jù)集的相似度,獲取最大相似度對應的一組可能輸出標簽作為最優(yōu)輸出標簽;
如果N>1,則計算每一組可能輸出標簽中第i類可能輸出標簽對應的數(shù)據(jù)樣本集與該類測試數(shù)據(jù)集的相似度Pi,之后計算相似度第二綜合值g(P1,P2,…,PN),獲取最大相似度第二綜合值對應的一組可能輸出標簽作為最優(yōu)輸出標簽;其中,g(P1,P2,…,PN)表示求(P1,P2,…,PN)的乘積,i取1~N中的每一個自然數(shù)。
(8)步驟S8,計算可能輸出標簽中各類輸出標簽都一致及不一致的概率,作為各類輸出標簽一致及不一致的概率。具體為:
如果N=1,則只有一類輸出標簽,因此各類輸出標簽一致的概率為100%,不一致的概率為0;
如果N>1,則先判斷每一組可能輸出標簽中各類可能輸出標簽是否一致;然后將判斷結果為一致的各組可能輸出標簽對應的相似度第二綜合值之和與所有可能輸出標簽對應的相似度第二綜合值之和相除,得到各類輸出標簽一致的概率;最后以100%減去各類輸出標簽一致的概率得到各類輸出標簽不一致的概率。
(9)將可能輸出標簽、最優(yōu)輸出標簽、各類輸出標簽一致及不一致的概率輸出。
本技術方案與現(xiàn)有技術相比,其顯著優(yōu)點為:本技術方案將深度學習模型與相似度計算進行有機結合,豐富了輸出的結果,提高了輸出的準確率。本技術方案采用結合相似度計算的方法,取長補短,從而通過相似度計算來彌補深度學習模型在輸出標簽數(shù)量多而輸入樣本量不足時輸出準確性的不足,進而提高輸出的準確性。
以兩類數(shù)據(jù)樣本集及其對應的標簽集為例。第一類數(shù)據(jù)樣本集為{頭像11,頭像12,……,頭像1m},對應的第一類輸出標簽的集合為{身份證號11,身份證號12,……,身份證號1m},其中,頭像11與身份證號11對應,頭像12與身份證號12對應,……,頭像1m與身份證號1m對應。其中可能會存在相同的身份證號,例如身份證號13與身份證號16相同。第二類數(shù)據(jù)樣本集為{語音21,語音22,……,語音2n},對應的第一類輸出標簽的集合為{身份證號21,身份證號22,……,身份證號2n},其中,語音21與身份證號21對應,語音22與身份證號22對應,……,語音2n與身份證號2n對應。其中可能會存在相同的身份證號,例如身份證號22與身份證號28相同。
2. 基于聯(lián)合聚類深度學習模型的兩類數(shù)據(jù)識別
下面以兩類數(shù)據(jù)樣本集為特例,結合圖1-4進行說明。本技術方案基于聯(lián)合聚類深度學習模型的數(shù)據(jù)識別方法,包括以下步驟。
(1)步驟S1,首先獲取兩類數(shù)據(jù)樣本集及每類數(shù)據(jù)樣本集對應的標簽集,再獲取兩類數(shù)據(jù)樣本集中每一類數(shù)據(jù)樣本的數(shù)據(jù)預設格式,并獲取標簽預設格式。具體為:
獲取每一類數(shù)據(jù)樣本集中每一個數(shù)據(jù)樣本的數(shù)據(jù)格式,將該類中相同的數(shù)據(jù)格式進行合并得到s種數(shù)據(jù)格式,統(tǒng)計該類數(shù)據(jù)樣本集中每一種數(shù)據(jù)格式Pi對應的數(shù)據(jù)樣本數(shù)量Mi,將最大的Mi對應的數(shù)據(jù)格式Pi作為該類數(shù)據(jù)樣本的數(shù)據(jù)預設格式;其中,s≥1,i≥1且i≤s。例如,第1類數(shù)據(jù)樣本為圖像樣本,第2類數(shù)據(jù)樣本為語音樣本。以第1類數(shù)據(jù)樣本為例,第1類數(shù)據(jù)樣本集中480像素×640像素JPEG圖片數(shù)據(jù)格式的數(shù)據(jù)樣本有809個、480像素×640像素TIFF圖片數(shù)據(jù)格式的數(shù)據(jù)樣本有8367個、480像素×640像素BMP圖片數(shù)據(jù)格式的數(shù)據(jù)樣本有67個、2576像素×1932像素JPEG圖片數(shù)據(jù)格式的數(shù)據(jù)樣本有5362個、2576像素×1932像素TIFF圖片數(shù)據(jù)格式的數(shù)據(jù)樣本有32個、2576像素×1932像素BMP圖片數(shù)據(jù)格式的數(shù)據(jù)樣本有136個,其中數(shù)據(jù)樣本數(shù)量最大的數(shù)據(jù)格式是480像素×640像素TIFF圖片數(shù)據(jù)格式,所以將480像素×640像素TIFF圖片數(shù)據(jù)格式作為第1類數(shù)據(jù)樣本的數(shù)據(jù)預設格式。
獲取每一類數(shù)據(jù)樣本集對應的標簽集中每一個標簽的標簽格式,將所有類中相同的標簽格式進行合并得到至少t種標簽格式,統(tǒng)計該類標簽集中每一種標簽格式Qj對應的標簽數(shù)量Nj,將最大的Nj對應的標簽格式Qj作為標簽預設格式;其中,t≥1,j≥1且j≤t。例如,共有兩類數(shù)據(jù)樣本集對應的標簽集,第1類數(shù)據(jù)樣本集對應的標簽集中,身份證號標簽有5636個,姓名標簽有5426個;第2類數(shù)據(jù)樣本集對應的標簽集中,身份證號標簽有2654個,姓名標簽有235個,則兩類數(shù)據(jù)樣本集對應的標簽集中身份證號標簽有8290個,姓名標簽有5661個,所以將身份證號標簽作為標簽預設格式。
然后對輸入的兩類數(shù)據(jù)樣本集和標簽集進行預處理,結合圖1-5,以第1類數(shù)據(jù)樣本集和標簽集為例,具體過程為:

圖1-4 基于聯(lián)合聚類深度學習模型的數(shù)據(jù)識別方法流程

圖1-5 基于聯(lián)合聚類深度學習模型的數(shù)據(jù)識別方法中對數(shù)據(jù)樣本集和輸出標簽集預處理的流程
步驟S1-1,判斷每一類數(shù)據(jù)樣本集中每一數(shù)據(jù)樣本的數(shù)據(jù)格式是否與該類數(shù)據(jù)樣本的數(shù)據(jù)預設格式一致,如果不一致,則將該類數(shù)據(jù)樣本的數(shù)據(jù)格式轉化為該類數(shù)據(jù)樣本的數(shù)據(jù)預設格式。例如,480像素×640像素TIFF圖片數(shù)據(jù)格式是第一類數(shù)據(jù)樣本的數(shù)據(jù)預設格式,如果第一類數(shù)據(jù)樣本集中一個數(shù)據(jù)樣本的數(shù)據(jù)格式也是480像素×640像素TIFF圖片數(shù)據(jù)格式,與第一類數(shù)據(jù)樣本的數(shù)據(jù)預設格式相同,則無須進行轉化;如果第一類數(shù)據(jù)樣本集中一個數(shù)據(jù)樣本的數(shù)據(jù)格式是2576像素×1932像素JPEG圖片數(shù)據(jù)格式,與第一類數(shù)據(jù)樣本的數(shù)據(jù)預設格式不同,則須轉化為480像素×640像素的TIFF圖片數(shù)據(jù)格式。
步驟S1-2,判斷每一類數(shù)據(jù)樣本集中每一個數(shù)據(jù)樣本對應的標簽的數(shù)據(jù)格式是否與標簽預設格式一致,如果不一致,則將該類數(shù)據(jù)樣本對應的標簽的數(shù)據(jù)格式轉化為標簽預設格式。例如,身份證號標簽作為標簽預設格式,如果第一類數(shù)據(jù)樣本集中一個數(shù)據(jù)樣本對應的標簽的數(shù)據(jù)格式是身份證號格式,與標簽預設格式相同,則無須進行轉化;如果第一類數(shù)據(jù)樣本集中一個數(shù)據(jù)樣本對應的標簽的數(shù)據(jù)格式是姓名格式,與標簽預設格式不同,則須轉化為身份證號格式。
步驟S1-3,對第1類數(shù)據(jù)樣本集進行聚類處理,獲得j個聚類后的數(shù)據(jù)樣本集及其對應的輸出標簽集。具體為:
首先對第1類數(shù)據(jù)樣本集{頭像11,頭像12,……,頭像1m}進行聚類,聚類的規(guī)則是:將相似度大于頭像相似度預設閾值(默認值為90%)的頭像加入到同一個聚類(即將上述頭像內部進行相似度計算,如果相似度大于90%,則將相應的頭像加入一個聚類),使得一個聚類中任一頭像都在該個聚類中存在另一頭像與該個頭像的相似度大于頭像相似度預設閾值(默認值為90%),同時使得一個聚類中任一頭像都在另一個聚類中不存在任一頭像與該頭像的相似度大于頭像相似度預設閾值(默認值為90%);每一頭像只屬于一個聚類。根據(jù)該聚類規(guī)則,得到第一個聚類{頭像111,頭像112,……,頭像11m1},第2個聚類{頭像211,頭像212,……,頭像21m2},……,第j個聚類{頭像j11,頭像j12,……,頭像j1mj}。
然后對第1類數(shù)據(jù)樣本集對應的標簽集進行聚類。第1類數(shù)據(jù)樣本集的第1個聚類{頭像111,頭像112,……,頭像11m1}對應的輸出標簽的集合為{身份證號111,身份證號112,……,身份證號11m1},作為第1類輸出標簽的第1個聚類;數(shù)據(jù)樣本集的第2個聚類{頭像211,頭像212,……,頭像21m2}對應的輸出標簽的集合為{身份證號211,身份證號212,……,身份證號21m2},作為第1類輸出標簽的第2個聚類;……;數(shù)據(jù)樣本集的第j個聚類{頭像j11,頭像j12,……,頭像j1mj}對應的輸出標簽的集合為{身份證號j11,身份證號j12,……,身份證號j1mj},作為第1類輸出標簽的第j個聚類。
步驟S1-4,對上述j個聚類后的輸出標簽集中每個類中相同的標簽進行合并,得到更新后的j個輸出標簽集。
步驟S1-5,將更新后的j個輸出標簽集中具有相同標簽的標簽集及對應的數(shù)據(jù)樣本集分別進行合并,得到預處理后的數(shù)據(jù)樣本集及其對應的輸出標簽集。
例如,第1類數(shù)據(jù)樣本集的第1個聚類{頭像111,頭像112,……,頭像11m1}對應的輸出標簽的集合為{身份證號111,身份證號112,……,身份證號11m1};數(shù)據(jù)樣本集的第2個聚類{頭像211,頭像212,……,頭像21m2}對應的輸出標簽的集合為{身份證號211,身份證號212,……,身份證號21m2};如果第2個聚類對應的輸出標簽的集合中身份證號212與第1個聚類對應的輸出標簽的集合中身份證號116相同,則將第2個聚類對應的輸出標簽的集合與第1個聚類對應的輸出標簽的集合合并,同時將第2個聚類對應的數(shù)據(jù)樣本集與第1個聚類對應的數(shù)據(jù)樣本集合并。
(2)步驟S2,初始化N類數(shù)據(jù)樣本集對應的N個深度學習模型。
(3)步驟S3,將步驟S1獲取的每類數(shù)據(jù)樣本集作為輸入,將其對應的標簽集作為輸出,對該類對應的深度學習模型進行訓練,得到兩個訓練后的神經(jīng)網(wǎng)絡。結合圖1-6,具體為:
步驟S3-1,將每類數(shù)據(jù)樣本集中每一個數(shù)據(jù)樣本作為該類對應的深度學習模型的輸入,對該類對應的深度學習模型進行自下而上的無監(jiān)督訓練。

圖1-6 基于聯(lián)合聚類深度學習模型的數(shù)據(jù)識別方法中深度學習模型訓練的流程
步驟S3-2,將每類數(shù)據(jù)樣本集中每一個數(shù)據(jù)樣本作為該類對應的深度學習模型的輸入,將對應的標簽集中的對應標簽作為輸出,對該類對應的深度學習模型進行自頂向下的監(jiān)督學習,得到兩個訓練后的深度學習模型。
步驟S3-3,為每一類對應的深度學習模型獲取一個測試數(shù)據(jù),將每一類測試數(shù)據(jù)的數(shù)據(jù)格式轉化為該類數(shù)據(jù)的數(shù)據(jù)預設格式。例如,480像素×640像素TIFF圖片數(shù)據(jù)格式是第1類數(shù)據(jù)樣本的數(shù)據(jù)預設格式,如果第1類該測試數(shù)據(jù)的數(shù)據(jù)格式也是480像素×640像素TIFF圖片數(shù)據(jù)格式,與第1類數(shù)據(jù)樣本的數(shù)據(jù)預設格式相同,則無須進行轉化;如果第1類該測試數(shù)據(jù)的數(shù)據(jù)格式是2576像素×1932像素JPEG圖片數(shù)據(jù)格式,與第1類數(shù)據(jù)樣本的數(shù)據(jù)預設格式不同,則須轉化為480像素×640像素的TIFF圖片數(shù)據(jù)格式。
然后將該測試數(shù)據(jù)作為該類對應的深度學習模型的輸入,通過該深度學習模型的計算得到該類對應的測試輸出標簽。例如,輸入第1類任一測試數(shù)據(jù)“頭像1p”到第1類對應的深度學習模型,得到測試輸出標簽“張三身份證號”;輸入第2類任一測試數(shù)據(jù)“語音2q”到第2類對應的深度學習模型,得到測試輸出標簽“李四身份證號”。
步驟S3-4,在步驟S1預處理的標簽集中查找每一類的測試輸出標簽所在的標簽集,之后判斷該標簽集是否只有一個標簽元素;如果每一類的測試輸出標簽所在的標簽集只有一個標簽元素,則將每一類的測試輸出標簽作為該類的最優(yōu)輸出標簽,即將步驟S1-4中“張三身份證號”“李四身份證號”分別作為第1類、第2類的最優(yōu)輸出標簽;否則執(zhí)行下一步。
步驟S3-5,計算每一類的測試輸出標簽所對應的數(shù)據(jù)樣本集與該類測試輸出標簽所在的標簽集中每一標簽元素對應的數(shù)據(jù)樣本集的相似度,并根據(jù)該相似度計算并確定每一組可能輸出標簽;其中,每一組可能輸出標簽中包含了每一類的一個可能輸出標簽。例如,步驟S1-4中“張三身份證號”所在第1類輸出標簽集為{朱一身份證號,鄭二身份證號,張三身份證號,吳七身份證號},對應的數(shù)據(jù)樣本集為{朱一頭像集,鄭二頭像集,張三頭像集,吳七頭像集};“李四身份證號”所在第2類輸出標簽集為{田一身份證號,李四身份證號,吳七身份證號},對應的數(shù)據(jù)樣本集為{田一語音集,李四語音集,吳七語音集}。假設有N類數(shù)據(jù)樣本集及對應的標簽集,具體過程分為以下兩種情況。
第一種情況:當N=1時,只有一類數(shù)據(jù)樣本集及對應的標簽集。例如,僅存在上述第1類數(shù)據(jù)樣本集及對應的標簽集。
計算測試輸出標簽所對應的數(shù)據(jù)樣本集{張三頭像集}與測試輸出標簽所在的標簽集中每一標簽元素對應的數(shù)據(jù)樣本集的相似度,則得到{張三頭像集}與{朱一頭像集}的相似度a1為80%,{張三頭像集}與{鄭二頭像集}的相似度a2為90%,{張三頭像集}與{張三頭像集}的相似度a3為100%,{張三頭像集}與{吳七頭像集}的相似度a4為92%。其中a2、a3、a4均大于第一預設值80%,所以存在三組可能輸出標簽,分別為“鄭二身份證號”“張三身份證號”“吳七身份證號”。
第二種情況:當N>1時,有多類數(shù)據(jù)樣本集及對應的標簽集。例如N=2,包括上述第1類數(shù)據(jù)樣本集及對應的標簽集、第2類數(shù)據(jù)樣本集及對應的標簽集。
首先計算第1類測試輸出標簽所對應的數(shù)據(jù)樣本集{張三頭像集}與測試輸出標簽所在的標簽集中每一標簽元素對應的數(shù)據(jù)樣本集的相似度。相似度計算結果同上述N=1的情況。
然后計算第2類測試輸出標簽所對應的數(shù)據(jù)樣本集{李四語音集}與測試輸出標簽所在的標簽集中每一標簽元素對應的數(shù)據(jù)樣本集的相似度。則得到{李四語音集}與{田一語音集}的相似度b1為95%,{李四語音集}與{李四語音集}的相似度b2為100%,{李四語音集}與{吳七語音集}的相似度b3為85%。
最后計算所有可能輸出標簽組各自的相似度第一綜合值,輸出標簽組c1{朱一身份證號,田一身份證號}的相似度第一綜合值f1為80%×95%=76%,輸出標簽組c2{朱一身份證號,李四身份證號}的相似度第一綜合值f2為80%×100%=80%,輸出標簽組c3{朱一身份證號,吳七身份證號}的相似度第一綜合值f3為80%×85%=68%,輸出標簽組c4{鄭二身份證號,田一身份證號}的相似度第一綜合值f4為90%×95%=85.5%,輸出標簽組c5{鄭二身份證號,李四身份證號}的相似度第一綜合值f5為90%×100%=90%,輸出標簽組c6{鄭二身份證號,吳七身份證號}的相似度第一綜合值f6為90%×85%=76.5%,輸出標簽組c7{張三身份證號,田一身份證號}的相似度第一綜合值f7為100%×95%=95%,輸出標簽組c8{張三身份證號,李四身份證號}的相似度第一綜合值f8為100%×100%=100%,輸出標簽組c9{張三身份證號,吳七身份證號}的相似度第一綜合值f9為100%×85%=85%,輸出標簽組c10{吳七身份證號,田一身份證號}的相似度第一綜合值f10為92%×95%=87.4%,輸出標簽組c11{吳七身份證號,李四身份證號}的相似度第一綜合值f11為92%×100%=92%,輸出標簽組c12{吳七身份證號,吳七身份證號}的相似度第一綜合值p12為92%×85%=78.2%。其中,f4、f5、f7、f8、f10、f11均大于第二預設值85%,所以有6組可能輸出標簽,分別為c4、c5、c7、c8、c10、c11對應的輸出標簽組。
(4)步驟S4,計算由步驟S3得到的每一組可能輸出標簽中每一類的可能輸出標簽對應的數(shù)據(jù)樣本集與該類測試數(shù)據(jù)集的相似度,并根據(jù)該相似度計算并確定一組可能輸出標簽作為最優(yōu)輸出標簽。對應步驟S3中的內容,具體過程分為以下兩種情況。
第一種情況:當N=1時,由步驟S3可知,有3組可能輸出標簽分別為“鄭二身份證號”“張三身份證號”和“吳七身份證號”。其中可能輸出標簽“張三身份證號”的相似度值最大,因此將其作為最優(yōu)輸出標簽組。
第二種情況:當N>1時,由步驟S3可知,有c4、c5、c7、c8、c10、c11共6組可能輸出標簽,具體過程如下:
首先計算每一組可能輸出標簽中第1類的可能輸出標簽對應的數(shù)據(jù)樣本集與該類測試數(shù)據(jù)集{張三頭像集}的相似度,則得到{鄭二頭像集}與{張三頭像集}的相似度為90%,{張三頭像集}與{張三頭像集}的相似度為100%,{吳七頭像集}與{張三頭像集}的相似度為92%。
然后計算每一組可能輸出標簽中第2類的可能輸出標簽對應的數(shù)據(jù)樣本集與該類測試數(shù)據(jù)集{李四語音集}的相似度,則得到{李四語音集}與{李四語音集}的相似度為100%,{田一語音集}與{李四語音集}的相似度為95%。
則c4輸出標簽組{鄭二身份證號,田一身份證號}相似度第二綜合值g4為90%×95%=85.5%,c5輸出標簽組{鄭二身份證號,李四身份證號}相似度第二綜合值g5為90%×100%=90%,c7輸出標簽組{張三身份證號,田一身份證號}相似度第二綜合值g7為100%×95%=95%,c8輸出標簽組{張三身份證號,李四身份證號}相似度第二綜合值g8為100%×100%=100%,c10輸出標簽組{吳七身份證號,田一身份證號}相似度第二綜合值g10為92%×95%=87.4%,c11輸出標簽組{吳七身份證號,李四身份證號}相似度第二綜合值g11為92%×100%=92%。其中相似度第二綜合值最大的是g8,因此將c8輸出標簽組{張三身份證號,李四身份證號}作為最優(yōu)輸出標簽組。
(5)步驟S5,計算可能輸出標簽中各類輸出標簽都一致及不一致的概率,作為各類輸出標簽一致及不一致的概率。對應步驟S3中的內容,具體過程分為以下兩種情況。
第一種情況:當N=1時,由步驟S3可知,只有一類輸出標簽,因此各類輸出標簽一致的概率為100%,不一致的概率為0。
第二種情況:當N>1時,由步驟S3可知,有c4、c5、c7、c8、c10、c11共6組可能輸出標簽。其中c4輸出標簽組{鄭二身份證號,田一身份證號}中各類可能輸出標簽不一致,c5輸出標簽組{鄭二身份證號,李四身份證號}中各類可能輸出標簽不一致,c7輸出標簽組{張三身份證號,田一身份證號}中各類可能輸出標簽不一致,c8輸出標簽組{張三身份證號,李四身份證號}中各類可能輸出標簽不一致,c10輸出標簽組{吳七身份證號,田一身份證號}中各類可能輸出標簽不一致,c11輸出標簽組{吳七身份證號,李四身份證號}中各類可能輸出標簽不一致。由上述可知,所有可能輸出標簽組中各類可能輸出標簽均不一致,所以各類輸出標簽一致的概率為0,不一致的概率為100%,說明各類測試樣本對應同一個人的概率為0。
為了進一步闡明過程,假設有4組可能輸出標簽d4、d6、d10、d11,d4輸出標簽組{鄭二身份證號,鄭二身份證號}中各類可能輸出標簽一致,對應的相似度第二綜合值為89%;d6輸出標簽組{張三身份證號,張三身份證號}中各類可能輸出標簽一致,對應的相似度第二綜合值為53%;d10輸出標簽組{鄭二身份證號,李四身份證號}中各類可能輸出標簽不一致,對應的相似度第二綜合值為67%;d11輸出標簽組{張三身份證號,鄭二身份證號}中各類可能輸出標簽不一致,對應的相似度第二綜合值為75%。
判斷結果為一致的各組可能輸出標簽對應的相似度第二綜合值之和(89%+53%)除以所有可能輸出標簽對應的相似度第二綜合值之和(89%+53%+67%+75%),得到各類輸出標簽一致的概率為50%。以100%減去各類輸出標簽一致的概率50%,則得到各類輸出標簽不一致的概率為50%。
(6)步驟S6,將可能輸出標簽、最優(yōu)輸出標簽、各類輸出標簽一致及不一致的概率輸出。
1.2.2 聯(lián)合聚類深度學習模型的數(shù)據(jù)識別系統(tǒng)
聯(lián)合聚類深度學習模型的數(shù)據(jù)識別系統(tǒng)包括:
(1)采集模塊1,用于N類數(shù)據(jù)樣本集及每一類數(shù)據(jù)樣本集對應的標簽集,再獲取N類數(shù)據(jù)樣本集中每一類數(shù)據(jù)樣本的數(shù)據(jù)預設格式,并獲取標簽預設格式,然后對N類數(shù)據(jù)樣本集和標簽集進行預處理;N≥1。
(2)初始化模塊2,用于初始化N類數(shù)據(jù)樣本集對應的N個深度學習模型。
(3)訓練模塊3,用于將獲取的每一類數(shù)據(jù)樣本集作為輸入,將其對應的標簽集作為輸出,對該類對應的深度學習模型進行訓練,得到N個訓練后的深度學習模型。
(4)測試模塊4,用于為每一類對應的深度學習模型獲取一個測試數(shù)據(jù),將每一類測試數(shù)據(jù)的數(shù)據(jù)格式轉化為該類數(shù)據(jù)樣本的數(shù)據(jù)預設格式,然后將該測試數(shù)據(jù)作為該類對應的深度學習模型的輸入,通過該深度學習模型的計算得到該類對應的測試輸出標簽。
(5)判別模塊5,用于在預處理的標簽集中查找每一類的測試輸出標簽所在的標簽集,之后判斷該標簽集是否只有一個標簽元素。如果每一類的測試輸出標簽所在的標簽集只有一個標簽元素,則將每一類的測試輸出標簽作為該類的最優(yōu)輸出標簽;否則執(zhí)行下一步。
(6)第一相似度計算模塊6,用于計算每一類的測試輸出標簽所對應的數(shù)據(jù)樣本集與該類測試輸出標簽所在的標簽集中每一標簽元素對應的數(shù)據(jù)樣本集的相似度,根據(jù)該相似度計算并確定每一組可能輸出標簽;其中,每一組可能輸出標簽中包含了每一類的一個可能輸出標簽。
(7)第二相似度計算模塊7,用于計算每一組可能輸出標簽中每一類的可能輸出標簽對應的數(shù)據(jù)樣本集與該類測試數(shù)據(jù)集的相似度,并根據(jù)該相似度計算并確定一組可能輸出標簽作為最優(yōu)輸出標簽。
(8)概率統(tǒng)計模塊8,用于計算可能輸出標簽中各類輸出標簽都一致及不一致的概率,作為各類輸出標簽一致及不一致的概率。
(9)輸出模塊9,用于將可能輸出標簽、最優(yōu)輸出標簽、各類輸出標簽一致及不一致的概率輸出。
- 數(shù)據(jù)產品經(jīng)理:解決方案與案例分析
- Associations and Correlations
- Implementing Splunk 7(Third Edition)
- 電腦主板現(xiàn)場維修實錄
- Red Hat Linux 9實務自學手冊
- RedHat Linux用戶基礎
- 筆記本電腦維修90個精選實例
- 智能鼠原理與制作(進階篇)
- 智慧未來
- 工業(yè)機器人集成應用
- JSP網(wǎng)絡開發(fā)入門與實踐
- 電機與電力拖動
- Internet of Things with Raspberry Pi 3
- Windows Server 2012 Automation with PowerShell Cookbook
- 工業(yè)機器人編程指令詳解