官术网_书友最值得收藏!

第65章 用科學方法解讀紅樓夢

《盤點歷史十大偽作(1)》一出,頓時引起了無數(shù)網友的關注。

東門慶工作室。

“慶哥,三無出山了?”

“啊?他不是不再盤點詩詞工作了么?出爾反爾?又出來盤點詩詞了?”

“沒,他這次盤點了歷史上的偽作,說《紅樓夢》是偽作。”

“啥?臥槽啊!準備文稿,以前咱們一直是歌頌他的,這次準備開噴吧!爭取做出全網第一條批判他的短視頻!”

……

片場。

宋喬蕓正坐在椅子上休息,身邊的化妝師在補妝。

滴!

【抖樂提示:您關注的短視頻博主發(fā)布了最新作品。】

她連忙打開手機,見到印入眼簾的一行字后,整個人瞬間坐直了。

“這……”

“完了,歪了歪了歪了!”化妝師忙道。

宋喬蕓沉吟道:“三無的觀點,未必是歪的。”

“我是說口紅給您畫歪了。”

……

富旦大學。

張教授正在和同事們暢聊歷史。

突然有人匆匆跑來:“張主任,我萬萬沒想到,您口中的那個朋友,竟然是三無老師!”

張教授一臉茫然:“什么東西?”

“您朋友啊,您不是說您有個朋友嘛,我做夢都不敢想,您口中的那個提出了《后出師表》偽作言論的朋友,竟然是詩人三無!張主任,您也太低調了吧,認識三無都不跟我們說?”

張教授很茫然:“啥意思,我不懂你啥意思。”

“您還裝!這不嘛,您朋友三無老師,剛剛發(fā)布了一條短視頻,您看啊,這上面不是寫著呢么,《盤點歷史十大偽作(1)》,《紅樓夢》,他前幾天不是還說《后出師表》是偽作嘛!您可千萬別告訴我,這是兩個研究者碰巧想到一塊去了,都研究同一個方向了。”

張教授腦袋“嗡”地一聲,他突然意識到了什么,但又完全不敢相信。

他一把抓過手機,因為激動手都是抖的,只見屏幕上徐徐展示出一段內容,然后他整個人,徹底懵住了。

……

無數(shù)雙眼睛在不同時間盯著同樣的內容,有著同樣的震顫,這是一個挑戰(zhàn)了所有人固有認知的短視頻!

短視頻在緩緩播放著內容。

三無極具特色的嗓音,舒緩平和,娓娓道來。

【我將《紅樓夢》分為兩部分,第一部分:前80回,第二部分,后40回。

在經過我縝密而繁復的研究工作后,我發(fā)現(xiàn)了一個驚天的秘密——《紅樓夢》后四十回,其作者并不是曹雪芹,而是由后人續(xù)寫,狗尾續(xù)貂之作。】

抖樂最近學習了其他短視頻網站,開通了彈幕功能。

此時滿屏幕的彈幕全是問號。

“???”

“啊???”

“三無,請回去寫你的詩詞吧,別在這逗我好么?”

“這不扯淡呢么?”

“現(xiàn)在的自媒體,為了流量真是啥瞎話都敢編啊!”

……

視頻內容繼續(xù):

【接下來的一段時間里,我將分若干集,從各個角度出發(fā),來論證《紅樓夢》后四十回并不是曹雪芹手筆。

而本集視頻,我們先從文本特征差異研究開始。我將運用統(tǒng)計學方法,并結合 R語言技術,對我的觀點進行闡述!】

彈幕上,網友們又蒙圈了。

“R語言技術?統(tǒng)計學?跟《紅樓夢》有什么關系?”

“什么是R語言?”

“這不是文學方面的事情么?怎么涉及到數(shù)學和計算機技術了呢?”

“對啊,文學就是文學,怎么能和其他學科混為一談呢,一看就不靠譜!”

“繼續(xù)圍觀,看這個詩人能扯出什么花樣來。”

……

【在大量事件的前提下,無論是在語言表述,還是在寫作中,每個人在特定情況下用字或是用詞都存在著某種規(guī)律。

這種規(guī)律便是個人在說話與寫作中所形成的語言表達習慣,即是個人在其特定習慣中所形成特有的文體特征。

所以,不同的作者在用詞頻率與用詞風格上存在一定的差異性。

我將運用R語言對《紅樓夢》著作進行文本分詞和詞頻統(tǒng)計,從高頻詞匯和虛字兩個研究角度,來分析《紅樓夢》前八十回與后四十回在文本特征上的差異性。

首先,我們率先研究高頻詞匯。

在《紅樓夢》的高頻詞匯中,我首先將人名、地名、稱謂等剔除掉,以及對“一個”“一面”等表數(shù)量的沒有實際意義的詞匯進行剔除。

于是,我們得到了65個高頻詞匯進行文本研究,現(xiàn)制作統(tǒng)計表格。

如下圖!】

短視頻中,貼出一張統(tǒng)計表。

【高頻詞匯研究對象表】

【1,什么;2,我們;3,那里;4,姑娘;5,你們……63,家里;64這話;65到底。】

短視頻解讀繼續(xù):

【……我的研究分組方案如下,一至三十回第一組,十六至四十五回第二組,三十一至六十回第三組……,以此類推,一共將《紅樓夢》分成7組。

運用R語言,對各組進行分詞,對高頻詞匯研究對象進行詞頻統(tǒng)計。繪制高頻詞匯頻數(shù)變化折線圖。

如下圖所示!】

話音落,短視頻里,貼出了運用R語言繪制出的高頻詞匯頻數(shù)變化折線圖——一個帶有X、Y坐標的七條折線的統(tǒng)計表。

而此時,網友們全看傻了。

“懵逼了,這些都啥意思啊?”

“這能代表啥啊,根本看不懂啊!”

“詩人你到底啥意思,請你明說行么?”

“我感覺看了你的視頻,受到了侮辱!”

“你高估我們了!”

……

短視頻開始對這一折線圖進行講解:

【我們可以發(fā)現(xiàn)折線圖有明顯的鋸齒形,那么就表明高頻詞匯在各分組有明顯的波動……諸如 16(沒有)、21(聽見)、26(回來)、34(心里)、51(那些)、65(到底)等詞匯,當?shù)诹M和第七組出現(xiàn)波峰的時候,其他組卻出現(xiàn)了波谷;

而在42(不過)、61(姊妹)等詞匯,當?shù)诹M和第七組出現(xiàn)波谷的時候,其他組卻出現(xiàn)了波峰;這就說明第六組和第七組的折線圖與其他組的折線圖有明顯的相反的走勢……】

彈幕瘋狂抗議:

“求你了別說了,聽不懂啊,能直接告訴我結論么?”

“你讓數(shù)學常年不及格的我,如何理解你的高深莫測?”

“直接說結論吧,真聽不懂!”

……

【從部分高頻詞匯角度分析,前八十回和后四十回詞頻有較顯著的差異性,于是我得出初步結論,前八十回和后四十回,作者并不是同一個人。

完成了高頻詞匯的分析后,下面,我們對虛字進行分析。

虛字,是指不能單獨成句,意義比較抽象,而具有一定語法意義的字或詞。古典小說中的虛字是構成句子必不可少的成分,其使用不受故事情節(jié)的制約,僅與作者的寫作習慣有關。

……

我們對44個虛字作為研究對象, 44個虛字如下:之、其、或、亦、方、于……偏、兒。

在研究之前,首先我對監(jiān)督學習作簡單介紹,監(jiān)督學習分為回歸分析與分類分析兩大類別,本文應用了分類分析。所謂分類是通過分析已知數(shù)據,構造一個分類函數(shù)或者分類模型(即分類器),利用該模型將數(shù)據庫中數(shù)據映射到某一給定類別中……

接下來,我將運用監(jiān)督學習中的樸素貝葉斯法和BP神經網絡對紅樓夢各回作分類研究,并根據分類準確度分析前八十回和后四十回的差異性!】

富旦大學。

張教授身邊,人越聚越多。

“他說的這是啥啊?”

“我怎么全程都聽不懂?”

“什么是樸素貝葉斯法?是數(shù)學么?”

“BP神經網絡啥意思?生物學?還是計算機?”

“這確定是,在考證《紅樓夢》后四十回是偽作么?”

“張教授,你能看懂他說的是啥么?”

“張教授?”

在場的所有教授都傻了,全都看不懂啊。

什么樸素貝葉斯法,什么BP神經網絡,又什么折線圖啊,這些文學方面的大教授們,哪懂這些?

用數(shù)學、計算機技術等,去研究文史問題,他們聞所未聞啊。

雖然這樣的研究在前世已經是常規(guī)手段,但是這一世的人們哪見過這個?

對于這一世的所有網友來說,對于這些大教授來說,現(xiàn)在已經不是震不震驚的問題了,也不是吐不吐槽的問題了。而是,完全看不懂的問題!

完全看不懂啊!

想吐槽幾句,想罵幾句,都不知道從何開口!

張教授傻了。

視頻里講解的內容,他聽不懂,傻了!

江小白就是三無的這個真相,他更接受不了,更傻了!

他一時間怔在原地,他的認知上,從來都沒受到過如此重大的沖擊。

……

“臥槽,他怎么還列上數(shù)學式子了呢?”

眾教授連忙再次望向手機屏幕!

【設有m個輸入變量 x ={X?,X?,…,Xm},有n個可能取值分類型變量 y ={y?,y?,…,yn},則根據貝葉斯定理有: P( y = y0|x?,x?,…,Xm)= P( x?,x?,…,Xm……

根據最大后驗概率原則,輸出變量應預測n個后驗概率中最大的概率值對應的類別。

……

首先將前八十回標記為類別1,將后四十回標記為類別2,進行樸素貝葉斯分類估計。

……

由表可知,準確率最小值為0.76000,而最大準確率達1(對測試集分類百分之百正確),平均準確率為0.91609。

假定兩種分類方式的準確率總體服從正態(tài)分布,因為樣本量為1000,屬于大樣本檢驗,因此采用z檢驗。建立假設并進行檢驗:

H0 :μ1 -μ2 ≤ 0

H1:μ1 -μ2 > 0

……

其中,xˉ1 = 0.91609 ,xˉ2 = 0.61587 ,s 2 1 = 0.00192 , s 2 2 = 0.00746 ……

既然p是極顯著大于p2的,那么就說明前八十回與后四十回的分類方式相比于任意一般的分類方式而言,類別之間的差異性更明顯,即前八十回和后四十回文本特征存在顯著的差異。

也就是說,從虛字角度分析,前80回和后40回,也不是同一作者的手筆。

因此,無論是從高頻詞匯分析,還是從虛字分析,通過科學方法研究后,我得出以下結論:《紅樓夢》前80回,和后40回,并不是出自同一人之手。】

彈幕上終于松了一口氣:

“終于完事了,腦袋里全是漿糊,懵了啊!”

“我剛剛究竟看了個啥?”

“全程懵逼中!”

“我突然想噴幾句話,但發(fā)現(xiàn)我完全不知道從何噴起。因為我啥啥都沒聽懂啊!”

“視頻還沒結束么?喲,才進行了三分之二?”

“還沒結束么?”

【下面,為了對我的研究成果進行驗證,我們引入BP神經網絡。

所謂BP神經網絡是一種利用誤差反向傳播算法的人工神經網絡,可以有效的解決很復雜的有大量互相相關的分類問題……】

彈幕,集體崩潰了。

“我靠,又來!”

“神啊,救救我吧。”

“請直接說結論!!”

“蒼了個天!”

……

【樸素貝葉斯分類器平均準確率為0.91677,方差為0.00201;而BP神經網絡分類器平均準確率為0.93513,方差為0.00175。

因此,我的研究成果是沒有問題的。

綜上所述,從高頻詞匯角度研究,我運用各組高頻詞匯頻數(shù)變化折線圖。從虛字角度,用了樸素貝葉斯和BP神經網絡分類方法,作了組內與組間對照研究。

結果表明,】

視頻中,三無的語氣加重,嚴肅而肯定:

“《紅樓夢》前八十回與后四十回文本特征存在顯著的差異性,即前80回和后40回作者不是同一個人!】

短視頻播放完畢!

富旦大學辦公室內,圍觀的眾教授,一頭霧水!

此時此刻,他們和所有網友一樣,都沒看懂。

這個全程運用了統(tǒng)計學、計算機技術等科學手段進行文史研究的方法,對于這一世的人們來說,太超前了。

雖然在前世司空見慣,但是在這一世,所有人是聞所未聞,見所未見!

“三無關于《后出師表》的研究,我聽得明明白白的。但是這個我完全懵了。”

“我完全理解不了他剛剛的內容,是對是錯,完全不明白啊!”

“咱們先別談這個研究哈,張主任,你竟然認識三無,你也太厲害了吧?”

“張主任人脈是廣啊,竟然連三無都認識!”

“原來你的朋友,竟然是大名鼎鼎的三無,哇,你真的是神通廣大啊。”

“張主任,您干嘛去?”

“張主任?”

張主任突然轉身離去,一路小跑著奔向樓梯,同事的聲音早已來不及回答。

(PS:文中公式是錯的,因為正確的公式,字體識別不出來。貼上正確的公式,識別出來就這樣了,把開根號什么的都弄沒了。)

主站蜘蛛池模板: 安顺市| 沿河| 河曲县| 长武县| 运城市| 天门市| 磴口县| 图片| 盐亭县| 柳林县| 五莲县| 宁武县| 南涧| 昔阳县| 广水市| 塔河县| 石楼县| 平罗县| 元朗区| 靖江市| 葵青区| 大连市| 怀化市| 潞城市| 醴陵市| 阿克苏市| 沙洋县| 南昌县| 根河市| 北流市| 收藏| 东乡族自治县| 历史| 闻喜县| 满洲里市| 樟树市| 临城县| 兴化市| 沙雅县| 泗洪县| 锡林浩特市|