- 中國語音學報·第13輯
- 李愛軍主編
- 5832字
- 2021-10-15 19:54:55
3.陳述—疑問語句感知實驗
為了探索陳述句和疑問句之間的感知模式和句位范疇,我們采用了語音感知研究的經典范式識別實驗和區分實驗,并合成聽辨刺激進行感知實驗。
3.1 合成刺激樣本
利用發音人錄制的八個語句為母本,分別改變原句的基頻和時長合成實驗刺激,因本文暫不探討具體哪個參數對語句感知貢獻大的問題,因此我們將所有參數同時改變,力求合成的聽辨刺激足夠自然。
3.1.1 基頻和時長的合成
首先,使用Praat軟件,通過基音同步疊加法(pitch-synchronous overlap and add,PSOLA),改變母本基頻。例如,以“他不吃(陳)”為母本,目標樣本為“他不吃(疑)”。首先將兩句話拆成6個單字。相同字為一組,以他(陳)、他(疑)為例。首先用Praat腳本程序等距提出每個字11個點的基頻數據;通過插值的方法計算出2個基頻測量點之間的7個刺激樣本的基頻[16]然后以他(陳)作為母本和組內的第一個刺激樣本,按照計算出的7個基頻數據逐步改變他(陳)的基頻,均勻地合成7個刺激樣本;最后按照他(疑)的實際基頻,在他(陳)的母本上合成第9個刺激樣本。同樣的方法得到合成所有樣本。刺激樣本基頻曲線如圖2所示。
圖2 四組合成樣本基頻曲線
其次,我們要在合成基頻的基礎上調整時長。分別測量“他(陳)”和“他(疑)”的時長。通過插值的方法,計算出2個時長測量點之間的7個刺激樣本的時長倍數關系,然后對已合成基頻的刺激連續體進行對應倍數的時長伸縮。用同樣的方法對其他兩組單字形成的連續體進行時長更改。
最終,我們得到了“他(陳)—他(疑)”“不(陳)—不(疑)”“吃(陳)—吃(疑)”三組刺激樣本連續體。利用Adobe Audition將對應序號的波形拼接為完整句子,得到“他不吃(陳)—他不吃(疑)”這組的9個刺激樣本。
母本不同可能會影響被試的感知結果,因此,我們隨后以“他不吃(疑)”為母本,用同樣的方法逐步修改基頻和時長,得到“他不吃(疑)—他不吃(陳)”這組的刺激樣本。將所有刺激樣本用上述方法進行合成。
3.1.2 振幅的合成
當筆者順序播放合成的過渡樣本時,發現以陳述句為母本的連續體,在聽到第七、第八個刺激樣本時,幾乎聽不出語氣變化。第九個樣本與錄制的疑問句目標樣本聽感差異巨大,特別是“他不走(陳)—他不走(疑)”這一組。筆者發現這是由于陳述句在句尾振幅減弱。而振幅的幅值低到一定程度時,即使基頻變化,由于音強不斷減弱,所以感知不到。以“他不走(陳)—他不走(疑)”這一組為例,陳述句中,句末字“走”的振幅逐漸減弱,而疑問句中,“走”字的振幅有兩個峰值,第二個峰值就是上聲拐點處之后的語音信號,如圖3、圖4所示。當振幅的參數調整以后,合成的語音刺激從聽感上和目標樣本接近。而蔣丹寧、蔡蓮紅[14]也通過實驗說明,當句末音節聲調為三聲、四聲時,能量、時長特征在語氣分類中的作用相對較大。因此,振幅也是本實驗調整的參數之一。
圖3 “他不走(陳)”中“走”的振幅曲線
圖4 “他不走(疑)”中“走”的振幅曲線
改變振幅的程序基于Matlab開發,首先,將起始音和目標音讀入程序,分別進行分幀并逐幀進行振幅調整。振幅調整過程通過調整譜包絡實現。將起始音和目標音的譜包絡對應的每一幀進行插值計算,內插出2個音之間的7個過渡樣本的譜包絡,再依次通過倒譜和快速傅里葉變換恢復到時域,完成幅值變化的7個過渡樣本的合成。
此時,基頻、時長、振幅3個參數調整完成,最終得到8組刺激連續體,每組9個樣本,共計72個。
3.2 實驗被試
本實驗的被試共30名(14男16女),年齡在18—30歲,身體健康,聽力、視力正常,均為在校學生,日常交流以普通話為主。
3.3 實驗過程
每個被試都參與了聽辨實驗中的識別任務和區分任務。所有的刺激由鐵三角AR5BT耳機播放,耳機頻響范圍5Hz—40kHz。實驗和數據采集均使用心理學實驗設計軟件E-PRIME1.1進行。
3.3.1 識別實驗
實驗將8組刺激樣本隨機播放,每組的9個刺激樣本隨機出現2次,每次每個刺激樣本連續播放2遍,被試共需做出144(8×9×2=144)次反應。聲音播放的同時屏幕上會出現“陳述”“疑問”兩個選項,播放完畢后,被試須在5秒內做出判斷,并在兩個選項中選擇聽到的句子是陳述句還是疑問句。在正式實驗之前,被試可以進行循環練習,以熟悉實驗流程。此外,本實驗共分4段進行,每段結束被試可以休息。
3.3.2 區分實驗
區分實驗選用AX范式,即兩個刺激樣本配對播放,由被試判斷是否相同。樣本對由“相同樣本對”和“不同樣本對”組成。本實驗中的“不同樣本對”由1—3、2—4、3—5、4—6、5—7、6—8、7—9和3—1、4—2、5—3、6—4、7—5、8—6、9—7這些刺激樣本對構成,共14對,每對刺激樣本之間間隔2個步長;“相同樣本對”由2—2、3—3、4—4、5—5、6—6、7—7、8—8共7對刺激樣本對構成。8組刺激樣本共組成了168(14×8+7×8=168)個樣本對。每個樣本對在實驗中播放2次,被試共需做出336(168×2=336)次反應。每對2個刺激樣本播放間隔500毫秒[5],被試有5秒時間判斷這對刺激樣本是“語氣相同”還是“語氣不同”。所有樣本對的播放都是隨機的。同樣,在正式實驗前,也有練習供被試熟悉實驗。因區分實驗所需時間較長,被試在實驗過程中可以隨時稍作休息。
3.4 數據分析
本文統計了每個被試的實驗結果,所有數據均沒有嚴重偏離均值,故全部采用。數據分析通過軟件Excel 2010和SPSS(IBM SPSS Statistics 24)完成。
3.4.1 識別實驗結果
在識別實驗中,我們可以將識別結果由“識別為‘陳述’或識別為‘疑問’”轉化為“是否識別為陳述”,那么只有“是”或“不是”兩種結果。基于此,本文構造了二元邏輯回歸模型(the binary logistic regression model),方程為:
其中,P1為識別率,是指被試將一個刺激樣本識別為“陳述”或識別為“疑問”的百分比。x是第幾個樣本點,回歸系數b1是擬合曲線的斜率,b0是截距。
具體算法是:首先,統計每名被試對每一個刺激的識別結果,并將結果轉寫為0和1(若識別為“陳述”記作0,若識別為“疑問”記作1)。其次,將統計結果導入SPSS中并進行二元邏輯回歸得到擬合的方程(自變量為x,因變量為P1)。
識別邊界xcb是指識別率為0.5時所對應的x值。識別率為0.5,即識別概率等于不識別概率時,認為受試者無法做出正確判斷,記為識別邊界。將P1=0.5代入公式(1),即
邊界寬度wcb是識別率為25%和75%之間的線性距離[7]。識別曲線越陡峭,邊界寬度越窄,則范疇化程度越高。將P1=0.25和P1=0.75分別代入公式(1),
3.4.2 區分實驗結果
本文采用如下公式計算區分率[7]:
其中,P(″S″|S)為相同樣本對的判斷正確率,P(″D″|D)為不同樣本對的判斷正確率。P(S)和P(D)是相同樣本對和不同樣本對在整個區分實驗中的比例,本次實驗中分別為1/3和2/3。每個樣本對的區分率由2組不同樣本對的判斷正確率和1組相同對的判斷正確率計算得出。
具體算法是:我們記不同樣本對的判斷正確率為P2,相同樣本對的判斷正確率為P3。以1—3和2—2樣本對為例,T1等于1—3和3—1判斷為不同的次數;T2等于判斷1—3和3—1的總次數;T3等于2—2判斷為相同的次數;T4等于判斷2—2的總次數。
得到所有區分率之后,需要判斷區分波峰的位置,即判斷哪個或哪幾個樣本對的區分率顯著高于其他樣本對。通過單因素方差分析(One-way ANOVA)確定各樣本對區分率之間是否具有顯著差異,再通過圖基事后檢驗法(Tukey HSD post-hoc)對所有樣本對的區分率進行兩兩比較,輸出的每一個子集之間差異顯著,子集內部差異不顯著[12,19,25,26]。如果統計結果輸出為兩個或多個子集,區分率均值較高的子集,就是區分波峰所在位置。如果統計結果輸出為一個子集,則說明樣本對區分率之間沒有顯著差異,無法判斷區分波峰。
3.5 實驗結果
3.5.1 他不吃
圖5 “他不吃(陳)-他不吃(疑)”感知結果(a)母本為“他不吃(陳)”感知結果(b)母本為“他不吃(疑)”感知結果
圖5(a)表示句末字是陰平以“他不吃(陳)”為母本的聽辨實驗感知結果。統計得出,識別邊界和邊界寬度分別為7.55和1.96,識別曲線相對平緩,識別邊界在比較靠右的位置,邊界寬度較小。識別曲線相對陡峭。前三個刺激樣本的識別率為100%,第六個樣本的識別率仍高達80%以上,隨后驟降至第7個樣本的44%的識別率,接著又平緩下降。在最后一個刺激樣本處,識別率并沒有降至0,而是高達33%。圖5(b)表示句末字是陰平,以“他不吃(疑)”為母本的聽辨實驗感知的結果。統計得出,識別邊界和邊界寬度分別為6.71和1.84,和“他不吃(陳)”為母本的邊界位置差別很大。圖5(b)上,在前四個樣本處識別為陳述句的概率幾乎為100%,隨后呈現線性下降,直至第九個樣本識別率下降至8%。從兩圖對比來看,無論以陳述句還是疑問句為母本,刺激樣本都更多地被感知為陳述語氣。
從“他不吃(陳)—他不吃(疑)”這一對立組的區分實驗結果來看,當母本為“他不吃(陳)”時,區分率差異顯著(F(6,203)=4.530,P=0.000),輸出為2個子集,但子集間重疊嚴重,且區分率較高的子集橫跨除1—3以外的所有樣本對,無法判斷區分波峰。母本為“他不吃(疑)”時,區分率差異不顯著(F(6,203)=1.491,P=0.183),實驗結果輸出為一個子集,不存在區分波峰。如表3所示。
表3 “他不吃(陳)—他不吃(疑)”對立組區分率數據
表3 “他不吃(陳)—他不吃(疑)”對立組區分率數據續
3.5.2 他不來
圖6 “他不來(陳)—他不來(疑)”感知結果(a)母本為“他不來(陳)”感知結果(b)母本為“他不來(疑)”感知結果
圖6(a)表示句末字是陽平,以“他不來(陳)”為母本的聽辨實驗曲線。統計得出,識別邊界和邊界寬度分別為5.87和3.16。圖6(b)表示句末字是陽平,以“他不來(疑)”為母本的聽辨實驗曲線。識別邊界和邊界寬度分別為6.41和3.21。兩組感知結果的識別邊界差別很大。
從“他不來(陳)—他不來(疑)”這一對立組的區分實驗結果來看,當母本為“他不來(陳)”時,經過單因素方差分析,區分率差異不顯著(F(6,203)=1.202,P=0.307),通過圖基事后檢驗,感知結果同屬于一個子集,不存在區分波峰。母本為“他不來(疑)”時,區分率差異顯著(F(6,203)=2.332,P=0.034),輸出為2個子集,但子集間重疊嚴重,無法判斷區分波峰。如表4所示。
表4 “他不來(陳)—他不來(疑)”對立組區分率數據
表4 “他不來(陳)—他不來(疑)”對立組區分率數據續
3.5.3 他不走
圖7 “他不走(陳)—他不走(疑)”感知結果(a)母本為“他不走(陳)”感知結果(b)母本為“他不走(疑)”感知結果
圖7(a)表示句末字是上聲,以“他不走(陳)”為母本的聽辨實驗曲線。識別邊界和邊界寬度分別為5.59和1.96,識別邊界大致位于刺激樣本的中間位置,識別邊界相對陡峭。圖7(b)表示句末字是上聲,以“他不走(疑)”為母本的聽辨實驗曲線。識別邊界和邊界寬度分別為5.7和2.37,兩組實驗的識別邊界幾乎重合,同樣位于刺激樣本的中間位置。從兩組感知結果的識別率來看,目標樣本的識別率都接近100%。
從“他不走(陳)—他不走(疑)”這一對立組的區分實驗結果來看,兩組感知結果的區分率差異均不顯著(F(6,203)=1.794,P=0.102;F(6,203)=2.011,P=0.066),區分率數據各輸出為一個子集,因此都不存在區分波峰。如表5所示。
表5 “他不走(陳)—他不走(疑)”對立組區分率數據
表5 “他不走(陳)—他不走(疑)”對立組區分率數據續
3.5.4 他不去
圖8 “他不去(陳)—他不去(疑)”感知結果(a)母本為“他不去(陳)”的感知結果(b)母本為“他不去(疑)”的感知結果
圖8(a)表示句末字是去聲,以“他不去(陳)”為母本的聽辨實驗曲線。識別邊界和邊界寬度分別為5.44 和1.86。識別邊界基本位于刺激樣本的中間位置,識別曲線呈X形。圖8(b)表示句末字是去聲,以“他不去(疑)”為母本的聽辨實驗曲線。識別邊界和邊界寬度分別為3.96 和2.00。識別邊界偏移靠左。兩組感知結果的識別邊界差異非常大。
從“他不去(陳)—他不去(疑)”這一對立組的區分實驗結果來看,當母本為“他不去(陳)”時,區分率差異不顯著(F(6,203)=0.777,P=0.589),輸出為一個子集,不存在區分波峰。母本為“他不去(疑)”時,區分率差異顯著(F(6,203)= 3.487,P= 0.003),輸出為2個子集,但子集間重疊嚴重,無法判斷區分波峰。如表6所示。
表6 “他不去(陳)—他不去(疑)”對立組區分率數據
表6 “他不去(陳)—他不去(疑)”對立組區分率數據續
3.6 討論
“識別曲線陡峭、區分曲線存在波峰且與識別邊界位置對應”是大多數學者認同的兩項范疇感知判斷標準[1,2,3,4,6,7,9,20,25]。因此,本文基于以上兩點,對陳述—疑問語句的感知模式進行判斷。
從句末字為陰平的“他不吃(陳)—他不吃(疑)”實驗結果來看,無論母本是陳述句還是疑問句,均有明顯的識別邊界。在識別邊界一邊,無論設置的聲學參數如何變化,都被感知為同種語氣;一旦跨越識別邊界,就會感知為另一種語氣。從區分曲線看,沒有明顯的區分波峰。因此我們判斷句末字為陰平的感知模式為連續感知。另外,識別曲線非常平緩,識別邊界向右偏移至第七、第八個樣本之間,加之第九個樣本的識別率依然在30%左右,說明大部分刺激樣本被感知為陳述語氣。這是因為陰平是高平調,但在實際語言中,陰平的基頻曲線很少能保持標準的平調55,總是略升或略降。調位范圍內的變化不會影響到語氣意義的表達。林茂燦[17]和鄭梅、曹文[27]提到,句末字調為陰平時,只有抬高調階到一定程度時,才能感知為疑問語氣。
從句末字為陽平的“他不來(陳)—他不來(疑)”實驗結果來看,兩組實驗結果均呈現連續感知模式。
從句末字為上聲的“他不走(陳)—他不走(疑)”實驗結果來看,兩組的識別邊界均位于刺激樣本中間位置,并且識別邊界基本重合,這說明在語言學意義上,基頻、時長、振幅三個參數共同對語氣感知起作用,對識別陳述語句和疑問語句做出貢獻。但是,區分曲線上依然沒有明顯的區分波峰。因此感知模式為連續感知。
句末字為去聲的“他不去(陳)—他不去(疑)”的兩組實驗結果來看,均有較為清晰的識別邊界,但沒有明顯的區分波峰。因此感知模式為連續感知。
值得注意的是,從句末字為陰平、陽平和去聲的三個對照組的實驗結果來看,母本不同,識別邊界有較大差異。這可能是由于母本的發聲類型不同造成的。筆者基于以下兩點得出此結論。第一,陳述句有明顯的音階下傾走勢[8],因此說到句末字時由于聲調變低會出現擠喉音[15]。而我們修改聲學參數是基于PSOLA的算法,不會改變聲源特征,因此發聲類型被完全保留。當句尾有擠喉音的陳述句為母本時,合成的刺激樣本句末字中均帶有擠喉音,影響感知結果。第二,在句末字為陰平和去聲的疑問句中,由于音階逐漸抬高,句末字基頻很高,在字尾出現假聲。這種發聲類型從聽感上發飄。作為母本進行合成時,假聲這個發聲類型被保留在所有合成樣本中,影響對語氣的判斷。