- 大數(shù)據(jù):挖掘數(shù)據(jù)背后的真相
- (日)松本健太郎
- 1178字
- 2020-07-22 18:43:20
·從總體中抽取樣本的規(guī)則
雖然剛才打比方說對大醬湯進行簡單的攪拌即可,但實際上樣本的抽取很復雜,有著各種各樣的詳細規(guī)則。
首先,從總體中抽取樣本必須是隨機的,不能有意只舀出大醬湯上面澄清的部分就得出“味道太淡了”的結論。如果樣本取偏了,即使從樣本比例求出總體比例,也極有可能得到失真的結果。
NHK(日本放送協(xié)會)開展輿情調查時,根據(jù)統(tǒng)計學理論,采取“分層隨機兩步驟抽取法”,先把全國分成幾大塊,再將各市、區(qū)、町、村按照規(guī)模和各產(chǎn)業(yè)就業(yè)人口占比進行排序,并且根據(jù)各大塊的人口數(shù)量按比例抽取調查地點,然后從抽出的調查地點的市、區(qū)、町、村居民基本臺賬(流水賬)中,以相同間距抽取一定數(shù)量的調查對象。
關鍵是經(jīng)過上述極其煩瑣的作業(yè),要確保抽樣的隨機性(不能有意抽取某一層次的某塊)。
調查既可以采取訪問的方式,也可以采取打電話的方式。在打電話的情況下,常采用一種被稱為RDD(Random Digit Dialing,隨機數(shù)字撥號)的方法,即對數(shù)字進行隨機排列組合得到號碼,再打電話調查。《朝日新聞》等媒體不僅打固定電話,還要撥打手機號碼調查對象,并且不只在平時的工作時間打,在休息日也打電話,如果白天沒有聯(lián)系上,等到晚上會再打一次。
其次,關于提問,各家媒體也存在著微妙的差別。如圖3-5所示。例如,《日本經(jīng)濟新聞》開展的輿情調查,在提問是否支持內(nèi)閣時,對沒有回答是支持還是不支持的人,還要重復提問“與你的心理接受程度更接近的是哪個選項”。這樣一來,“不清楚”等不表明態(tài)度的比例就會大大降低。

圖3-5 因提問方法不同而發(fā)生變化的支持率
《每日新聞》準備了“支持”“不支持”“不關心”三個選項進行提問,所以,與《日本經(jīng)濟新聞》的調查結果相比,在變動趨勢方面兩者會有很大的不同。
因為提問方法的不同,對于各家大眾傳媒的輿情調查結果,比較支持率的高低并沒有意義,各自的支持率變動才有意義。
提問場所和提問方法都會對結果產(chǎn)生影響。照此推理,日本維新會浦野靖人議員利用Twitter進行的問卷調查,可以說是避免了失真嗎?從調查研究行業(yè)發(fā)出的強烈批評的聲音不斷高漲,但那些聲音如果能夠傳到浦野靖人議員的耳朵里就好了。
至于“面帶微笑問卷調查”,它是一種想回答的人才能給出回答的問卷設計,所以,很難說它達到了輿情調查要求的避免失真的那種程度。
不過,大眾傳媒采用的那些方法也并非十全十美,就拿RDD來看也有其不足之處。
如果不說出大眾傳媒的缺點,Twitter上也許天天會有人冒出來抓住這一點不放,說出“松本竟敢不觸及這個缺點!”的話來。
不過,正因為這樣,我才要反過來問,一點點失真也沒有,真正做到了精密細致的輿情調查在哪里呢?做到那種程度的調查在哪里也找不到,但為了盡量收集公平公正的數(shù)據(jù),大家也都為此煞費苦心。這就是輿情調查的實際情況。
與“面帶微笑問卷調查”及Twitter隨意提問得到的支持率相比,各家大眾傳媒的支持率經(jīng)過了統(tǒng)計上的處理,可以認為是比較接近“真正的精密細致的數(shù)字”了。