冰球突破怎么得5个冰球

書名：大數(shù)據(jù)：挖掘數(shù)據(jù)背后的真相
作者名： (日)松本健太郎
本章字數(shù)： 1178字
更新時間： 2020-07-22 18:43:20

·從總體中抽取樣本的規(guī)則

雖然剛才打比方說對大醬湯進行簡單的攪拌即可，但實際上樣本的抽取很復雜，有著各種各樣的詳細規(guī)則。

首先，從總體中抽取樣本必須是隨機的，不能有意只舀出大醬湯上面澄清的部分就得出“味道太淡了”的結論。如果樣本取偏了，即使從樣本比例求出總體比例，也極有可能得到失真的結果。

NHK（日本放送協(xié)會）開展輿情調查時，根據(jù)統(tǒng)計學理論，采取“分層隨機兩步驟抽取法”，先把全國分成幾大塊，再將各市、區(qū)、町、村按照規(guī)模和各產(chǎn)業(yè)就業(yè)人口占比進行排序，并且根據(jù)各大塊的人口數(shù)量按比例抽取調查地點，然后從抽出的調查地點的市、區(qū)、町、村居民基本臺賬（流水賬）中，以相同間距抽取一定數(shù)量的調查對象。

關鍵是經(jīng)過上述極其煩瑣的作業(yè)，要確保抽樣的隨機性（不能有意抽取某一層次的某塊）。

調查既可以采取訪問的方式，也可以采取打電話的方式。在打電話的情況下，常采用一種被稱為RDD（Random Digit Dialing，隨機數(shù)字撥號）的方法，即對數(shù)字進行隨機排列組合得到號碼，再打電話調查。《朝日新聞》等媒體不僅打固定電話，還要撥打手機號碼調查對象，并且不只在平時的工作時間打，在休息日也打電話，如果白天沒有聯(lián)系上，等到晚上會再打一次。

其次，關于提問，各家媒體也存在著微妙的差別。如圖3-5所示。例如，《日本經(jīng)濟新聞》開展的輿情調查，在提問是否支持內(nèi)閣時，對沒有回答是支持還是不支持的人，還要重復提問“與你的心理接受程度更接近的是哪個選項”。這樣一來，“不清楚”等不表明態(tài)度的比例就會大大降低。

圖3-5　因提問方法不同而發(fā)生變化的支持率

《每日新聞》準備了“支持”“不支持”“不關心”三個選項進行提問，所以，與《日本經(jīng)濟新聞》的調查結果相比，在變動趨勢方面兩者會有很大的不同。

因為提問方法的不同，對于各家大眾傳媒的輿情調查結果，比較支持率的高低并沒有意義，各自的支持率變動才有意義。

提問場所和提問方法都會對結果產(chǎn)生影響。照此推理，日本維新會浦野靖人議員利用Twitter進行的問卷調查，可以說是避免了失真嗎？從調查研究行業(yè)發(fā)出的強烈批評的聲音不斷高漲，但那些聲音如果能夠傳到浦野靖人議員的耳朵里就好了。

至于“面帶微笑問卷調查”,它是一種想回答的人才能給出回答的問卷設計，所以，很難說它達到了輿情調查要求的避免失真的那種程度。

不過，大眾傳媒采用的那些方法也并非十全十美，就拿RDD來看也有其不足之處。

如果不說出大眾傳媒的缺點，Twitter上也許天天會有人冒出來抓住這一點不放，說出“松本竟敢不觸及這個缺點！”的話來。

不過，正因為這樣，我才要反過來問，一點點失真也沒有，真正做到了精密細致的輿情調查在哪里呢？做到那種程度的調查在哪里也找不到，但為了盡量收集公平公正的數(shù)據(jù)，大家也都為此煞費苦心。這就是輿情調查的實際情況。

與“面帶微笑問卷調查”及Twitter隨意提問得到的支持率相比，各家大眾傳媒的支持率經(jīng)過了統(tǒng)計上的處理，可以認為是比較接近“真正的精密細致的數(shù)字”了。

官术网_书友最值得收藏!

大數(shù)據(jù)：挖掘數(shù)據(jù)背后的真相

·從總體中抽取樣本的規(guī)則