- 大數據:挖掘數據背后的真相
- (日)松本健太郎
- 791字
- 2020-07-22 18:43:20
·收集數據必須遵循規則
深受阪神隊的狂熱粉絲歡迎的“熱血!虎之隊黨”(SUN-TV)為了開展“向1,000名棒球迷發問!你喜歡的球隊/你不喜歡的球隊”的調查,在舉辦阪神隊與巨人隊的對抗賽時,以坐在甲子園球場一壘的阿爾卑斯看臺上的1,000名觀眾為調查對象,以“自出生以來一直聲援的、最喜歡的球隊是哪個”“最令人討厭的競爭對手的富豪球隊是哪個”這兩個問題分別開展了調查。
即使不用看調查結果也會知道,100%的人回答“最喜歡的球隊”是阪神,100%的人回答“最討厭的球隊”是巨人。原因顯而易見。
首先,調查場所不對。調查場所是在阪神與巨人展開對決的甲子園球場(甲子園球場全稱為“阪神甲子園球場”),并且是在只有阪神球迷才能坐的一壘的阿爾卑斯看臺。如果在此有人回答喜歡的球隊是“巨人”,最后他肯定不能“活著”走出球場。無論問1,000個人還是問2,000個人,結果理應沒什么兩樣。
其次,提問方法不對。這很明顯是誘導式提問,就是想讓人說出是阪神還是巨人。后者用“富豪球隊”來表達,雖然并非沒有回答“軟銀”的可能性,但還用“競爭對手”來表達,那無疑就是“巨人”了。
此外,提問者的來路也不對?!盁嵫』⒅狘h”什么的,無論怎樣想都是阪神球迷開展的調查,讓別人來回答,即使回答者不是球迷,僅憑該節目組工作人員的奉獻精神,幾乎所有人也都會回答“喜歡阪神”。
例如,在由在野黨的政治家舉辦的集會上,如果問是否支持現在的政府,無論在哪個場所開展調查,都會毫無例外地得到低支持率的結果。這是因為支持執政黨的人很少參加在野黨的集會。
就像這樣,要想開展調查,必須想好各種各樣的注意事項。提問的場所、提問的方法和提問者的來路,這些都有可能導致調查結果的失真。避免調查結果失真是必須要引起高度重視的大原則,沒能做到這一點的數據,就不值得相信,因為那可以說是已經被歪曲了的數據。
網絡與報紙、電視等大眾傳媒的輿情調查結果出現如此大的差別,難道不就是因為沒能避免這種失真嗎?