- 統計學(第3版)
- 向蓉美 王青華 馬丹主編
- 3320字
- 2024-04-25 19:53:20
1.1 為什么要學習統計學
1.1.1 感悟統計
統計是社會認識的最有力的武器之一。
——列寧
某些人不喜歡統計這個名詞,但我卻發現其中充滿了樂趣……它們處理各種復雜現象的能力是非凡的,它們是追求科學的人從荊棘叢生的困難阻擋中開辟道路的最好工具。
——英國著名生物學家、統計學家高爾頓
你們借助于發展成熟的理論和統計分析來創造經濟政策與計劃的合理基礎的貢獻,涉及重大科學突破……我很榮幸地向你們轉達瑞典皇家科學院的祝賀,并且請你——丁伯根教授,從國王陛下手中接受1969年度阿爾弗雷德·諾貝爾經濟學獎金。
——愛立克·倫德伯教授在第一屆諾貝爾經濟學獎頒獎大會上的講話[1]
在終極的分析中,一切知識都是歷史;在抽象的意義下,一切科學都是數學;在理性的基礎上,所有的判斷都是統計學。
——C. R.勞《統計與真理》[2]
好的數據確實勝過逸聞。比起逸聞和光大聲嚷嚷預測未來,數據要客觀得多。統計和其他的公開論述比起來,它根據事實且較科學又較理性。對于爭議性的議題,統計研究應該比其他大部分證據受到更多的重視。
——戴維·S.穆爾[3]
學者不能離開統計而研究,政治家不能離開統計而施政,事業家不能離開統計而執業。
——我國著名經濟學家、人口學家馬寅初
眾所周知,《紅樓夢》一書共120回,自從胡適的《紅樓夢考證》出版以來,一般都認為前80回為曹雪芹所寫,后40回為高鶚所續;然而長期以來這種看法一直都飽受爭議。從1985年開始,復旦大學的李賢平教授帶領他的學生從統計角度做了考證。一般認為,同一情節大家描述得都差不多,但由于個人寫作特點和習慣的不同,所用的虛詞是不一樣的。他們創造性的想法是將120回看成120個樣本,然后確定與情節無關的47個虛詞(之、其、或、亦……呀、嗎、咧、罷……可、便、就等)出現的次數(頻率),作為《紅樓夢》各個回標志,利用統計方法果然能將120回分成兩類,即前80回為一類,后40回為一類,很形象地證實了《紅樓夢》不是出自同一人的手筆;之后又進一步分析前80回是否為曹雪芹所寫,又找了曹雪芹的其他著作,做了類似計算,結果證實了用詞手法完全相同,斷定前80回為曹雪芹一人的手筆,而后40回不是高鶚一個人所寫。這個論證在紅學界轟動很大,使紅學界大為贊嘆。
——紅樓夢作者考證[4]
1.1.2 統計學是一門應用范圍很廣的科學
統計學是一門研究領域非常豐富、應用范圍非常廣泛的科學。我們正處于信息經濟時代,世界充滿了數據,數字化信息隨處可見。
無論我們是否學過統計學、懂得統計學,我們生活中的每一天都會遇到大量有關統計學的問題,新聞和大眾媒體每天都在表現統計數字。例如每年的《政府工作報告》總是要列舉大量的水平、比例、結構、速度等數據,說明國民經濟的發展狀況;統計部門每月、每年都要公布居民消費價格指數(CPI),反映一定時期內城鄉居民所購買的生活消費品和服務項目價格變動趨勢與程度。確實,用“好”“比較好”“很好”“非常非常好”“比以往任何時候都好”等這樣的比較級或最高級的詞語來反映國家的經濟形勢就太蒼白、太空洞了,而2022年我國現價國內生產總值達到1210207億元,按可比價算比上年增長3.0%[5],比1978年增長43倍多,對世界經濟增長的貢獻率為30%左右;2022年全國居民人均可支配收入36883元,比上年增長5.0%,扣除價格因素實際增長2.9%。全國居民人均可支配收入中位數31370元,比上年增長4.7%等。這樣的統計數據實實在在并具體地反映了我國改革開放以來至2022年取得的成就。
宇宙間萬事萬物,林林總總,各種事物可依特定的性質予以歸類,形成各種群體——現象總體。無論是自然的、實驗的,還是社會的、經濟的,凡是可以用數據表現的總體,都可以作為統計的研究對象。在很多學科中,統計學都是必需的基礎知識,統計方法和統計思想滲透到社會、經濟、自然、科技、生活的每一個角落,甚至一篇文章是否有質量,能否在高級別的雜志上發表,很大程度上要看其統計數據和統計方法應用是否正確。統計學不僅在社會經濟領域得到發展,而且一些過去與數量毫無聯系的學科,如政治學、法學、歷史學、藝術學、考古學等,都在對應用統計方法技術進行研究和實踐。
有人說統計學是21世紀最有前途的學科之一。因為從20世紀后半個世紀起,人文社會科學的發展與統計學的關系越來越緊密,統計學的發展已經滲透到人文社會科學的許多領域,并由此產生許多新的學科,如人口統計學、歷史統計學、教育統計學、心理統計學、社會統計學等。從本質上講,信息經濟所依賴的不只是信息處理手段的先進性,更重要的是信息收集、整理的準確性,而準確的信息收集、整理離不開統計學的發展;在一些發達國家,統計學是大學里最受重視的學科,統計學發展得如何是衡量某一大學學術水平的標志。在這些國家,統計學是強勢學科。
統計分析涉及大量數據,所以統計人員、利用統計數據的人員、研究人員總是利用計算機軟件進行數據處理和計算。統計分析中能夠使用的軟件很多,本書使用最為普遍的軟件是Excel,少數不能用Excel軟件處理的分析,我們使用SPSS軟件。
1.1.3 大數據與統計學
早在1980年,阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪潮的華彩樂章”。
2001年,美國統計學教授威廉·克利夫蘭首次將數據科學作為一門獨立的學科,認為數據科學是統計學領域擴展到與以數據作為先進計算對象相結合的部分。目前世界上90%以上的數據是最近幾年才產生的。
“大數據”是伴隨日益普及的網絡行為而產生的,是以多元形式、多來源搜集的非傳統結構和意義的龐大數據組。不僅阿拉伯數字是數據,凡是可以被數據化的信息載體,比如文本、圖片、視頻和音頻等,都是數據。
大數據時代已經來臨,在眾多領域掀起變革的巨浪,產生巨大影響。
2014年,大數據首次寫入政府工作報告,逐漸成為各級政府關注的熱點;2015年9月,國務院發布《促進大數據發展行動綱要》,大數據的發展又上了一個臺階;2019年10月,黨的十九屆四中全會首次將數據列入新型生產要素;2021年3月發布的“十四五”規劃中,大數據標準體系的完善成為發展重點;2022年12月,《中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見》發布,以數據產權、流通交易、收益分配、安全治理為重點,系統搭建了數據基礎制度體系的“四梁八柱”,2023年2月,中共中央、國務院印發了《數字中國建設整體布局規劃》,會議根據國務院關于提請審議國務院機構改革方案的議案,組建了國家數據局,將數據要素放到了一個更為宏大的“數字中國”圖景中。
統計分析涉及大量數據,通過數據來研究規律、發現規律,貫穿了人類社會發展的始終。目前發展大數據技術是國家重大戰略需求,也是統計學、數據科學、信息科學和管理科學等學科的國際前沿。
大數據時代,信息匱乏的危機讓位給信息甄別的困難,數據的規模、類型、結構和增長速度發生了很大的變化,如此背景下,統計方法和統計思想成為每個人的必修課。統計學依然是數據分析的靈魂,它會引領我們合理分析與利用大數據資源。
數據太多可能會導致信息量變得巨大,反而增加尋找到規律的難度,從而需要科學的設計來獲得數據,達到認知自然現象和社會現象的變化規律,或者用來檢驗已經存在的理論假設的目的。這正是統計學研究的內容。以大數據為研究對象,將數據轉化為知識、挖掘數據內在規律、通過數據發現并解決實際問題、預測可能發生的結果等是研究大數據的任務,而這必然離不開統計學。
統計學為了適應數據量以指數速度的不斷增大,產生了統計大量觀察法、分組法、綜合指標法、歸納推斷法、模型方程法、數據挖掘法等,并且借助計算機以及其他軟件的程度也越來越深。從統計學產生以來,統計學圍繞如何收集、整理和分析數據,構建了統計學的方法體系,可通用于自然現象、社會經濟現象和科學實驗等領域。大數據的4V特點,即volume(大量)、velocity(高速)、variety(多樣)、value(價值),使數據收集及時,能滿足各式各樣的需求,提升統計的時效性。同時傳統數據分析與處理的統計學理論和分析方法也要研究及發展,才能為大數據發展和應用提供理論與方法支撐。
在大數據時代統計越顯重要,并會得到更大的發展。這就印證了英國作家、歷史學家韋爾斯(H. G. Wells)曾經說的“統計思維總有一天會像讀與寫一樣,成為一個有效率公民的必備能力”“像今天有能力的公民能讀會寫一樣,將來會有一天要求有能力的公民必須會計算,而且能夠利用平均值、最大值和最小值。可以預期,這樣的時代已經不遠了。”[6]