- 生態環境與資源保護研究
- 任亮 南振興主編
- 4905字
- 2022-07-26 19:11:19
京津冀地區大氣復合污染差異實證分析
王 超
(河北政法職業學院)
摘要:大氣復合污染程度是影響環境質量的一個重要因素。本文對京津冀地區13個城市85個監測點的423個樣本數據進行統計分析,并與全國1835個樣本數據的對比,研究發現:京津冀地區之間的大氣復合污染程度存在明顯差異,也與全國的大氣質量有所不同,相對來說,京津冀地區的大氣復合污染程度更為嚴重一些,主要污染物仍是PM2.5。本文還從大氣污染各項指標中挖掘出一些關聯規則,并運用這些規則對AQI、PM2.5和PM10進行預測,其置信度均在80%以上。這為筆者預測京津冀地區的大氣復合污染程度提供了依據。
關鍵詞:京津冀地區;大氣復合污染;地區差異;關聯分析;環境治理
一、引言
如今,大氣復合污染問題已成為當前環境問題中的一個重大問題,而且是一個影響經濟和社會發展的重大難題。利用空氣質量數據進行基于關聯分析的數據挖掘,可以識別大氣復合污染特征,并分析出有價值的研究結果。在京津冀協同發展的今天,研究京津冀地區的大氣復合污染問題已成為時下必須解決的一個緊迫課題。本文通過采集國家環境保護部實時發布的京津冀地區共13個城市的85個空氣質量監測站點的空氣質量數據,運用SPSS數據統計軟件對采集到的423個樣本數據進行統計分析,運用SPSSModeler17.0數據挖掘軟件對大氣復合污染物指標進行關聯規則(主要運用Apriori算法)挖掘,研究京津冀地區的大氣復合污染差異及相關問題,希冀對該問題的解決有所助益。
二、研究方法
(一)研究數據概況
本論文采集了2016年6月到7月(選擇時點分別為:6月5日18:00、6月7日21:00、7月7日20:00、7月8日9:00、7月13日19:00;選取標準為盡量考慮到京津冀各地市的大氣復合污染差異,比如,盡量包括空氣質量從優良到嚴重污染的各類別數據)國家環境保護部按小時實時發布的京津冀地區共13個城市(85個空氣質量監測站點)的空氣質量數據,即6類污染物每小時的濃度數據。具體包括:PM2.5細顆粒物(單位:μg/m3)、PM10可吸入顆粒物、CO一氧化碳(單位:mg/m3)、NO2二氧化氮、O3臭氧1小時平均和O3臭氧8小時平均、SO2二氧化硫的小時濃度數據。本文共采集到樣本數據423條,其中有效樣本數據有392條。同時,數據分析還使用了全國366個城市的大氣質量監測數據共計1835個樣本數據,以考慮京津冀地區大氣復合污染在全國的排名以及多污染物復合的時間、空間、經濟水平等背景特征等。
1. 空氣質量指數
空氣質量按照空氣質量指數大小分為六級,相對應空氣質量的六個類別,根據《環境空氣質量指數(AQI)技術規定(試行)》(HJ 633—2012)規定:空氣污染指數劃分為0—50、51—100、101—150、151—200、201—300和大于300六檔,對應于空氣質量的六個級別,分別為:一級優、二級良、三級輕度污染、四級中度污染、五級重度污染、六級嚴重污染。指數越大,級別越高,說明污染越嚴重,對人體健康的影響也越明顯。(1)具體數據參見表1空氣質量分指數及對應的污染物項目濃度限值。
表1 空氣質量分指數及對應的污染物項目濃度限值

2. 采集地市監測點
本文共采集了全國的366個城市空氣質量監測數據;京津冀地區共13個城市,85個空氣質量監測站點的空氣質量數據。其中,京津冀地區的85個具體空氣質量監測點,見表2。
表2 京津冀地區主要監測點

續表

(二)數據來源與采集方法
本研究使用的數據源來自http://www.pm25.in/,這是一個由BestApp工作室提供的首要空氣污染物(Primary Pollutant)及空氣質量指數(Air Quality Index)實時查詢的公益性網站,為學術研究無償開放PM2.5數據,提供國家環保部空氣質量的實時數據。(2)網站PM25.in不提供歷史數據,只提供最近一小時的數據。本文針對研究問題和地區特征,對數據采用實時觀察和不定時手工采集的方式,將采集的數據復制到SPSS統計軟件中,以便進行分析使用。
(三)研究工具與研究方法
采用SPSS21.0統計軟件對收集的數據進行統計分析,使用描述性統計、頻率性統計、交叉表、方差分析、聚類分析等方法進行分析。本文主要采用了聚類分析的算法,應用的是K-means聚類算法。K-means算法是由Mac-Queen于1967年提出的,用每類的平均值來表示該類的聚類中心,降低了計算的復雜性。其實現過程是,首先由用戶確定所要聚類的數目k,并隨機選擇k個聚類中心,根據最近鄰法則將分類對象賦給最近的聚類中心(簇中心)從而形成一個聚類簇,然后重新計算每個簇的平均值,并將其更新為新的聚類中心,這個過程不斷反復迭代。(3)為了避免不同變量的量綱之間相差太大可能影響變量之間聚類的明顯不均衡,在進行聚類分析之前,先對所選取的各指標數據進行標準化處理。
本文中的數據挖掘算法及模型驗證通過SPSS Modeler17.0數據挖掘軟件來實現,主要采用了關聯規則和Apriori算法等方法進行分析,考慮支持度、置信度與提升度等指標。部分數據的整理也使用了SPSS21.0統計軟件和SPSS Modeler17.0數據挖掘軟件相結合的相應功能,比如重新編碼、排序、選擇樣本和變量等。
三、京津冀地區大氣復合污染差異及關聯分析
通過對我國京津冀地區的大氣復合污染情況進行分析,可以得出各地區大氣污染情況的現實差異;通過對我國京津冀地區的大氣污染指標的關聯分析,可以進一步得出關于部分指標的關聯規則,為進一步深入研究相關差異提供依據。
(一)基本統計情況
京津冀地區大氣復合污染情況在全國統計樣本中的排名,見表3。
表3 京津冀地區空氣質量全國排名統計表

通過表3可以看出,總體來看,京津冀地區在全國366個監測地區樣本中平均排名為309.57,相對來說排名比較靠后,也就是說,空氣質量總體來說并不好。
京津冀地區大氣復合污染情況的八項指標情況統計,見表4。
表4 京津冀地區的大氣復合污染情況的指標統計量

通過上表并結合空氣質量指數標準可以看出,此次收集的樣本數據中,空氣質量指數平均處于二級良的程度,PM2.5、PM10均處于二級,一氧化碳、二氧化氮均處于一級,臭氧1小時平均處于一級,臭氧8小時平均處于二級,二氧化硫處于一級的水平。總體來看,樣本處于空氣質量較好程度,樣本之間的標準差也比較大。
首要污染物的統計情況,見表5。
表5 京津冀地區的首要污染物情況

通過上表,我們可以看出,京津冀地區的首要污染物仍是以PM2.5為主,其次是PM10。
(二)地市差異分析
京津冀地區大氣復合污染情況的八項指標的方差分析,見表6。
表6 京津冀地區大氣復合污染情況的方差分析

續表

通過上表可以看出,京津冀地區大氣復合污染情況在八項指標上,均存在統計學上的顯著性差異,各項差異均達到了統計學上的0.001的顯著性差異標準。
京津冀地區大氣復合污染情況的各指標差異,見表7。
表7 京津冀地區大氣復合污染情況的各指標差異

續表

續表

續表

續表

通過表7可以看出,在分析的八項指標中,13個地市的各監測點數據均存在較大差異。
在對京津冀地區各項大氣污染指標進行方差分析的基礎上,進一步對各地市進行兩兩比較,分析具體差異。通過比較分析,我們可以發現:北京市與天津市、石家莊市、唐山市、秦皇島市在AQI指標上存在統計學上的顯著性差異(P<0.001),北京市與廊坊市、滄州市、張家口市、衡水市在AQI指標上存在統計學上的顯著性差異(P<0.05),與其他市在AQI指標上不存在統計學上的顯著差異;天津市與北京市、保定市、邢臺市、邯鄲市、承德市、衡水市在AQI指標上存在統計學上的顯著性差異(P<0.001),與石家莊市、廊坊市、張家口市、秦皇島市在AQI指標上存在統計學上的顯著性差異(P<0.05),與其他市在AQI指標上不存在統計學上的顯著差異。其他各項指標之間的差異不再一一列舉,各項指標之間的差異(僅列舉北京、天津、石家莊三個主要地市),見表8。
表8 京津冀地區各項大氣污染指標兩兩比較差異表

續表

續表

(三)地區差異的聚類分析結果
通過對我國京津冀地區的大氣污染指標進行聚類分析,運用k-means聚類方法,將各地區按指標結果分為三類,具體結果見表9。
表9 京津冀地區八項大氣污染指標的聚類分析

通過分類表可以看出,可按污染程度將各省市大氣污染樣本分為三類,第一類為環境污染較輕類型,共有33個樣本;第二類為環境污染較重類型,共有147個樣本;第三類為環境污染一般類型,有243個樣本;三個類型之間存在顯著差異。
(四)大氣復合污染物指標關聯規則分析
1. 關聯規則建模流程圖
在對我國京津冀地區大氣污染分析的基礎上,根據數據挖掘的原理與算法,使用關聯規則中的Apriori算法建立大氣污染的關聯分析模型,生成關聯類別的規則集,為進一步分析奠定基礎。京津冀地區大氣污染關聯規則Apriori算法流程圖,見圖1。

圖1 京津冀大氣質量關聯分析數據流
2. 京津冀大氣質量關聯網絡圖
京津冀大氣質量關聯分析網絡結構,見圖2。

圖2 京津冀大氣質量關聯分析網絡結構圖
京津冀大氣質量關聯分析網絡結構圖顯示,O31小時平均、O38小時平均、PM2.5、AQI一級、AQI四級與其他各項指標的關聯程度較弱;其他各項指標之間的關聯程度較強。
3. 空氣質量指數的關聯規則
我們將PM2.5、PM10、CO、NO2、O31小時平均、O38小時平均、SO2等指標的數據作為關聯規則的前項,將空氣質量指數(AQI)作為關聯規則的后項,分析兩類指標之間的關聯程度。通過建模分析,我們共得到相關規則集255條。這里我們只對部分具有代表性的規則進行簡要分析。京津冀地區大氣污染情況的部分規則,見表10。
表10 空氣質量指數(AQI)的規則(部分)

通過上表,我們可以發現,PM2.5類別4對AQI類別4的置信度非常高,達到了100%,且其支持度也比較高,達到了13.333%。這說明PM2.5對預測AQI的類別4較好。同樣,PM2.5類別3對AQI類別3的置信度非常高,達到了100%,且其支持度也比較高,達到了30%,超過了對AQI類別4的支持度。其他規則也可同理解釋,不再贅述。
4. PM2.5的關聯規則
我們將PM10、CO、NO2、O31小時平均、O38小時平均、SO2等指標的數據作為關聯規則的前項,將PM2.5作為關聯規則的后項,分析兩類指標之間的關聯程度。通過建模分析,我們共得到相關規則集233條。這里我們只對部分具有代表性的規則進行簡要分析。京津冀地區大氣污染指數PM2.5的規則集(部分),見表11。
表11 PM2.5的規則(部分)

通過上表,我們可以發現,O31小時平均類別2對PM2.5類別1的置信度達到了100%,且其支持度也比較高。O31小時平均類別2和O38小時平均類別3對PM2.5類別1的置信度達到了100%,且其支持度也比較高。其他規則也可同理解釋,不再贅述。
5. PM10的關聯規則
我們將PM2.5、CO、NO2、O31小時平均、O38小時平均、SO2等指標的數據作為關聯規則的前項,將PM10作為關聯規則的后項,分析兩類指標之間的關聯程度。通過建模分析,我們共得到相關規則336條。這里我們只對部分具有代表性的規則進行簡要分析。京津冀地區大氣污染指數PM10的規則集(部分),見表12。
表12 PM10的規則(部分)

通過上表,我們可以發現,O38小時平均類別2對PM10類別2的置信度達到了100%,且其支持度達到了23.333%之多。PM2.5類別4和O31小時平均類別3共同對PM10類別3的置信度達到了100%,且其支持度達到了11.667%。其它規則也可同理解釋,不再贅述。
四、結語
本文通過對京津冀地區13個城市85個監測點的423個樣本數據進行統計分析并與全國1835個樣本數據的對比分析發現,利用空氣質量數據進行基于關聯分析的數據挖掘,可以識別大氣復合污染的特征,可以從海量大氣復合污染物指標數據中探索出較有意義的研究結果。京津冀地區之間的大氣復合污染程度存在明顯差異,也與全國的大氣質量有所不同,相對來說,京津冀地區的大氣復合污染程度更為嚴重一些,主要污染物仍是PM2.5。我們可以從大氣污染各項指標根據挖掘出的關聯規則對AQI、PM2.5和PM10進行預測,且置信度非常高。本研究也存在一些不足之處,比如對京津冀地區各監測點的數據采集時點相對較少、研究結果也有一定局限性。
參考文獻
[1]劉杰.北京大氣污染物時空變化規律及評價預測模型研究[D].北京:北京科技大學,2015.
[2]賈瑾.基于空氣質量數據解析大氣復合污染時空特征及過程序列[D].杭州:浙江大學,2014.
[3]李麗.基于數據挖掘的城市環境空氣質量決策支持系統設計與實現[D].濟南:山東師范大學,2006.
[4]武鵬程.基于數據挖掘的城區空氣質量影響因素分析及實證研究[D].武漢:中國地質大學,2008.
[5]甄莎.包頭市城區空氣質量評價及影響因素分析[D].呼和浩特:內蒙古科技大學,2012.
[6]宋暉,張良均.C4.5決策樹法在空氣質量評價中的應用[J].科學技術與工程,2011(7).
[7]薛薇,陳歡歌.SPSS Modeler數據挖掘方法及應用[M].北京:電子工業出版社,2014.
(1) 參見:空氣質量指數,百度百科:http://baike.baidu.com/subview/3251379/3251379.htm,訪問時間為2016年7月14日。
(2) 賈瑾.基于空氣質量數據解析大氣復合污染時空特征及過程序列[D].杭州:浙江大學,2014:14.
(3) 張俊溪,羅增強.基于主成分聚類算法的陜西省環境協調性分析[J].微機處理,2010(5).