




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、聚類分析方法在我國空氣污染區域劃分中的應用安徽大學 笪婷婷、鄒委員、武錦摘要隨著我國工業化進一步的發展,人們的生活也進一步的提高。伴隨著經濟的發展,環 境也受到了一定的影響,國家也相應的提出了人與自然和諧相處的可持續發展戰略。本文 基于國家的政策,考慮工業化過程中城市空氣的污染情況,提出相應的合理建議,從而使 工業化過程中我們的環境也能受到更好的保護!聚類分析是目前最有前景的數據分析方法之一,它不僅能作為一個獨立的工具來獲得 數據分布的情況,觀察每一個簇的特點,還能集中地對某些特定的簇作進一步的分析。對 空氣污染區域劃分的聚類分析,不僅能合理的分析我國各地區空氣污染的情況,還可以對 我們工業化
2、發展的偉大藍圖提出我們瀚渺的建議,維護我們廣大城市居民的切身利益!本文首先對幾種聚類方法進行了介紹和比較,然后在對我國空氣污染現狀分析中,運 用了系統聚類分析方法。首先,我們采用了組內連接聚類分析方法對我國的空氣污染區域 按照污染程度的不同進行了劃分;其次,我們又采用了中位數聚類分析法對我國的空氣污 染區域按照不同地區的廢氣處理情況進行了劃分;最后我們又采用了質心聚類分析法對各 污染區域按年度的不同進行劃分。我們用所選的三種數據進行聚類,產生的七個類是在整 體上是一致的。這就表明,空氣污染程度與廢氣處理的力度是成正相關的。為了說明系統聚類分析方法在我國空氣污染區域劃分中的合理性,我們又采用了
3、k-means方法進行聚類,所得的聚類結果與運用系統聚類法的結果相似。從而進一步說明 分類的合理性。根據聚類結果,我們提出了一些相關的防治空氣污染的建議。相關部門應該按照污染 地區的分類有針對性的制定相關策略,因地制宜,對污染程度相近的地區采用合理的方式 進行治理。關鍵詞:聚類方法;系統聚類法;中位數聚類分析;組內連接聚類分析;質 心聚類分析The Application of Cluster Method in Air Pollution Regional Division of Our CountryAbstractWith the further development of the i
4、ndustry in our country, people have undergone general improvement. However, the environment is accordingly suffering some attack from the progress of economy. The government has launched the strategy of sustainable development in order to build harmonious relationship between human and nature. Based
5、 on the policy of our government, taking the pollution in urban area into consideration, our article gives some corresponding advices to protect our environment in the industrialization.Cluster method is one of the most promising methods in data analysis. Not only can it act as an independent tool t
6、o obtain the information of data distribution and observation of the characteristics of each cluster, but also do further analysis for some particular clusters. Using the cluster method in the analysis of division for polluted urban area, we can do reasonable analysis and get acquaintance of conditi
7、on of air pollution in different places. Our trivial recommendations will be come up for the blue sky of our industry development and safeguarding the vital interests of the city dwellers.At the beginning of this paper, more than one kind of cluster method will be introduced and compared in this pap
8、er. Furthermore, systematic cluster methods will be applied in the division of the current air pollution circumstances. Firstly, we use team linked cluster method to divide regions according to the pollution degree. Secondly, we use median cluster method in accordance with the pollutant disposal of
9、different areas. Lastly, we use centroid cluster method by judging the annual condition of air pollution. We cluster these three kinds of data, finding that seven categories we produce are accordant on the whole, which suggests that pollution degree is positively related to the strength we depose.To
10、 illustrate the rationality of systematic cluster method applied in air pollution regional division, we utilize k-means to cluster. To our happiness, the result we obtain is quite similar to that of systematic cluster method, which shows the rationality.According to the clustering results, we put fo
11、rward some relevant suggestions for the prevention and control of air pollution. Relevant departments should formulate relevant strategies based on the classification of pollution areas, and take suitable measures for local conditions. Also we should depose the pollution in similar levels in a reaso
12、nable way.KeyWords: : cluster system clustering method; median cluster analysis; connection cluster analysis within the group; a centroid cluster analysis研究背景我國經濟的快速增長,工業化、城市化的發展使得GDP年增長率達到8%9%。改 革開放以來,我國的城市化進程加快,城市人口比例從1978年的18%增加到2000年的 34%,這一時期的增長速度是世界平均增長速度的3倍。20世紀末,經濟的劇增使得我 國成為世界上第二大能源消費國,能源的消耗
13、已成為我國空氣污染的主要來源。我國的總 能源消耗已經從1978年的571萬噸標準煤增加到2002年的15億噸標準煤,其中作為主 要能源的燃煤占總能源消耗的60%以上。燃煤是空氣污染物產生的重要原因。此外,隨 著汽車消費量的快速增加,燃油消耗年平均增長達6%,使得空氣的污染物濃度不斷上升。 我國的空氣污染狀況不容樂觀。(一)導致空氣污染的原因造成我國空氣污染的原因是非常多的,但縱觀所有的污染成因,以下原因應該是最具 有普遍性的。城市人口爆炸性增長。城市強大的經濟活力,豐富的物質文化條件和就業機會,對農 村人口有具大的吸引力,進入20世紀以來,人口城市化加速發展,城市人口急劇增長。 我國城市化雖然
14、起步較晚,但城市人口增加速度卻十分驚人,例如1980年我國城市人口 有1.3億,占全國總人數的13.6%; 1990年增加到近3億,占全國總人口的26.2%。 城市個數由1983年的289個,到1993年增到570個,幾乎增加了一倍,而城市人口大于 100萬的大型城市就有42個之多。我國大城市人口密度平均每平方公里1萬人以上,是 郊區人口平均密度的22-96倍。城市中人口數量巨大的工礦企業,單位面積上具有高投 資、高能耗的特點。由于城市處于高密度、超負荷運轉狀態,因此城市空氣、水、土地及 一切基礎工程設施都承受著超載的負擔,引起了一系列環境問題。城市空氣污染、缺電、 缺水,城市環境臟、舌L、差
15、。不同地區能源消耗類型又決定了不同地區污染的差異。空氣污染可以按照能源消耗的 不同分為煤煙型、石油型、揚塵型和復合型等。煤煙型污染的特征是空氣污染物中總懸浮 顆粒物和二氧化硫所占的比例較大;石油型污染主要是來自石油燃燒、石油化工和汽車尾 氣產生的二次污染,發達國家多屬此類污染,污染嚴重時可形成光化學煙霧,并在5-9 月濃度較高,我國甘肅省蘭州市就是屬于這種類型;揚塵型污染是以二次揚塵、建筑垃圾 揚塵、機動車污染以及沙塵天氣所造成的總懸浮顆粒物污染為主的非燃煤粉塵污染;以石 油型污染、二次揚塵、建筑揚塵及機動車排放污染為代表的污染稱為復合型污染,此類污 染是以煤煙型污染為主導的,主要形成于煤煙型
16、污染向石油型污染轉化的工業發達城市, 有煤煙型污染與石油型污染的共同特征。氣象條件對空氣污染產生的影響。空氣污染主要取決于兩方面:一是與污染源排入空 氣中污染物的多少有關;二是取決于各地區上空邊界層大氣對污染物的稀釋擴散能力一大氣環境容量。就某一有限時段而言,地區各污染源的排放總量可能沒有多大變化,但污 染濃度的日際變化或月際變化很明顯,主要是由天氣過程和天氣系統影響各地區大氣邊界 層對污染物的稀釋擴散能力所致。(二)空氣污染情況值得關注圖1.2.1 2001-2009圖1.2.1 2001-2009全國二氧化硫排放量折線圖二軾化硫惜放上圖是2001年至2009年全國二氧化硫排放量的折線圖(所
17、用數據見附錄A中的表3)。 由圖可以看出,自2006年開始,我國二氧化硫排放量有明顯的下降趨勢,但是直至2009 年,二氧化硫排放量仍處于較高水平。這就表明,近年來我國空氣中的二氧化硫治理水平 有所提高,但是仍需要繼續加大整治力度,使二氧化硫排放量繼續減少。雖然二氧化硫的排放量并不能完全反應我國的空氣污染狀況,但是也能在很大程度上 反映出空氣質量的變化。目前,我國正處在經濟高速發展階段,工業、農業、交通運輸業等發展迅速,人們向 往已久的“小康生活”逐漸成為現實,但是伴隨而來的是人們的生存環境受到污染。我國 的空氣污染情況仍舊值得關注,我們每一個人都有職責來改善空氣質量,營造一個健康舒 適的生活
18、環境。(三)空氣污染的不利影響毫無疑問,大氣環境的不斷惡化,其后果之一是使人們自身的健康受到嚴重威脅,造 成某些疾病發病率和死亡率的不斷上升。據聯合國環境規劃署統計,全世界每年約有120 萬人成為新的皮膚癌患者,呼吸系統和心血管疾病患者也呈增加趨勢。誠然,這些不能全 部歸咎于空氣污染,但有理由認為,這與當前的大氣環境惡化密切相關。這就提醒我們, 在盡情享受大自然恩惠和現代化成果的同時,也該認真、冷靜地思考一下由于人類自身行 為而導致大氣環境不斷惡化、自身健康受到損害的嚴峻現實。空氣污染也會對農業造成危害。空氣污染對農作物的危害分三種類型:一是急性危害, 在污染物高濃度時,短時間內對農作物造成危
19、害,使之葉面枯萎脫落,直至死亡,造成農 作物減產;二是慢性危害,在污染物低濃度時,因長時間作用所造成的危害,使農作物葉 綠素褪色,影響生長發育;三是不可見危害,指污染物質對農作物造成生理上的障礙,抑 制生育發展,造成產量下降。空氣污染物對天氣和氣候的影響是十分顯著的,可以從以下幾個方面加以說明:空氣污染使得到達地面的太陽輻射量減少。從工廠、發電站、汽車、家庭取暖設 備等向大氣中排放的大量煙塵微粒,使空氣變得非常渾濁,遮擋了陽光,減少了到達地面 的太陽輻射量。據觀測統計,在大工業城市煙霧不散的日子里,到達地面的太陽輻射量比 沒有煙霧的日子減少近40%。在空氣污染嚴重的城市,天天如此,就會導致人和
20、動植物 因缺乏陽光而生長發育受到阻礙。空氣污染增加了大氣降水量。在大工業城市的空氣中有很多微粒,其中有很多具 有水氣凝結核的作用。因此,如果再有其他一些降水條件與之配合,就會出現降水天氣, 尤其在大工業城市的下風地區,降水量更多。空氣污染會導致下酸雨。有時候,在空氣污染地區所下的雨水中含有硫酸。這種 酸雨是空氣中的污染物二氧化硫經過氧化形成硫酸,隨自然界的降水下落形成的。酸雨的 危害很大,它能使大片森林和農作物毀壞,能使紙品、紡織品、皮革制品等腐蝕破碎,能 使金屬的防銹涂料變質而降低保護作用,還會腐蝕、污染建筑物。空氣污染能增高大氣溫度。大氣中的二氧化碳可以使大量的太陽輻射能通過大氣 層輻射到
21、地球表面,吸收從地球表面輻射出的紅外線。二氧化碳在吸收熱量后,再將吸收 的輻射能逆輻射到地球表面,形成多次輻射,使近地層大氣增溫。大氣中的二氧化碳好像 是一個屏蔽,就像農業所建的溫室一樣,所以把大氣中的二氧化碳所產生的效應叫做溫室 效應。由于溫室效應,有人估算如果大氣中二氧化碳濃度為420ppm時,地球上所有的冰 雪將融化,反之,若二氧化碳濃度減小為150ppm時,溫室效應減弱了,地球就可能完全 被冰雪所覆蓋。除此之外,空氣污染還會帶來很多其他不利影響。在這些問題更加嚴重之前,我們應 該盡全力做好空氣污染的防治工作。(四)已有研究目前有很多學者在我國空氣污染的起因、現狀、影響等方面有所研究,然
22、而研究的目 的不外乎是想提出更為有效、合理的空氣污染防治策略。有的學者提出了一種研究空氣污 染預報與控制的工具,即區域空氣質量模式,它是通過建立數學模型描述大氣污染物的物 理化學性質,考慮大氣污染物排放的時空規律,進而再現污染物在大氣中輸送、演變、清 除等過程。該模式的開發涉及大氣動力學、大氣物理學、大氣化學、生態學、大氣探測與 遙感、污染控制論、數學、計算機和網絡技術等諸多學科領域,是一項多學科交叉、復雜 性和綜合性很強的系統工程。縱使有不少方法已經應用于空氣污染領域,仍然有不少學者 都忽略了聚類方法的巨大作用。毋庸置疑,聚類方法在對我國空氣污染現狀進行分析的過 程中起到了關鍵的作用。基于上
23、述背景,本文在對我國空氣污染區域的劃分過程中,采用了聚類方法,科學、 合理的將污染程度相似的地區歸為一類,為了解我國空氣污染現狀提供可靠的信息。聚類分析的相關方法聚類是一種應用非常廣泛的數據分析方法,它是統計學的一個分支,目前在諸多領域, 包括數據挖掘、圖像處理、市場研究等,都能凸顯出其重要性。聚類是將一個對象的集合 分成不同的類,從而描述數據。通過這種方式,人們能夠將密集的和稀疏的區域區分開來, 從而發現全局的分布模式,以及數據屬性之間有趣的相互關系。很久以前人們就對聚類方法有所研究。傳統的聚類方法主要是基于距離的聚類,例如 歐氏距離、切比雪夫距離、馬氏距離1等。在今天,聚類分析也是數據挖掘
24、和知識發現領域中的重要課題。迄今為止,人們已經 提出了許多數據聚類的算法,試圖解決各種領域的聚類問題。從目前來看,對數據挖掘中聚類方法的研究大都集中于計算機科學領域,更多注重聚 類算法的研究,或者對現有聚類方法進行算法上的改進,而很少真正從統計學角度出發對 數據挖掘中的聚類問題進行深入分析。若嘗試從統計學視角出發,以統計理論為基礎,以 統計方法與算法相結合為基本思路,將一些現有的優秀統計方法,如因子分析、對應分析 等引入數據挖掘領域,則能夠使其應用于海量數據的聚類分析。(一)聚類分析的基本概念聚類是指將一群物理的或抽象的對象,根據它們之間的相似程度,分為若干組,并使 得同一個組內的數據對象具有
25、較高的相似度,而不同組中的數據對象則是不相似的。一個 聚類就是由彼此相似的一組對象所構成的集合。在很多應用中,我們可以把同一個類的數 據對象當做一個整體來處理。聚類的嚴格數學描述如下:假設被研究的樣本集為E,類C定義為E的一個非空子集, 即:C u E,且C尹0聚類就是滿足以下兩個條件的類C 1,C2,,*的集合: C 1 U C 2 U U C k = E(2) c n c. = 0 (對任意 i 豐 j)由第一個條件可知,樣本集E中的每個樣本必定屬于某一個類;由第二個條件可知,樣本 集E中的每個樣本最多只屬于一個類。(二)幾種主要的聚類方法如今各種各樣的聚類方法層出不窮,我們在選用聚類方法
26、時也會依據不同的標準,例 如數據的類型、數據的大小等等。目前主要的聚類方法有:劃分的方法、層次的方法、基 于密度的方法、基于網格的方法等。2.2.1劃分的方法劃分的方法是指將一個給定個數據對象的數據集合,構建數據的k個劃分,每個劃 分表示一個聚類,這k個分組必須滿足:每個組至少包含一個對象;每個對象必須屬于且 只屬于一個組。給定要構建的劃分的數目k,劃分方法首先創建一個初始劃分,然后采用 一種迭代的重定位技術,通過對象在劃分間的移動來改進劃分3。好的劃分的一般準則是: 同一分組中的距離越近越好,而不同分組中的距離越遠越好,即使得下列的準則函數最小:E = Ik F.llj = 1 x&C j上
27、式中m是類C.的均值,k是數據空間中的數據對象。屬于該類的聚類方法有k-均值 (k-means)算法、k-中心點(k-medoids)算法、PAM、CLARA、CLARANS 等。2.2.2 層次方法將給定的數據對象集合進行層次的分解,這就是層次聚類法。我們可根據層次分解的 形成方式不同,把層次方法分為凝聚的和分裂的。凝聚的方法首先把每個對象作為單獨的 一個組,然后相繼地合并相近的對象或組,直到所有的組合并為一個(層次的最上層),或 者達到一個終止條件;分裂的方法首先把所有的對象置于一個聚類中,在每步迭代里,一 個簇被分裂成更小的簇,直到最后每個對象在單獨的一個簇中,或者達到一個終止條件。層次
28、方法的缺陷在于,執行合并或分裂的操作不能被撤銷。這個嚴格規定是有用的, 由于不用擔心組合數目的不同選擇,故計算代價會較小。不過,該技術的一個主要問題是 它不能改正錯誤的決定。我們可以通過兩種方法來改進層次聚類的結果:一是在每層劃分 中,仔細分析對象之間的“聯接”;二是把層次凝聚和迭代的重定位方法綜合起來,先用 自底向上的層次算法,再用迭代的重定位來改進結果。層次方法包括BIRCH、CURE、ROCK、Chameleon算法等。2.2.3密度方法絕大多數劃分方法是基于對象之間的距離進行聚類的。這樣的方法只能發現球狀的 簇,卻在發現任意形狀的簇上遇到了困難。隨之提出了基于密度的聚類方法,它的主要思
29、 想是:只要鄰近區域的密度(對象或數據點的數目)超過某個閾值,就繼續聚類。主要的基于密度的方法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。2.2.4網格方法基于網格的方法首先將數據空間量化為有限數目的單元,形成了一個網格結構,全部 的聚類操作都在這個網格結構上進行。這種方法的主要優點在于它的處理速度很快,且處 理時間與數據對象的數目相獨立,只取決于量化空間中每一維的單元數目。有代表性的網格方法是STING算法,除此之外,CLIQUE算法和Wavecluster算法既 是基于網格的,又是基于密度的。(三)聚類方法的進一步分析和總結以上我們將現有的主要聚類方法大致分為劃分的方法、
30、層次的方法、基于密度的方法、 基于網格的方法四大類。下面我們將從聚類標準、類的標識這兩個角度對眾多聚類方法進 行更為全面和深入的分析與對比,以加深對聚類方法的認識。2.3.1聚類標準聚類分析的最主要的任務是建立數據對象之間以及類與類之間相似性的度量標準。最 常用的相似性標準包括:以距離為標準、以密度為標準和以鏈接為標準。以距離為標準距離是一種最為簡單、直觀的聚類標準。常見的數據對象之間距離的度量指標包括歐 式距離、切比雪夫距離距離等。以距離為標準的聚類方法只能建立在歐式空間上。類間距離的度量廣泛使用如下四種方法:代表點距離:D (C , C ) = d (m , m )平均距離:D (C ,
31、C ) = d (工,工)(n x n )avg i ji j ; i jx.eC.,x .eC ./最小距離:D (C , C ) = min Id (x , x ) I x e C , x e C )min i ji j i i j j最大距離:D(C , C ) = max d (x , x ) I x g C , x g C Jmax i ji j i i j j上式中,用D (C , C )表示類間距離,用d (x , x )表示數據點之間距離,m和m分別 i ji ji j是類C和C的代表點(或稱“重心”)。單一代表點的聚類方法(如k-means法和k-medoids 法)通常使用
32、代表點距離來度量類間距離。平均距離、最小距離、最大距離的計算時間復 雜度均為0(七x氣),因此,直接使用這三種方式來度量類間距離時算法效率一般較低, 唯一的例外是biRch方法,該方法借助聚類特征樹來提高算法速度。用距離作為聚類標準比較直觀且易于計算,但是對異常點通常比較敏感。所以,它們 經常會通過引入某項技術來克服異常點的影響。例如,k-medoids利用中心點而不利用均 值作為類的代表點,從而降低了異常點的影響;CURE通過調節“收縮因子”,對多個代表 點進行收縮處理來減少對孤立點的敏感度;BIRCH通過控制子類的直徑來控制孤立點的 影響。以密度為標準以密度為標準的聚類方法也只能建立在歐式
33、空間上。相對于以距離為標準,以密度為 聚類標準的最大優點就是可以發現任意形狀的類,并且能夠有效地消除噪聲。以密度為標 準的聚類方法中,數據點之間相似程度的判斷標準是它們是否屬于同一個連續的密集區 域,同屬于一個連續密集區域的數據點被歸為一類。根據密度計算方式的不同,以密度為 聚類標準的方法又可以進一步劃分為三類:基于網格的方法、最近鄰方法和基于密度函數 的方法。基于網格的方法通過網格內數據對象的數量來計算類的密度。通過這種方法得到的密 度僅僅是真實密度的近似,從而會降低聚類的精確度。STING、Wavecluster和CLIQUE方 法屬于這一類。最近鄰方法把一定半徑內最近鄰的數據對象的個數是
34、否超過臨界值作為判斷密度是 否足夠高的標準。DBSCAN和OPTICS都屬于這一類。基于密度函數的方法利用密度函數的大小來表示類的密度,并且通過尋找密度函數的 局部最大值精確地確定類。這類方法包括DENCLUE等。以鏈接為標準以鏈接為標準的聚類方法的目標是把具有更多鏈接的數據點聚為一類,即其相似性度 量采用的是鏈接的數目。這類方法一般都把模型建立在一個稀疏圖上,然后依據圖中的 信息進行聚類。此類方法的代表是ROCK和Chameleono以鏈接為標準的聚類方法可以建立在任意空間之上。除此之外,由于在高維空間中距 離和密度的度量常常失效,此時,以鏈接為標準的方法就是一個較優的選擇。2.3.2類的標
35、識聚類分析的目的是要把原始數據劃分成不同的類,每一類代表了相似的數據點的集 合,因此,任何聚類方法都需要用某種方式對不同的類別作出標識。我們把聚類方法中對 類別進行標識的方式分為如下三類:以代表性的數據點進行標識大多數以距離為標準的聚類方法都使用代表性的數據點對類別進行標識。這些代表性 的點既可以是原始數據中存在的點,也可以是原始數據中不存在的點,如類的均值。最簡 單的方法是利用單一代表點來標識類別。原始數據庫中每一個數據點被劃分到離它最近的 單一代表點。例如,k-means方法利用類均值作為代表點;k-medoids方法利用原始數據 庫中距離類中心最近的點作為代表點;另外,BIRCH、CLA
36、RA、CLARANS等方法也是利用單 一代表點對類別進行標識。單一代表點方法的最大缺陷是只能識別凸狀或球狀的類。多代 表點方法(如CURE、ROCK Chameleon等)的出現在一定程度上克服了這一困難。這種方法 首先選擇距離類中心最近的點作為代表點,然后選出離類中心較遠且彼此相距也較遠的點 作為代表點。多個代表點可以描繪出類的形狀特征,從而使得聚類方法能夠識別任意形狀 的類。以密集區域進行標識DBSCAN、OPTICS等基于密度的聚類方法利用相互分隔的密集區域來標識類或者子類。 每個密集區域中都包含一個核心對象。核心對象是指一定半徑內最近鄰的個數超過指定臨 界值的數據點8 一個核心對象可以
37、擴張出一個子類,因此聚類的過程就等價于核心對象 的搜索過程。由于核心對象的搜索將耗費大量計算資源,所以這類聚類方法常借助特殊的 索引結構來加快搜索速度。以網格單元進行標識基于網格的聚類方法利用網格單元的特征來描述類別特征。如果說密集區域是數據點 的凝聚,網格單元則是數據空間的劃分。一個網格單元就近似地代表了落入其中的數據點, 因此,網格單元在局部范圍內近似地反映了數據點的分布狀況。由于網格是獨立于數據的, 且網格單元的數量遠遠少于數據對象的數量,所以,網格單元特征的匯總遠比密集區域的 搜索效率高,因此這類方法往往運算速度很快。但由于網格單元畢竟只是數據對象的近似 代表,因此其精確度常常不能令人
38、滿意。(四)主要聚類方法的比較根據上面對聚類方法的分析與比較,我們對幾種典型方法在算法效率、適合的數據類 型、發現的聚類形狀、消除噪聲的能力、處理高維數據的能力、聚類標準、類的標識幾方 面進行比較。比較的結果如下表所示:表2.4.1主要聚類方法的比較類型聚類方法算法效率適合的數據類型能夠發現的數據形狀消除噪聲的能力處理高維數據的能力聚類標準類的標識凸狀、k-meansO (knt )數值型球狀弱較低距離代表點任意凸狀、較低距離K-prototypeO (knt )球狀弱代表點劃分的凸狀、方法PAMO (tk (n - k )2)數值型球狀較強較低距離代表點凸狀、CLARAO (ks 2 + k
39、 (n - k)數值型球狀較強較低距離代表點凸狀、CLARANSO (n2)數值型球狀較強一般距離代表點凸狀、BIRCHO (n)數值型球狀較強較低距離代表點層次的方法CUREO (n2)數值型任意較強一般距離代表點ROCKO (n2)符號型任意一般較高鏈接代表點ChameleonO (n2)數值型任意一般較高鏈接代表點DBSCANO (n log n)數值型任意較強一般密度密度區域密度區域基于密度的方OPTICSO (n log n)數值型任意較強一般密度法密度區DENCLUE比DBSCAN快數值型任意強高密度域基于網STINGO (n)數值型任意強較低密度網格絡的方WaveclusterO
40、 (n)數值型任意強較高密度網格法較快數值型凸狀、一般高密度網格CLIQUE球狀S為抽樣規模。注:表中n為數據對象的數目,k為分類數目,rS為抽樣規模。三、聚類方法在我國空氣污染區域劃分中的應用(一)數據的選擇本文中所用到的數據來自2010中國統計年鑒中2009年各地區廢氣排放及處理情 況,以及各地區二氧化硫排放量,所用的數據見附錄A。(二)聚類方法的選擇本文對所選擇的數據采用不同的系統聚類法,以距離為聚類的標準。數據處理的時候 采用了不同的距離,以及不同的聚類方法,從各個不同的角度對各地的空氣污染情況進行 了分析!能較準確的反應全國各地的空氣質量。(三)聚類分析 3.3.1按各地區的空氣污染
41、嚴重程度不同對污染區域進行劃分運用SPSS軟件并采用組內連接聚類方法,對各污染區域按空氣污染嚴重程度的不同 進行劃分,可得如下聚類分析:委統聚類分析:方法委統聚類分析:方法聚類方法四X粗由.聯接-度里標準旬區間(N):Che by ch ev距離幕: R | 根 EX R 計數O|卡方度里物二分類世):Euclidean 5存在1 不存在伐):0轉換值標準化Z得分轉換度里轉換值標準化Z得分絕對值iy更改符號出卜同對污染區域進行劃分參數設重新標度到0-1全距回俚戛取消幫助:所得聚類分析的柱形圖如下:-全國 N北京 W無津 留杏啊 算寧K KS南 丈菱 ,.商 26 U南 $由肅 23=妻 岑LL
42、川 吉林 步江 二遼蘇 8.J 東 宿:V江 精江.四 S湖北 B*.芮 T;南 舊湖南 Mr-西 叫北 熱山西 P?內薰I1- 一曾山系 Z5E圖3.3.2空氣污染程度聚類分析的柱形圖所得聚類分析的樹狀圖如下:蝕灼3K按查1內的樹狀閣RriM探廣役河湖廣圖3.3.3空氣污染程度組內連接聚類分析的樹狀圖由上面的樹狀圖,我們按各地區空氣污染程度不同對各省份進行劃分,所得結果如下 表所示:表3.3.1運用組內連接聚類法按各地區空氣污染程度不同進行劃分的結果類 別 第一類 第類 第類 第 四 類對應編號對應地區空氣質量排名26、28、10、23、24 云南、甘肅、上海、重慶、四川 12、 3、 29
43、、 30、 228、 9、 3111、 20、 12、 13、 15、 18、 27北京、天津、青海、寧夏、海南 2吉林、黑龍江、新疆江蘇、廣東、浙江、安徽、江西、湖北、陜西第五類17河南5第六19、21湖南、廣西6類第類4、 5、 6、 7、 16河北、山西、內蒙古、遼寧、山 東73.3.2按各地區的廢氣處理情況進行區域劃分的中位數聚類分析運用SPSS軟件并采用中位數聚類分析法,對各污染區域按廢氣處理情況的不同進行 劃分,可得如下聚類分析:聚類表階群隼組合首次出現F階群隼群隼1群隼2系數群隼1群隼2下一階1214.99200222310.98600173729.98600144616.985
44、002052627.96600266530.959001571819.93300168120.900002292223.8790018101325.85300201149.8490019121221.8040021132431.76900171478.701302515511.6256024161518.615072117324.49021323182228.469902719417.3991102520613.30341024211215.231121626222322232425262728293012.142812313-.01422172856-.05115202747-.098191
45、4281226-.19724183014-.534232529112-.55828263015-.58929270表3.3.2中位數聚類分析法聚類表群隼成員案例8群隼7群隼6群隼5群隼4群隼3群隼2群隼1:全國11111112:北京11111113:天津11111114:河北22222115:山西33333226:內蒙古43333227:遼寧54222118:吉林54222119:黑龍江222221110:上海111111111:江 蘇333332212:浙江654443113:安徽433332214:福建111111115:江 西654443116:山東433332
46、217:河南222221118:湖 北654443119:湖南654443120:廣東111111121:廣西654443122:海南765532223:重 慶765532224:四川111111125:貴州433332226:云南876443127:陜西876443128:甘肅765532229:青海542221130:寧夏3333322群集成員案例8群集7群集6群集5群集4群集3群集2群集1:全國11111112:北京11111113:天津11111114:河北22222115:山西33333226:內蒙古43333227:遼寧54222118:吉林54222119:黑龍江22222111
47、0:上海111111111:江 蘇333332212:浙 江654443113:安 徽433332214:福建111111115:江 西654443116:山 東433332217:河 南222221118:湖 北654443119:湖 南654443120:廣東111111121:廣西654443122:海 南765532223:重 慶765532224:四川111111125:貴州433332226:云 南876443127:陜西876443128:甘 肅765532229:青海542221130:寧夏333332231:新 疆1111111表3.3.3中位數聚類分析群集成員所得條形圖如下
48、:二全國 昌廣未 弓來 K福建 3關泮 Inh.海 2蘭四川 4:ll.t F?思北江河南 F:遼宇 2育海 *吉林 12浙江 性*西 訪湖北 一絲湖南 2&云雨 、院西 丹山也 WO-J 成江蘇 巧內蒙古 W豪 蜀員州 昌海南 2W豪敏數圖3.3.4運用中位數聚類分析法得到的各地區廢氣處理條形圖所得樹狀圖如下:圖3.3.5運用中位數聚類分析法得到的各地區廢氣處理樹狀圖由上面的樹狀圖,我們按各地區廢氣處理情況不同對各省份進行劃分,所得結果如下 表所示:表3.3.4運用中位數聚類分析法按各地區廢氣處理情況不同進行劃分的結果類 別對應編號對應地區空氣質量排 名第2、 14、 1、 20、 3、 1
49、0、 24、 31北京、福建、全國、廣東、天津、1上海、四川、新疆7、29、8遼寧、青海、吉林第4、 9、 17類第26、 27河北、黑龍江、河南云南、陜西第 五 類 第 六 類 第 七 類12、21、河北、黑龍江、河南云南、陜西第 五 類 第 六 類 第 七 類12、21、18、19、15 浙江、廣西、湖北、湖南、江西22、23、18海南、重慶、甘肅山西、寧夏、江蘇、內蒙古、山5、 30、 11、 6、 16、 13、 25東、安徽、貴州3.3.3按年度對我國的空氣污染情況進行劃分運用SPSS軟件并采用質心分類法,對各污染區域按年度的不同進行劃分,可得如下 聚類分析:群集成員奏例8群隼7群隼
50、6群隼5群隼4群隼3群隼2群隼1:全國11111112:北京22222213:天津11111114:河北11111115:山西11111116:內蒙古33333117:遼寧44411118:吉林44411119:黑龍江444111110:上海1111111所得柱形圖如下:土國 #土國 #歸酗 NR 廣 4河北 器重慶 蠶湖南 印LLIPI -?. 16:山求 24四川 OL 海 *天津 25. ms 一村浙江 以廣西 畜湖北 苻備 蜀云聲 28旎西 朋: 7立亍 9?嘉 中您此江 9河南 塑寧M 史內蒙一L1 M希.理 32新諷 Z北京 罵養海圖3.3.6質心分類法的柱形圖所得柱形圖如下:使川
51、質心聯接的樹狀圖由上面的樹狀圖,我們對各污染區域按年度的不同對各省份進行劃分,所得結果如下 表所示:表3.3.6運用質心分類法按年度的不同進行劃分的結果類 別對應編號對應地區空氣質量排 名第1、 27、 20、 11、 16、 24、 4、 23、全國、西藏、廣東、江蘇、山東、7類19、 22、 5、 10、 3、 25、 26、 28、13、 12、 21、 18、 29四川、河北、重慶、湖南、海南、 山西、上海、天津、貴州、云南、 陜西、安徽、浙江、廣西、湖北、 甘肅第類7、8遼寧、吉林6第類9、 17、 31黑龍江、河南、寧夏5第 四 類14、 15、 6福建、江西、內蒙古4第五 類32
52、新疆3第類2北京2第類30青海1(四)聚類結果分析由以上聚類結果可知,用所選的三種數據進行聚類,產生的七個類是在整體上是一致 的。這就表明,空氣污染程度與廢氣處理的力度是成正相關的,這也就說明,空氣污染程 度越嚴重的地區,廢氣處理的力度就大,這是非常合理的。另外,二氧化硫是廢氣中的主 要氣體之一,二氧化硫排放量與廢氣的排放量有著密切的關聯,可以說二氧化硫的排放量 一定程度上能反映出空氣質量的好壞。由所分的七類可以看出,空氣質量較好的的地區有北京、天津、海南、西藏、青海。 北京是我國首都,對空氣質量的要求很高,相關部門也加大了治理力度,通過對空氣質量 的高度關注和嚴格把關,北京市的空氣質量相對較
53、高。天津、海南、青海、西藏在空氣質 量上也嚴格把關。另外,西藏等地由于地理位置等因素的影響,工業化水平低,這也是其 空氣質量較好的一個重要原因。對于這類地區,我們應繼將工作重心放在“防”上,使空 氣質量始終保持良好。當然,“治”也不能忽視,只有防治結合,才能有更好的呼吸環境。空氣質量最差的地區是山東。山東的土質土壤和特殊的地理位置使得該地區容易造成 揚塵。另外,汽車尾氣也是影響山東空氣質量的重要原因。山東的空氣質量有待改善。對 于這類地區,相關工作人員應該重視空氣污染的防治工作,加大力度對廢氣進行處理,改 善空氣質量,同時加強宣傳,號召群眾共同參與到空氣污染的防治工作中。(五)通過運用不同聚類
54、方法對聚類結果進行對比為了更好的證明以上運用系統聚類法得到的聚類結果的合理性,我們又采用了一種劃 分的聚類方法一一k-means方法,對所選的數據進行聚類,并與以上所得的聚類結果進行 對比。在這里,我們僅考慮按各地區空氣污染程度不同進行聚類,按廢氣處理情況聚類以 及按年度聚類可類似考慮。我們運用SPSS軟件對各污染區域按空氣污染程度不同進行 k-means法聚類,聚類界面圖如下所示:圖3.5.1運用k-means法按各地區空氣污染程度不同進行聚類利用k-means法按各地區空氣污染程度不同進行聚類,所得結果如下表所示:表3.5.1運用k-means法按各地區空氣污染程度不同進行聚類的結果cas
55、eN um ber812131415161819202122232425262728293031cluster4Distance7.2595.5806.2176.21710.27820.55222.48617.01815.33611.86321.60814.40114.25312.16014.42316.9347.64012.38511.31012.38512.14316.31111.647.0009.37814.13822.00513.4546.24015.6287510由上表中的聚類結果,我們按各地區空氣污染程度不同將各省份分類如下:表3.5.2運用k-means法按各地區空氣污染程度不同
56、進行劃分的結果第四 類3、4、河北、山西6第五 類5、 15、 16、內蒙古、山東、河南7第六 類18、 20、湖南、廣西3第七類7、 8、 11、 12、 13、 14、 17、 22、25、 28、 31吉林、黑龍江、浙江、安徽、福建、湖 北、重慶、云南、甘肅、新疆2通過對比表3.3.1和表3.5.2,我們可以發現用系統聚類法中的內連接聚類方法和劃分聚類法中的k-means方法對附錄A中表1的數據的聚類結果是相近的,這可以表明我們 運用內連接聚類方法對我國的空氣污染區域按污染程度的不同進行劃分的結果是合理的。 同樣,我們用SPSS軟件對附錄A中表2、表3的數據用k-means方法進行聚類,
57、所得的 結果仍與運用系統聚類法的結果相似。在這里我們不列出這兩種數據用k-means方法聚類 的結果。由以上可以看出,用系統聚類法對我國的空氣污染區域進行按污染程度不同聚類、按 廢氣處理情況聚類、按年度聚類的結果都是合理的。(六)防治空氣污染的可行性建議根據以上的分類結果,相關部門應該按照污染地區的分類有針對性的制定相關策略, 因地制宜,對污染程度相近的地區采用合理的方式進行治理。基本的防治空氣污染的策略應該是監測干預評價。第一步,通過對空氣污染 和人群健康的監測,掌握情況;第二步,針對問題制訂對策,進行干預治理;第三步對十 預的效果進行評價,再針對發現的問題采取相應的措施。如此循環往復,將空
58、氣質量治理 得越來越好,人群健康狀況也越來越好。加大力度治理二氧化硫及酸雨污染。相關部門應做到限制高硫煤的開采和使用;重點 治理火電廠污染,削減二氧化硫的排放總量;防治化工,冶金,建材等行業生產過程中產 生的二氧化硫污染;大力研究開發二氧化硫污染防治技術和設備;做好二氧化硫排污收費 工作,運用經濟手段促進治理。治理汽車尾氣污染。在發展汽車工業的同時,應該改進汽車工藝,研究開發環保型的 汽車,以及汽油的代用品。針對機動車的排氣污染,加強機動車出廠管理,提高機動車性 能;加強機動車落戶管理;加強機動車運行及維護管理;改善道路設施;改變燃料結構, 大力推廣無鉛汽油;向發達國家學習,大力研究、開發機動
59、車尾氣凈化技術,安裝先進高 效的尾氣凈化裝置。在交通管理方面,我們應進一步加強研究,發展公共交通事業,疏通 道路,減少汽車怠速,慢速行駛的時間。建立完善的法律管理機制,督促企業改革,加強環境法制建設,依法治理空氣污染。 由于當前法律自身的缺陷,相關部門在落實空氣污染防治工作時會有很多不便。很多企業、 工廠不重視保護大氣環境,法律、道德意識淡薄,為人類的生存環境帶來重大危害。這就 需要完善的法律管理機制,加大對空氣污染行為的處罰力度,讓各企業、工廠在法律的制 約下減少自身的廢氣排放量,探尋更為環保的生產經營模式。改善能源結構,促進空氣污染的防治工作。我國空氣污染的一個重要特征是煤煙型污 染,燃煤
60、排放出大量的煙塵、二氧化硫和氮氧化物,這些都是重要的空氣污染源。所以, 改善城市能源結構,減少燃煤,多用天然氣、液化石油氣,多用電等清潔能源,成為控制 空氣污染的重要措施。四、本文的創新之處首先,本文在聚類方法的應用過程中,對所選擇的數據并不是直接運用現成的軟件進 行聚類,而是先通過用Matlab軟件編程,制作聚類界面,然后再對所選數據進行層次聚 類。在編程制作界面的過程中,不僅需要掌握編程的一些方法,還要對聚類的原理有深刻 的了解,除此之外還要對界面的布局有合理的安排。為了證明系統聚類結果的合理性,我 們又運用SPSS軟件,采用k-means方法對所選數據進行聚類,并將兩種聚類方法的聚類 結
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒店預定服務管理合同
- 娛樂文化活動組織者與參與者協議
- 可穿戴設備研發生產代工合同
- 知識產權代理服務合同
- 街舞老師聘用合同
- 二零二五APP開發合同范例
- 二零二五委托代持房產買賣合同書
- 鋁業公司原材料采購合同
- 個人與公司勞務派遣合同樣本
- 車輛及車牌買賣合同模板
- 馬鞍山職業技術學院馬鞍山技師學院招聘筆試真題2024
- 2025年中國協同辦公系統行業市場發展前景及發展趨勢與投資戰略研究報告
- 70周歲以上駕駛員駕照年審換本三力測試題庫答案
- 2024年貴州省中考滿分作文《關鍵時刻我在這樣做》4
- 2024年社區工作者考試必考1000題含完整答案(全優)
- 手衛生知識考核試題題庫及答案
- 專項突破03四則運算實際問題(應用題)(8大考點)(學生版)-四年級數學下冊(人教版)
- 加油站的法規法律合規管理
- 2025年孝感道路運輸從業資格證考試模擬試題
- 學生急救演練
- 學生禮儀課件
評論
0/150
提交評論