空間數據的統計分析1本學習教案_第1頁
空間數據的統計分析1本學習教案_第2頁
空間數據的統計分析1本學習教案_第3頁
空間數據的統計分析1本學習教案_第4頁
空間數據的統計分析1本學習教案_第5頁
已閱讀5頁,還剩83頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、會計學1空間數據的統計分析空間數據的統計分析1本本第一頁,共88頁。2主要內容主要內容(nirng):GIS屬性數據屬性數據一般統計分析一般統計分析探索性數據分析探索性數據分析探索性空間數據分析方法探索性空間數據分析方法空間點模式分析方法空間點模式分析方法格網或面狀數據空間統計分析格網或面狀數據空間統計分析方法方法地統計分析概述地統計分析概述空間變異函數空間變異函數克里金估計方法克里金估計方法地統計分析研究展望地統計分析研究展望空間統計分析軟件空間統計分析軟件第1頁/共88頁第二頁,共88頁。3GIS屬性數據屬性數據第2頁/共88頁第三頁,共88頁。4nGIS屬性數據屬性數據n屬性數據是屬性數

2、據是GIS的重要特征。的重要特征。n屬性數據包含了兩方面的含義:屬性數據包含了兩方面的含義:n它是什么,即它有什么樣的特性它是什么,即它有什么樣的特性(txng),劃分為,劃分為地物的哪一類;(類別屬性)地物的哪一類;(類別屬性)n實體的詳細描述信息,例如一棟房子的建造年限實體的詳細描述信息,例如一棟房子的建造年限、房主、住戶等。、房主、住戶等。 (描述屬性)(描述屬性)第3頁/共88頁第四頁,共88頁。5一般一般(ybn)統計分析統計分析第4頁/共88頁第五頁,共88頁。6n一般統計分析一般統計分析n指對指對GIS地理空間數據庫中的屬性數據進行常規統地理空間數據庫中的屬性數據進行常規統計分析

3、。計分析。n先對數據進行描述性統計分析,先對數據進行描述性統計分析,n再選擇進一步分析的方法。再選擇進一步分析的方法。n描述性統計分析:對調查總體所有變量的有關描述性統計分析:對調查總體所有變量的有關(yugun)數據進行統計性描述,主要包括數據的頻數數據進行統計性描述,主要包括數據的頻數分析、數據的集中趨勢分析、數據的離散程度分析、分析、數據的集中趨勢分析、數據的離散程度分析、數據的分布、以及一些基本的統計圖形。數據的分布、以及一些基本的統計圖形。第5頁/共88頁第六頁,共88頁。7對于空間數據來說,描述性分析是空間數據分析的第一步,通過(tnggu)描述性分析,提取有價值的空間信息,便于后

4、續的空間分析和處理。第6頁/共88頁第七頁,共88頁。8n數據的頻數分析數據的頻數分析n頻數:頻數: 將變量將變量xi(i=1,2,n)按大小順序排列按大小順序排列,并按一定的間距分組。變量在各組出現或發,并按一定的間距分組。變量在各組出現或發生的次數生的次數(csh)稱為頻數。稱為頻數。n頻率:各組頻數與總頻數之比叫做頻率。頻率:各組頻數與總頻數之比叫做頻率。n頻率分布圖:計算出各組的頻率后,就可以頻率分布圖:計算出各組的頻率后,就可以做出頻率分布圖。做出頻率分布圖。n頻率直方圖:若以縱軸表示頻率,橫軸表示頻率直方圖:若以縱軸表示頻率,橫軸表示分組,就可做出頻率直方圖,用以表示事件發分組,就

5、可做出頻率直方圖,用以表示事件發生的概率和分布狀況。生的概率和分布狀況。第7頁/共88頁第八頁,共88頁。9n數據的集中趨勢分析數據的集中趨勢分析n數據的集中趨勢分析是用來反映數據的一般數據的集中趨勢分析是用來反映數據的一般水平,常用水平,常用(chn yn)的指標有平均值、中位的指標有平均值、中位數和眾數等。數和眾數等。n平均值:平均值:n是衡量數據的中心位置的重要指標,反映了是衡量數據的中心位置的重要指標,反映了一些數據必然性的特點,包括算術平均值、加一些數據必然性的特點,包括算術平均值、加權算術平均值、調和平均值和幾何平均值。權算術平均值、調和平均值和幾何平均值。第8頁/共88頁第九頁,

6、共88頁。10n數據的集中趨勢分析數據的集中趨勢分析n算術平均值:將所有算術平均值:將所有(suyu)數據相加,再除以數數據相加,再除以數據的總數目。據的總數目。niixnX11加權算術(sunsh)平均值:考慮數據對數據總體的影響的權重值的不同,將每個數據乘以其權值后再相加,所得的和除以數據的總體權重數。 ninpiiipPxPX11/Pi為數據(shj)xi的權值 第9頁/共88頁第十頁,共88頁。11調和平均值:各個(gg)數據的倒數的算術平均數的倒數,又稱為倒數平均值。調和平均值也分為簡單調和平均數和加權調和平均數l簡單(jindn)調和平均數: )1/(11nxXniitl加權調和(

7、tio h)平均數: )/(111npiniiitpPxPX第10頁/共88頁第十一頁,共88頁。12l幾何(j h)平均數:是n個數據連乘的積開n次方根。 nniigxX1第11頁/共88頁第十二頁,共88頁。13中位數:一種反映數據的中心位置的指標,其確定方法是將所有數據以由小到大的順序排列,位于中央的數據值就是中位數。眾數:在數據中發生頻率最高的數據值。 如果各個數據之間的差異程度較小,用平均值就有較好的代表性;如果數據之間的差異程度較大(jio d),特別是有個別極端值的情況,用中位數或眾數有較好的代表性。 第12頁/共88頁第十三頁,共88頁。14n數據的離散程度分析n數據的離散程度

8、分析主要是用來反映數據之間的差異程度,n常用的指標(zhbio)有:方差和標準差。n方差是標準差的平方,根據不同的數據類型有不同的計算方法。 n反映數據的離散程度的指標(zhbio)還包括:n極差、離差、平均離差、離差平方和、變差系數等。 第13頁/共88頁第十四頁,共88頁。15方差和標準差方差和標準差方差是均方差的簡稱方差是均方差的簡稱(jinchng),是以離差平方和除以變量,是以離差平方和除以變量個數求得的。個數求得的。 nxxnii/)(122) 1/()(122nxxnii第14頁/共88頁第十五頁,共88頁。16方差方差(fn ch)和標準差和標準差標準差是方差標準差是方差(fn

9、 ch)的平方根。的平方根。niinxx12/)(niinxx12) 1/()(第15頁/共88頁第十六頁,共88頁。17極差極差極差是一組數據極差是一組數據(shj)中最大值與最小值之差,即:中最大值與最小值之差,即:R=maxx1, x2, , xn - minx1, x2, , xn第16頁/共88頁第十七頁,共88頁。18離差、平均離差與離差平方和離差、平均離差與離差平方和離差:一組數據集中的各數據值與其平均數之差離差:一組數據集中的各數據值與其平均數之差稱為離差。稱為離差。一個一個(y )數據集的離差和恒等于數據集的離差和恒等于0。平均離差:將離差取絕對值,然后求和,再取平平均離差:

10、將離差取絕對值,然后求和,再取平均數,就得到平均離差。均數,就得到平均離差。 xxdi0)(xxniixxnd1|1l離差平方和:對離差求平方和就得到(d do)離差平方和。niixxd122)(第17頁/共88頁第十八頁,共88頁。19數據的分布數據的分布在統計分析中,通常要假設樣本的分布屬于正態在統計分析中,通常要假設樣本的分布屬于正態分布,因此需要用偏度和峰度兩個指標來檢查樣本分布,因此需要用偏度和峰度兩個指標來檢查樣本是否符合正態分布。是否符合正態分布。偏度:衡量的是樣本分布的偏斜方向和程度;偏度:衡量的是樣本分布的偏斜方向和程度;峰度:衡量的是樣本分布曲線的尖峰程度。峰度:衡量的是樣

11、本分布曲線的尖峰程度。一般情況下,如果一般情況下,如果(rgu)樣本的偏度接近于樣本的偏度接近于0,而峰度接近于而峰度接近于3,就可以判斷總體的分布接近于正,就可以判斷總體的分布接近于正態分布。態分布。 第18頁/共88頁第十九頁,共88頁。20統計圖表分析統計圖表分析用圖形的形式表達數據用圖形的形式表達數據(shj),比用文字表達更,比用文字表達更清晰、更簡明。清晰、更簡明。對于屬性數據對于屬性數據(shj),統計圖的主要類型有柱狀,統計圖的主要類型有柱狀圖、扇形圖、直方圖、折線圖和散點圖等。圖、扇形圖、直方圖、折線圖和散點圖等。 第19頁/共88頁第二十頁,共88頁。21柱狀圖:用水平或垂

12、直長方形表示不同種類間某一屬性的差異,每個長方形表示一個種類,其長度表示這個種類的屬性數值。扇形圖:將圓劃分為若干個扇形,表示各種成分在總體(zngt)中的比重,各種成分的比重可以用扇形的面積或者弧長來表示,當有很多種成分或成分比重差異懸殊時表示效果不好。第20頁/共88頁第二十一頁,共88頁。22散點圖:以兩個(lin )屬性作為坐標系的軸,將與這兩種屬性相關的現象標在圖上,表示出兩種屬性間的相互關系,在此基礎上可以分析這兩種屬性是否相關和相關關系的種類。折線圖:反映某一屬性隨時間變化的過程,它以時間為圖形的一個坐標軸,以屬性為另一坐標軸,將各個時間的屬性值標到圖上,并將這些點按時間順序連接

13、起來,反映實體發展的動態過程和趨勢。第21頁/共88頁第二十二頁,共88頁。23直方圖:表示單一屬性在各個種類中的分布情況,可以確定屬性在不同區間的分布,如某種現象的分布是否是正態分布。統計表格:是詳盡表示非空間數據的方法,它不直觀,但可提供詳細數據,可對數據再處理。統計表格分為表頭和表體兩部分,除直接數據外有時還有匯總、比重(bzhng)等派生項。 第22頁/共88頁第二十三頁,共88頁。24探索性空間探索性空間(kngjin)數據分析數據分析第23頁/共88頁第二十四頁,共88頁。25Hoaglin D C, Mosteller F, Tukey J W美著. 陳忠璉, 郭德媛譯. 199

14、8. 探索性數據分析. 北京: 中國(zhn u)統計出版社n探索性數據分析:第24頁/共88頁第二十五頁,共88頁。26n探索性數據分析:n統計學是數據分析的主要(zhyo)工具,大量的統計分析方法以數據總體滿足正態假設為依據,并在此基礎上建立模型和推演。n然而實踐中大量的數據不能滿足正態假設,并且基于均值、方差等的模型在實際數據分析中缺乏穩健性,于是導致很多統計分析方法不能滿足海量數據分析的要求。n19世紀60年代的Tukey面向數據分析的主題,提出了探索性數據分析(exploratory data analysis, EDA)的新思路。第25頁/共88頁第二十六頁,共88頁。27n探索性

15、數據分析(fnx):n探索性數據分析(fnx)(EDA)的特點:對數據來源的總體不作假設,并且假設檢驗也經常被排除在外。n這一技術使用統計圖表、圖形和統計概括方法對數據的特征進行分析(fnx)和描述。nEDA技術的核心:“讓數據說話”,在探索的基礎上再對數據進行更為復雜的建模分析(fnx)。第26頁/共88頁第二十七頁,共88頁。28n探索性數據分析的基本方法探索性數據分析的基本方法nEDA是不對數據總體做任何假設是不對數據總體做任何假設(或很少假設或很少假設)的條件下識別數據特征的條件下識別數據特征(tzhng)和關系的分析技和關系的分析技術。術。n主要有兩類方法:主要有兩類方法:n計算計算

16、EDA方法:包括從簡單的統計計算到高級方法:包括從簡單的統計計算到高級的用于探索分析多變量數據集中模式的多元統計的用于探索分析多變量數據集中模式的多元統計分析方法分析方法n圖形圖形EDA方法:即可視化的探索數據分析。常方法:即可視化的探索數據分析。常用的圖形方法有直方圖用的圖形方法有直方圖(histogram)、莖葉圖、莖葉圖(stem leaf)、箱線圖、箱線圖(box plot)、散點圖、散點圖(scatter plot)、平行坐標圖、平行坐標圖(parallel coordinate plot)等。等。第27頁/共88頁第二十八頁,共88頁。29(1)直方圖與莖葉圖)直方圖與莖葉圖直方圖

17、和莖葉圖用于表述數據的分布信息,可根據數直方圖和莖葉圖用于表述數據的分布信息,可根據數據的分布進一步作出相關的假設。據的分布進一步作出相關的假設。直方圖:直方圖:是一種二維統計圖表,它的兩個坐標分別是統計樣本是一種二維統計圖表,它的兩個坐標分別是統計樣本和該樣本對應的某個屬性的度量。和該樣本對應的某個屬性的度量。在圖像處理在圖像處理(t xin ch l)領域的常用概念是灰度直領域的常用概念是灰度直方圖,描述的是圖像中具有該灰度級的像素的個數:方圖,描述的是圖像中具有該灰度級的像素的個數:橫坐標是灰度級,縱坐標是該灰度出現的頻率橫坐標是灰度級,縱坐標是該灰度出現的頻率(像素個像素個數數)。 第

18、28頁/共88頁第二十九頁,共88頁。30莖葉圖:又稱“枝葉圖”,將數組中的數按位數進行比較,將數的大小基本不變或變化不大的位作為一個主干(莖),將變化大的位的數作為分枝(葉),列在主干的后面,這樣可以清楚(qng chu)地看到每個主干后面的幾個數,每個數具體是多少。莖葉圖是一個與直方圖類似的工具,莖葉圖保留了原始資料的信息,直方圖則失去原始數據的訊息。莖 | 葉 頻數(pn sh)0 | 1569 41 | 0569 42 | 24 23 | 1 14 | 016 35 | 257 36 | 0159 47 | 0159 48 | 59 29 | 124 341, 52, 6, 19, 9

19、2, 10, 40, 55, 60, 75, 22, 15, 31, 61, 9, 70, 91, 65, 69, 16, 94, 85, 89, 79, 57, 46, 1, 24, 71, 5 第29頁/共88頁第三十頁,共88頁。31莖葉圖的特征:用莖葉圖表示數據有兩個優點:(1)從統計圖上沒有原始數據信息的損失,所有(suyu)數據信息都可以從莖葉圖中得到;(2)莖葉圖中的數據可以隨時記錄、隨時添加,方便記錄與表示。莖葉圖只便于表示兩位有效數字的數據。 莖 | 葉 頻數(pn sh)0 | 1569 41 | 0569 42 | 24 23 | 1 14 | 016 35 | 257

20、36 | 0159 47 | 0159 48 | 59 29 | 124 341, 52, 6, 19, 92, 10, 40, 55, 60, 75, 22, 15, 31, 61, 9, 70, 91, 65, 69, 16, 94, 85, 89, 79, 57, 46, 1, 24, 71, 5 第30頁/共88頁第三十一頁,共88頁。32(2)箱線圖)箱線圖(盒須圖盒須圖)箱線圖箱線圖(Box plot),亦稱箱須圖,亦稱箱須圖(Box-whisker plot),或骨,或骨架圖架圖(Schematic Plot)。箱線圖能夠直觀明了地識別數據集中的異常值,利用數箱線圖能夠直觀明了地

21、識別數據集中的異常值,利用數據中的五個統計量:最小值、第一四分位數據中的五個統計量:最小值、第一四分位數Q1、中位數、中位數F、第三、第三(d sn)四分位數四分位數Q3、最大值來描述數據。、最大值來描述數據。第一四分位數Q1:又稱“下四分位數”,等于該樣本(yngbn)中所有數值由小到大排列后第25%的數字。 中位數F:又稱第二四分位數(Q2),又稱“中位數”,等于該樣本(yngbn)中所有數值由小到大排列后第50%的數字。 第三四分位數:又稱“上四分位數”,等于該樣本(yngbn)中所有數值由小到大排列后第75%的數字。 第31頁/共88頁第三十二頁,共88頁。33(2)箱線圖)箱線圖(盒

22、須圖盒須圖)箱線圖的繪制依靠實際數據,不需要事先假定數據服從特箱線圖的繪制依靠實際數據,不需要事先假定數據服從特定的分布定的分布(fnb)形式,沒有對數據作任何限制性要求,它形式,沒有對數據作任何限制性要求,它只是真實直觀地表現數據形狀的本來面貌;只是真實直觀地表現數據形狀的本來面貌;箱線圖判斷異常值的標準以四分位數和四分位距為基礎。箱線圖判斷異常值的標準以四分位數和四分位距為基礎。四分位距四分位距(QR, Quartile range):上四分位數與下四分位數:上四分位數與下四分位數之間的間距,即上四分位數減去下四分位數(之間的間距,即上四分位數減去下四分位數(Q3-Q1)。)。箱線圖識別異

23、常(ychng)值的結果比較客觀,在識別異常(ychng)值方面有一定的優越性。第32頁/共88頁第三十三頁,共88頁。34箱線圖的制作過程:畫一個矩形盒,兩端邊的位置分別對應數據集的上下四分位數。在矩形盒內部的中位數位置畫一條(y tio)線段為中位線。 在Q3+1.5QR(四分位距)和Q1-1.5QR處畫兩條與中位線一樣的線段,這兩條線段為異常值截斷點,稱其為內限;在Q3+3QR和Q1-3QR處畫兩條線段,稱其為外限。內限以外位置的點表示的數據都是異常值(x Q3+1.5QR)在內限與外限之間的異常值為溫和(wnh)異常值(Q1-3QR x Q1-1.5QR; Q3+1.5QR x Q3+

24、3QR)在外限以外的為極端異常值。一般的統計軟件中表示外限的線并不畫出,這里用虛線表示第33頁/共88頁第三十四頁,共88頁。35(3)散點圖與散點圖矩陣)散點圖與散點圖矩陣散點圖用于初步圖示兩個數據之間的關系散點圖用于初步圖示兩個數據之間的關系(gun x),是分析兩個要素或變量之間關系是分析兩個要素或變量之間關系(gun x)時常用的方時常用的方法和技術。法和技術。散點圖的作法:將兩個變量的坐標點對畫在(散點圖的作法:將兩個變量的坐標點對畫在(x, y)坐)坐標平面上。在分析變量之間的關系標平面上。在分析變量之間的關系(gun x)、判斷異、判斷異常點以及數據的分類等方面,散點圖都有重要的

25、作用常點以及數據的分類等方面,散點圖都有重要的作用。第34頁/共88頁第三十五頁,共88頁。361)散點圖與變量)散點圖與變量(binling)之間關系的之間關系的可視化可視化4組數據:統計分析的結果(ji gu)是相同的(忽略殘差)第35頁/共88頁第三十六頁,共88頁。37散點圖展示(zhnsh)了變量之間的差異性信息第36頁/共88頁第三十七頁,共88頁。382)散點圖與異常)散點圖與異常(ychng)點分析點分析異常(ychng)數據或者有著特別的價值,或者會引起錯誤的結果或判斷。異常(ychng)數據一般是非典型的,較少見的觀測數據。在回歸線的確定中,異常(ychng)數據的出現將對

26、回歸方程的斜率和數據的相關關系產生深遠的影響,由于異常(ychng)點參與了計算,可能導致虛假的關系。第37頁/共88頁第三十八頁,共88頁。39在異常點消除之前,兩個變量的的相關系數r=0.88,表明存在很強的正相關;消除了異常數據后,r=0.08,出于隨機(su j)水平。在回歸模型建立之前通過散點圖技術進行數據的探索性分析,有利于消除異常數據,尋找更為合理的關系或模式。第38頁/共88頁第三十九頁,共88頁。40如果樣本的規模相對較小,是否包含“異常數據”不是非常清晰,需要仔細判斷。是否剔除數據可能(knng)會對變量之間的關系產生很大的影響。第39頁/共88頁第四十頁,共88頁。413

27、)散點圖與不同類別)散點圖與不同類別(libi)的數的數據據散點圖中的兩個變量是房屋價格和人口密度的關系(gun x)(a)反應了房屋的價格和人口密度之間存在正的空間相關關系(gun x)。(b)這些數據來自兩個不同的地區,按照區位做出散點圖后,就可輕易地發現:任何一個區位的人口密度和價格之間都變現出負的相關關系(gun x)。有些異常(ychng)數據可能來自于另外的類型。第40頁/共88頁第四十一頁,共88頁。424)散點圖矩陣)散點圖矩陣(j zhn)散點圖矩陣通過建立(jinl)任意兩個變量之間的關系的圖形表示來初步獲得相關信息和異常信息,相當于在由m個變量構成的矩陣中,用相應的兩個變

28、量之間的散點圖替代矩陣中的元素構成的圖形。5個變量(binling)間的散點圖矩陣在對角線上是變量自身的關系,在這些位置上一般由測量這個變量分布特征的圖形(直方圖、箱線圖等)構成第41頁/共88頁第四十二頁,共88頁。43平行坐標圖平行坐標圖平行坐標圖將高維數據在二維空間上表示,為可視平行坐標圖將高維數據在二維空間上表示,為可視化地探索分析高維數據空間中的關系建立可行的途徑化地探索分析高維數據空間中的關系建立可行的途徑。平行坐標圖提供的是一種在平行坐標圖提供的是一種在2維平面上表示高維空維平面上表示高維空間中變量之間關系的技術。間中變量之間關系的技術。傳統的坐標系中所有傳統的坐標系中所有(su

29、yu)的變量軸都是交叉的的變量軸都是交叉的,而平行坐標系中所有,而平行坐標系中所有(suyu)的變量軸都是平行的的變量軸都是平行的。6維空間的兩個(lin )點A(-5, 3, 4, -2, 0, 3)、B(4, -1, 3, 3, 0, -1)的平行坐標圖第42頁/共88頁第四十三頁,共88頁。44平行坐標圖表示(biosh)高維空間數據的實例第43頁/共88頁第四十四頁,共88頁。45平行坐標圖的優點:可以在平行坐標圖的優點:可以在2維空間上考察分析維空間上考察分析m維維變量的相關性。但是為了表示變量的相關性。但是為了表示m維數據,所有的變量維數據,所有的變量都以折線的形式畫在平行坐標圖上

30、,對于非常大的都以折線的形式畫在平行坐標圖上,對于非常大的數據集,平行坐標圖容易引起視覺上的混淆。數據集,平行坐標圖容易引起視覺上的混淆。平行坐標圖更為重要的作用平行坐標圖更為重要的作用(zuyng)在于:在于:1)可用于突出顯示異常數據;)可用于突出顯示異常數據;2)根據某一變量選擇數據子集;)根據某一變量選擇數據子集;3)與其他可視化技術結合探索數據中的模式。)與其他可視化技術結合探索數據中的模式。平行坐標圖技術成為高維空間變量關系顯示的重要平行坐標圖技術成為高維空間變量關系顯示的重要技術。技術。高維數據在高維數據在2維平面中的其它可視化技術:徑向坐標維平面中的其它可視化技術:徑向坐標可視

31、化可視化(RADVIZ)及其組合變化形式等。及其組合變化形式等。第44頁/共88頁第四十五頁,共88頁。46探索性空間探索性空間(kngjin)數據數據分析分析(exploratory spatial data analysis, ESDA)第45頁/共88頁第四十六頁,共88頁。47探索性空間數據分析(ESDA)是探索性數據分析(EDA)在空間數據分析領域的推廣。ESDA著重于概括空間數據的性質,探索空間數據中的模式,產生和地理數據相關的假設,并在地圖上識別異常數據的分布位置,發現是否存在熱點區域(hot spots)等。ESDA將數據的統計分析和地圖定位緊密結合在一起。地圖能夠定位案例及其

32、空間關系,并能在分析、檢驗和表示(biosh)模型的結果中發揮重要作用。第46頁/共88頁第四十七頁,共88頁。48ESDA通過地理空間(地圖表示)和屬性空間(數據空間)的關聯分析來凸顯空間關系。可以回答以下問題:直方圖上的極端數值分布在地圖的什么地方?地圖上某一部分的屬性值在散點圖上的分布狀況如何?落入地圖上的一個子區域(qy)內并滿足屬性標準的個例有哪些?第47頁/共88頁第四十八頁,共88頁。49在GIS環境中的ESDA的主要方法是動態聯系窗口(dynamic linking windows)和刷新(brushing)技術,通過(tnggu)地圖、統計圖表、屬性記錄等多種方式解釋空間模式

33、,能對多種形式的信息表示進行可視化的操作分析。第48頁/共88頁第四十九頁,共88頁。50動態聯系窗口通過刷新技術將地理空間和屬性空間的各種視圖組合在一起(yq),是一種交互式探索空間數據的選擇、聚集、趨勢、分類、異常識別的工具。第49頁/共88頁第五十頁,共88頁。51動態聯系窗口的動態交互技術的特點: (1)在一種信息窗口中點擊或選擇,其它的信息窗口產生相應的響應,并高亮顯示選中的信息。例如,在地圖窗口中選擇一些地理實體,則地圖上選中的部分和屬性表中相應的記錄都以高亮的方式顯示一般(ybn)GIS軟件也提供了交互的操作方式,但是缺乏多種探索性數據分析工具,利用現有的GIS軟件難以快速地完成

34、趨勢分析和異常數據識別等分析工作。第50頁/共88頁第五十一頁,共88頁。52動態(dngti)聯系窗口的動態(dngti)交互技術的特點:(2)ESDA將多種可視化的數據分析工具和地圖分析結合在一起,并提供了豐富的交互工具,不僅可以進行選擇操作,而且能夠進行改變數據參數等模式的探索。第51頁/共88頁第五十二頁,共88頁。53ESDA與空間數據挖掘:ESDA需要熟知空間數據的特殊性及數據分析的探索性方法。ESDA和數據挖掘一樣是交互的、迭代的搜索過程,其中數據中的模式和關系被用于精煉并搜索更多的興趣模式和關系。在龐大的數據集中,ESDA等價于空間數據挖掘,其基本的思想是極力使用(shyng)

35、數據來表示其本身,以識別興趣模式并幫助產生有關的假設。第52頁/共88頁第五十三頁,共88頁。54邸凱昌等將探索性數據分析方法、面向屬性的歸納和粗糙集方法結合起來,形成了一種靈活通用的探測性歸納學習方法(Exploratory Inductive Learning, EIL),該方法可以從空間(kngjin)數據庫中發現普遍知識、屬性依賴、分類知識等多種知識。利用中國分省農業統計數據的空間(kngjin)數據挖掘實驗說明了EIL方法的可行性和有效性。第53頁/共88頁第五十四頁,共88頁。55ESDA提供了兩類統計分析方法:全局方法(global):對所有實例的一個或多個屬性數據(shj)進行

36、處理;局部方法(local):對某個時段的數據(shj)子集進行統計分析。第54頁/共88頁第五十五頁,共88頁。56ESDA對空間數據的處理包括(boku):對非空間屬性數據的處理對空間數據的處理第55頁/共88頁第五十六頁,共88頁。57ESDA對非空間屬性數據的處理:中值分析:計算屬性值分布(fnb)的中心;提供ESDA查詢:查詢在中值之上或之下的區域。四分位和四分位間的分布(fnb)分析:對中值的分布(fnb)進行分析;提供ESDA查詢:查詢高于或低于四分位的數值區域箱線圖分析:對屬性值的分布(fnb)進行圖形化的總結;ESDA查詢:查詢實例位于箱線圖的哪個特定部分?例外實例位于地圖的

37、哪個區域?第56頁/共88頁第五十七頁,共88頁。58ESDA對空間數據的處理方法:平滑:地圖中包含的許多小的區域,可以利用(lyng)平滑方法進行處理。具體處理依賴于于平滑算子的尺度。利用(lyng)平滑處理有利于解釋總體模式;ESDA的平滑處理:最簡單的形式是空間平均,計算一個區域的屬性及其鄰域的屬性,并取其平均值,然后對每個區域利用(lyng)類似方法重復該步驟。識別地圖數據的趨勢和梯度:包括核估計方法、生成數據的橫斷面并且繪圖、對于特定區域進行空間滯后箱線圖分析、非規則格網數據的中值分析等。第57頁/共88頁第五十八頁,共88頁。59空間自相關分析(spatial autocorrel

38、ation):ESDA技術使用散點圖進行(jnxng)分析,該散點圖將垂直軸對應區域本身的屬性值,水平軸對應其鄰域的屬性值的均值。呈現向上傾斜的散點圖顯示了一種正空間相關(鄰域值傾向于相同)呈現向下傾斜的散點圖顯示了一種負空間自相關(鄰域值傾向于不同)第58頁/共88頁第五十九頁,共88頁。60檢測空間例外:檢測區域值在鄰域范圍中具有極端值的情況。相應的ESDA方法包括:使用散點圖技術對空間自相關進行分析,然后進行最小均方回歸分析。例如(lr),那些標準殘差值大于3.0或小于-3.0的實例可能屬于例外。第59頁/共88頁第六十頁,共88頁。61ESDA與空間數據可視化與空間數據可視化第60頁/

39、共88頁第六十一頁,共88頁。62地學可視化:地理學分析方法和GIS以及其他相關學科的密切結合導致了“地學可視化”這一新的研究領域的產生。地學可視化被定義為使用地理空間視覺顯示(包括虛擬現實)探索空間數據,并通過這種探索回答問題,產生假設,提出問題的解決方案,構建領域知識等。地學可視化為地理學研究提供(tgng)了新的技術手段與方法第61頁/共88頁第六十二頁,共88頁。63探索性空間數據分析技術:探索性空間數據分析技術的重要領域是空間參考數據,這種數據的可視化必須包括地圖,地圖用于表示空間關系和模式。靜態的、非交互的地圖不能滿足探索性數據分析的基本需要。當前努力(n l)的方向是直接面向支持

40、各種分析活動的地圖顯示技術的發展,其中最重要好的技術是地圖與各種統計圖動態聯系的技術。第62頁/共88頁第六十三頁,共88頁。64空間數據的地圖化表示空間數據的地圖化表示(biosh)-主題地圖主題地圖地圖不僅是地理空間信息的表示,而且可用于探索地理空間數據。在對地理空間數據沒有假設的條件下,可視化輔助工具輔助人們交互地、非直接(zhji)地搜索結構和趨勢,此時地圖和圖形提供了一種表現工具,同時地圖和圖形用戶思考過程的設備工具。ESDA關注的是地圖如何表示空間數據的分布、趨勢、聚集、異常等方面空間信息的表示,關注的是如何利用地理實體的屬性數據進行制圖分析,即主題地圖問題。第63頁/共88頁第六

41、十四頁,共88頁。65當前各種商業GIS軟件都提供了主題制圖功能,根據地理(dl)實體的屬性數據用顏色、符號并結合統計圖形進行多變量的空間數據表示等。MapInfo-GIS,其主題制圖模塊提供(tgng)了點密度、漸變符號、分層設色、獨立值、表面分析以及餅狀圖和柱狀圖等主題表示。第64頁/共88頁第六十五頁,共88頁。66在建立空間數據的主題地圖表示中首先需要研究適合的制圖方式,這和數據的類型有關。屬性數據分為名義的、序數的、間隔的、比率的4種類型。前兩種是定性的離散型的變量,后兩者是定量的連續的變量。在地圖表示中,必須用能夠體現這些數據特征(tzhng)的方式才能正確地表示。名義變量適合于用

42、獨立名義變量適合于用獨立(dl)值表示,因為名義變量只表示同值表示,因為名義變量只表示同類地理對象的類型的區分,例如國家政區劃分、土地利用、類地理對象的類型的區分,例如國家政區劃分、土地利用、氣候類型區等通常用這種方式表示。氣候類型區等通常用這種方式表示。序數變量可以使用等級符號和分層設色圖表示。序數變量可以使用等級符號和分層設色圖表示。間隔變量和比率變量體現的數據的連續變化,一般使用等級間隔變量和比率變量體現的數據的連續變化,一般使用等級符號、范圍圖表示,但是點密度圖只是和于比率變量的表示符號、范圍圖表示,但是點密度圖只是和于比率變量的表示。第65頁/共88頁第六十六頁,共88頁。67圖(a

43、)是用上海市2000人口普查數據(shj)制作的分街道/鄉鎮的人口總量分布的主題地圖。第66頁/共88頁第六十七頁,共88頁。68餅狀圖和柱狀圖是為了在地圖上表示(biosh)多變量的分布特征及其空間差異性而設計的表示(biosh)方式,前者適合于表示(biosh)結構關系,后者著重表示(biosh)數量差異。當變量個數多時,可能會超出人的視覺判斷能力,不利于信息的表示(biosh)。2000年上海市分街道(jido)/鄉鎮的男女人口結構分布的餅狀圖第67頁/共88頁第六十八頁,共88頁。69主題地圖表示的數據分類問題主題地圖表示的數據分類問題地圖制圖地圖制圖(zh t)過程中數據的分類是非常

44、重要的。過程中數據的分類是非常重要的。GIS軟件都提供了相關的數據分類方法:等間隔、等軟件都提供了相關的數據分類方法:等間隔、等范圍、自然分割法、分位數分類、自定義等。范圍、自然分割法、分位數分類、自定義等。第68頁/共88頁第六十九頁,共88頁。 同一數據應用(yngyng)不同的分類方法將會產生顯著不同的解釋。70第69頁/共88頁第七十頁,共88頁。設計數據分類時必須注意的因素:1)包括所有范圍的數據(最小和最大);2)使用(shyng)不重疊的值和不空的類;3)分類數量足夠大以避免犧牲數據的精確性4)劃分數據集到合理)劃分數據集到合理(hl)的等價的觀測組中;的等價的觀測組中;5)如果

45、可能給定一個邏輯數學關系)如果可能給定一個邏輯數學關系71第70頁/共88頁第七十一頁,共88頁。等間隔分類假設分割之間的距離是相同的。本例中的數據按照15個單位(dnwi)的等距離進行分割。72第71頁/共88頁第七十二頁,共88頁。分位數分類是將所有的觀測數據按照相等的數量分配(fnpi)到每一個類中。本例中,分位數計算的分類結果為:73第72頁/共88頁第七十三頁,共88頁。自然分割的分類方法:用戶沿著數字線選擇最大的分割,或者在數據出現顯著的空隙。其基本思想是最小化數據集內部的變異(biny)、最大化類型間的差異(聚類)。74第73頁/共88頁第七十四頁,共88頁。其他分類方法:嵌套均

46、值、標準差、曲線下面積等。在利用GIS進行主題制圖分析時,必須知道系統所提供的分類方法以及這些方法的限制。在許多研究中,應當注意(zh y)面向具體問題進行自定義分類。利用各種分類方法(fngf)的比較75第74頁/共88頁第七十五頁,共88頁。交互技術與交互技術與ESDAESDA主題地圖是傳統的空間數據表示方法,提供了空間數據可視化主題地圖是傳統的空間數據表示方法,提供了空間數據可視化的能力。的能力。地圖是現實物理空間的同構物,它將空間關系展現在人們面前地圖是現實物理空間的同構物,它將空間關系展現在人們面前。高度的用戶交互是地圖顯示的一般要求,以支持空間思考,即高度的用戶交互是地圖顯示的一般

47、要求,以支持空間思考,即假設的生成、數據分析和決策制定。假設的生成、數據分析和決策制定。當能夠合理利用這些手段時,交互技術和工具能夠支持信息當能夠合理利用這些手段時,交互技術和工具能夠支持信息(xnx)探索和知識構建。探索和知識構建。76第75頁/共88頁第七十六頁,共88頁。交互技術與交互技術與ESDAESDA交互式的分析技術(jsh)包括:1)地圖與其他圖形顯示方式之間的刷新(brushing)技術建立的動態聯系,即在一種顯示方式中被選中的對象同時在其他的所有顯示方式中被高亮顯示;2)利用實時控制工具改變常規的制圖方法的參數,獲得新狀態下的分布特征等,例如專題中的類別的改變交互技術的重要特征是建立了地理空間和數據空間的聯系,或者將EDA方法緊密(jnm)地融合于ESDA中。可以從空間特征到屬性特征對地理現象進行全面的研究和分析。77第76頁/共88頁第七十七頁,共88頁。地理(dl)空間和空間數據地理空間(geographic space)就是由空間參考數據構成的坐標空間,它使用地理坐標定義地理事物和現象,也就是地圖形式的地理表示。數據空間(data space)是地理實體(sht)屬性所構成的空間,其中每一個點代表地理事物在數據空間中的位置。地理空間(kng

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論