第10章-空間數據倉庫與數據挖掘課件_第1頁
第10章-空間數據倉庫與數據挖掘課件_第2頁
第10章-空間數據倉庫與數據挖掘課件_第3頁
第10章-空間數據倉庫與數據挖掘課件_第4頁
第10章-空間數據倉庫與數據挖掘課件_第5頁
已閱讀5頁,還剩161頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

地圖數據庫原理與技術地圖數據庫原理與技術1第十章空間數據倉庫和數據挖掘第十章空間數據倉庫和數據挖掘2數據倉庫和空間數據倉庫空間信息基礎設施數據挖掘和空間數據挖掘主要內容:數據倉庫和空間數據倉庫主要內容:3§10.1數據倉庫與空間數據倉庫數據倉庫空間數據倉庫§10.1數據倉庫與空間數據倉庫數據倉庫4§10.1數據倉庫與空間數據倉庫隨著市場競爭的加劇和信息社會需求的發展,出現了數據集中化、業務綜合化、決策科學化的趨勢。伴隨這種數據信息化的趨勢,從大量數據中提取(檢索、查詢等)制定市場策略的信息就顯得越來越重要了。這種需求既要求聯機服務,又涉及大量用于決策的數據,而傳統的數據庫系統已無法滿足這種需求。一、數據倉庫§10.1數據倉庫與空間數據倉庫隨著市場競爭5歷史數據量很大;輔助決策信息涉及許多部門的數據,而不同系統的數據難以集成;由于訪問數據的能力不足,它對大量數據的訪問性能明顯下降。§10.1數據倉庫與空間數據倉庫一、數據倉庫無法滿足的需求具體體現在三個方面:歷史數據量很大;§10.1數據倉庫與空間數據倉庫一、6隨著C/S技術的成熟和并行數據庫的發展,信息處理技術的發展趨勢是從大量的事務數據庫中抽取數據,并將其清理、轉換為新的存儲格式,即為決策目標把數據聚合在一種特殊的格式中。隨著此過程的發展和完善,這種支持決策的、特殊的數據存儲即被稱為數據倉庫(DataWarehouse,DW)。

數據倉庫產生趨勢§10.1數據倉庫與空間數據倉庫隨著C/S技術的成熟和并行數據庫的發展,信息處7數據倉庫(DataWarehouse,簡稱DW)是支持管理決策過程的、面向主題的、集成的、穩定的、不同時間的數據集合。主題是數據歸類的標準,每個主題對應一個客觀分析領域,如客戶、商店等,它可為輔助決策集成多個部門不同系統的大量數據。數據倉庫包含了大量歷史數據,經集成后進入數據倉庫的數據是極少更新的。數據倉庫內的數據時限為5至10年,主要用于進行時間趨勢分析。數據倉庫定義§10.1數據倉庫與空間數據倉庫數據倉庫(DataWarehouse,簡稱DW)是支持管8數據倉庫的數據量很大,一般為10GB左右。它是一般數據庫(100MB)數據量的100倍,大型數據倉庫達到TB級。

數據倉庫定義§10.1數據倉庫與空間數據倉庫數據倉庫是一種分析型環境,它與一般的DBMS的操作型環境是不同的,兩者的比較有利于對數據倉庫的理解。數據倉庫的數據量很大,一般為10GB左右。它是一般數據庫(9§10.1數據倉庫與空間數據倉庫數據倉庫(DW)數據庫(DB)分析型數據環境操作型數據環境面向分析(主題),支持DSS面向業務,日常事務處理集成的綜合數據非集成或者集成程度很低,主要是明細數據歷史數據(5-10年)主要關心當前數據(60-90天)定期加載,加載后極少更新實時更新數據驅動的開發周期(CLDS)需求驅動的開發周期(SDLC)§10.1數據倉庫與空間數據倉庫數據倉庫(DW)數據庫(10數據倉庫主要應用在兩個方面:使用瀏覽分析工具在DW中尋找有用的信息。數據倉庫系統支持在DW上的應用,形成決策支持系統(DSS)。數據倉庫應用§10.1數據倉庫與空間數據倉庫數據倉庫主要應用在兩個方面:數據倉庫應用§10.111地球是一個復雜多變的系統,傳統地學的各個學科由于自身的局限,其研究范圍已無法適應全球變化和區域可持續發展的要求。如在交通規劃中,往往需要使用大量歷史的、現實的空間數據以及各應用領域的復雜數據進行數據分析,涉及多維數據視圖的概念,僅靠關系數據庫就將難以解決。同時,傳統的GIS應用系統是面向應用、事務驅動的,其中分析所需要的主題相當分散,不同的操作平臺和數據標準使得決策支持系統幾乎無法實現數據共享。為此,必須通過大型的、多維化的數據庫系統進行統一的組織、管理。二、空間數據倉庫§10.1數據倉庫與空間數據倉庫空間數據倉庫的產生趨勢地球是一個復雜多變的系統,傳統地學的各個學科由于自身的局限,12數據倉庫正是這樣一種數據的存儲系統,它提供了來自異地、異構、種類不同的應用系統的集成化和歷史化的數據。對其加工后,在數據倉庫中存儲、提取和維護,靈活地重組數據,呈現出多維數據視圖,并且面向復雜的數據分析及高層的決策支持,從而為有關部門或企業進行全局范圍的多維分析、戰略決策和長期趨勢分析提供了有效的支持。由于空間數據的特殊性,空間數據倉庫在數據倉庫的基礎上需引入空間維數據,根據主題從不同的GIS應用系統中截取從瞬態到區段直至全球系統上的信息,從而提供最好的信息服務。空間數據倉庫的產生趨勢§10.1數據倉庫與空間數據倉庫數據倉庫正是這樣一種數據的存儲系統,它提供了來自13空間數據倉庫(SpatialDataWarehouse,簡稱SDW)是集成的、面向主題的、相對穩定的、反映時間變化和地理空間變化的空間數據存儲,以支持各級管理人員基于空間數據的分析和決策。空間數據倉庫的概念和內涵§10.1數據倉庫與空間數據倉庫空間數據倉庫(SpatialDataWareho14

空間數據倉庫是GIS、空間數據庫與數據倉庫技術相結合的產物,它在普通數據倉庫基礎上,引入空間數據,增加對空間數據的存貯、管理和分析能力,根據主題從不同的空間數據源中截取不同規模的時空尺度上的信息,從而為地學研究以及有關資源環境政策的制定等空間決策支持過程提供最好的信息服務。空間數據倉庫是數據倉庫與空間處理分析的綜合,具有空間,時間和主題的高度集成。從信息科學的角度來說,它是對數據倉庫加進了非結構化信息處理。

空間數據倉庫的概念和內涵§10.1數據倉庫與空間數據倉庫空間數據倉庫是GIS、空間數據庫與數據倉庫技術15SDW支持多種數據源:數據庫、數據文件、應用程序等;SDW中存放的不僅是供使用的數據,還有在一定激發條件下能主動其作用的處理規則、算法,甚至是過程等;SDW中數據并不完全是原始數據的簡單歸并和搬家,而是增值和統一,因此,“匯總并統一”是一種可取的描述;空間數據倉庫的概念和內涵§10.1數據倉庫與空間數據倉庫SDW支持多種數據源:數據庫、數據文件、應用程序等;空間16數據的集成化表明數據在結構上具有綜合性,并且在語言上是異構的,在進入SDW之前,必須經過加工和集成,這是SDW建設中最關鍵,最復雜的一步;歷史化表明它可以截取不同時間尺度上的信息,從瞬態到區段直到全體。SDW以時間為基準管理(積累,使用并處理)數據,即使依賴與時間維的數據結構;SDW保存和管理的是“對象”—數據以及與之相關的處理規則,算法和過程等的統一體,它們在SDW中以打包及有序存放的形式被保存和維護,且需要即可使用。空間數據倉庫的概念和內涵§10.1數據倉庫與空間數據倉庫數據的集成化表明數據在結構上具有綜合性,并且在語言上是異構的17空間數據倉庫的體系結構§10.1數據倉庫與空間數據倉庫空間數據倉庫應用(空間決策支持系統等)分析結果聯機分析處理數據挖掘數據倉庫中信息多級存儲策略數據庫空間數據庫系統(數據管理部分)SDBSDBSDB數據采集與輸入系統(數據源部分)核心GIS數據政府統計數據市場經濟數據土地利用數據分析工具數據轉換數據輸入決策運算MBKB空間數據倉庫空間數據倉庫的體系結構§10.1數據倉庫與空間數據倉18空間數據倉庫機制的研究圍繞空間數據倉庫的實際應用需求,探索空間數據倉庫的關鍵技術。(1)支持空間信息的空間數據倉庫模型:空間數據倉庫的數據模型是普通數據倉庫的數據模型的有效擴充,必須針對空間信息的特點,對星型模型和雪花模型進行擴展。(2)支持空間數據導航的元數據機制:空間數據倉庫的元數據是人們定義空間數據倉庫模型、理解空間數據意義的重要窗口,空間數據倉庫的元數據必須支持對空間數據分析的導航。空間數據倉庫的關鍵技術§10.1數據倉庫與空間數據倉庫空間數據倉庫機制的研究圍繞空間數據倉庫的實際應用19(3)面向海量空間信息的數據存儲策略:空間數據倉庫包含海量的空間信息。支持對海量空間信息的高效的存儲和檢索是空間數據倉庫的重要需求,也是空間數據倉庫的重要特征。因此需要研究面向海量空間信息的數據存儲策略。(4)面向海量空間信息高效檢索的空間索引機制:數據索引是提高數據檢索效率的有效途徑。由于空間數據倉庫中涉及海量的空間信息,因此需要研究面向空間數據倉庫的索引機制。空間數據倉庫的關鍵技術§10.1數據倉庫與空間數據倉庫(3)面向海量空間信息的數據存儲策略:空間數據倉庫包含海量的20(5)大規模空間數據處理:由于空間數據所包含的數據量比較大,當空間數據倉庫中地理數據、元數據以及歷史數據的數據量急速增長時數據的存儲和管理機制的調整策略等問題需要更加深入的研究。(6)查詢的建立和數據導航技術:空間數據的查詢通常比較復雜,而目前的用戶界面形式很難滿足。必須為空間數據倉庫數據查詢的輸入以及數據查詢的建立提供一套合適的機制。(7)快速計算、高速網絡、空間數據庫的無縫連接、數據挖掘、空間數據聯機分析和處理及服務的互操作等關鍵技術。

空間數據倉庫的關鍵技術§10.1數據倉庫與空間數據倉庫(5)大規模空間數據處理:由于空間數據所包含的數據量比較大,21目前國外數據倉庫以及空間數據倉庫方面的主要工作基礎有很多。Stanford大學的數據倉庫WHIPS(WareHouseInformationProjectatStanford);美國正在啟動一個空間信息處理項目EOS(EarthOverviewSystem),到2003年,對全球地面監測的精度將達到1米的分辨率,該項目對鞏固美國在全球的競爭優勢具有重要的作用。該項目的主要組成部分之一就是空間數據的聯機分析與挖掘技術的研究;IBM的Almenden實驗室、北美和德國的一些公司、和科研機構的實驗室在這個領域的研究中處于領先位置。國內外研究現狀§10.1數據倉庫與空間數據倉庫目前國外數據倉庫以及空間數據倉庫方面的主要工作基礎有22目前的空間數據倉庫原型系統主要有:AMicrosoftTerraServer(由JimGray主持),GeoMiner(由加拿大SimonFraser大學開發)等。在國內,國家“九五”科技重點攻關項目“空間信息共享和處理技術研究”專題項目已取得階段成果,提出了空間信息共享系統設計方案。視覺與聽覺信息處理國家重點實驗室開放課題基金項目“空間數據聯機分析與空間數據挖掘研究”,該項目重點對空間數據聯機分析與空間數據挖掘及底層的空間數據倉庫技術作基礎理論研究。國內外研究現狀§10.1數據倉庫與空間數據倉庫目前的空間數據倉庫原型系統主要有:AMicro23(1)空間數據倉庫模型的研究:空間數據面向主題的集成的一個關鍵步驟是空間數據倉庫的建模。空間數據倉庫的邏輯模型與普通數據倉庫模型一樣,通常采用類似的多維模型。普通數據倉庫模型通常采用星型模型或雪花模型。與普通數據倉庫模型相比,空間數據倉庫要管理復雜的空間數據類型,其維和度量中不僅可以包含簡單數據類型的數據,同時也可以包含空間對象。由于空間對象占用的存儲空間較大,其操作也比較復雜,這就需要擴充維和度量的定義,以便更有效地處理這樣的維和度量。目前空間數據倉庫主要研究內容§10.1數據倉庫與空間數據倉庫(1)空間數據倉庫模型的研究:空間數據面向主題的集成的一個關24(2)海量空間數據的存儲:空間數據倉庫通常以空間數據庫為基礎,由于空間數據倉庫涉及海量的空間信息,同時空間信息計算耗費的資源較多,確定空間信息的合理存儲策略(如數據分片等),以便計算和顯示,也是當前許多專家關注的焦點。

目前空間數據倉庫主要研究內容§10.1數據倉庫與空間數據倉庫(2)海量空間數據的存儲:空間數據倉庫通常以空間數據庫為基礎25(3)異構空間數據源的有效集成:空間數據倉庫所要集成的數據分布于各個企業或各個政府部門,這些數據源通常具有不同的數據格式;此外,空間數據的表示、存儲和訪問方式目前還沒有統一的標準,空間數據的語義也往往比較復雜。這就給空間數據的集成和共享帶來了極大的困難,如何實現空間數據的有效集成是國內外空間數據倉庫工程的一個重點和難點。

目前空間數據倉庫主要研究內容§10.1數據倉庫與空間數據倉庫(3)異構空間數據源的有效集成:空間數據倉庫所要集成的數據分26(4)空間數據倉庫的索引機制:空間數據庫的索引方法主要包括:z-序索引、四叉樹索引、kd-樹索引、R樹索引、R+樹索引等。由于空間數據倉庫中的數據具有海量的、極少更新的、隨時間變化的特點,其主要的操作是數據的追加和查詢,因此要求針對空間數據倉庫的特點設計更加合適的空間數據倉庫索引機制是空間數據倉庫機制的重要組成部分,也是目前許多專家關注的焦點。目前空間數據倉庫主要研究內容§10.1數據倉庫與空間數據倉庫(4)空間數據倉庫的索引機制:空間數據庫的索引方法主要包括:27(5)空間數據倉庫元數據機制:空間數據倉庫的元數據是確定空間數據倉庫的邏輯結構、存儲策略的重要組成部分。從數據倉庫建設者的角度來看,空間數據倉庫元數據是數據倉庫的描述,是關于數據加載方法和數據加載頻率、數據存儲和應用的描述信息。從用戶的角度來看,它是用戶理解和使用數據倉庫的向導。空間數據倉庫元數據的主要內容包括:數據倉庫的描述信息、數據倉庫的信息源描述、數據轉換方法描述信息、數據加載方法的描述信息、業務術語的定義、業務處理的規則的描述信息。因此要求建立合理的空間數據倉庫元數據的機制,確保空間數據倉庫的合理性和高可用性。目前空間數據倉庫主要研究內容§10.1數據倉庫與空間數據倉庫(5)空間數據倉庫元數據機制:空間數據倉庫的元數據是確定空間28按照關系數據庫之父E.F.Codd的定義,OLAP是大量多維數據的動態綜合(synthesis)、分析(analysis)與合并(consolidation),它是能夠快速交互地,方便地獲取它們所需信息的一些技術(多維數據分析,神經網絡等)的綜合,它通過快速、一致、交互地訪問各種可能的信息,試圖幫助數據分析人員、管理人員、決策者洞察數據顯示,掌握隱藏其中地規律。OLAP(聯機處理分析)

OLAP(OnlineAnalysisProcessing)的概念§10.1數據倉庫與空間數據倉庫按照關系數據庫之父E.F.Codd的定義,OL29關于OLAP地詳細定義,Codd曾給出了十二條準則,其后,還對其進行了擴充。根據OLAP產品的實際應用情況和用戶對OLAP產品的需求,人們提出了一種對OLAP更簡單明確的定義,即共享多維信息的快速分析(FastAnalysisofSharedMultidimensionalInformation,簡稱FASMI)。目前,常見的OLAP有基于多維數據庫的MOLAP(Multi-dementionOLAP)、基于關系數據庫ROLAP(RelationOLAP)以及混合的HOLAP(HybridOLAP)。OLAP(聯機處理分析)

OLAP的概念§10.1數據倉庫與空間數據倉庫關于OLAP地詳細定義,Codd曾給出了十二條準30OLTP和OLAP有很大的差別,在傳統的OLTP技術中,所依賴的是實體、聯系、功能分解、狀態轉換分析和事務處理等概念和方法;而在OLAP技術中,主要使用的是事實表、維表、層次(hierarchies)、稀疏性(sparsity)、指標聚集等概念和方法。

OLAP與OLTP的區別OLAP(聯機處理分析)§10.1數據倉庫與空間數據倉庫OLTP和OLAP有很大的差別,在傳統的OL31

OLAP與OLTP的區別OLAP(聯機處理分析)§10.1數據倉庫與空間數據倉庫OLTPOLAP時間短時間框架長時間框架狀態迅速變化的靜態的數據類型細節的、操作性數據綜合的、提煉的分析性數據查詢標準的事務隨機的、動態的查詢穩定性實時更新周期性刷新功能支持日常操作支持管理要求設計事件驅動面向應用數據驅動面向分析OLAP與OLTP的區別OLAP(聯機處理分析)§1032多維空間數據模型空間數據Cube的構造和維護空間Cube數據的多維顯示

OLAP目前主要研究內容OLAP(聯機處理分析)§10.1數據倉庫與空間數據倉庫多維空間數據模型OLAP目前主要研究內容OLAP(聯機33支持cube構造的多維數據存儲模型;空間數據cube實例化視圖選擇方法研究;空間數據cube的構造算法;在二級存儲中高效構造高維的cube和空間數據cube;

OLAP關鍵技術OLAP(聯機處理分析)§10.1數據倉庫與空間數據倉庫支持cube構造的多維數據存儲模型;OLAP關鍵技術34空間數據倉庫系統是引入數據倉庫后的計算機系統。其目標是支持用戶利用存儲地信息進行分析、處理和決策。空間數據倉庫由四部分組成:數據、計算機硬件、軟件、用戶。空間數據倉庫系統§10.1數據倉庫與空間數據倉庫空間數據倉庫系統是引入數據倉庫后的計算機系統。其35在操作上,GIS源數據由異構變為同構,消除了數據模型及語法、語義的差異,數據庫可直接被DBMS訪問,加快了查詢和分析處理的速度。訪問倉庫的數據不需要占用信息源的系統資源,不會像直接訪問信息源那樣增加開銷。在功能上,除了便于管理、維護外,GIS空間數據倉庫為其數據挖掘準備了條件。如果數據挖掘技術利用得當,還可擴充GIS的功能,當然,數據倉庫及其技術并未拋棄關系型數據庫和DBMS的一系列功能。使用空間數據倉庫的優勢§10.1數據倉庫與空間數據倉庫在操作上,GIS源數據由異構變為同構,消除了數據模型及語法、36有望解決OPENGIS在數據上不一致的問題。具有明顯的社會意義,有利于加強商業、資源、環境等的宏觀決策。可以說,數據倉庫是伴隨著C/S技術和并行數據庫的發展孕育而生的,大型GIS要處理多源的、多變量的、異構的、海量的地理數據,就要采用能解決這些問題的技術。數據倉庫技術可以解決其中的一些問題。GIS中使用空間數據倉庫的優勢§10.1數據倉庫與空間數據倉庫有望解決OPENGIS在數據上不一致的問題。GIS中使用37空間數據粒度的劃分;空間數據的分割(面向圖幅、面向圖層、面向專題要素);空間元數據的設計、管理及其標準化。開發數據倉庫應注意的問題§10.1數據倉庫與空間數據倉庫空間數據粒度的劃分;開發數據倉庫應注意的問題§10.138§10.2空間數據基礎設施空間信息基礎設施的定義

空間信息基礎設施的目標

空間信息基礎設施組成

空間信息基礎設施體系結構

NII&NSIISDW&NSII

§10.2空間數據基礎設施空間信息基礎設施的定義39美國于1994年頒布了總統行政令,實施國家空間數據基礎設施NSDI計劃。國家空間信息基礎設施(NationalSpatialInformationInfrastructure,簡稱NSII)的定義為:“一個國家內描述地球上地理要素和現象的分布及其屬性的所有地理信息的組合,以及對這些信息的獲取、處理、存儲、分發和提高使用所需的技術、政策、標準和人力資源”。NSII是為使用、生產和管理與地理空間信息有關的社會各部門以及個人提供基礎信息環境和支持,是國家信息基礎設施的子集。一、國家空間信息基礎設施定義§10.2空間數據基礎設施美國于1994年頒布了總統行政令,實施國家空間數據基40在今天的信息社會和網絡環境下,它是一個分布式異構的地理空間信息資源網絡。空間信息基礎設施的體系結構是實施地理空間信息基礎設施概念的邏輯模型。空間信息基礎設施在區域層次上分為全球空間信息基礎設施(GSII)、區域空間信息基礎設施(RSII)和國家空間信息基礎設施(NSII)。一、國家空間信息基礎設施定義§10.2空間數據基礎設施在今天的信息社會和網絡環境下,它是一個分布式異構41空間信息具有區域性、綜合性和共享性,NSII旨在建立作為各部門共同使用的基礎信息,避免部門重復建設問題,提高信息標準化程度,為信息共享和網絡上的協作掃除障礙。空間信息基礎設施的目標是建立、維護和使用一個空間信息框架。空間信息框架包括兩方面的內容:一是空間信息內容,即框架的基礎空間數據和專題數據;二是空間信息服務,即提供對空間信息的共享、集成和互操作的功能和接口。二、NSII的目標§10.2空間數據基礎設施空間信息具有區域性、綜合性和共享性,NSII旨在建立作為各部42空間信息基礎設施提供兩種服務:一是為廣大社會群眾提供普通服務,回答普通群眾關心的環境、交通、旅游、新聞、房地產、商業、公共設施建設以及其它社會問題,用戶通過簡單的個人計算機瀏覽界面,查詢空間信息;二是為各個專用部門的特殊應用服務,包括資源開發、環境管理、生態監測、區域規劃等制圖和空間分析,并為可持續發展提供信息和決策支持。二、NSII的目標§10.2空間數據基礎設施空間信息基礎設施提供兩種服務:一是為廣大社會群眾提供普通服務43信息網絡:主要包括由國內外各種空間數據與信息的生產者、經營者和用戶所構成的網絡及其相應的管理系統、軟硬件設備等內容。數據獲取:主要包括各專業部門和地方的第一手數據的獲取系統及其產品(包括各種類型的數字空間信息和有空間參考的信息)信息服務:主要包括持續地對地理空間數據產品進行各種增值加工處理,即信息提取;完成客戶提出的各種信息分析應用任務;為各級政府提供規劃、管理和決策支持方面的服務內容。三、NSII的組成§10.2空間數據基礎設施信息網絡:主要包括由國內外各種空間數據與信息的生產者、經營者44技術工具:主要包括能夠高效、持續地對來自數據獲取部分的地理空間數據產品(也包括遙感數據產品)進行信息提取、分析應用與咨詢服務的各種軟、硬件技術、方法與工具。政策、規劃、標準

伙伴關系:包括從事空間數據、信息及其服務的各種機構、人員及其之間的關系。三、NSII的組成§10.2空間數據基礎設施技術工具:主要包括能夠高效、持續地對來自數據獲取部分的地理空45四、NSII體系結構

政策、規劃、標準數據獲取信息網絡信息服務技術工具伙伴關系地理空間數據獲取系統地理空間信息共享應用網絡§10.2空間數據基礎設施四、NSII體系結構46五、NII和NSII§10.2空間數據基礎設施國家發展、社會進步、生活改善地理空間信息服務(資源調查、生態檢測、環境保護、防災減災、衛生健康以及城市/區域規劃、管理和決策等)…國家空間基礎設施(NSII)國家信息基礎設施(NII,數字通訊網絡)電子商務數字圖書館數字通訊五、NII和NSII§10.2空間數據基礎設施國家發展、47六、SDW和NSII§10.2空間數據基礎設施六、SDW和NSII§10.2空間數據基礎設施48§10.3數據挖掘與空間數據挖掘(空間)數據挖掘的出現趨勢(空間)數據挖掘的概念(空間)數據挖掘的分類(空間)數掘挖掘的體系結構空間數據挖掘的可挖掘的知識類型空間數據挖掘的功能空間數據挖掘的方法空間數據挖掘系統的結構空間數據挖掘近年主要研究進展空間數據挖掘的發展方向§10.3數據挖掘與空間數據挖掘(空間)數據挖掘的出現趨49因為需要一、(空間)數據挖掘的出現趨勢§10.3數據挖掘與空間數據挖掘因為需要一、(空間)數據挖掘的出現趨勢§10.3數據50由于近年來空間信息技術領域內觀測技術、網絡技術的飛速發展以及臺站建設的普及和不斷完善,包括資源、環境、災害的各種空間數據呈指數級數增長;一、(空間)數據挖掘的出現趨勢§10.3數據挖掘與空間數據挖掘由于近年來空間信息技術領域內觀測技術、網絡技術的飛速發展以及51專職處理空間數據的GIS在近十幾年來雖得到了廣泛的應用,并在空間數據的存儲、查詢以及顯示等方面有了較快的發展,但面對數據量日益增長和種類繁多的空間數據,因其空間分析多以圖形操作為主(如緩沖區操作,空間疊加,鄰近分析以及空間連接等等),故而在空間信息的深入提取和知識發現等方面的功能仍相對薄弱。一、(空間)數據挖掘的出現趨勢§10.3數據挖掘與空間數據挖掘專職處理空間數據的GIS在近十幾年來雖得到了廣泛的應用,并在52二、(空間)數據挖掘的概念數據挖掘:在你的數據中搜索知識§10.3數據挖掘與空間數據挖掘二、(空間)數據挖掘的概念數據挖掘:在你的數據中搜索知識§153

數據挖掘(DataMining,簡稱DM)是從數據集中識別出有效的、新穎的、潛在有用的、并最終可理解的模式非平凡過程。在上述的定義中,過程通常指多階段的一個過程,涉及數據準備、模式搜索、知識評價,以及反復的修改求精;該過程要求是非平凡的,即要有一定程度的智能性、自動性(例如:僅僅給出所有數據的總和就不能算作是一個發現過程);數據挖掘的定義§10.3數據挖掘與空間數據挖掘數據挖掘(DataMining,簡稱DM)54有效性是指發現的模式對于新的數據仍保持有一定的可信度;新穎性要求發現的模式應該是從前未知的;潛在有用性是指發現的知識將來有實際效用,如用于決策支持系統里可提高經濟效益;最終可理解性要求發現的模式能被用戶理解,目前它主要是體現在簡潔性上。上述的有效性、新穎性、潛在有用性和最終可理解性綜合在一起可稱之為興趣性(Interestingness)。數據挖掘的定義§10.3數據挖掘與空間數據挖掘有效性是指發現的模式對于新的數據仍保持有一定的可信度;新穎性55有時,人們常常把DM和KDD(KnowledgeDiscoveryinDatabases)等同起來。一般說來,KDD側重于目的和結果,多用于人工智能領域;而DM側重于處理過程和方法,多用于數據庫領域。也有人將兩者結合起來使用,稱為數據挖掘和知識發現(DataMiningandKnowledgeDiscovery,簡稱DMKD)技術。1995年在加拿大召開的第一屆知識發現和數據開采(也稱數據挖掘)國際學術會議上,KDD被認為從數據中發現有用知識的整個過程,知識即意味著數據元素之間的關系和模式。數據開采被認為是KDD過程中的一個特定步驟,它是應用具體算法從數據中提取模式和知識。數據挖掘與知識發現的關系§10.3數據挖掘與空間數據挖掘有時,人們常常把DM和KDD(KnowledgeD56DataCleaningDataIntegrationDatabasesDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation數據挖掘與知識發現的關系§10.3數據挖掘與空間數據挖掘DataCleaningDataIntegrationD57一種觀點,認為OLAP和數據挖掘是不交的。OLAP是數據匯總/聚集工具,它幫助簡化數據分析;而數據挖掘自動發現隱藏在大量數據中的隱含模式和有趣知識。OLAP工具的目標是簡化和支持交互數據分析,而數據挖掘的目標是盡可能自動處理,盡管允許用戶指導這一過程。數據挖掘與OLAP的關系§10.3數據挖掘與空間數據挖掘一種觀點,認為OLAP和數據挖掘是不交的。OLAP是數據匯總58另一種更廣泛的觀點可能被接受:數據挖掘包含數據描述和數據建模。由于OLAP系統可以提供數據倉庫中數據的一般描述,OLAP的功能基本上是用戶指揮的匯總和比較。這些盡管有限,但都是數據挖掘功能。同樣根據這種觀點,數據挖掘要比簡單的OLAP操作寬得多,因為它不僅執行數據匯總和比較,而且執行關聯,分類,預測,聚類,時間序列分析和其他數據分析任務。而且,數據挖掘不限于分析數據倉庫中得數據。它可以分析現存得,比數據倉庫提供得匯總數據粒度更細得數據。它也可以分析事務、文本的、空間的和多媒體數據,這些數據很難用現有的多維數據庫技術建模。在這種意義下,數據挖掘涵蓋的數據挖掘功能和處理的數據復雜性要比OLAP大得多。數據挖掘與OLAP的關系§10.3數據挖掘與空間數據挖掘另一種更廣泛的觀點可能被接受:數據挖掘包含數據描述和數據建模59三、(空間)數據挖掘的分類§10.3數據挖掘與空間數據挖掘三、(空間)數據挖掘的分類§10.3數據挖掘與空間數據挖60根據數據挖掘系統可以根據所挖掘的知識類型分類:即根據數據挖掘的功能,如特征化,區分,關聯,分類聚類,孤立點分析和演變分析,偏差分析,類似性分析等分類。一個全面的數據挖掘系統當提供多種和/或集成的數據挖掘功能。按照所挖掘的知識的粒度或抽象層分類:包括概化知識(在高抽象層),原始層知識(在原始數據層),或多層知識(考慮若干抽象層)。一個高級數據挖掘應當支持度抽象層的知識發現。三、(空間)數據挖掘的分類§10.3數據挖掘與空間數據挖掘根據數據挖掘系統可以根據所挖掘的知識類型分類:即根據數據挖掘61根據數據是否規則:還可以分類為挖掘數據規則性(通常出現的模式)和數據不規則性(如異常或孤立點)。一般,概念描述,關聯分析,分類,預測和聚類挖掘數據規律,將孤立點作為噪音排除。這些方法也能幫助檢測孤立點。根據應用分類:數據挖掘系統可以根據應用分類。例如,金融,電信,DNA,股票市場,E-MAIL等等。三、(空間)數據挖掘的分類§10.3數據挖掘與空間數據挖掘根據數據是否規則:還可以分類為挖掘數據規則性(通常出現的模式62根據所用的技術分類:可以根據用戶交互程度(例如自動系統,交互探查系統,查詢驅動系統),或所用的數據分析方法(例如面向數據庫或數據倉庫的技術,機器學習,統計學,可視化,模式識別,神經網絡等)描述。復雜的數據挖掘系統通常采用多種數據挖掘技術,或采用有效的,集成的技術,結合一些方法的優點。三、(空間)數據挖掘的分類§10.3數據挖掘與空間數據挖掘根據所用的技術分類:可以根據用戶交互程度(例如自動系統,交互63四、(空間)數據挖掘的體系結構§10.3數據挖掘與空間數據挖掘控制器DB接口空間數據結構查詢優化聚焦對象和屬性抽取模式抽取統計學,機器學習和數據挖掘方法計算幾何學評估有趣程度統計重要性知識庫概念層元數據數據庫統計數據發現領域知識DBMS用戶查詢四、(空間)數據挖掘的體系結構§10.3數據挖掘與空間數64普遍的幾何知識:指某類目標的數量、大小、形態特征等的普遍的幾何特征。空間分布規律:指目標在地理空間的分布規律,分成在垂直向、水平向以及垂直向和水平向的聯合分布規律。空間關聯規則:指空間目標間相鄰、相連、共生、包含等空間關聯規則。五、(空間)數據挖掘的可挖掘的知識類型§10.3數據挖掘與空間數據挖掘普遍的幾何知識:指某類目標的數量、大小、形態特征等的普遍的幾65空間聚類規則:空間聚類規則,或空間分類規則,是指特征相近的空間目標聚類成上一級類的規則,可用于GIS的空間概括和綜合。空間特征規則:指某類或幾類空間目標的幾何的和屬性的普遍特征,即對共性的描述。空間區分規則:指區分不同類目標的特征。空間演變規則:指空間目標依時間的變化規則。§10.3數據挖掘與空間數據挖掘五、(空間)數據挖掘的可挖掘的知識類型空間聚類規則:空間聚類規則,或空間分類規則,是指特征相近的空66分類模式它是一分類函數,能夠把數據集中的數據相項影射到某個給定的類上。分類模式往往表現為一棵分類樹,根據數據的值從樹根開始搜索,沿數據滿足的分支往上走。走到樹葉就能確定類別。回歸模式回歸模式與分類模式相似,它們的差別在于分類模式的預測值是離散的,回歸模式的預測值是連續的。時間序列模式根據數據隨時間變化的趨勢預測將來的值。六、空間數據挖掘的功能§10.3數據挖掘與空間數據挖掘分類模式它是一分類函數,能夠把數據集中的數據相項影射到某個67聚類模式把數據分到不同的組中,組間差別盡可能大,組內差別盡可能小。關聯模式關聯模式是數據之間的關聯規則。序列模式序列模式和回歸模式相仿,而把數據之間的關系與時間聯系起來。在解決實際問題時,經常要使用各種模式。分類模式與回歸模式是最普遍的模式。六、空間數據挖掘的功能§10.3數據挖掘與空間數據挖掘聚類模式把數據分到不同的組中,組間差別盡可能大,組內差別盡681.空間分析方法2.統計分析方法3.歸納學習方法4.聚類與分類方法5.可視化方法6.粗集方法7.云理論8.空間特征和趨勢探測方法9.數字地圖圖像分析和模式識別方法10.探測性的數據分析方法11.遺傳算法12.模糊邏輯13.最近鄰技術七、空間數據挖掘的方法§10.3數據挖掘與空間數據挖掘1.空間分析方法8.空間特征和趨勢探測方法七、空間69八、空間數據挖掘的系統結構§10.3數據挖掘與空間數據挖掘知識庫數據倉庫數據庫數據庫或數據倉庫服務器數據挖掘引擎模式評估圖形用戶界面數據清理數據集成過濾八、空間數據挖掘的系統結構§10.3數據挖掘與空間數據挖70空間知識發現的系統結構§10.3數據挖掘與空間數據挖掘用戶界面感興趣的數據發現的知識空間數據庫領域知識數據挖掘與知識發現模塊空間數據管理模塊空間知識發現的系統結構§10.3數據挖掘與空間數據挖掘用711.針對海量數據的算法研究改變算法運行的策略:采用并行運算環境;提高數據庫查詢語言的效率;對原有算法的結構進行改進,從而減小運算的復雜度。九、空間數據挖掘近年主要研究進展§10.3數據挖掘與空間數據挖掘1.針對海量數據的算法研究九、空間數據挖掘近年主要研究進展722.以神經網絡為代表的智能方法成為解決空間非線性關系的主要工具

神經網絡學習算法的發展統計學習領域的研究熱點——支撐向量機機器學習中熵標準的應用九、空間數據挖掘近年主要研究進展§10.3數據挖掘與空間數據挖掘2.以神經網絡為代表的智能方法成為解決空間非線性關系的主要733.尺度空間概念的應用4.模糊集和粗集理論的應用5.高維數據的挖掘算法6.空間數據的缺值研究九、空間數據挖掘近年主要研究進展§10.3數據挖掘與空間數據挖掘3.尺度空間概念的應用九、空間數據挖掘近年主要研究進展§74在空間數據發掘SDM的理論和方法方面,重要的研究方向有:背景知識概念樹的自動生成、不確定性情況下的數據發掘、遞增式數據發掘、柵格矢量一體化數據發掘、多分辨率及多層次數據發掘、并行數據發掘、新算法和高效率算法的研究、空間數據發掘查詢語言SDMQL、規則的可視化表達,真正高效的空間分類方法,基于模式或基于相似性的采掘以及元規則指導的空間數據采掘,基于泛化的空間數據采掘機制需要進一步的開拓等等。十、空間數據挖掘的發展方向§10.3數據挖掘與空間數據挖掘在空間數據發掘SDM的理論和方法方面,重要的研究方向75在SDM系統的實現方面,要研究多算法的集成、SDM系統中的人機交互技術和可視化技術、SDM系統與地理信息系統、遙感解譯專家系統、空間決策支持系統的集成等。

十、空間數據挖掘的發展方向§10.3數據挖掘與空間數據挖掘在SDM系統的實現方面,要研究多算法的集成、S76在知識發現的研究和開發已經取得了令人矚目的進展的同時,也存在一些理論及應用方面急需解決的問題:效率和可擴放性:海量數據庫中存有成百上千屬性表和成百萬個元組。GB數量級的數據庫也不鮮見,TB數量級的數據庫也開始出現。這就必然導致海量數據庫中問題的維數很大,不僅增大了發現算法的搜索空間,也增加了盲目搜索的可能性。因此,必須利用領域知識除去與發現任務無關的數據,有效地降低問題的維數,設計出更加有效的知識發現算法。十、空間數據挖掘的發展方向§10.3數據挖掘與空間數據挖掘在知識發現的研究和開發已經取得了令人矚目的77交互性:許多目前的知識發現系統和工具缺乏和用戶的交互性,在知識發現過程中,難以充分有效地利用領域知識。對此可以利用貝葉斯方法確定數據可能性和分布來利用先前知識。此外,利用演繹數據庫本身的演繹能力發現知識,并用于指導知識發現過程。發現模式的精練:當發現搜索空間很大時,就會獲得許多發現結果。其中有些是偶然、盲目的,這時可利用領域知識進一步精練所發現的模式,從中提取有用的知識。十、空間數據挖掘的發展方向§10.3數據挖掘與空間數據挖掘交互性:許多目前的知識發現系統和工具缺乏和用戶的交互性,在78十、空間數據挖掘的發展方向§10.3數據挖掘與空間數據挖掘十、空間數據挖掘的發展方向§10.3數據挖掘與空間數據挖79和其它系統的集成:一個方法、功能單一的發現系統其適用范圍必然受到限制,而且開發的知識系統僅局限于數據庫領域。然而要在更廣闊的領域發現知識,知識發現系統就應該是數據庫、知識庫、專家系統、決策支持系統、可視化工具、網絡等多項技術集成的系統。十、空間數據挖掘的發展方向§10.3數據挖掘與空間數據挖掘和其它系統的集成:一個方法、功能單一的發現系統其適用范圍必然80§10.3數據挖掘與空間數據挖掘原子/數據倉庫操作型J.Jones女1945年7月20日……….J.Jones去年有兩張罰單一次大事故……….J.JonesMain大街23號已婚……….J.Jones兩個孩子高血壓……….健康保險汽車保險人壽保險房產保險J.Jones女1945年7月20日出生去年有兩張罰單一次大事故Main大街23號已婚兩個孩子高血壓……….顧客數據在從操作型環境轉移到數據倉庫環境的同時進行集成簡單例子:一個顧客§10.3數據挖掘與空間數據挖掘原子/數據倉庫操作型J.81§10.3數據挖掘與空間數據挖掘傳統的SDLC收集需求分析設計編程調試集成實現數據倉庫SDLC實現數據倉庫集成數據檢驗偏差針對數據編程設計DSS系統分析結果理解需求程序需求數據倉庫需求程序數據倉庫環境下的系統開發生命周期與傳統的SDLC幾乎完全相反§10.3數據挖掘與空間數據挖掘傳統的SDLC數據倉庫S82數據立方體(Cube)§10.3數據挖掘與空間數據挖掘數據立方體(Cube)§10.3數據挖掘與空間數據挖掘83地圖數據庫原理與技術地圖數據庫原理與技術84第十章空間數據倉庫和數據挖掘第十章空間數據倉庫和數據挖掘85數據倉庫和空間數據倉庫空間信息基礎設施數據挖掘和空間數據挖掘主要內容:數據倉庫和空間數據倉庫主要內容:86§10.1數據倉庫與空間數據倉庫數據倉庫空間數據倉庫§10.1數據倉庫與空間數據倉庫數據倉庫87§10.1數據倉庫與空間數據倉庫隨著市場競爭的加劇和信息社會需求的發展,出現了數據集中化、業務綜合化、決策科學化的趨勢。伴隨這種數據信息化的趨勢,從大量數據中提取(檢索、查詢等)制定市場策略的信息就顯得越來越重要了。這種需求既要求聯機服務,又涉及大量用于決策的數據,而傳統的數據庫系統已無法滿足這種需求。一、數據倉庫§10.1數據倉庫與空間數據倉庫隨著市場競爭88歷史數據量很大;輔助決策信息涉及許多部門的數據,而不同系統的數據難以集成;由于訪問數據的能力不足,它對大量數據的訪問性能明顯下降。§10.1數據倉庫與空間數據倉庫一、數據倉庫無法滿足的需求具體體現在三個方面:歷史數據量很大;§10.1數據倉庫與空間數據倉庫一、89隨著C/S技術的成熟和并行數據庫的發展,信息處理技術的發展趨勢是從大量的事務數據庫中抽取數據,并將其清理、轉換為新的存儲格式,即為決策目標把數據聚合在一種特殊的格式中。隨著此過程的發展和完善,這種支持決策的、特殊的數據存儲即被稱為數據倉庫(DataWarehouse,DW)。

數據倉庫產生趨勢§10.1數據倉庫與空間數據倉庫隨著C/S技術的成熟和并行數據庫的發展,信息處90數據倉庫(DataWarehouse,簡稱DW)是支持管理決策過程的、面向主題的、集成的、穩定的、不同時間的數據集合。主題是數據歸類的標準,每個主題對應一個客觀分析領域,如客戶、商店等,它可為輔助決策集成多個部門不同系統的大量數據。數據倉庫包含了大量歷史數據,經集成后進入數據倉庫的數據是極少更新的。數據倉庫內的數據時限為5至10年,主要用于進行時間趨勢分析。數據倉庫定義§10.1數據倉庫與空間數據倉庫數據倉庫(DataWarehouse,簡稱DW)是支持管91數據倉庫的數據量很大,一般為10GB左右。它是一般數據庫(100MB)數據量的100倍,大型數據倉庫達到TB級。

數據倉庫定義§10.1數據倉庫與空間數據倉庫數據倉庫是一種分析型環境,它與一般的DBMS的操作型環境是不同的,兩者的比較有利于對數據倉庫的理解。數據倉庫的數據量很大,一般為10GB左右。它是一般數據庫(92§10.1數據倉庫與空間數據倉庫數據倉庫(DW)數據庫(DB)分析型數據環境操作型數據環境面向分析(主題),支持DSS面向業務,日常事務處理集成的綜合數據非集成或者集成程度很低,主要是明細數據歷史數據(5-10年)主要關心當前數據(60-90天)定期加載,加載后極少更新實時更新數據驅動的開發周期(CLDS)需求驅動的開發周期(SDLC)§10.1數據倉庫與空間數據倉庫數據倉庫(DW)數據庫(93數據倉庫主要應用在兩個方面:使用瀏覽分析工具在DW中尋找有用的信息。數據倉庫系統支持在DW上的應用,形成決策支持系統(DSS)。數據倉庫應用§10.1數據倉庫與空間數據倉庫數據倉庫主要應用在兩個方面:數據倉庫應用§10.194地球是一個復雜多變的系統,傳統地學的各個學科由于自身的局限,其研究范圍已無法適應全球變化和區域可持續發展的要求。如在交通規劃中,往往需要使用大量歷史的、現實的空間數據以及各應用領域的復雜數據進行數據分析,涉及多維數據視圖的概念,僅靠關系數據庫就將難以解決。同時,傳統的GIS應用系統是面向應用、事務驅動的,其中分析所需要的主題相當分散,不同的操作平臺和數據標準使得決策支持系統幾乎無法實現數據共享。為此,必須通過大型的、多維化的數據庫系統進行統一的組織、管理。二、空間數據倉庫§10.1數據倉庫與空間數據倉庫空間數據倉庫的產生趨勢地球是一個復雜多變的系統,傳統地學的各個學科由于自身的局限,95數據倉庫正是這樣一種數據的存儲系統,它提供了來自異地、異構、種類不同的應用系統的集成化和歷史化的數據。對其加工后,在數據倉庫中存儲、提取和維護,靈活地重組數據,呈現出多維數據視圖,并且面向復雜的數據分析及高層的決策支持,從而為有關部門或企業進行全局范圍的多維分析、戰略決策和長期趨勢分析提供了有效的支持。由于空間數據的特殊性,空間數據倉庫在數據倉庫的基礎上需引入空間維數據,根據主題從不同的GIS應用系統中截取從瞬態到區段直至全球系統上的信息,從而提供最好的信息服務。空間數據倉庫的產生趨勢§10.1數據倉庫與空間數據倉庫數據倉庫正是這樣一種數據的存儲系統,它提供了來自96空間數據倉庫(SpatialDataWarehouse,簡稱SDW)是集成的、面向主題的、相對穩定的、反映時間變化和地理空間變化的空間數據存儲,以支持各級管理人員基于空間數據的分析和決策。空間數據倉庫的概念和內涵§10.1數據倉庫與空間數據倉庫空間數據倉庫(SpatialDataWareho97

空間數據倉庫是GIS、空間數據庫與數據倉庫技術相結合的產物,它在普通數據倉庫基礎上,引入空間數據,增加對空間數據的存貯、管理和分析能力,根據主題從不同的空間數據源中截取不同規模的時空尺度上的信息,從而為地學研究以及有關資源環境政策的制定等空間決策支持過程提供最好的信息服務。空間數據倉庫是數據倉庫與空間處理分析的綜合,具有空間,時間和主題的高度集成。從信息科學的角度來說,它是對數據倉庫加進了非結構化信息處理。

空間數據倉庫的概念和內涵§10.1數據倉庫與空間數據倉庫空間數據倉庫是GIS、空間數據庫與數據倉庫技術98SDW支持多種數據源:數據庫、數據文件、應用程序等;SDW中存放的不僅是供使用的數據,還有在一定激發條件下能主動其作用的處理規則、算法,甚至是過程等;SDW中數據并不完全是原始數據的簡單歸并和搬家,而是增值和統一,因此,“匯總并統一”是一種可取的描述;空間數據倉庫的概念和內涵§10.1數據倉庫與空間數據倉庫SDW支持多種數據源:數據庫、數據文件、應用程序等;空間99數據的集成化表明數據在結構上具有綜合性,并且在語言上是異構的,在進入SDW之前,必須經過加工和集成,這是SDW建設中最關鍵,最復雜的一步;歷史化表明它可以截取不同時間尺度上的信息,從瞬態到區段直到全體。SDW以時間為基準管理(積累,使用并處理)數據,即使依賴與時間維的數據結構;SDW保存和管理的是“對象”—數據以及與之相關的處理規則,算法和過程等的統一體,它們在SDW中以打包及有序存放的形式被保存和維護,且需要即可使用。空間數據倉庫的概念和內涵§10.1數據倉庫與空間數據倉庫數據的集成化表明數據在結構上具有綜合性,并且在語言上是異構的100空間數據倉庫的體系結構§10.1數據倉庫與空間數據倉庫空間數據倉庫應用(空間決策支持系統等)分析結果聯機分析處理數據挖掘數據倉庫中信息多級存儲策略數據庫空間數據庫系統(數據管理部分)SDBSDBSDB數據采集與輸入系統(數據源部分)核心GIS數據政府統計數據市場經濟數據土地利用數據分析工具數據轉換數據輸入決策運算MBKB空間數據倉庫空間數據倉庫的體系結構§10.1數據倉庫與空間數據倉101空間數據倉庫機制的研究圍繞空間數據倉庫的實際應用需求,探索空間數據倉庫的關鍵技術。(1)支持空間信息的空間數據倉庫模型:空間數據倉庫的數據模型是普通數據倉庫的數據模型的有效擴充,必須針對空間信息的特點,對星型模型和雪花模型進行擴展。(2)支持空間數據導航的元數據機制:空間數據倉庫的元數據是人們定義空間數據倉庫模型、理解空間數據意義的重要窗口,空間數據倉庫的元數據必須支持對空間數據分析的導航。空間數據倉庫的關鍵技術§10.1數據倉庫與空間數據倉庫空間數據倉庫機制的研究圍繞空間數據倉庫的實際應用102(3)面向海量空間信息的數據存儲策略:空間數據倉庫包含海量的空間信息。支持對海量空間信息的高效的存儲和檢索是空間數據倉庫的重要需求,也是空間數據倉庫的重要特征。因此需要研究面向海量空間信息的數據存儲策略。(4)面向海量空間信息高效檢索的空間索引機制:數據索引是提高數據檢索效率的有效途徑。由于空間數據倉庫中涉及海量的空間信息,因此需要研究面向空間數據倉庫的索引機制。空間數據倉庫的關鍵技術§10.1數據倉庫與空間數據倉庫(3)面向海量空間信息的數據存儲策略:空間數據倉庫包含海量的103(5)大規模空間數據處理:由于空間數據所包含的數據量比較大,當空間數據倉庫中地理數據、元數據以及歷史數據的數據量急速增長時數據的存儲和管理機制的調整策略等問題需要更加深入的研究。(6)查詢的建立和數據導航技術:空間數據的查詢通常比較復雜,而目前的用戶界面形式很難滿足。必須為空間數據倉庫數據查詢的輸入以及數據查詢的建立提供一套合適的機制。(7)快速計算、高速網絡、空間數據庫的無縫連接、數據挖掘、空間數據聯機分析和處理及服務的互操作等關鍵技術。

空間數據倉庫的關鍵技術§10.1數據倉庫與空間數據倉庫(5)大規模空間數據處理:由于空間數據所包含的數據量比較大,104目前國外數據倉庫以及空間數據倉庫方面的主要工作基礎有很多。Stanford大學的數據倉庫WHIPS(WareHouseInformationProjectatStanford);美國正在啟動一個空間信息處理項目EOS(EarthOverviewSystem),到2003年,對全球地面監測的精度將達到1米的分辨率,該項目對鞏固美國在全球的競爭優勢具有重要的作用。該項目的主要組成部分之一就是空間數據的聯機分析與挖掘技術的研究;IBM的Almenden實驗室、北美和德國的一些公司、和科研機構的實驗室在這個領域的研究中處于領先位置。國內外研究現狀§10.1數據倉庫與空間數據倉庫目前國外數據倉庫以及空間數據倉庫方面的主要工作基礎有105目前的空間數據倉庫原型系統主要有:AMicrosoftTerraServer(由JimGray主持),GeoMiner(由加拿大SimonFraser大學開發)等。在國內,國家“九五”科技重點攻關項目“空間信息共享和處理技術研究”專題項目已取得階段成果,提出了空間信息共享系統設計方案。視覺與聽覺信息處理國家重點實驗室開放課題基金項目“空間數據聯機分析與空間數據挖掘研究”,該項目重點對空間數據聯機分析與空間數據挖掘及底層的空間數據倉庫技術作基礎理論研究。國內外研究現狀§10.1數據倉庫與空間數據倉庫目前的空間數據倉庫原型系統主要有:AMicro106(1)空間數據倉庫模型的研究:空間數據面向主題的集成的一個關鍵步驟是空間數據倉庫的建模。空間數據倉庫的邏輯模型與普通數據倉庫模型一樣,通常采用類似的多維模型。普通數據倉庫模型通常采用星型模型或雪花模型。與普通數據倉庫模型相比,空間數據倉庫要管理復雜的空間數據類型,其維和度量中不僅可以包含簡單數據類型的數據,同時也可以包含空間對象。由于空間對象占用的存儲空間較大,其操作也比較復雜,這就需要擴充維和度量的定義,以便更有效地處理這樣的維和度量。目前空間數據倉庫主要研究內容§10.1數據倉庫與空間數據倉庫(1)空間數據倉庫模型的研究:空間數據面向主題的集成的一個關107(2)海量空間數據的存儲:空間數據倉庫通常以空間數據庫為基礎,由于空間數據倉庫涉及海量的空間信息,同時空間信息計算耗費的資源較多,確定空間信息的合理存儲策略(如數據分片等),以便計算和顯示,也是當前許多專家關注的焦點。

目前空間數據倉庫主要研究內容§10.1數據倉庫與空間數據倉庫(2)海量空間數據的存儲:空間數據倉庫通常以空間數據庫為基礎108(3)異構空間數據源的有效集成:空間數據倉庫所要集成的數據分布于各個企業或各個政府部門,這些數據源通常具有不同的數據格式;此外,空間數據的表示、存儲和訪問方式目前還沒有統一的標準,空間數據的語義也往往比較復雜。這就給空間數據的集成和共享帶來了極大的困難,如何實現空間數據的有效集成是國內外空間數據倉庫工程的一個重點和難點。

目前空間數據倉庫主要研究內容§10.1數據倉庫與空間數據倉庫(3)異構空間數據源的有效集成:空間數據倉庫所要集成的數據分109(4)空間數據倉庫的索引機制:空間數據庫的索引方法主要包括:z-序索引、四叉樹索引、kd-樹索引、R樹索引、R+樹索引等。由于空間數據倉庫中的數據具有海量的、極少更新的、隨時間變化的特點,其主要的操作是數據的追加和查詢,因此要求針對空間數據倉庫的特點設計更加合適的空間數據倉庫索引機制是空間數據倉庫機制的重要組成部分,也是目前許多專家關注的焦點。目前空間數據倉庫主要研究內容§10.1數據倉庫與空間數據倉庫(4)空間數據倉庫的索引機制:空間數據庫的索引方法主要包括:110(5)空間數據倉庫元數據機制:空間數據倉庫的元數據是確定空間數據倉庫的邏輯結構、存儲策略的重要組成部分。從數據倉庫建設者的角度來看,空間數據倉庫元數據是數據倉庫的描述,是關于數據加載方法和數據加載頻率、數據存儲和應用的描述信息。從用戶的角度來看,它是用戶理解和使用數據倉庫的向導。空間數據倉庫元數據的主要內容包括:數據倉庫的描述信息、數據倉庫的信息源描述、數據轉換方法描述信息、數據加載方法的描述信息、業務術語的定義、業務處理的規則的描述信息。因此要求建立合理的空間數據倉庫元數據的機制,確保空間數據倉庫的合理性和高可用性。目前空間數據倉庫主要研究內容§10.1數據倉庫與空間數據倉庫(5)空間數據倉庫元數據機制:空間數據倉庫的元數據是確定空間111按照關系數據庫之父E.F.Codd的定義,OLAP是大量多維數據的動態綜合(synthesis)、分析(analysis)與合并(consolidation),它是能夠快速交互地,方便地獲取它們所需信息的一些技術(多維數據分析,神經網絡等)的綜合,它通過快速、一致、交互地訪問各種可能的信息,試圖幫助數據分析人員、管理人員、決策者洞察數據顯示,掌握隱藏其中地規律。OLAP(聯機處理分析)

OLAP(OnlineAnalysisProcessing)的概念§10.1數據倉庫與空間數據倉庫按照關系數據庫之父E.F.Codd的定義,OL112關于OLAP地詳細定義,Codd曾給出了十二條準則,其后,還對其進行了擴充。根據OLAP產品的實際應用情況和用戶對OLAP產品的需求,人們提出了一種對OLAP更簡單明確的定義,即共享多維信息的快速分析(FastAnalysisofSharedMultidimensionalInformation,簡稱FASMI)。目前,常見的OLAP有基于多維數據庫的MOLAP(Multi-dementionOLAP)、基于關系數據庫ROLAP(RelationOLAP)以及混合的HOLAP(HybridOLAP)。OLAP(聯機處理分析)

OLAP的概念§10.1數據倉庫與空間數據倉庫關于OLAP地詳細定義,Codd曾給出了十二條準113OLTP和OLAP有很大的差別,在傳統的OLTP技術中,所依賴的是實體、聯系、功能分解、狀態轉換分析和事務處理等概念和方法;而在OLAP技術中,主要使用的是事實表、維表、層次(hierarchies)、稀疏性(sparsity)、指標聚集等概念和方法。

OLAP與OLTP的區別OLAP(聯機處理分析)§10.1數據倉庫與空間數據倉庫OLTP和OLAP有很大的差別,在傳統的OL114

OLAP與OLTP的區別OLAP(聯機處理分析)§10.1數據倉庫與空間數據倉庫OLTPOLAP時間短時間框架長時間框架狀態迅速變化的靜態的數據類型細節的、操作性數據綜合的、提煉的分析性數據查詢標準的事務隨機的、動態的查詢穩定性實時更新周期性刷新功能支持日常操作支持管理要求設計事件驅動面向應用數據驅動面向分析OLAP與OLTP的區別OLAP(聯機處理分析)§10115多維空間數據模型空間數據Cube的構造和維護空間Cube數據的多維顯示

OLAP目前主要研究內容OLAP(聯機處理分析)§10.1數據倉庫與空間數據倉庫多維空間數據模型OLAP目前主要研究內容OLAP(聯機116支持cube構造的多維數據存儲模型;空間數據cube實例化視圖選擇方法研究;空間數據cube的構造算法;在二級存儲中高效構造高維的cube和空間數據cube;

OLAP關鍵技術OLAP(聯機處理分析)§10.1數據倉庫與空間數據倉庫支持cube構造的多維數據存儲模型;OLAP關鍵技術117空間數據倉庫系統是引入數據倉庫后的計算機系統。其目標是支持用戶利用存儲地信息進行分析、處理和決策。空間數據倉庫由四部分組成:數據、計算機硬件、軟件、用戶。空間數據倉庫系統§10.1數據倉庫與空間數據倉庫空間數據倉庫系統是引入數據倉庫后的計算機系統。其118在操作上,GIS源數據由異構變為同構,消除了數據模型及語法、語義的差異,數據庫可直接被DBMS訪問,加快了查詢和分析處理的速度。訪問倉庫的數據不需要占用信息源的系統資源,不會像直接訪問信息源那樣增加開銷。在功能上,除了便于管理、維護外,GIS空間數據倉庫為其數據挖掘準備了條件。如果數據挖掘技術利用得當,還可擴充GIS的功能,當然,數據倉庫及其技術并未拋棄關系型數據庫和DBMS的一系列功能。使用空間數據倉庫的優勢§10.1數據倉庫與空間數據倉庫在操作上,GIS源數據由異構變為同構,消除了數據模型及語法、119有望解決OPENGIS在數據上不一致的問題。具有明顯的社會意義,有利于加強商業、資源、環境等的宏觀決策。可以說,數據倉庫是伴隨著C/S技術和并行數據庫的發展孕育而生的,大型GIS要處理多源的、多變量的、異構的、海量的地理數據,就要采用能解決這些問題的技術。數據倉庫技術可以解決其中的一些問題。GIS中使用空間數據倉庫的優勢§10.1數據倉庫與空間數據倉庫有望解決OPENGIS在數據上不一致的問題。GIS中使用120空間數據粒度的劃分;空間數據的分割(面向圖幅、面向圖層、面向專題要素);空間元數據的設計、管理及其標準化。開發數據倉庫應注意的問題§10.1數據倉庫與空間數據倉庫空間數據粒度的劃分;開發數據倉庫應注意的問題§10.1121§10.2空間數據基礎設施空間信息基礎設施的定義

空間信息基礎設施的目標

空間信息基礎設施組成

空間信息基礎設施體系結構

NII&NSIISDW&NSII

§10.2空間數據基礎設施空間信息基礎設施的定義122美國于1994年頒布了總統行政令,實施國家空間數據基礎設施NSDI計劃。國家空間信息基礎設施(NationalSpatialInformationInfrastructure,簡稱NSII)的定義為:“一個國家內描述地球上地理要素和現象的分布及其屬性的所有地理信息的組合,以及對這些信息的獲取、處理、存儲、分發和提高使用所需的技術、政策、標準和人力資源”。NSII是為使用、生產和管理與地理空間信息有關的社會各部門以及個人提供基礎信息環境和支持,是國家信息基礎設施的子集。一、國家空間信息基礎設施定義§10.2空間數據基礎設施美國于1994年頒布了總統行政令,實施國家空間數據基123在今天的信息社會和網絡環境下,它是一個分布式異構的地理空間信息資源網絡。空間信息基礎設施的體系結構是實施地理空間信息基礎設施概念的邏輯模型。空間信息基礎設施在區域層次上分為全球空間信息基礎設施(GSII)、區域空間信息基礎設施(RSII)和國家空間信息基礎設施(NSII)。一、國家空間信息基礎設施定義§10.2空間數據基礎設施在今天的信息社會和網絡環境下,它是一個分布式異構124空間信息具有區域性、綜合性和共享性,NSII旨在建立作為各部門共同使用的基礎信息,避免部門重復建設問題,提高信息標準化程度,為信息共享和網絡上的協作掃除障礙。空間信息基礎設施的目標是建立、維護和使用一個空間信息框架。空間信息框架包括兩方面的內容:一是空間信息內容,即框架的基礎空間數據和專題數據;二是空間信息服務,即提供對空間信息的共享、集成和互操作的功能和接口。二、NSII的目標§10.2空間數據基礎設施空間信息具有區域性、綜合性和共享性,NSII旨在建立作為各部125空間信息基礎設施提供兩種服務:一是為廣大社會群眾提供普通服務,回答普通群眾關心的環境、交通、旅游、新聞、房地產、商業、公共設施建設以及其它社會問題,用戶通過簡單的個人計算機瀏覽界面,查詢空間信息;二是為各個專用部門的特殊應用服務,包括資源開發、環境管理、生態監測、區域規劃等制圖和空間分析,并為可持續發展提供信息和決策支持。二、NSII的目標§10.2空間數據基礎設施空間信息基礎設施提供兩種服務:一是為廣大社會群眾提供普通服務126信息網絡:主要包括由國內外各種空間數據與信息的生產者、經營者和用戶所構成的網絡及其相應的管理系統、軟硬件設備等內容。數據獲取:主要包括各專業部門和地方的第一手數據的獲取系統及其產品(包括各種類型的數字空間信息和有空間參考的信息)信息服務:主要包括持續地對地理空間數據產品進行各種增值加工處理,即信息提取;完成客戶提出的各種信息分析應用任務;為各級政府提供規劃、管理和決策支持方面的服務內容。三、NSII的組成§10.2空間數據基礎設施信息網絡:主要包括由國內外各種空間數據與信息的生產者、經營者127技術工具:主要包括能夠高效、持續地對來自數據獲取部分的地理空間數據產品(也包括遙感數據產品)進行信息提取、分析應用與咨詢服務的各種軟、硬件技術、方法與工具。政策、規劃、標準

伙伴關系:包括從事空間數據、信息及其服務的各種機構、人員及其之間的關系。三、NSII的組成§10.2空間數據基礎設施技術工具:主要包括能夠高效、持續地對來自數據獲取部分的地理空128四、NSII體系結構

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論