




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第八講空間元數據1、元數據的基本概念2、元數據的內容及標準 3、元數據的表達4、元數據系統5、元數據應用1、元數據的基本概念元數據(Metadata)是關于數據集的數據,是數據集的說明或描述。在地理信息系統中用于描述地理數據集的內容,質量等數據的一些特征。它可以幫助人們查找和理解數據。
1、元數據的基本概念 ——實例元數據并不是一個新的概念,以下各例均可以看成是元數據:傳統的圖書館卡片
出版圖書的版權說明
磁盤的標簽
紙制地圖的元數據表示為:地圖類型、地圖圖例、圖名、空間參照系統和圖廓坐標地圖內容說明、比率尺和精度、編制出版單位日期或更新日期、銷售信息
…1、元數據的基本概念 ——數據存儲我們所討論的元數據是以數據的形式存儲的,這不同于以往的元數據。它應盡可能多地反映數據集自身的特征規律,以便于用戶對數據集的準確、高效與充分的開發與利用,不同領域的數據庫,其元數據的內容會有很大差異。通過元數據可以檢索、訪問數據庫,可以有效利用計算機的系統資源,可以對數據進行加工處理和二次開發等。
科學界關于元數據認識的共同點是:元數據的目的就是促進數據集的高效利用,并為計算機輔助軟件工程(CASE)服務。
1、元數據的基本概念 ——空間元數據空間元數據(GeoMetadata),是關于地理相關數據和信息資源的描述性信息。它通過對地理空間數據的內容、質量、條件、位置和其他特征進行描述與說明,幫助和促進人們有效地定位、評價、比較、獲取和使用地理相關數據。對空間數據某一特征的描述,稱為一個空間元數據項。
空間元數據是一個由若干復雜或簡單的元數據項組成的集合。空間元數據是對地理空間數據的一個抽象映射。從這個意義上來說,空間元數據和地理空間數據是對地理空間實體不同抽象層次的描述,是對地理信息的不同深度的表達,它們統一于它們所反映的客觀內容。
1、元數據的基本概念 ——空間元數據概念列舉空間數據(GeospatialData):用于確定具有自然特征或者人工建筑特征的地理實體的地理位置、屬性及其邊界的信息;類型(Type):在元數據標準中,數據類型指該數據能接收的值的類型;對象(Object):對地理實體的部分或整體的數字表達;實體類型(EntityType):對于具有相似地理特征的地理實體集合的定義和描述;點(Point):用于位置確定的零維地理對象;結點(Node):拓撲連接兩個或多個鏈或環的一維對象;標識點(LabelPoint):顯示地圖后圖表時用于特征標識的參考點;線(Line):一維對象的一般術語;線段(LineSegment):兩個點之間的直線段;串(String):由相互連接的一系列線段組成的沒有分支線段的序列,它可與自身或與其它線相切;弧(Arc):由數學表達式確定的點集組成的弧狀曲線;鏈(Link):兩個結點之間的拓撲關聯;鏈環(Chain):非相切線段或由結點區分的弧段構成的有方向無分支序列;環(Ring):封閉狀不相切鏈環或弧段序列;多邊形(Ploygon):在二維平面中由封閉弧段包圍的區域;1、元數據的基本概念 ——空間元數據概念列舉(續一)外多邊形(UniversePolygon):數據覆蓋區域內最外側的多邊形,其面積是其它所有多邊形的面積之和;內部區域(InteriorArea):不包括其邊界的區域;格網(Grid):組成一規則或近似規則的棋盤狀鑲嵌表面的格網集合,或者組成一規則或近似規則的棋盤狀鑲嵌的點集合;格網單元(GridCell):表示格網最小分為要素的二維對象;矢量(Vector):有方向線的組合;柵格(Raster):同一格網或數字影像的一個或多個疊加層;像元(Pixel):二維圖形要素,它是數學影像最小要素;柵格對象(RasterObject):一個或多個影象或格網,每個影象或格網表示一個數據層,各層之間相應的格網單元或像元一致且相互套準;圖形(Graph):與預定義的限制規則一致的零維(如node)、一維(link或chain)和二維(T多邊形)有拓撲相關的對象集;數據層(Layer):集成到一起的面域分布空間數據集,它用于表示一個主體中的實體,或者有一公共屬性或屬性值的空間對象的聯合;層(Stratum):在有序系統中數據層、級別或梯度序列;緯度(Latitude):在中央經線上度量,以角度單位度量離開赤道的距離;經度(Longitude):經線面到格林尼治中央經線面的角度距離;1、元數據的基本概念 ——空間元數據概念列舉(續二)經圈(Meridian):穿過地球兩極的地球的大圓圈;坐標(Ordinate):在笛卡爾坐標系中沿平行于X軸和Y軸測量的坐標值;投影(Projection):將地球球面坐標中的空間特征(集)轉化到平面坐標體系時使用的數學轉化方法;投影參數(ProjectionParameters):對數據集進行投影操作時用于控制投影誤差、變形實際分布的參考特征;地圖(Map):空間現象的空間表征,通常以平面圖形表示;現象(Phenomenon):事實、發生的事件、狀態等;分辨率(Resolution):由涉及到或使用的測量工具或分析方法能區分開的兩個獨立測量或計算的值的最小差值;質量(Quality):數據符合一定使用要求的基本或獨特的性質;詳述(Explicit):由一對數或三個數分別直接描述水平位置和三維位置的方法;介質(Media):用于記錄、存儲或傳遞數據的物理設備。2、元數據的內容及標準 ——元數據的內容元數據的內容包括:對數據集的描述;對數據集中各數據項、數據來源、數據所有者及數據序代(數據生產歷史)等的說明;對數據質量的描述,如數據精度、數據的邏輯一致性、數據完整性、分辨率、元數據的比例尺等;對數據處理信息的說明,如量綱的轉換等;對數據轉換方法的描述;對數據庫的更新、集成等的說明。
2、元數據的內容及標準 ——空間元數據的內容
確定一套地理空間數據的存在性及其位置確定一套地理空間數據對某種應用的適宜性確定獲取一套地理空間數據的手段確定成功地轉換一套地理空間數據的方法和途徑確定一套地理空間數據的存儲與表達方法確定一套地理空間數據的使用方法
…
2、元數據的內容及標準 ——元數據的分類(按內容劃分)科研型元數據:這類元數據的任務是幫助科研工作者高效獲取所需數據,內容包括數據源名稱、作者、主體內容等傳統的、圖書管理式的元數據,以及數據拓撲關系。評估型元數據:主要服務于數據利用的評價,內容包括數據最初收集情況、收集數據所用的儀器、數據獲取的方法和依據、數據處理過程和算法、數據質量控制、采樣方法、數據精度、數據的可信度、數據潛在應用領域等。模型元數據:用于描述數據模型的元數據與描述數據的元數據在結構上大致相同,其內容包括模型名稱、模型類型、建模過程、模型參數、邊界條件、作者、引用模型描述、建模使用軟件、模型輸出等。2、元數據的內容及標準 ——元數據的分類(按對象劃分)數據層元數據:指描述數據集中每個數據的元數據,內容包括日期郵戳、位置戳、量綱、注釋、誤差標識、縮略標識、存在問題標識、數據處理過程等。屬性元數據:是關于屬性數據的元數據,內容包括為表達數據及其含義所建的數據字典、數據處理規則(協議),如采樣說明、數據傳輸線路及代數編碼等。實體元數據:是描述整個數據集的元數據,內容包括數據集區域采樣原則、數據庫的有效期、數據時間跨度等。2、元數據的內容及標準 ——元數據的分類(按系統作用劃分)系統級別元數據:指用于實現文件系統特征或管理文件系統中數據的信息,如訪問數據的時間、數據的大小、在存儲級別中的當前位置、如何存儲數據塊以保證服務控制質量等。應用層元數據:指有助于用戶查找、評估、訪問和管理數據等與數據用戶有關的信息,如文本文件內容的摘要信息、圖形快照、描述與其它數據文件相關關系的信息。2、元數據的內容及標準 ——元數據的分類(按作用劃分)說明元數據:是為用戶使用數據服務的元數據。它一般用自然語言表達,如源數據覆蓋的空間范圍、源數據圖的投影方式及比例尺的大小、數據集說明文件等,這類元數據多為描述性信息,側重于數據庫的說明。控制元數據:是用于計算機操作流程控制的元數據,這類元數據由一定的關鍵詞和特定的句法來實現。其內容包括數據存儲和檢索文件、檢索中與目標匹配方法、目標的檢索和顯示、分析查詢結果排列顯示、數據轉換方法、空間數據和屬性數據的集成、根據索引項把數據繪制成圖、數據模型的建設和利用等。這類元數據主要是與數據庫操作有關的方法。
2、元數據的內容及標準 ——建立元數據標準的必要性空間數據是一種結構比較復雜的數據類型。它涉及到對于空間特征的描述,也涉及到對于屬性特征及其它們之間關系的描述,所以空間數據元數據標準的建立是項復雜的工作;由于種種原因,某些數據組織或數據用戶開發出來的空間數據元數據標準很難為地學界所廣泛接受。但空間數據元數據標準的建立是空間數據標準化的前提和保證,只有建立起規范的空間數據元數據才能有效利用空間數據。2、元數據的內容及標準 ——元數據的標準
當前,人們對于空間元數據的研究已形成了兩個標準:美國聯邦數據委員會(FGDC)的空間元數據標準國際標準化組織(ISO/TC211)的空間元數據標準這兩個標準從不同側面對地理空間數據進行了比較詳細的描述。
2、元數據的內容及標準 ——FGDC空間元數據標準
美國聯邦地理數據委員會(FederalCongraphicDataCommittee,FGDC)成立于1990年,由來自16個單位的17位專家組成。1994年8月FGDC通過并發布第一版CSDGM。此后,美國聯邦政府內外的許多單位根據12906號總統令的要求,從1995年開始執行這一標準。FDGC于1997年完成了第二版CSDGM,并于1998年6月認可了該標準(FGDC-STD-001-1998)。
2、元數據的內容及標準 ——FGDC空間元數據標準 根據最新的FGDC的用戶手冊,標準中定義了三類元素:子集(Sectoins):標準中主要的章節被稱為子集,其實它也是復合元素。復合元素(CompoundElement):一組相關的數據元素或者其它復合元素。
數據元素(DataElement):從邏輯上不可再分割的數據項。
每個元素可以是必選的,可選的,或者是一定條件下可選的(如元數據的實例包含了某個子集、復合元素或具有了某個屬性,就必須提供信息)。2、元數據的內容及標準 ——FGDC空間元數據標準 FGDC元數據標準的各個子集的示意圖
其中1到7是主要子集,而8到10屬于次要子集,它們不能單獨存在,只能在主要子集中被引用。2、元數據的內容及標準 ——FGDC空間元數據標準信息項說明標識信息(Identification)是關于數據集的基本信息。主要包括:引用,描述信息,狀態信息,空間范圍,關鍵詞,訪問限制,使用限制等。數據質量信息(DataQuality)
對數據質量進行總體評價的信息。包括屬性精度,邏輯可靠性報告,完整性報告,位置精度,繼承信息(數據源+處理步驟)等。
空間數據表示信息(SpatialDataOrganization)
數據集中空間信息的組織方法。由空間表示類型,矢量空間表示信息,柵格空間表示信息等組成。
空間參照系信息(SpatialReference)數據集中坐標的參考框架以及編碼方式的描述,是反映現實世界和地理數字世界之間關系的通道。包括平面坐標系定義和垂直坐標系定義。2、元數據的內容及標準 ——FGDC空間元數據標準 信息項說明實體和屬性信息(EntityandAttribute)
是關于數據集內容的細節信息,包括實體類型,它們的屬性及屬性的值域。
發行信息(Distribution)
是關于數據發行和獲取的信息。包括發行部門,數據資源描述,發行部門責任,獲取手段等。
元數據參考信息(MetadataReference)
元數據當前狀況及其負責部門的信息,包括元數據日期信息、聯系地址,制定元數據所使用的標準、版本、限制條件、安全信息以及元數據擴展信息等,是當前數據集所作元數據的描述的依據。引用信息(Citation)
引用和參考數據集時所需的簡要信息。包括標題、作者信息和參考時間等。
2、元數據的內容及標準 ——FGDC空間元數據標準 信息項說明時間范圍信息(TimePeriod)
有關事件的日期和時間信息,被主要子集的元素引用。
聯系信息(Contact)
在主要子集中被引用的有關個人或組織的聯系信息。【注】:美國FGDC元數據標準除在美國國內廣泛使用外,加拿大、印度等國也同等采用,作為各自的國家標準。ISO/TC211利用該標準文本作為基礎,正在制定相應的國際標準。
2、元數據的內容及標準 ——ISO/TC211空間元數據標準 國際標準化組織ISO作為全球標準的權威機構,對地理數據標準化問題一直比較重視。1994年后期,國際標準化組織面對地理信息數據標準化的趨勢,成立了地理信息/地球信息業技術委員會,即ISO/TC211編號為15046,用于專門研究和建立一個處理與地球位置有直接或間接關系的地理對象或現象的標準體系。ISO/TC211的元數據標準以FGDC等現有標準為基礎,按照國際標準化組織制定的標準導則要求制定。其工作范圍是:定義說明地理信息和服務所需要的信息。提供有關數字地理數據標識、覆蓋范圍、質量、空間和時間模式、空間參照系統和發行信息。該標準適用于數據集編目、數據交換網絡,以及數據集的詳盡說明。適用于地理數據集、數據集系列、地理要素和屬性。2、元數據的內容及標準 ——ISO/TC211空間元數據標準TC211于1998年9月發布了地理信息元數據元數據標準的草案TC21115046-15。標準
一共有400多個元素分為:必選、可選或一定條件下必選幾種,同時標準還提出了用戶自己擴充元數據的方法。標準中定義了兩級元數據:一級元數據:主要用于支持數據編目和空間信息交換中心的數據發現服務,包含了53個元數據元素。二級元數據:提供了更完全的數據集描述,包含了13種類型的元數據。2、元數據的內容及標準 ——ISO/TC211空間元數據標準二級元數據標識信息(Identificationinformation)數據質量信息(DataQualityinformation)譜系信息(Lineageinformation)空間數據表示(Spatialdatarepresentation)參考系統信息(Referencesysteminformation)
特征目錄信息(Featurecatalogueinformation)
發布信息(Distributioninformation)元數據參考信息(Metadatareferenceinformation)引用信息(Citationinformation)
數據負責者信息(Responsiblepartyinformation)
地址信息(Addressinformation)
范圍信息(Extentinformation)在線資源信息(
On-lineresourceinformation)
其中前8個是元數據的子集而后5個是可重復的實體,它們不能單獨使用,總是作為一個單元出現在8個子集中。
2、元數據的內容及標準 ——ISO/TC211空間元數據標準ISO/TC211空間元數據標準是至今最完整、也是最為復雜的元數據標準方案。另外,還有一個英國Dublin元數據核心標準。它是1995年3月由有關圖書館、數字圖書館、標記語言等方面的專家們制定的一個有關網絡電子資源的發現標準(RFC2413)。有關這一標準的詳細說明請參考實驗室張穎碩士論文。2、元數據的內容及標準 ——我國元數據的發展與國外相比,我國對地理信息元數據的研究以及對相關標準的制定和實施剛剛起步。按照國家“九五”科技攻關計劃“中國可持續發展信息共享示范”和“國土資源與地區經濟信息系統和國家空間信息基礎設施關鍵技術研究”兩個項目的相關專題設計,通過對前兩個國際標準的研究分析,初步制定了項目內部使用的《中國可持續發展信息共享元數據標準》和《NREDIS信息共享元數據內容標準草案》。2、元數據的內容及標準 ——NREDIS信息共享元數據標準我國在元數據方面的標準主要是參考美國的FGDC地理空間元數據標準。NREDIS信息共享元數據標準是有代表性的一個。在該標準中,各個元素的選擇主要基于以下四方面來考慮:數據集的可用性數據集的適用性如何獲取數據集如何使用數據集2、元數據的內容及標準 ——NREDIS信息共享元數據標準
NREDIS信息共享元數據標準的標準組織結構:章節部分 標明該標準是由何樣層狀結構組織元數據元素和復合元素。復合元素 由數據元素和其它符合元素組成,表示較高層次的概念。元素 元數據的最基本信息單元,包括元素名、定義、類型、值域、域名縮寫。類型有integer、real、text、date、time五種。域名縮寫由少于八個字符組成。值域指明了元素的取值范圍。日期 用不同的時間格式表示不同的公元時間段。如,公元元年到公元9999年12月31日,用YYYYMMDD表示。2、元數據的內容及標準 ——NREDIS信息共享元數據標準
NREDIS信息共享元數據標準的標準組織結構:時間 有地方時、帶時差的地方時和統一時三種表示。例如帶時差的地方時可以表示為HHMMSSSSshhmm,其中HHMMSSSS表示地方時,s表示時間差符號(+/-),hhmm表示時間差的時和分。經緯度 用十進制小數表示經緯度。維度在赤道以北,用+標明,以南用-標明;經度在主子午線以東用+(或不加符號)標明,以西用-標明。網址和文件名 文件名和網址遵循Internet的URL規定。元素的可選條件 包括必選(Mandatory)、條件必選(Mandatory-if-Applicable)和可選(Optional)。2、元數據的內容及標準 ——NREDIS信息共享元數據標準
NREDIS信息共享元數據標準的標準組織結構:產生規則 用于確定一個復合元素和它的下一級的數據元素和復合元素之間的關系。例如:
a=b+c:a由b和c組成;
a=[b|c]:a由b或c組成;
a=4{b}6:a由b重復4到6次組成。擴展性 數據集生產者和共享用戶可以定義擴展元素,它是不包括在標準中的元素。定義時,必須符合標準的繼承結構,不能改變標準元素的名稱、定義。類型和域,可以定義為符合元素,也可以包括擴展和標準元素。3、元數據的表達 ——XML和元數據現今網絡時代,XML即將成為網上信息交換的基本格式。XML本身具有的特點使它很自然的成為元數據表達的基本方式(我們假定大家對XML本身已經有了一定了解):純文本表示,具有平臺無關性
信息的內容與信息的表示是分開的,可滿足各種不同的需求
系統可以利用XML來方便地表達元數據
系統可以利用XML的樣式語言來實現元數據間的轉換和顯示
可以方便地查詢系統元數據
業界對XML技術有廣泛的支持
3、元數據的表達 ——DTD和XMLSchema上面已經提到,XML的優勢之一在于數據和描述的分離。而用來描述XML數據本身的DTD(DocumentTypeDefinition)和XMLSchema成為元數據定義的主要表達方式。DTD(DocumentTypeDefinition)
由XML1.0規范提出,它是XML文檔的文檔類型聲明段。它規定了元素的結構和屬性列表以及元素間的邏輯關系,以對XML文檔進行有效性檢查。
XMLSchema XMLSchema是定義XML標記集合和應用的元語言,它的功能就類似于XML1.0中的文檔類型定義(DTD)。
但是給出了更多的擴展,而且本身也用XML表達。3、元數據的表達 ——DTD和XMLSchema數據XML數據文件Schema文件XML1.0DTD或XMLSchema內容信息結構和限制信息保證文檔是格式良好的保證文檔的有效性DTD、XMLSchema對XML的格式定義3、元數據的表達 ——DTD對XML文檔的定義帶有DTD定義的XML數據文件3、元數據的表達 ——XMLSchemaXMLSchema是定義XML標記集合和應用的元語言,它的功能就類似于XML1.0中的文檔類型定義(DTD)。XMLSchema中增加許多新的機制,包括可以規定元素和屬性的數據類型(比如整型,日期類型)、可以明確地支持名域,以及比DTD更為強大的內容模型(包括簡單類型和復雜類型)等。XMLSchema在聲明的時候使用的也是XML,而不是其它特殊的記法。這就意味著XMLSchema文檔可以被普通的XML軟件所處理,而不象DTD那樣需要特殊的工具。
3、元數據的表達 ——XMLSchema的一些概念
類型定義:簡單類型定義(SimpleTypeDefinition)
復雜類型定義(ComplexTypeDefinition)
類型繼承:限制性繼承(DrivingComplexTypesfromRestriction
)
擴展性繼承(DrivingTypesfromExtention)
元素聲明屬性聲明(AttributeDeclarations)
模型組(ModelGroup):Sequence,Choice,All元素重復次數:minoccur
和maxoccur返回一個較為復雜的XML數據文件該數據文件的XMLSchema文件3、元數據的表達 ——XML、RDF和元數據
XML和元數據
XML的一個很大的優點就是具有自說明性,因為通過文件的DTD和XMLSchema就可以了解數據集的結構信息――可以說,雖然沒有直接說DTD和XMLSchema是元數據,其實它在功能上講就是一種元數據——是關于數據集關系和數據元素限制條件的元數據,所以用它們來表示數據集間的關系顯得很自然。
RDF和元數據
RDF(ResourceDefineFramework)是一種用來描述網上資源的元數據描述框架,而RDFSchema可以定義RDF所須的標簽詞匯,通過subClassOf和subPropertyOf等概念,RDFSchema不僅可以描述對象類之間的派生關系,也可以描述屬性成員上的約束關系。由于目前對RDFSchema的支持軟件明顯不如DTD和XMLSchema,在這里不再過多介紹RDF。
3、元數據的表達 ——用XML表示元數據XML1.0規范(包含了DTD的說明)XMLSchemaRDF標準元數據共識元數據用戶自定義元數據元數據記錄系統的元數據利用XML來表示元數據3、元數據的表達 ——元數據表示實例下面給出了一段關于圖層元數據的DTD表達<!--空間元數據DTD表示--><!--0.空間元數據--><!ELEMENTmetadata(idinfo,dataqual?,spdoinfo?,spref?,eninfo?,distinfo?,metainfo,locate?)><!--標識信息部分--><!--1.標識信息:
是關于數據集的基本信息--><!ELEMENTidinfo(citeinfo,descript,timeinfo,status,spdom,keywords,accconst,useconst,ptcontac?,secinfo?)><!--1.1引用
在citeinfo中有描述--><!--1.2描述信息--><!ELEMENTdescript(EMPTY)><!ATTLISTdescriptabstractCDATA#IMPLIEDpurposeCDATA#IMPLIED>
3、元數據的表達 ——元數據表示實例(續)<!--1.3內容時間信息--數據集內容相應與參考時間的時間信息,在timeinfo中有描述--><!--1.4狀態--數據集的狀態和維護信息--><!ELEMENTstatusEMPTY)><!ATTLISTstatusprogress(Complete|Inwork|Planned)“Planned”update(Continually|Daily|Weekly|Monthly|Annually|Unknown|Asneeded|Irregular|Noneplanned)“Unknown”><!--1.5空間范圍--數據集中的地理區域--><!ELEMENTspdomEMPTY><!ATTLISTspdomwestbcCDATA#REQUIREDeastbcCDATA#REQUIREDnorthbcCDATA#REQUIRED
3、元數據的表達 ——元數據表示實例(續)southbcCDATA#REQUIRED><!--1.6關鍵詞—概括數據集某一方面特性的詞或短語--><!ELEMENTkeywordsEMPTY><!ATTLISTkeywordsthemeCDATA#IMPLIEDplaceCDATA#IMPLIEDstratumCDATA#IMPLIEDtemporalCDATA#IMPLIED><!--1.7訪問限制--存取數據集的必要的限制和規定--><!ELEMENTaccconst(#PCDATA)><!--1.8聯系信息--可知的關于數據集的個體或團體的聯系信息--><!ELEMENTuseconst(#PCDATA)>
4、元數據系統 ——元數據系統和GeoMeta
雖然利用目前一些現成的免費軟件很快就可以搭建一個元數據系統,比如說國內的用戶就可以直接到國家空間信息基礎設施網站下載I-Site的相關軟件包,但其無論是在對元數據的描述能力還是存儲和查詢的支持都十分有限。
考慮到上面我們使用XML作為元數據的表達工具,一個能夠使用XML來描述各種層次的元數據以及基于XML進行元數據存儲、轉換和查詢的元數據系統將能夠反映基本的元數據集成操作的主要特征。以下我們將重點介紹實驗室設計的GeoMeta——一個基于XML的地理信息元數據系統。4、元數據系統 ——GeoMeta體系結構Z39.50查詢處理器Z39.50服務器元數據管理器查詢處理器GeoMeta服務器文件系統元數據管理工具元數據查詢工具Z39.50客戶端GeoMeta通訊協議WEB服務器網關元數據庫服務器Z39.50協議Z39.50協議GeoMeta通訊協議系統配置工具數據庫WWWHTTPHTTPGeoMeta服務端GeoMeta客戶端通訊協議網關GeoMeta系統在參考了FGDC提供的用于建設空間信息交換中心(ClearingHouse)
的I-Site系列軟件和由BlueAngelTechnologies公司開發的MetaStar系列產品后設計并部分實現的。主要包括服務器端的GeoMeta服務器、元數據管理器、查詢處理器和系統配置工具,客戶端的元數據查詢工具和元數據管理工具。為了方便用戶使用,服務器還提供一個網關使得用戶可以通過WWW網在瀏覽器中對系統進行查詢和管理。由于通過Z39.50協議不容易表達XQuery查詢,系統設計了一個簡單的通訊協議――GeoMeta協議。
4、元數據系統 ——GeoMeta系統簡介4、元數據系統 ——GeoMeta系統的服務器端
GeoMeta服務器:是元數據服務器對外的接口。主要負責接收來自客戶端的按GeoMeta通訊協議組織的消息,經過解析后調用相應的功能模塊,然后將結果組織好后返回給客戶端。元數據管理器:負責管理各種元數據的模式文件(DTD或XMLSchema)以及它們的元數據記錄。用戶可以通過元數據管理工具來編輯元數據的模式文件并加入到系統中,還可以建立一些系統元數據之間的映射關系,以及各種數據的輸入輸出格式與系統元數據的映射關系從而方便地導入和導出不同格式的元數據文件。它還負責元數據記錄的添加、刪除和修改。查詢處理器:負責處理由GeoMeta服務器傳過來的各種查詢要求(例如支持最簡單的關鍵詞查詢,結構化或半結構化的帶限制的XQuery查詢語句)。4、元數據系統 ——GeoMeta系統的服務器端
Z39.50服務器:負責接收來自Z39.50客戶端的查詢請求。將請求重新組織后交給Z39.50查詢處理器,得到結果后將其按用戶要求組織,返回給客戶端。
Z39.50查詢處理器:根據用戶的請求查詢請求,參照系統的檢索屬性映射表和系統的實際存儲策略來構造查詢語句,得到結果后返回給Z39.50服務器。
系統配置工具:負責配置元數據庫服務器的系統參數,比如GeoMeta服務器的監聽端口、文件管理目錄等等。還負責維護為支持Z39.50協議而保存的檢索屬性映射表和屬性與元數據元素的對應關系。
4、元數據系統 ——GeoMeta系統的客戶端元數據查詢工具:查詢工具由用戶界面模塊和協議處理傳輸模塊構成,可以是基于GeoMeta通訊協議的應用程序、嵌入式構件(COM)或JavaApplet。由于系統所支持的查詢語言不是一般用戶能書寫的,所以要由用戶界面模塊來負責與用戶交互,輸入查詢條件和呈現查詢結果。而協議處理傳輸模塊負責將用戶界面模塊收集到的查詢參數組織成查詢語句,再根據GeoMeta協議產生系統消息,通過TCP/IP協議發送給GeoMeta服務器。接受到返回結果后拆包,將查詢結果交用戶界面模塊顯示。如果是在瀏覽器上做查詢界面,只需在HTML的表單中收集到查詢的參數,發送給WEB服務器就可以取得以HTML格式返回的數據了。
元數據管理工具:結構同上,主要是要提供給用戶一個友好的界面來管理元數據模式信息、元數據記錄以及各種映射關系,包括增、刪、改和顯示。它也是既可以走GeoMeta通訊協議也可以通過瀏覽器來處理。不同的是它需要先登錄,才能進行權限內的一些操作,還需要對前面的操作有所記錄,以便做日志或支持取消操作。
Z39.50客戶端:幫助用戶構造基于Z39.50協議的查詢并呈現返回結果。
4、元數據系統 ——GeoMeta系統的客戶端
HTTP協議:為了讓用戶能通過瀏覽器來進行各種操作,系統必須支持HTTP協議。
GeoMeta通訊協議:GeoMeta系統自行設計的基于XML的通訊協議。協議通過XMLSchema文件描述了不同種類的服務以及服務參數和返回結果。這樣就可以由GeoMeta服務器統一接收消息,經過解釋器處理以后發送到相應的功能模塊。這樣系統服務的添加和修改就顯得比較簡單,只需雙方都有該服務的那部分Schema就可以通訊了,而且由于消息是純文本格式,還避免了不同平臺的字符編碼問題。
39.50協議:是一種在客戶/服務器環境下計算機與計算機之間進行數據庫檢索的通訊協議。它的出版及使用解決了不同系統間的數據交流的問題,克服了信息檢索網絡化的障礙。4、元數據系統 ——GeoMeta系統的協議
GeoMeta系統包括GeoMeta網關和Z39.50網關。它在某個意義上相當于客戶端的協議處理傳輸模塊的工作。它的主要功能是將用戶通過HTTP協議傳過來的一系列參數轉化為滿足協議的系統消息,然后發送到服務器,最后將結果以HTML格式的形式返回給瀏覽器。系統使用CGI程序來做GeoMeta網關,對于Z39.50網關使用現成的免費軟件。
4、元數據系統 ——GeoMeta系統的網關4、元數據系統 ——基于XML的數據存儲策略用XML來表達和傳輸元數據已為大家普遍接受,所以如何有效地管理基于XML的元數據(特別是海量的元數據)以方便用戶查詢必然是元數據系統需要解決的問題。由于目前還沒有出現可用的XML數據庫,雖然XML文件有諸多優勢,但并沒有表現在存儲上。盡管我們希望數據存儲和表達能有比較好的對應,但在真正有效的XML數據庫出現以前,任何存儲策略只需通過接口服務程序使得在用戶看來系統的數據是按XML的模式來存儲的,并且可以將滿足這些模式的XML數據文件存入系統,同時可以要求結果按某種XML模式返回就可以了(當然能支持XQuery更好)。
4、元數據系統 ——基于XML的數據存儲策略Wrapper(包裝)自己格式的數據XML數據庫XMLVIEWXMLVIEW示意圖4、元數據系統 ——GeoMeta的數據存儲策略GeoMeta的突出特點之一是給出了比較完備的數據存儲策略。它支持以下類型的元數據的存儲:無結構的存儲
基于線性域段結構的存儲
基于結構的存儲
4、元數據系統 ——GeoMeta的數據存儲策略無結構的存儲
將元數據文件直接存到文件系統或數據庫的長二進制域段中,在Oracle8i以上版本中還可以用
CLOB(characterLOBs’)、BLOB(binaryLOBs’)或者BFILE(binaryfiles’)來保存文件。這樣做對于數據文件的存取十分簡單有效,但對查詢的支持比較有限。如果文件很多的話,基本上只能通過關鍵詞檢索。在查詢要求不高或數據本來就無結構時此方法比較有效。
4、元數據系統 ——GeoMeta的數據存儲策略基于線性域段結構的存儲
一般來說,元數據從邏輯結構上講都是樹狀的。如果沒有可重復多次的節點,可以利用節點標簽的唯一性(如果不唯一的話還可以通過該節點的XPath來做標記)將整個樹壓扁了存儲在一個關系表中,取數據的時候再恢復過來。在實際應用中,一般只需將用戶檢索時用到的節點提出來存放到關系表中并且建立索引,把源文件直接按無結構的存儲策略存放就可以了。如果需要返回的部分是整個記錄或者記錄的大部分內容,并且可能出現在查詢條件中的元素沒有重復結構時,這種存儲策略還是比較有效的。
4、元數據系統 ——GeoMeta的數據存儲策略...11.2.2將樹形結構存放到關系表中4、元數據系統 ——GeoMeta的數據存儲策略基于結構的存儲
基于結構的存儲大致有兩種方式:按節點存儲
利用對象關系數據庫來存儲
4、元數據系統 ——GeoMeta的數據存儲策略
按節點存儲先周游整個Schema結構,找出所有可能的XPath,然后將數據文件的元素按不同的XPath存放它們的數據(相當于把基于XPath的索引信息也保存了),必要時可將它們再組合起來。該方式對系統的要求不高,用文件系統或關系數據庫都可以,而且可以比較好地支持XQuery查詢,就是實現工作比較復雜。
4、元數據系統 ——GeoMeta的數據存儲策略利用對象關系數據庫來存儲
隨著XML技術的廣泛使用,越來越多的數據通過它來傳輸和表達,人們自然而然的會想到直接XML數據存儲起來。如果需要結構化存儲,最終實用的可能還是各大數據庫廠商提供的支持產品。事實上各大數據庫廠商都緊密關注XML發展,紛紛推出幫助用戶使用和管理(不單單是存儲)XML數據的產品。因為面向對象關系數據提供了復雜類型和面向對象的一些支持,比如:
對象類型,對象類型的集合,對象類型的引用,繼承。從而使我們可以在一定程度上結構化地存儲XML數據文件。【例】可以考慮XMLSchema的結構信息
4、元數據系統 ——GeoMeta的數據查詢策略GeoMeta系統的另外一個特點在于它多方面的數據查詢策略的支持。在元數據庫中存儲策略的選擇是由實際要求來決定的,而其中最關鍵的因素是對查詢的支持。因為建立元數據庫的一個重要目的就是為了用戶能夠讓用戶方便有效地得到自己需要的數據。從實現的技術角度講,元數據的查詢和一般數據的查詢并沒有什么差別。
4、元數據系統 ——GeoMeta的數據查詢策略搜索(search)和查詢(query)
”search”是指在用戶不是很清楚自己要找的數據具體在什么位置時通過搜索引擎(相當于元數據庫的工作)幫助用戶定位數據的位置,然后用戶就可以獲取(”retrieve”)數據。它強調的是如何通過自己要找數據的特征來定位它(可能還需要通過第三方,而且一般是非結構化查詢)”query”是指在知道數據位置和格式的情況下,按照一定的條件得到自己想要的那一部分數據。當然在實際情況中它們分得并不是那么很清楚(以后我們所用的查詢也包含了搜索的含義)。它直接針對數據,通過查詢條件和查詢結果的構造來提取數據(一般是結構化查詢)。4、元數據系統 ——GeoMeta的數據查詢策略GeoMeta支持以下的數據查詢策略:非結構化的查詢
結構化的查詢
半結構化查詢
4、元數據系統 ——GeoMeta的數據查詢策略
非結構化的查詢
直接利用數據庫的全文檢索功能,在保存元數據文件的域段上建立interMedia文本索引,通過“Contains(XML文件所在域段,“關鍵詞”)”來查找就可以了。如果用戶對返回的格式有所要求,可以根據某個映射文件將其轉換后再返回。
4、元數據系統 ——GeoMeta的數據查詢策略
結構化的查詢
Z39.50客戶端傳過來的查詢:它一般是一個二叉查詢樹結構(由服務器將客戶端傳來的經過BER編碼的逆波蘭(RPN)查詢表達式轉換而得)。一般的元數據系統用的是基于線性域段結構的存儲,根據查找相關的注冊屬性集(如Bib-1)中用戶屬性和相關操作對應的編碼以及所用的屬性表,就可以構造一條帶有選擇字段、查詢的表名和條件子句的完整的SELECT語句。將它提交給數據庫,就可以得到查詢結果了。GeoMeta目前在這方面的實現不多。4、元數據系統 ——GeoMeta的數據查詢策略
結構化的查詢
XQuery結構化的查詢:系統的工作重點在于如何將一段XQuery語句用
SQL語言來表達。XQuery所要求的XMLQueryDataModel,與對象關系數據庫的對象關系模型有很好的對應:其中元素節點對應于對象類型或表,屬性節點對應于表或類型的域段,而文本節點對應的是以文本方式存儲的無結構的域段(可能是一個XML文件)。
4、元數據系統 ——GeoMeta的數據查詢策略
結構化的查詢EEETTAAE元素節點A屬性節點T文本節點一個查詢數據模型的實例4、元數據系統 ——GeoMeta的數據查詢策略
結構化的查詢XQuery和SQL語句的對應:
XPath表達式在XQuery中一個XPath表達式代表了原文件的Model(XMLQueryDataModel)中的一個或多個有序的節點(包含它們各自的子節點)。很多情況下一個XPath表達式就可以代表一個查詢。如一個XPath:document(“zoo.XML”)/chapter[2]//figure[caption=“TreeFrogs”],它就包含了SQL查詢中的三個重要部分1)域段選擇:Chapter[2].figure,2)查詢表:zoo.xml,3)查詢條件:figure的屬性caption=’TreeFrogs’。相應的SQL語句為“selectzoo.capter[2].figurefromzoowherezoo.chapter[2].figure.caption=’TreeFrogs’”。4、元數據系統 ——GeoMeta的數據查詢策略
結構化的查詢元素構造表達式
通過元素構造表達式我們可以基于原來的XML文件構造出新的XML文件。它由開始標簽,結束標簽和由其它表達式得到的內容組成。它不好直接對應到SQL語句,但是通過對其它表達式的支持,不難構造出該元素的實例。
4、元數據系統 ——GeoMeta的數據查詢策略
結構化的查詢
FLWR表達式FLWR(FOR,LET,WHERE,RETURN)表達式,從它的數據流可以看出其結構很像SQL的SELECT語句,因而可以很自然地建立它們的對應關系。其FOR部分相當于SQL中的From部分,WHERE部分相當于SQL中的Where部分,RETURN部分是一個可不帶標簽的元素構造表達式,相當于SQL中SELECT后面的結果組織部分。雖然SQL中沒有與LET的直接對應,但“LET$a=XPath表達式”相當于將XPath表達式對應節點與變量a綁定,我們在SELECT語句中直接用XPath表達式對應的節點就可以了。4、元數據系統 ——GeoMeta的數據查詢策略
結構化的查詢FLWR表達式的數據流4、元數據系統 ——GeoMeta的數據查詢策略
結構化的查詢一個XQuery查詢[35]到SQL語句的對應:FOR$bINdocument("bib.xml")//bookWHERE$b/publisher="MorganKaufmann"AND$b/year="1998"RETURN$b/title
selectb.titlefrombib.bookasb
whereb.publisher='MorganKaufmann'andb.year='1998'
4、元數據系統 ——GeoMeta的數據查詢策略
半結構化的查詢
半結構化的查詢大致可以分為兩類:
第一類情況:如果查詢中任何兩個節點node(x)、node(y)在判斷條件中都沒有涉及到它們之間的結構關系:比如node(x)在node(y)前出現,node(x)是node(y)的后代等等。這時我們就可以基于一定策略先找到所有這種的節點,分別判斷,然后在根據它們之間的and、or、not關系,組合起來作為條件判斷的依據。比如“要查1950年以后出版的一本老舍寫的書”,就可以用“node(author)contains(“老舍”)andnode(pub_year)>1950”作為查詢的判斷條件。第二類情況:涉及了節點間結構上的關系,一般需要周游Model樹來判斷,這就得先將XML文件讀入內存,通過解釋器將其構造成Model實例樹,但這樣做在數據量大時效率很差。
5、元數據應用 ——空間元數據的特點和局限由于網絡的發展,元數據已經由一種數據描述與索引的方法擴展到包括數據發現、數據轉換、數據管理和數據使用的整個網絡信息過程中不可缺少強有力的工具和方法之一。但是依據各標準建立的各種地理空間元數據庫,都是以文本形式提供給人使用的,由人去確定如何使用元數據,來定位、評價、比較、獲取和使用地理相關數據的。并且,每個地理空間元數據庫都是針對一個地理空間數據庫來描述的,而不同地理空間數據庫之間的聯系、網絡上地理空間數據庫的分布情況和如何支持地理空間數據快速查找等在已有的研究中都沒有涉及到。
5、元數據應用 ——空間元數據庫框架
鑒于以上元數據應用的局限性,下面將簡要介紹一個實驗室的元數據應用項目:一個基于Agent的地理空間數據搜索獲取的策略。
該項目設計了一個基于網絡的多層次的空間元數據庫框架,以組織和管理網絡上分布式地理空間數據,并且以該空間元數據庫框架為基礎,提供一種面向用戶的簡單數據請求描述方式。在此之上,結合Agent實體的智能搜索和協作特性,得到最終的數據搜索獲取的策略。5、元數據應用 ——空間元數據庫框架
空間元數據的主要內容之一就是地圖(圖層)的管理信息。地圖(圖層)的基本要素就是專題、空間范圍、地層和時間,其中最主要的是專題和
空間范圍。因此,每一幅地圖(圖層)的管理信息都要包括專題、空間范圍、地層和時間,而且一幅地圖(圖層)都可以用一個四元組<專題,空間范圍,地層,時間>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023年王江涇鎮國資公司公開招聘工作人員筆試參考題庫附帶答案詳解
- 2023年湖南長沙自貿投資發展集團有限公司公開招聘工作人員7人筆試參考題庫附帶答案詳解
- 2025至2030年中國亞克力禮品數據監測研究報告
- DB63T 2413-2025 高海拔地區高炮人工防雹作業技術指南
- 煙草專賣營銷中心培訓課件:煙草專賣品牌基礎知識學習(完整版)
- 火電廠熱工基礎知識
- 游泳的基礎知識
- 淘寶SEO基礎知識你了解多少
- 綠化購買合同范本
- 消防知識培訓王建琴
- 【9數一模】2025年安徽省合肥市蜀山區九年級中考一模數學試卷(含答案)
- 2025年無錫市錫山環保能源集團招聘筆試參考題庫含答案解析
- 田徑運動會各種記錄表格
- 報價單(報價單模板)
- 農家肥撒施翻耕施工方案
- GB∕T 11071-2018 區熔鍺錠-行業標準
- 產品和服務戰略
- 遠離手機班會課件
- 一頁紙的勞動合同范本(5篇)
- 2019最新中小學校安全管理制度匯編
- 內審不符合項報告
評論
0/150
提交評論