【畢業學位論文】(Word原稿)COMMIX中的XML查詢和視圖管理-軟件工程_第1頁
【畢業學位論文】(Word原稿)COMMIX中的XML查詢和視圖管理-軟件工程_第2頁
【畢業學位論文】(Word原稿)COMMIX中的XML查詢和視圖管理-軟件工程_第3頁
【畢業學位論文】(Word原稿)COMMIX中的XML查詢和視圖管理-軟件工程_第4頁
【畢業學位論文】(Word原稿)COMMIX中的XML查詢和視圖管理-軟件工程_第5頁
已閱讀5頁,還剩30頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

北京大學本科生畢業論文 第 1 頁 的 詢和視圖管理 in 月 北京大學本科生畢業論文 第 2 頁 摘要: 隨著 術 的迅速發展,各種在線數據源不斷涌現。然而由于 各種 信息源的高度異構性,各個數據源的信息組織方式 、 所采用的數據模型、數據結構、內容表示、查詢語言都會有很大不同。因而面對海量的信息,人們往往會被淹沒在信息的海洋中。如何幫助用戶在信息的海洋中快速準確地查找到所需的信息,則是當前信息檢索和數據庫領域的一個重要研究方向。 是在這種背景下提出的一個基于 海量信息集成系統。 北京大學計算機系數據庫教研室承擔開發的國家重點基礎研究發展規劃項目“網絡環境下海量信息組織與處理的理論與方法”項目中的“面向內容的海量信息集成、分析處理和服務”課題的原型系統。 該系統將國內各主要電子商務網站的 息源通過包裝器 化為 據,然后集成到一個統一的數據視圖之中,完成 基于內容的精確查詢。在 引入了 化視圖的技術,以提高系統的查詢效率。 本論文的工作是設計并實 現了 的視圖 管理 系統的部分功能。為了克服信息集成系統中查詢響應時間長,系統查詢效率低的缺點,在 引入了物化視圖的技術來加快查詢。 是系統中實現 物化 視圖機制 的管理 系統。 在本文完成之時, 的大部分功能已經實現,管理員已經能夠通過一個圖形化的界面完成對視圖的操作。同時 的查詢處理器已能夠有效地使用物化視圖集中的視圖來回答查詢,大大提高了系統的查詢效率。 關鍵詞: 詢、視圖、 京大學本科生畢業論文 第 3 頁 目錄 第一章 優越性 7 缺陷 7 有效性( 9 10 11 第二章 12 12 2 5 5 6 6 17 18 19 20 第三章 21 23 23 24 取部分查詢結果 24 定信息源與不定信息源查詢 25 第四章 設計目標 26 設計方案 26 關鍵問題和解決方案 27 實現 27 27 圖創建模塊 29 圖刷新模塊 31 北京大學本科生畢業論文 第 4 頁 圖刪除模塊 32 圖查看模塊 32 總結與展望 34 致謝 34 參考文獻 35 文章組織結構 : 第一章介紹了 一些基本概念。第二章介紹了 視圖創建的基礎 詢語言的發展情況。第三章介紹了北京大學計算機系數據庫教研室開發的 型系統。第四章敘述了 統中視圖管理器 設計與實現。 北京大學本科生畢業論文 第 5 頁 第一章 介 整的名 稱是可擴展的標記語言( 伴隨著超文本標記語言 蓬勃發展而產生的。 是標準通用標記語言 子集。通俗的說,就是 的標簽 以任意的,而 的標簽是有統一的格式的。下面我們來比較一下 言盡管在網頁的顯示上有它的優勢,但是它也有它的不足之處。 我們先來看個 例子: 例 示如下所示: 示例 商品編號 商品名稱 價格 1 牙膏 2 牙刷 北京大學本科生畢業論文 第 6 頁 商品編號 商品名稱 價格 1 牙膏 2 牙刷 表 面的例子我們可以看到 沒有包括數據的結構信息,如 1 對應的是商品編號、牙刷對應的是商品名稱。 可以彌補這一缺點。 我們把上邊的 寫成 下: 例 這句在所有的 像“所有商品”、“商品”、“商品編號”等為 檔的元素 所有商品”為根元素 個 檔只能有一個根元素 ;“單位”為“商品價格”的屬性 牙膏”、“元”為元素或屬性的值。 在 顯示的結果如下圖: 圖 以看到 就既包括了數據的結構信息又包括了數據的信息。但是它的結構的信息并不完整,比如從 檔中我們不能知道商品價格 一個數還是一個字符串 ,即我們不知道它的類型 。所以我們稱之為半結構化數據( 它介于結構化數據和無結構化數據之間。 1 牙膏 牙刷 京大學本科生畢業論文 第 7 頁 優越性 上面的例子我們已經可以看到 一些優越性。這里我總結一下: 1. 異構數據之間的集成、整合和通信 有了 們可以把復雜的異構的數據簡單化,這樣可以使異構的數據之間的集成、整合和通信成為了可能。 為電子數據交換 最主要的工具在商業上有著巨大的應用市場。 2. 更精確的查詢和搜索 因為 包括了數據的結構信息,所以查 詢 檔比查詢 檔的準確性和效率更高。 例如在 不能知道它是價格。而在 我們的很容易的就可以知道 價格。 在一般的 索引擎上,用戶想查詢價格 小于 2 元錢的商品是查不出來的,而在 查詢 卻 是可以精確地查出來的。 3. 擴展性強,有著 更 加廣闊的應用 出現為我們提供的很廣闊空間,我們可以根據應用定義自己標簽。 實際上,現在許多行業、機構都利用 典型的是下面兩個實例:化學置標語言 數學置標語言 缺陷 然結構簡單功能強大,它也有它 目前 發展上的劣勢。 1. 瀏覽器和編輯工具還不是很成熟。 然支持 一些功能但是并不完善。目前最常用的 輯器 輯的基本功能。 2. 對 檔的保護還不成熟 由于 以文本格式存儲的所以任何人用一般的編輯工具都可以編輯。大家可能經常會問:“為什么看不到使用 術的網站出現呢?”我覺得 阻礙電子商務網站發展的原因之一就是 據的加密。大家設身處地地想想就知道:為什么要把我自己的數據不加密的可以被任何人訪問呢。目前對 檔的加密方法并沒有制定統一的標準,因此對檔的加密保護還有待進一步的成熟。 北京大學本科生畢業論文 第 8 頁 是用來規定文檔語法規則的。一個 件必須遵守文件類型描述 定義的種種規定。例如在例 加入 成為: 例 是說“所有商品”可以包括多個“商品”元素。“ *”表示元素可以不出現或出現多次,這與正則語言中的 *、 +號的概念是一樣的。 表示元素 “ 商品價格 ” 有一個屬性 “ 單位 ”, 屬性類型是字符串 # 這是一個內部 例子。內部 指 檔中帶有 義,與之對應的還有外部 部 指 義在 檔外的另一個文檔中,在 檔中指 明其對應的外部 檔即可。例如: 例 1 牙膏 牙刷 北京大學本科生畢業論文 第 9 頁 除了 有 以用來規范 隨著 現才出現的。在 我們可以生成一個 檔的 是 簡單的說 是一個描述另外一個 檔結構的 檔。具體地 法這里略。 作用異曲同工,而現在的趨勢是: 逐漸被 取代 。 有效性( 另外一個重要的概念是 式良好( 有效性( 格式良好是指 有標簽的嵌套,而 有效性是指 檔符合其指定的文檔類型說明( 者 例 格式良好的但不是有效的,例 是格式良好的又是有效的。 檔的格式良好是必須的,當然在不知道它的結構說明的情況下, 檔的有效性也是應該有的。建議使用格式良好和有效的 檔。 北京大學本科生畢業論文 第 10 頁 容描述與顯示方式是相分離的。 在瀏覽器中的顯示有兩種方法。一種是用 有一種是 兩種方法應該使用哪一種就一直有爭議。 對兩者都 有 支持 。 例如我們要顯示出如: 商品編號 商品名稱 價格 1 牙膏 2 牙刷 表 用 需要這樣寫: 例 聲明 板,并調用該模板。 根據 ,系統最先 匹配 樹的根節點。根節點用 /表示 。 標志匹配 樹中的所有商品的節點。 商品 表示 要求對于所有標記為“商品 ” 的子節點 進行處理。對于每一個“商品 ” 子樹中的內容為其生成表中一行的內容。 表示取商品編號的值顯示出來。 商品編號 商品名稱 商品價格 北京大學本科生畢業論文 第 11 頁 還要在 指定相應的 例 用 方法這里略。沒有具體說明的 術可以參考文獻 L。 我們可以比較一下傳統關系數據庫中的數據和 據。我們會發現這其中有許多的相似之處。 應關系數據庫中的表結構定義。但是還是有區別的,關系數據庫中表定義中的包括了例如字符型、整型等完整的類型信息,而 即使一個有效的 半結構化數據的 沒有 完整的結構信息, 例如 對于 150 來說它沒有標識它是字符串還是整數。 檔對應關系數據庫中的表,但是這并不是一一對應。 檔 是 樹結構,而關系數據庫中的表只是二維結構,所以必須要求表的元素是表才可以。這將 從根本 改變傳統的關系數據庫的存儲結構, 所以 大多數的關系數據庫的還不支持表結構的嵌套, 但是 現在幾乎所有的關系數據庫系統都支持關系數據庫導出 檔。導出是比較簡單的, 而 導入是比較麻煩的。 支持 檔導入和導出到關系數據庫數據中,但是它的導入和導出不是可逆的。它的導入的做法是為每一的標簽都生成一個表。每一個表都有一個主碼和一個外碼,其中的外碼是用來標識它的父元素的。但是有了這種結構還是不能完整的轉化回檔。 關系數據庫數據的互相轉換也是當前的一個研究方向。 北京大學本科生畢業論文 第 12 頁 第二章 詢語言 雖然 檔具備了模式信息,但是 據模型其實是嵌套關系模型的擴展,因而傳統的結構化查詢語言 都不具備查詢 檔的能力。因而設計新的適應 據模型的查詢語言成為一個研究熱點。 在有許多中查詢語言: 等。其功能和查詢語言的形式也各不相同。 種常用的 查詢語言現在還沒有制定出統一的標準,還處在研究階段。我們看一看已有的一些典型的 詢語言 。 統采用的是 詢語言。 所以采用 詢語言是有原因的。 持連接、嵌套等強大使用方式,下面我們就可以看到。 實驗室 提出 的 一種基于 查詢語言,它用查詢的方式可實現據的檢索、轉換和集成。 通過說明路徑表達式和模式的方式,給出 句)。同時, 可以給出構造查詢輸出的 據的模板,其輸出結果仍為 檔( 通過 句)。 下面是 結構 : 例 形式上看 構,與 相似。其 句由模式和關系表達式組成,這意味著被選出的數據項要滿足兩個條件: 一是 數據項的類型(或 值必須與指定的模式匹配; 二是 數據項的值要滿足關系表 $a $a100 北京大學本科生畢業論文 第 13 頁 達式。 在查詢條件中加入模式匹配是 結構化查詢語言最大的不同之處。 主要特點。 1. 用模式( 匹配數據 用元素模式來匹配 檔。下面的例子將從 a.b.c/指的文檔中找出所有 版的書的作者。 例 . 用嵌套查詢來處理可選元素 關系數據的一個主要區別在于 常有可選的元素 , 例如 在 中是可選的 ,即不要求每本書都有價格信息 。假如要列出所有的書名,有價格的要同時列出價格 ,我們 看如下的查詢: 例 述查詢是不正確的,因為它要求 中必須含 元素 ,沒有價格的書將不被列出。 通過嵌套查詢來處理可選部分, 可以 將上面的查詢修改如下: 例 $T $p IN a.b.c/$t $p b a.b.c/ $t b $t b p t $a a.b.c/$a 北京大學本科生畢業論文 第 14 頁 右邊可為 可為變量。 第二個 詢稱為嵌套查詢。 3. 用嵌套查詢來分組 另一個區別是嵌套和分組。例如,我們可以將一本書的所有的作者組合到一個 元素中。假如我們要找出每個作者寫的所有的書的書名,可用下面的查詢來重組數據: 例 . 連接 在兩個匹配表達式中使用同一個變量可實現鏈接。下面的例子找出至少出版了兩本書的所有作者。 例 . 正則 路徑表達式 考慮下面的 定的遞歸定義: 其中每一個元素可以包含其他任意深度的嵌套部分。為實現這樣的結構, 供了規則的路徑表達方式,它可以詳細說明任意深度的元素路徑。例如下面的查詢將產生每一個組成元素的 分的內容,這些組成元素的 內容為 “而不論 層的嵌套。 p IN“a.b.c/ $p a a $t p t $a N“ a.b.c/ $a N“ a.b.c/ a 北京大學本科生畢業論文 第 15 頁 例 里的 是規則的路徑表達方式,它可以表達 規定模式中組成部分的任意序列。 斯坦福大學開發的半結構化數據庫管理系統 查詢語言,用于查詢半結構化數據。 用 擴展的 風格 , 言可以用于支持 統的對半結構化數據的查詢和更新。 統的開發起始于 1995 年,最初建立在半結構化模型上。在 1998年底至 1999 年初, 隨著 產生, 統全面移植到 據模型上,從而 查詢語言。 能強大,同樣支持連接、嵌套等。 圖形化的 詢語言,一個 詢可以應用于任意 檔并產生一個作為結果的 檔。 一個基本的 詢由一對圖組成,它們稱作 。每個圖由標注的頂點(矩形框)和連接它們的有向弧組成。矩形代表 的元素,弧代表屬性和原子元素,標注的弧代表元素間的引用關系。 用弧上的 *操作符代表任意的導航操作,并且使用“ 點匹配文當中的任意元素。 下圖 表示查找 所有 1975 年以后出生的 男 居民。 圖 $r N “a.b.c/ $r 北京大學本科生畢業論文 第 16 頁 從上圖我們可以看出, 的 代表了用戶對文檔中感興趣的信息,并說明信息的位置和必須滿足的條件。 文檔中查找 素,并且使得包含: 值為“ M”的 性 ; 素下面任意層次的 素 , 并且包含一個值為“ 性 ; 包含 1975 年前的 素的 F 素。 執行將包含一系列由 檔片斷組成的子圖。 負責查詢結果的組建,每個由 執行產生的子圖將在 生成一個結果的子圖,并經過組裝后生成最后的結果。 們以前講過的 光可以用于 顯示, 也可以用于查詢 可作為 詢語言基礎。 義了 語法規范,該語法規范將被用來把 件轉換成 其他格式的文檔。一個 式表集合了一系列設計規則,用于從 件中抽取信息,并將其轉換成 其他格式。這種轉換采用了公開的方式,使其能夠更加方便地被程序員描述。而且 將提供多種腳本語言的通道,以滿足更為復雜的應用需求。 例如我們想查出價格 小 于 2 元的商品只需修改例 : 例 果變為: 商品編號 商品名稱 商品價格 2 牙刷 表 特定為 檔設計,它是一種通用查詢語言,提供用于查詢,定位和模式的簡單語法。 煉,簡單,具有強大的功能。 式語言提供了易于理解的方式描述待處理節點。 但 它是說明性而不是過程性語言,只需使用類目錄結構的簡單模式描述需要查找節點的類型。例如, 示查找包含在 素中的 素。 供對 式語言的自然擴展。在 示類型節點的基礎上增加了布爾邏輯,過濾,節點集合索引等。盡管 式語言的超集, 計用于許多情況,可以用于提供節點的鏈接,查找信息和許多其他應用。 從文檔中查詢信息的符號,這些信息可能是一個節點集合、節點關系信息或導出值。本說明書沒有指定輸出的格式,查詢結果可能是單個節點、節點列表、 檔、其他結構序列。即: 不指定返回的二進制格式,而是邏輯結果。 在一些實現中,查 詢結果可能是一個 檔或者是傳回 樹。在其他情況下,結果可能是其他類型的結構,例如:指向節點指針的集合。因此,封閉性并不能保證,如果實現方案返回 檔,則該文檔必須格式良好,從而保證了封閉性。 商品價格 北京大學本科生畢業論文 第 17 頁 詢語言的比較 我們通過下面的例子來比較上面介紹的幾種查詢語言,這里描述的是一個制造商與汽車的 檔: 例 們想選擇和提取 元素,滿足的條件是 的 小于等于 10,下面給出了幾種不同語言的查詢語句: 例 例 999 T 999 26800 $r m IN $r 10 =10 北京大學本科生畢業論文 第 19 頁 有序樹: 對無序樹中的每個節點加入序號即可。 (略) 無序樹和有序樹模型都有自己的應用范圍。無序樹一般認為無序樹模型比較貼近 為應用中的節點的先后順序并不重要。對于分成段、節、句的文檔來說有序樹模型是必須的。查詢效率上說,無序樹的查詢比有序樹的查詢要簡單。 在不考慮連接、嵌套等情況的前提下, 詢的主要算法是樹中尋找滿足給定 模式的子樹,并且根據尋找到的子樹構造出 新的子樹。但是 由于例如 查詢語句中支持正則語言 以及連接等操作 所以 實際的情況并不是這么的簡單。 如果我們只考慮在一個 檔中進行查詢的話該問題等價于子樹同構問題( 子樹同構問題 的原問題 是子圖同構問題。 子圖同構問題:給定兩個圖 G, H,找到 G 的一個子圖同構于 H。已經證明這的問題是的。但是如果對 G 和 H 加以限制的話,問題可以變得容易,甚至可以在多項式時間內解決的。 子樹同構問題是子圖同構問題的子問題。 由于 檔的數據模型是根樹,所以問題要簡單一些。 已 經證明了當 G 和 H 都是根樹時,子樹同構問題有多項式算法。 算法的主要思想如下: 對于所有的 G 內部節點 V 和 H 的根結點 U。 V 的 排序 子節點.,2,1。 U 的 排序子節點.,2,1。 如果匹配則對于每個成 子圖才可以,遞歸調用判斷否是 子圖同構。 如果對于 每個則輸出 ,H)算法描述如下: If u 沒有子節點 u=v f v 有子節點 照后序周游 v 在 u o f v 沒有子節點 o f v 有子節點 京大學本科生畢業論文 第 20 頁 算法 圖 G 的總節點數為 n,子圖 H 的總節點數為 k, 可以證明 該算法時間代價為 )( 2 圖是對應關系數據庫中的物化視圖而提出的概念。由于 息量龐大, 網絡傳輸能力有限, 我們可以保存部分 詢的結果在本地數據庫中,再次查詢時就可以訪問本地的 物化視圖,這樣做可以更加快速而精確查詢,減少相應時間,提高查詢效率。 圖的創建 就是由用戶使用 查詢語言對不同信息源進行查詢,生成結果 檔,并將結果文檔保存到本地數據庫中去。再次查詢時可以用戶在視圖中進行查詢,這樣做提高了查詢效率和減少了相應時間。 所有的內部節點 f v=u v1, u1, 序子節點 i=1 do or i=1 to t f f O 京大學本科生畢業論文 第 21 頁 第三章 型系統簡介 北京大學計算機系數據庫教研室承擔開發的國家重點基礎研究發展規劃項目“網絡環境下海量信息組織與處理的理論與方法”項目中的“面向內容的海量信息集成、分析處理和服務”課題的原型系統。 該系統將經過 裝后的 息源集成到集成層的一個統一的數據視圖之中,提供給上層應用,以支持對數據的基于內容的精確查詢。 系結構 一種基于客戶服務器的體系結構,它是一個 基于 海量信息集成系統,系統的最主要的特點是 : 采用 “多查詢語法樹組合分析方法 ”,分析 戶查詢請求,為集成模式的構造服務。 采用 “集成模式計算模型 ”,設計并建立相應的集成模式,從而實現了集成模式的自動構造,并保證了其精確度 。 利用 據庫存儲集成層的 圖,優化了 存儲結構 。 設計和實現 詢語言,實現了 基于內容的精確查詢 。 體系結構如圖 示可分為 4 個主要部分: 圖 京大學本科生畢業論文 第 22 頁 運行在客戶端的可視化用戶界面,用戶可以通過該界面提出查詢。該圖形用戶界面有如下特點: 支持用戶以 方式來構建 查詢 ,所以即使用戶不熟悉 詢語言,也可以方便、直觀地構建查詢語句。 支持用戶直接提交的 詢。 查詢方式所表達的查詢能力是有限的,如果用戶熟悉 詢語言,可以自己編寫查詢語句,以完成更復 雜的查詢功能。 用 寫的,通過 式運行在客戶端。這種結構的優點在于,客戶端無需安裝特定的應用,可以直接通過 式方便地訪問服務器以完成 的精確查詢。 第二部分是查詢處理器 運行在服務器端的應用。查詢處理器的主要功能是接受用戶端提出的查詢,經過分析處理,執行查詢,并將執行結果交給客戶端顯示。查詢處理器的主要特點是: 支持獲取查詢的部分結果。 針對網上查詢的特征,查詢處理器支持部分結果的獲取。處理器允許用戶指定獲取的查詢結果的數量, 在獲得到指定數目的結果之后,查詢結束。通過這種方式,用戶可以在查詢結果的精確度和查詢響應時間之間,自行權衡,給用戶很大的自由度。 支持指定信息源和不定信息源的查詢 查詢處理器中支持既對不定信息源的查詢,也支持指定信息源的查詢。在查詢語句中,用戶可以用“ *”不明確指定從哪些數據源獲取數據,這樣,查詢處理器會通過內部的定位機制,找到所有可能含有查詢結果的信息源,而后進一步到信息源獲得數據,完成查詢。同時,如果用戶只對某信息源的數據感興趣,也可以在查詢中指定從哪個數據源獲取數據完成查詢。 支持利用視 圖的查詢 支持兩種使用視圖的機制。一種是顯示的方式,另一種是隱式的方式。顯示的方式中,在建立起物化視圖之后,將視圖 交給用戶 許用戶在視圖之上構建查詢,查詢處理器將利用存放在本地的視圖來回答查詢。而在隱式的方式中,系統對不是建立在視圖之上的查詢進行分析后,如果判斷其可以利用視圖來回答,那么處理器會對原查詢進行相應的查詢重寫,重寫后的查詢計劃將盡可能的利用視圖中的數據來回答查詢。無論哪種視圖使用方式,數據的存放位置對用戶都是透明的,也就是用戶并不知道數據是存放在視圖中,還是存放在數 據源。用戶可以任意地提出查詢,而由查詢處理器負責到相應的位置獲取數據回答查詢。 第三部分是視圖管理器,負責有關視圖的建立、更新和維護。在 引入了物化視圖技術來存放用戶經常訪問的數據,以提高查詢效率。該部分的特點是 : 集成了視圖的管理界面 提供給管理員的界面集成了對視圖的添加、更新、查看和刪除功能,使管理員能夠方便地對視圖進行調整和維護。添加視圖模塊可以讓管理員用圖形化的方式定義所需添加的視圖,并將其物化。更新視圖模塊允許管理員重新計算系統中已存在視圖的內容,并決定是否海量更新該視圖的內容。而刪除 視圖則允許管理員對系統中過時的視圖加以清除,以釋放空間建立新視圖。查看視圖則允許管理員查看系統中視圖的定義, 構和視圖內容。該北京大學本科生畢業論文 第 23 頁 界面將對視圖的增、刪、改、查集成為一體,以方便管理員對視圖的操作。 支持 圖的存儲 化視圖采用傳統的關系數據庫進行保存。將 統進行擴展,開發了供對 據片斷的管理,并在此基礎上開發了 化視圖的存儲管理模塊。 最后一部分是索引模塊,該模塊主要是為查詢處理器的優化提供定位機制。由于查詢處理器支持不定數據源的查詢,所以系統必須有相應的數據源定位能力。索引就是系統所采用的定位機制。索引模塊通過和搜索引擎相結合,定位所有可能的滿足查詢要求信息源,返回給查詢處理器。 系統從圖形用戶界面 獲得查詢,交給查詢處理器處理。處理器在接收到查詢后進行分析,如果查詢是建立在視圖之上,那么處理器將從視圖管理模塊中獲得相應視圖內容,回答查詢;否則進一步分析查詢是否可通過視圖回答,如果 能使用視圖內容 盡量使用視圖內容來回答查詢,若不能由 視圖回答,那么處理器將查詢轉換成中間語言,交給索引定位器,索引定位器則發出相應請求,定位到所有可能滿足查詢的信息源 回給查詢處理器,查詢處理器再到相應的信息源收集數據完成查詢。 在 統中采用了數據倉庫中物化視圖的技術來存放數據源中的(部分)數據或查詢的中間結果,及用戶經常訪問的數據 。再次 執行查詢時將盡可能利用視圖中的數據來回答查詢,以減少網上的數據傳輸和查詢的響應時間。 由于 息量的巨大,各數據源的千變萬化,要將所有數據源中的數據都 作為 物化視圖存貯 起來是 不現實的,因而物化視圖的選擇是一個重要考慮因素 。 它對整個系統的性能都有決定性的影響。 應該物化保存那些能夠給整個系統帶來最大效益的視圖,這樣才能在有限的空間限制下,最大限度的發揮物化視圖的功能以提高效率。 既然要將視圖物化在本地,就要涉及物化視圖中數據的存儲管理,同時還要考慮對視圖的更新。而由于要物化的數據量通常是比較大的,而 據由于自身結構復雜性和靈活性,其物化計算代價通常是很大的。因此在數據源發生更新時,采用增量維護的方式要比重新計算物化視圖要有效得多。 系統提供給管理員一個 面,該界 面集成了對視圖的各種管理功能,使管理員可以方便直接地通過該界面完成對視圖的查看、添加、更新和刪除操作。 持 基于內容的精確查詢,改變了傳統的 息檢索中的基于關鍵字的搜索技術。在傳統的信息檢索中,基于關鍵字的搜索引擎和元搜索引擎扮演了信息檢索的主要角色。基于關鍵詞匹配是它們的主要技術,檢索結果按系統決定的相關程度進行排序。這種方法與在傳統的關系數據庫、面向對象數據庫、對象關系數據庫的查詢最大不同北京大學本科生畢業論文 第 24 頁 之處就是查詢結果的精確度。因為在傳統數據庫中 存儲了大量的具有嚴格結構的帶類型的數據,其查詢語言,如 分利用了嚴格的數據結構信息模式,使用戶可以使用描述性的查詢語言對數據進行精確查詢。但要用傳統數據庫系統方法捕捉非結構化數據檔或半結構化數據之中數據的聯系是十分困難的。在信息檢索領域,對文檔數據進行基于關鍵詞的搜索存在有效的技術。這種搜索必然比 詢更不精確,因為基于關鍵詞的檢索沒有模式信息可以利用。因此,檢索的結果通常是排序的,需要用戶的交互才能定位到相關的數據。 出現使得 基于內容的精確查詢成為可 能,因為 據是一種半結構化數據,具有自描述性,其數據本身就包含有相應的結構信息或稱為模式信息。同時,可以有輔助的結構信息,如 。 隱含在 面向文檔的數據視圖與 面向模式的數據視圖之間的橋梁。它使得數據庫系統更加緊密地集成到 用中。 要對 據進行查詢,對語言有相應的要求。目前提出的 查詢語言主要包括 形化的查詢語言 等。 現了 夠完成對網上 檔的精確查詢。 詢表達 的查詢表達支持 直接的 詢語句兩種方式。 式定義查詢是通過圖形化的界面提供給用戶 戶通過 方式構造所需的查詢。 負責生成相應的 詢語句,提交給服務器端,并負責將結果以圖形化的方式顯示給用戶。這種方式使得那些即使不熟悉 詢語言的用戶,也可以方便、直觀地構建查詢。 另一種方式則是提供給那些對 詢語言比較熟悉,同時有更高查詢要求的用戶。這些用戶可以直接提交比較復 雜的 詢語句,更充分地利用 大的查詢功能。 兩種方式的結合使得系統有更大的靈活性、可用性,同時也更加友好,不同的用戶群可以根據查詢的復雜性要求選擇相應的查詢表達方式。 取部分查詢結果 持獲得部分查詢結果的獲取。由于基于 查詢可能涉及多個信息源,而這些信息源都是高度自治的。它們自主地更新維護,發布信息,也隨時可能出現故障而離線,同時這些信息源的查詢能力,對查詢的響應時間也是大不相同的。所以如果要獲得回答查詢所需的所有數據可能需要等待的時間很長 ,甚至于如果在查詢的執行中涉及某個離線的數據源,那么該查詢就會由于獲得不了查詢所需所有數據而阻塞在該信息源上。另一方面,用戶可能并不需要所有滿足查詢要求的結果,或者不愿為這樣的精確結果而等待過久,因而只要能得到部分結果就可以了。 北京大學本科生畢業論文 第 25 頁 針對網上查詢的這種特點,查詢處理器支持部分結果的獲取。處理器允許用戶指定希望獲取結果的數量,在獲得到指定數目的結果之后,查詢結束。如果用戶沒有指定,查詢處理器也是通過增量地方式,逐步傳遞部分查詢結果給用戶直至所有結果都獲得為止,在此過程中,如果用戶已找到滿足要求的結果,可以自行終止 查詢。通過這種方式,用戶可以在查詢結果的精確度和查詢響應時間之間,自行權衡,給用戶很大的自主權。 定信息源與不定信息源查詢 網上查詢的一個很大特點是只表明要查什么,很少用戶能明確指出到那兒查。因而系統應能自動定位到所有的可能含有滿足查詢條件的數據的信息源。在 查詢處理器中就針對這種情況,支持對不定信息源的查詢。在查詢語句中,可以指定到某個特定的信息源獲取數據,也可以用“ *”不明確指定數據源。這時,處理器將查詢轉換成中間語言,交給索引定位器,索引定位器 將 相應請求定位到所有可能滿足查詢 的信息源 回給查詢處理器,查詢處理器再到相應的信息源收集數據完成查詢。 這種不定信息源的查詢大大提高了系統的可以性,因為要求用戶對網上如此多信息源的結構信息了如指掌,以構造出確定信息源的查詢顯然是很不合理,也不現實。有了這種不定信息源查詢的處理能力,就可以解決這一問題,使得用戶即使無法確定要到那里得到所需信息,也能通過系統自動定位能力而得到想要的信息。 北京大學本科生畢業論文 第 26 頁 第 四 章 圖 管理的設計與實現 負責視圖管理的主要功能模塊,其 主要設計目標是提供一種利用視圖提高 詢效率的機制。對用戶提出的查詢,如果在每次執行中都要到所有相關的信息源收集數據,進而回答查詢,那么網上的數據傳輸量將是一個不容忽視的因素。而有限的帶寬使得獲得這些海量信息成為信息查詢的瓶頸,大數據量的網上信息傳輸無疑會大大影響整個系統的執行效率。要提高查詢的執行效率可以從兩個方面考慮一是提高信息傳輸的速度,二是減少信息傳輸量。因此在 采用了傳統數據倉庫中常用的物化視圖的機制來加快查詢。這樣系統就可以根據查詢,盡可能地利用物化視圖中的數據來直接回答查 詢,從而最大程度地避免了直接到網上獲得數據。 是負責管理物化視圖的主要功能模塊。它提供一個圖形化的界面,使得管理員可以方便的查看、添加、刪除和維護視圖。由于 一種半結構化數據的表示形式,和傳統的有嚴格結構模式的關系視圖有很大差異,因而在 設計中有許多全新的挑戰。 物化視圖的選擇。物化視圖的選擇在數據倉庫的設計中就是一個很核心的問題。在我們的集成系統中,如何確定集成模式,也同樣是決定系統性能的關鍵性問題。 給定一個有限的空間(集成層),如何建立集成模式(物化視圖 ),才能使得查詢的響應時間和集成模式(物化視圖)的維護代價達到最小。 一個合理的有效的集成模式應該物化保存那些能夠給整個系統帶來最大效益的視圖,這樣才能在有限的空間限制下,最大限度的發揮物化視圖的功能以提高 效率。 針對以上所面臨的挑戰, 統中 總體設計目標是 : 提供給管理員一個方便直觀的視圖管理工 具,使管理員可以方便的實現對視圖的查看、添加、刪除和更新等操作; 提供一個有效的集成模式建立機制,使得系統所建立的視圖是合理和有效的,能最大程度地利用有限空間,發揮最佳的效 益。 對系統中建立的眾多視圖,應該有一套方便完善的管理機制。視圖是建立在各個信息源之上的數據快照,它并不能保證和數據源的絕對同步,也就是說,視圖中的數據不是實時數據。要保證視圖內容的準確性和實時性,必須及時對視圖進行更新。另一方面,隨著系統不斷地運行變化,需要根據數據源信息的變化和用戶訪問情況的變化及時向系統中添加新的視圖,以反映變化的信息和用戶需求;同時 , 那些用戶以往感興趣而現在已很少訪問的“過時”的視圖應刪除,以便及時釋放空間建立其他的視圖。所有這些對視圖的管 理,管理員

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論