




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、信息檢索系統信息檢索技術是一項成熟的處理文本數據的技術。信息檢索領域與數據庫領域是并行發展的領域。信息檢索領域中所用的傳統模型是信息被組織成文檔,且是信息量巨大的文檔。信息檢索的過程就是根據用戶的輸入,如關鍵詞或示例文檔,查找相關文檔的過程。信息檢索系統信息檢索技術是一項成熟的處理文本數據的技術。信息信息檢索系統信息檢索系統的典型例子是聯機圖書目錄和聯機文檔管理系統。信息檢索系統和數據庫系統處理的是不同類型的數據。信息檢索領域一般用查全率和查準率對檢索的效果進行量比評價。搜集Web信息建立索引庫檢索查詢www用戶信息檢索系統信息檢索系統的典型例子是聯機圖書目錄和聯機文檔管基于關鍵字的檢索在基于
2、關鍵字的信息檢索系統中,文檔被看成字符串,可用一組關鍵字加以識別。用戶提供一個關鍵字或一組由關鍵字構成的表達式,由關鍵字進行查詢。這樣,用戶可以找出包含關鍵字的全部文檔。在基于關鍵字的信息檢索系統中,還要考慮“同義詞問題”。可以采用同義詞的方法解決這個問題,對每個詞都定義一個同義詞。基于關鍵字的信息檢索系統還有一個難題,就是“多義詞問題”,即同一個關鍵字,在不同的上下文中可能有不同的含義。遺憾的是,目前這種基于上下文確定關鍵字含義的檢索系統還不成熟。基于關鍵字的檢索基于相似性的檢索與文檔索引基于相似性的檢索某些信息檢索系統允許基于相似性的檢索。這時,用戶可給系統一個文檔A,然后要求系統找出與A
3、“相似”的文檔。兩個文檔的相似性可以自定義,如根據一組共同的關鍵詞作為相似性。文檔的索引一個高效的索引結構,對于信息檢索系統查詢的高效處理是十分重要的。系統可以采用倒排索引定位,包含關鍵詞的文檔。倒排索引是一種索引結構,它包含兩個索引表:文檔表和詞表。基于相似性的檢索與文檔索引WEB-常用的搜索引擎 Harvest 搜索引擎Google 搜索引擎Internet ArchiveInktomi 搜索引擎Baidu 搜索引擎WEB-常用的搜索引擎 Harvest 搜索引擎多媒體檢索技術多媒體檢索技術主要是通過分析多媒體信息中的視覺和音頻特征,以達到查找視覺和聽覺上相似內容的目的。所謂基于內容的多媒
4、體分析檢索是指對多媒體數據(如視頻、音頻流等)所蘊涵的物理 的和語義的內容進行計算機分析理解,以方便用戶查詢,其本質是對無序的多媒體數據流結 構化,提取語義信息,保證多媒體內容能被快速檢索。 多媒體檢索技術多媒體檢索技術主要是通過分析多媒體信息中的視覺多媒體檢索過程與文本信息檢索相比,多媒體分析檢索要復雜得多。一般多媒體分析檢索有四個主要步 驟:多媒體特征提取、多媒體數據流分割、多媒體數據分類和多媒體數據索引結構的構造與檢索,見下圖。在多媒體中,可以同時存在不同媒質數據,如視頻、圖像、音頻、三維圖形和字幕等, 因此能夠從每種媒質中提取不同特征。 多媒體檢索過程與文本信息檢索相比,多媒體分析檢索
5、要復雜得多。基于內容的圖像檢索基于內容的圖像檢索系統與傳統的基于文本的檢索系統具有著完全不同的框架。系統的核心是圖像特征數據庫。圖像特征既可以從圖像本身提取得到,也可以通過用戶的交互獲得,以用于計算圖像之間的相似度。 1、選擇、提取和索引能夠充分表達圖像的視覺特征。 2、處理基于相似度的圖像索引。 3、處理用戶對檢索結果的反饋意見,改善檢索結果。 基于內容的圖像檢索基于內容的圖像檢索系統與傳統的基于文本的檢 基于內容的圖像檢索系統在未來幾年中的可能的發展方向。 (1)圖像檢索人-機結合 (2)高層語義和底層視覺特征差距 (3)面向Web (4)多維數據的索引 (5)性能評價標準和測試集 (6)
6、圖像內容的主觀感知 (7)圖像特征映射與圖像基尋找 (8)交叉領域和多媒體的融合 圖像檢索介紹 基于內容的圖像檢索 基于內容的圖像檢索系統在未來幾年中的可能的發展方向。視頻結構化及其檢索 1視頻內容結構化 (1)圖像與視頻 靜止的圖片稱為圖像(Image),運動的圖像稱為視頻(video)。 (2)圖像的輸入 (3)視頻數據流 視頻結構化及其檢索 1視頻內容結構化視頻結構化 視頻結構化過程即是對視頻流中的連續幀序列進行切分,把一個連續視頻流按其內容 展開的不同,將它分成若干語義段落單元。 視頻流的結構化方法能夠從一部很長的視頻中抽象出視頻內部隱含的情節發展結構,它為大數據量視頻的導航和瀏覽提供
7、了一種非常好的手段。 般來說,在視頻結構化過程中,可以把連續視頻流分割成包括鏡頭、組和場景等視頻單元。 視頻結構化 視頻結構化過程即是對視頻流中的連續幀序列視頻檢索 基于例子的視頻檢索應該是高效的、簡便的和正確的.所謂高效性指檢索系統能夠快速地找到用戶所需要的視頻(如在www范圍).簡便性指檢索系統應該讓用戶操作簡單、便捷,不需要掌握復雜的專業領域知識;正確性指檢索系統返回的視頻應當盡可能接近用戶的檢索要求。 視頻檢索 基于例子的視頻檢索應該是高效的、簡便的和正確的.基于內容的圖像檢索課件視頻檢索視頻檢索 基于內容的音頻檢索 音頻包括語音和非語音兩類信號。基于內容的音頻檢索可以分為兩個方面:
8、由于在多媒體數據流中,音頻信號同樣包含了豐富的語義信息,正確識別出音頻信號中所蘊涵的語義后,從而用音頻來索引其相應的多媒體視頻信息。 音頻數據自己也可成為檢索對象,如尋找相似的音樂和在電影中尋找某個的聲音等。與視頻檢索類似,在音頻檢索中,也需要經過特征提取、音頻分割、音頻識別分類和索引檢索這幾個關鍵步驟。 基于內容的音頻檢索 音頻包括語音和非語音兩類信號。分布式數據檢索系統分布式節點連接查詢的關鍵字Lyra依靠優化的數據檢索算法在很短的時間內返回所有相關的結果分布式數據檢索系統分布式節點連接查詢的關鍵字Lyra依靠優化數字圖書館的體系結構數字圖書館的體系結構數據挖掘技術西安電子科技大學 劉志鏡
9、數據挖掘技術西安電子科技大學 劉志鏡網絡之后的下一個技術熱點 大量信息帶來的問題 信息過量,難以消化 信息真假難以辨識 信息安全難以保證 信息形式不一致,難以統一處理數據開采和知識發現技術應運而生 缺乏挖掘數據背后隱藏的知識的手段,導致了“數據爆炸但知識貧乏”的現象。 1、基于圖像與視頻的非規則運動目標檢測 2、可視媒體計算與理論網絡之后的下一個技術熱點 大量信息帶來的問題 數據挖掘在數據庫及數據倉庫中存貯有大量的數據,它們具有規范的結構形式與可靠的來源,且數量大、保存期間長,是一種極為寶貴的數據資源。充分開發、利用這些數據資源是目前計算機界的一項重要工作。數據資源的利用有三種方式:數據資源的
10、查詢服務數據資源的演繹知識的利用與搜索(AI)演繹數據庫統計分析軟件(SAS,SPSS)數據資源的歸納數據挖掘數據資源的歸納 數據挖掘在數據庫及數據倉庫中存貯有大量的數據,它們具有規范的1 什么是數據挖掘?數據挖掘又稱為數據庫中的知識發現(KDD:Knowledge Discovery in Database),起源于80年代初。1 什么是數據挖掘?數據挖掘又稱為數據庫中的知識發現(KD機器學習和數據分析的理論及實踐是數據挖掘研究的基礎,極大的商業應用前景又是數據挖掘研究工作的巨大推動力。傳統的數據庫查詢和統計只能提供你想要的信息,而數據挖掘技術則可以發現你沒有意識到的未知信息。 什么是數據挖
11、掘?基于內容的圖像檢索課件1 什么是數據挖掘?數據挖掘就是對數據庫(數據倉庫)中蘊涵的、未知的、非平凡的、有潛在應用價值的模式(規則)的提取。數據挖掘就是從大型數據庫(數據倉庫)的數據中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息。因此,我們認為數據挖掘必須包括三個因素:數據挖掘的本源:大量、完整的數據數據挖掘的結果:知識、規則結果的隱含性:因而需要一個挖掘過程1 什么是數據挖掘?數據挖掘就是對數據庫(數據倉庫)中蘊涵1 什么是數據挖掘?因此,我們應該是在一個大量的完整數據集中進行數據的挖掘工作,歸納結果應該是具有普遍性意義的規則,我們從一萬條數據中找出的規律也應該能夠適用于
12、十萬、一百萬、的情況。例如:從一個沒有同名的人群中可以抽取出關鍵字(即標識屬性)姓名,但這顯然不適合普遍情況。數據挖掘的目的:用歸納出的規律來指導客觀世界數據挖掘中的幾個基本概念:1 什么是數據挖掘?因此,我們應該是在一個大量的完整數據集2.8.1 什么是數據挖掘?模式(pattern)用高級語言表示的表達一定邏輯含義的信息,這里通常指數據庫中數據之間的邏輯關系。例如:在超市的商品銷售數據庫中,我們可以找到以下信息:男性顧客在購買嬰兒尿布時也往往同時購買啤酒在購買面包和黃油的顧客中,大部分的人同時也買了牛奶知識(discovered knowledge)滿足用戶興趣度和置信度的模式。2.8.1
13、 什么是數據挖掘?模式(pattern)2.8.1 什么是數據挖掘?置信度(confidence)知識在某一數據域上為真的量度。置信度涉及到許多因素,如數據的完整性、樣本數據的大小、領域知識的支持程度等。沒有足夠的確定性,模式不能成為知識。例如:模式在購買面包和黃油的顧客中,大部分的人同時也買了牛奶的置信度為:同時購買面包、黃油、牛奶的顧客人數占同時購買面包、黃油的顧客人數的百分比。2.8.1 什么是數據挖掘?置信度(confidence)2.8.1 什么是數據挖掘?興趣度(interestingness)在一定數據域上為真的知識被用戶關注的程度。有效性(effectiveness)知識的發現
14、過程必須能夠有效地在計算機上實現。非平凡性(nontrivial)能夠以確定的計算過程提取的模式稱為平凡知識。平凡的知識(如根據數據庫中的薪水字段求得職員的平均薪水)不是數據挖掘的目標。在數據挖掘中,知識的發現過程都應具有某種不確定性和一定的自由度,也就是要發現不平凡的知識。2.8.1 什么是數據挖掘?興趣度(interesting2.8.1 什么是數據挖掘?從上面的討論中可以看出來,數據挖掘的過程具有以下一些顯著的特點:數據挖掘要處理大量的數據,它所處理的數據庫(數據倉庫)的規模十分龐大,達到GB、TB,甚至更大;由于用戶不能形成精確的查詢要求,因此要依靠數據挖掘技術為用戶找尋他可能感興趣的
15、東西;在數據挖掘過程中,規則的發現基于統計規律。因此,所發現的規則不必適用于所有數據,而是當達到一定的“門檻”時,即認為具有此規則。由此,利用數據挖掘技術可能會發現大量的規則;數據挖掘所發現的規則是動態的,它只反映了當前狀態的數據集合具有的規則,隨著不斷地向數據庫(數據倉庫)中加入新數據,需要不斷地更新規則。2.8.1 什么是數據挖掘?從上面的討論中可以看出來,數據1 什么是數據挖掘?數據挖掘技術在決策支持過程中所處的位置如下圖:研究問題域選擇目標數據集數據預處理 數 據 挖 掘 模式評價與理解 決策支持應用 如果滿足不了用戶的需要 1 什么是數據挖掘?數據挖掘技術在決策支持過程中所處的位置2
16、 數據倉庫與數據挖掘在傳統的決策支持系統中,數據挖掘技術是建立在數據庫的基礎上的(如下左圖),數據挖掘只是其中的一個部分,在這之前需要大量的數據查詢和預處理。有了數據倉庫技術之后,由于數據倉庫中的數據都是經過抽取、整理和預處理后的綜合數據,因而數據挖掘工作可以在數據倉庫上直接運行。數據挖掘數據的預處理數 據 庫數據源(含數據庫)數據抽取數據倉庫數據挖掘2 數據倉庫與數據挖掘在傳統的決策支持系統中,數據挖掘技術2 數據倉庫與數據挖掘利用數據庫系統進行數據挖掘的缺點是:動態數據(Dynamic Data)大多數數據庫的基本特點是內容將經常變化。在一個在線系統中,必須采用預警機制來保證數據庫中的這些
17、變化不會導致錯誤的數據挖掘結果。噪聲和不確定性(Noise & Uncertainty)錯誤的數據對于現實世界中的數據庫是在所難免的,這主要在于數據采集的各個環節。另一種不確定性存在于發現的模式可能只在一部分數據上有效。2 數據倉庫與數據挖掘利用數據庫系統進行數據挖掘的缺點是:2 數據倉庫與數據挖掘不完整數據(Incomplete Data)由于不完整的數據域和數據域上值的缺少造成的不完整數據當然會影響發現的結果。數據庫的最初設計并沒有考慮知識發現的應用,模式的發現、評價、解釋很可能需要數據庫中不存在的信息。冗余信息(Redundant Information)同一數據在數據庫中的多處出現。這
18、種冗余信息有時會誤導知識的發現過程。根據冗余信息發現的知識缺乏足夠的興趣度。稀疏數據(Sparse Data)數據庫中的信息在實例空間中可能是稀疏的,這會嚴重影響發現的效率。2 數據倉庫與數據挖掘不完整數據(Incomplete D3 常用的數據挖掘方法目前一般常用的數據挖掘方法很多,它們大多屬于數學統計方法或人工智能中的機器學習算法,以及人工神經網絡/遺傳算法等,在這里,我們簡單介紹在數據庫中常用的幾種算法,它們是:用于特征規則挖掘的方法面向屬性歸約方法數據立方方法關聯規則挖掘序列模式分析分類分析聚類分析3 常用的數據挖掘方法目前一般常用的數據挖掘方法很多,它們3.1 面向屬性規約方法特征規
19、則是一種常見的知識形式,它用于描述一類數據對象的普遍特征,是普化知識的一種。特征規則的數據挖掘方法有兩類:數據立方方法和面向屬性歸約方法。面向屬性歸約方法這是一種常用的特征規則的挖掘方法。它通過對屬性值間概念的層次結構進行歸約,以獲得相關數據的概括性知識,通常又稱為普化知識。在實際情況中,許多屬性都可以進行數據歸類,形成概念匯聚點。這些概念依抽象程度的不同可構成描述它們層次結構的概念樹。3.1 面向屬性規約方法特征規則是一種常見的知識形式,它用3.1 面向屬性規約方法在面向屬性規約方法中,使用到下面的一些基本概念:概念層次樹指某屬性值所具有的從具體的概念值到概念類的層次關系樹。一般由用戶提供或
20、從領域知識中得到該屬性的概念層次樹。例:屬性籍貫的概念層次樹3.1 面向屬性規約方法在面向屬性規約方法中,使用到下面的3.1 面向屬性規約方法屬性籍貫的概念層次樹籍 貫3.1 面向屬性規約方法屬性籍貫的概念層次樹籍 貫3.1 面向屬性規約方法歸約用屬性概念層次樹上高層的屬性值去替代低層的屬性值,又稱為概念提升。如:用湖北去代替武漢,用江蘇去代替南京或蘇州等。概括關系表這是一張二維關系表,其屬性是目標類中參與規則發現的屬性,其最終元組數不大于用戶指定的值。該表中的元組被稱為宏元組。一個宏元組概括了多個基本元組,并附加上一個COUNT屬性,用以表示該宏元組所概括的基本元組數。3.1 面向屬性規約方
21、法歸約3.1 面向屬性規約方法例:有部分學生在圖書館借閱了大趨勢這本書,想通過數據挖掘技術發現這部分學生具有什么樣的特征。其基本關系表是:學 號姓 名系 別書 名借閱日期9932007顏立經濟大趨勢2000.3.169833090王家衛金融大趨勢2000.3.169813105王向東醫學院大趨勢2000.5.89928073朱小明企管大趨勢2000.5.209822041劉偉歷史大趨勢2000.6.309932056陳立業經濟大趨勢2000.9.199923143劉英新聞大趨勢200 面向屬性規約方法例:有部分學生在圖書館借閱了大趨3.1 面向屬性規約方法概念層次樹:系別文科
22、 商學院 - 經濟,金融,企管,會計,國貿文科 文學院 - 中文,新聞,信管,歷史,哲學理科 醫學院理科 理學院 - 數學,天文,物理3.1 面向屬性規約方法概念層次樹:系別系 別書 名商學院大趨勢4文學院大趨勢2醫學院大趨勢13.1 面向屬性規約方法概括關系表一依據借閱次數的多少來決定是否為噪聲數據借閱次數概括關系表二系 別書 名借閱次數文科大趨勢6理科大趨勢1系 別書 名商學院大趨勢4文學院大趨勢2醫學院大趨勢133.1 面向屬性規約方法如果定義噪聲數據的閥值是1(記錄數為1),則:根據基本關系表一發現的特征規則是:借閱大趨勢一書的是經濟系的學生根據概括關系表一發現的特征規則是:借閱大趨勢
23、一書的是商學院的學生借閱大趨勢一書的是文學院的學生根據概括關系表二發現的特征規則是:借閱大趨勢一書的是文科的學生3.1 面向屬性規約方法如果定義噪聲數據的閥值是1(記錄數3.1 面向屬性規約方法如果定義噪聲數據的閥值是2,則:根據基本關系表一發現不到特征規則根據概括關系表一發現的特征規則是:借閱大趨勢一書的是商學院的學生根據概括關系表二發現的特征規則是:借閱大趨勢一書的是文科的學生3.1 面向屬性規約方法如果定義噪聲數據的閥值是2,則:3.1 面向屬性規約方法如果定義噪聲數據的閥值是5,則:根據基本關系表一發現不到特征規則根據概括關系表一發現不到特征規則根據概括關系表二發現的特征規則是:借閱大
24、趨勢一書的是文科的學生3.1 面向屬性規約方法如果定義噪聲數據的閥值是5,則:數據立方方法可以發現,在面向屬性規約方法中,經常要做各種統計查詢。如果預先做好某些經常需要用到但花費較高的統計、求和等集成計算,并將統計結果放在多維數據庫中。采用該種方法的特征規則挖掘方法被稱為數據立方方法。在數據立方方法中,常用的分析方法有:數據概括(roll_up上翻)將屬性值提高到較高層次,如:從基本關系表 到 概括關系表一, 再到概括關系表二的分析過程。數據細化(drill_down下翻)將屬性值減低一些層次,如:從概括關系表二 到 概括關系表一, 再到基本關系表的分析過程。3.1 面向屬性規約方法數據立方方
25、法3.1 面向屬性規約方法3.2 關聯規則挖掘關聯規則用于表示OLTP數據庫中諸多屬性(項集)之間的關聯程度。而關聯規則挖掘( Association Rules Mining)則是利用數據庫中的大量數據通過關聯算法尋找屬性間的相關性。例:(超級市場)在購買商品A的客戶中有90%的人會同時購買商品B,則可用關聯規則表示為:A B . 規則1我們講數據挖掘的結果要滿足一定的置信度和興趣度要求,在這里,用戶對規則感興趣的程度我們用規則的支持度來表示。3.2 關聯規則挖掘關聯規則用于表示OLTP數據庫中諸多屬3.2 關聯規則挖掘規則1: A B支持度(Support)同時購買A和B的客戶人數占總客戶
26、數的百分比稱為規則1的支持度。Support(A B) = Probability(AB)置信度(Confidence)同時購買A和B的客戶人數占購買A的客戶人數的百分比稱為規則1的置信度。Confidence(A B) = Probability(B/A) = Probability(A B) / Probability(A)3.2 關聯規則挖掘規則1: A B3.2 關聯規則挖掘購買A的顧客購買B的顧客同時購買A和B的顧客3.2 關聯規則挖掘購買A的顧客購買B的顧客同時購買A和B3.2 關聯規則挖掘如果不考慮關聯規則的支持度和置信度,那么在事務數據庫中存在無窮多的關聯規則。事實上,人們一般
27、只對滿足一定的支持度和可信度的關聯規則感興趣。為了發現出有意義的關聯規則,需要給定兩個閾值:最小支持度和最小置信度。關聯規則挖掘的實質是在OLTP數據庫中尋找滿足用戶給定的最小支持度和最小置信度的規則。 關聯規則挖掘算法:The Apriori Algorithm3.2 關聯規則挖掘如果不考慮關聯規則的支持度和置信度,那3.2 關聯規則挖掘Apriori算法的原理:項集(itemset):在數據庫中出現的屬性值的集合。頻繁項集(frequent itemset):滿足最小支持度要求的項集。關聯規則一定是在滿足用戶的最小支持度要求的頻繁項集中產生的,因此,關聯規則挖掘也就是在數據庫中尋找頻繁項集
28、的過程。在尋找頻繁項集的過程中,我們遵循一條規則:每個頻繁項集的任一子集必定也是一個頻繁項集。3.2 關聯規則挖掘Apriori算法的原理:3.2 關聯規則挖掘假設最小支持度和最小置信度的要求均為50%OLTP數據庫最后找到的頻繁項集是:(A), (B), (C), (A, C)3.2 關聯規則挖掘假設最小支持度和最小置信度的要求均為53.2 關聯規則挖掘因此,在上述數據庫中,我們能找到的關聯規則只能是頻繁項集(A,C)上的。規則1:A C(支持度50%,置信度66.6%)規則2:C A (支持度50%,置信度100%)3.2 關聯規則挖掘因此,在上述數據庫中,我們能找到的關聯3.2 關聯規則
29、挖掘例:在借書一例中,假設我們定義關聯規則的最小支持度為20%如果我們在基本表上做關聯規則挖掘,就只能發現一條規則:借閱大趨勢一書的是經濟系的學生。如果在概括關系表1中做挖掘,得到的關聯規則是:借閱大趨勢一書的是商學院的學生。借閱大趨勢一書的是文學院的學生。如果在概括關系表2中做挖掘,得到的關聯規則是:借閱大趨勢一書的是文科的學生。3.2 關聯規則挖掘例:在借書一例中,假設我們定義關聯3.2 關聯規則挖掘例:假設我們定義關聯規則的最小支持度為30%如果我們在基本表上做關聯規則挖掘,發現不了規則。如果在概括關系表1中做挖掘,得到的關聯規則是:借閱大趨勢一書的是商學院的學生。如果在概括關系表2中做
30、挖掘,得到的關聯規則是:借閱大趨勢一書的是文科的學生。3.2 關聯規則挖掘例:假設我們定義關聯規則的最小支持度為什么是數據倉庫?數據倉庫的定義很多,但卻很難有一種嚴格的定義它是一個提供決策支持功能的數據庫,它與公司的操作數據庫分開維護。 為統一的歷史數據分析提供堅實的平臺,對信息處理提供支持數據倉庫區別于其他數據存儲系統“數據倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數據集合,支持管理部門的決策過程.”W. H. Inmon什么是數據倉庫?數據倉庫的定義很多,但卻很難有一種嚴格的定義數據倉庫關鍵特征面向主題面向主題,是數據倉庫顯著區別于關系數據庫系統的一個特征圍繞一些主題,如顧
31、客、供應商、產品等關注決策者的數據建模與分析,而不是集中于組織機構的日常操作和事務處理。排除對于決策無用的數據,提供特定主題的簡明視圖。數據倉庫關鍵特征面向主題面向主題,是數據倉庫顯著區別于關數據倉庫關鍵特征二數據集成一個數據倉庫是通過集成多個異種數據源來構造的。關系數據庫,一般文件,聯機事務處理記錄使用數據清理和數據集成技術。確保命名約定、編碼結構、屬性度量等的一致性。當數據被移到數據倉庫時,它們要經過轉化。數據倉庫關鍵特征二數據集成一個數據倉庫是通過集成多個異種數據倉庫關鍵特征三隨時間而變化數據倉庫是從歷史的角度提供信息數據倉庫的時間范圍比操作數據庫系統要長的多。操作數據庫系統: 主要保存
32、當前數據。數據倉庫:從歷史角度提供信息(如過去 5-10 年)數據倉庫中的每一個關鍵結構都隱式或顯式地包含時間元素,而操作數據庫中的關鍵結構可能就不包括時間元素。數據倉庫關鍵特征三隨時間而變化數據倉庫是從歷史的角度提供數據倉庫關鍵特征四數據不易丟失盡管數據倉庫中的數據來自于操作數據庫,但他們卻是在物理上分離保存的。操作數據庫的更新操作不會出現在數據倉庫環境下。不需要事務處理,恢復,和并發控制等機制只需要兩種數據訪問: 數據的初始轉載和數據訪問(讀操作)數據倉庫關鍵特征四數據不易丟失盡管數據倉庫中的數據來自于數據倉庫的構建與使用數據倉庫的構建包括一系列的數據預處理過程數據清理數據集成數據變換數據
33、倉庫的使用熱點是商業決策行為,例如:增加客戶聚焦產品重定位尋找獲利點客戶關系管理數據倉庫的構建與使用數據倉庫的構建包括一系列的數據預處理過程數據倉庫應用體系結構數據集成數據轉換數據發布Warehouse Process Management數據存取Metadata數據集成: 集成不同業務系統中的數據數據轉換: 全部數據被轉換成統一的數據格式數據發布: 數據被存儲在靠近用戶的地方數據存取: 滿足數據分析等應用需求Metadata :元數據. 即數據倉庫的數據字典.Warehouse Process Management 保證數據倉庫的正確實施數據倉庫應用體系結構數據集成數據轉換數據發布Wareh
34、ousWeb挖掘Web挖掘就是從Web文件和Web活動中篩選感興趣的潛在的有用模式和隱藏的信息。Web挖掘是一項綜合技術,涉及Web數據挖掘、計算機語言學、信息論學等多個領域。Web挖掘可以在很多方面發揮功能,如對查找引擎的結構進行挖掘、確定權威頁面、Web文件分類、Web Log挖掘、智能型查詢、建立Meta-Web數據倉庫等。Web挖掘Web挖掘就是從Web文件和Web活動中篩選感興趣Web挖掘搜索策略表面深層1、深度優先(網絡蜘蛛)2、廣度優先(通用的搜索引擎)Web挖掘搜索策略1、深度優先(網絡蜘蛛)Web挖掘1.Web上的數據的特點 (1)Web頁面的復雜性高于傳統的文本 (2)We
35、b是一個動態性極強的信息源 (3)Web面對的是一個廣泛的形形色色的客戶群 (4)Web上的信息只有很小的一部分是相關的或有用的 綜上所述,Web挖掘是一個更有挑戰性的課題,它執行的是對Web存取模式、Web結構、規則和動態的Web內容的查找。Web挖掘1.Web上的數據的特點Web 挖掘分類Web 挖掘Web結構挖掘Web內容挖掘Web使用記錄挖掘Web頁內容挖掘搜索結果挖掘一般模式追蹤個人使用模式追蹤Web 挖掘分類Web 挖掘Web結構挖掘Web內容挖掘We在Web上的挖掘和信息檢索是兩種不同的技術,其區別主要表現在以下幾個方面。 (1)方法論不同 (2)著眼點不同 (3)目的不同 (4
36、)評估方法不同 (5)他用場合不同在Web上的挖掘和信息檢索是兩種不同的技術,其區別主要表現在空間數據挖掘空間數據挖掘需要綜合數據挖掘與空間數據庫技術的支持。利用空間數據挖掘可以加強 對數據的理解,空間關系與非空間數據問關系的發現,空間知識庫的構造、空間數據庫的重組和空間數據查詢的優化。地理信息數據庫(GIS)是空間數據庫的特定應用。基于關系數據庫挖掘系統DBMiner, 開發的空間數據挖掘系統Geo Miner能在地理空間數據庫中挖掘特征規則、比較規則、分類 規則和數據聚類等。該系統擁有空間數據庫模型、空間數據立方體、空間OLAP等模塊(參見圖78),并且設計了專門用于空間數據挖掘的語言GM
37、QL。 空間數據挖掘空間數據挖掘需要綜合數據挖掘與空間數據庫技術的支什么是空間數據什么是空間數據什么是空間數據城市空間基礎數據什么是空間數據城什么是空間數據GIS空間地理信息平臺什么是空間數據GIS空間地理信息平臺空間數據挖掘用途空間數據挖掘主要是對存儲了大量與空間有關數據的空間數據庫(如地圖、預處理后的 遙感數據、醫學圖像數據和VLSI芯片設計等數據)進行數據挖掘,主要是對空間數據庫中 非顯式的知識、空間關系和其他有意義的模式的提取。由于空間數據庫包含大量的拓撲距離信息,需要按照復雜的多維空間索引結構組織數 據。在訪問這些數據時,需要采用空間推理、地理計算和空間知識的表示技術。這些技術一 般
38、比較復雜,需要效率很高的空間數據挖掘技術來處理。空間數據挖掘方法目前主要有空間數據分類、空間數據關系分析和空間趨勢分析等。 空間數據挖掘用途空間數據挖掘主要是對存儲了大量與空間有關數據分布式數據挖掘分布式數據挖掘是應用分布式算法,從分布式數據庫中挖掘知識的過程。在分布式數據挖掘中,主要有適合水平式數據劃分的分布式挖掘方法和適合垂直式數據劃分的分布式數據挖掘方法。分布式數據挖掘是一種用途廣泛的數據挖掘技術。分布式數據挖掘分布式數據挖掘是應用分布式算法,從分布式數據庫分布式數據挖掘分布式數據挖掘技術通常用于擁有分布式數據資源,或將集中式數據庫按照水平方式或垂直方式劃分后,分布在不同的站點上。在水平劃分情況下,各站點上的數據是同質(同構) 的,即各個站點數據具有相同的屬性集。在垂直劃分的情況下,各個站點上的數據是異質(異 構)的,即各個站
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 美妝護膚品電商直播銷售渠道授權合同
- 2025年中級會計實務考試復習策略與試題及答案
- 如何應對2025年工程法規考試挑戰試題及答案
- 2025年工程法規應試策略試題
- 廈門建房相鄰協議書
- 2025年工程法規考試高頻考點及試題及答案
- 合同門面出租協議書
- 醫藥代理合同協議書
- 雙方授權轉款協議書
- 合作交流私人協議書
- 遂寧遂寧市住房和城鄉建設局公開招聘編外人員筆試歷年參考題庫附帶答案詳解
- 2025高考化學復習新題速遞之有機合成(解答大題)(2025年4月)
- 駕校掛靠合同協議書
- 2025年福建武夷旅游集團有限公司人才教育板塊自主招聘17人筆試參考題庫附帶答案詳解
- 2025-2030中國面粉行業市場深度調研及前景趨勢與投資研究報告
- 民法典進企業講稿課件
- 2025年計算機編程能力測試試卷及答案
- 2025信息技術系統維護服務合同范本
- 中暑及熱射病防治
- 2025年湖北省高考數學調研試卷(4月份)(含答案)
- 河南能源焦煤集團趙固一礦11231作業規程
評論
0/150
提交評論