




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1第19章數(shù)據(jù)庫的現(xiàn)狀和發(fā)展
本章主題高級數(shù)據(jù)庫應(yīng)用的需求為什么關(guān)系DBMS目前不能很好地支持高級數(shù)據(jù)庫應(yīng)用分布式DBMS(DDBMS)的主要概念與數(shù)據(jù)庫復(fù)制有關(guān)的主要概念面向?qū)ο蟮腄BMS(OODBMS)和對象關(guān)系DBMS(ORDBMS)的主要概念數(shù)據(jù)倉庫的主要概念聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘的主要概念將數(shù)據(jù)庫集成到網(wǎng)絡(luò)環(huán)境中的方法2一、高級數(shù)據(jù)庫應(yīng)用計算機輔助設(shè)計(CAD)計算機輔助制造(CAM)辦公室信息系統(tǒng)(OIS)和多媒體系統(tǒng)地理信息系統(tǒng)(GIS)交互式動態(tài)的Web站點31、計算機輔助設(shè)計
(CAD)CAD數(shù)據(jù)庫存儲了與諸如建筑、航空、集成電路芯片這樣的機械電氣設(shè)計數(shù)據(jù)。
這類設(shè)計有一些共同特征:設(shè)計數(shù)據(jù)總是被分為很多類,每類有少量的實例。設(shè)計工作量非常大。設(shè)計不是靜態(tài)的。更新操作的影響范圍較大。一些版本控制和配置管理。
協(xié)作工程。
2、計算機輔助制造(CAM)CAM數(shù)據(jù)庫存儲了和CAD系統(tǒng)相似的數(shù)據(jù),只是增加了有關(guān)離散產(chǎn)品和連續(xù)產(chǎn)品的數(shù)據(jù)。43、辦公室信息系統(tǒng)(OIS)和多媒體系統(tǒng)OIS系統(tǒng)存儲了在業(yè)務(wù)中涉及到計算機信息控制的所有數(shù)據(jù),包括電子郵件、文檔、貨物清單等等。現(xiàn)代系統(tǒng)可以處理自由格式的文本、圖片、圖表、音頻、視頻等。
文檔可能用特定的結(jié)構(gòu)來安排這些內(nèi)容,用一種標記語言來描述這種結(jié)構(gòu),如SGML(標準通用標記語言)、HTML(超文本標記語言)、XML(擴展性標記語言)。54、地理信息系統(tǒng)(GIS)GIS數(shù)據(jù)庫存儲了各種空間和時間信息,如土地管理和地下水開采中的應(yīng)用。
大多數(shù)數(shù)據(jù)由調(diào)查和衛(wèi)星圖產(chǎn)生,而且往往數(shù)量很多。研究工作可能涉及到一些鑒別特征的工作,例如,使用先進的“模式識別”技術(shù)基于形狀、顏色或是紋理來鑒別。65、交互式、靈活多變的Web站點設(shè)想一個Web站點擁有在線的目錄來銷售衣服,該站點維護早期的訪問者的偏好,并允許訪問者進行以下操作:選擇與用戶定義的條件集合相匹配的物品。根據(jù)客戶指定的服裝細節(jié)(如顏色、尺寸、造型等)得到服裝的3D效果圖。根據(jù)給定物品的附加細節(jié)。選擇一段畫外音說明。需要處理多媒體內(nèi)容,需要根據(jù)用戶的喜好、選擇來交互地改進顯示方式。
還要能夠處理復(fù)雜數(shù)據(jù),站點支持的3D效果圖功能給系統(tǒng)附加了復(fù)雜性。
7二、關(guān)系DBMS的缺陷對“現(xiàn)實世界”實體的表達能力弱規(guī)范化通常導(dǎo)致表與現(xiàn)實世界中的實體不對應(yīng)。語義過載關(guān)系模型表達數(shù)據(jù)和數(shù)據(jù)間關(guān)系的構(gòu)造只有一種:表。
關(guān)系模型語義過載了。不能很好的支持業(yè)務(wù)規(guī)則有限的操作關(guān)系模型只有一些固定的操作集,不允許指定新的操作。8處理遞歸查詢困難處理遞歸查詢極為困難。遞歸查詢就是那些有關(guān)表和自身直接或間接的關(guān)系的查詢。阻抗失配直到最新版本的SQL標準,都缺少完全的計算功能。為了解決這個問題并且提供更多的靈活性,SQL標準提供嵌入式SQL來幫助開發(fā)更加復(fù)雜的數(shù)據(jù)庫應(yīng)用程序。這引起了阻抗不匹配的問題,因為我們將兩種不同的程序設(shè)計模式混合在了一起。9三、分布式DBMS和復(fù)制服務(wù)器分布式數(shù)據(jù)庫:一個邏輯上相關(guān)的共享數(shù)據(jù)(以及數(shù)據(jù)的描述)的集合,它們物理上分布在一個計算機網(wǎng)絡(luò)上。
分布式DBMS:允許管理分布式數(shù)據(jù)庫并且使得這種分布對用戶來說是透明的軟件系統(tǒng)。10邏輯上相互關(guān)聯(lián)的共享數(shù)據(jù)的集合。數(shù)據(jù)被分割成多個片斷。片斷可以被復(fù)制。片斷/副本分布在不同的站點上。這些站點通過一個通信網(wǎng)絡(luò)連接在一起。每個站點上的數(shù)據(jù)都由一個DBMS控制。每個站點的DBMS能夠自主地處理本地的應(yīng)用程序。每個DBMS至少參與一個全局應(yīng)用程序。11分布式數(shù)據(jù)庫管理系統(tǒng)站點1站點2站點4站點3計算機網(wǎng)絡(luò)12
分布式處理:一個能夠通過計算機網(wǎng)絡(luò)來訪問的集中式數(shù)據(jù)庫。
站點1站點4站點3站點2計算機網(wǎng)絡(luò)13DDBMS的優(yōu)點反應(yīng)了企業(yè)的結(jié)構(gòu)提高了共享能力和本地自治能力提高了可用性提高了可靠性提高了性能經(jīng)濟模型增長14DDBMS的缺點復(fù)雜性價格安全性完整性控制更加困難缺乏標準缺乏經(jīng)驗數(shù)據(jù)庫設(shè)計更加復(fù)雜15復(fù)制服務(wù)器復(fù)制:在一個或多個站點上生成或產(chǎn)生數(shù)據(jù)的多個副本的過程。
可以使企業(yè)中的用戶在任何時候任何地點訪問最近的數(shù)據(jù)。提供了很多好處,包括當(dāng)集中式資源超載時改進系統(tǒng)性能,增加可靠性和數(shù)據(jù)可用性,支持可移動計算和數(shù)據(jù)倉庫。
16同步復(fù)制和異步復(fù)制同步復(fù)制:一旦源數(shù)據(jù)被更新則復(fù)制的數(shù)據(jù)也被立刻更新。
如果一個或多個站點中的副本不可用,那么整個事務(wù)就會因此無法完全執(zhí)行成功。
同步復(fù)制數(shù)據(jù)需要用大量的消息來進行協(xié)調(diào)。異步復(fù)制:目標數(shù)據(jù)庫將在源數(shù)據(jù)庫已經(jīng)完成修改后再進行更新。重新獲得一致性的延時從幾秒到幾個小時甚至幾天不等。17復(fù)制-功能作為最基本的標準,我們希望一個分布式數(shù)據(jù)復(fù)制服務(wù)能夠?qū)?shù)據(jù)從一個數(shù)據(jù)庫拷貝到另一個數(shù)據(jù)庫中,同步復(fù)制或者異步復(fù)制都行。
其他功能:伸縮性映射和轉(zhuǎn)換對象復(fù)制復(fù)制機制的規(guī)格說明訂閱機制
初始化機制
18復(fù)制-數(shù)據(jù)所有權(quán)所有權(quán)就是指哪個站點擁有更新數(shù)據(jù)的權(quán)限。主要的所有權(quán)類型:主/從所有權(quán)
(或異步復(fù)制)工作流所有權(quán)
在任何地方更新數(shù)據(jù)的所有權(quán)
(或?qū)ΨQ復(fù)制)19復(fù)制-主/從所有權(quán)異步復(fù)制數(shù)據(jù)將被一個站點所擁有,而且只能由該站點進行更新。
用“發(fā)布-訂閱”來比喻,主站點(發(fā)布者)使數(shù)據(jù)可被訪問。
其他的站點將“訂閱”主站點擁有的數(shù)據(jù),這就意味著它們只能在本地系統(tǒng)中接受只讀的副本。
潛在的,每個站點都可以成為無重疊數(shù)據(jù)集的主站點,但是站點之間不會發(fā)生更新沖突。
20復(fù)制-工作流所有權(quán)避免了更新沖突,同時提供了更靈活的所有權(quán)模式。
允許更新復(fù)制數(shù)據(jù)的權(quán)限從一個站點傳到另一個站點。
但是,在任何時刻,只能有一個站點能夠更新特定的數(shù)據(jù)集合。
典型例子是一個訂單處理系統(tǒng),訂單處理有一系列的步驟,例如訂單輸入、訂單批準、發(fā)貨、運輸?shù)鹊取?/p>
21復(fù)制-在任何地方更新數(shù)據(jù)的所有權(quán)在多個站點擁有更新復(fù)制數(shù)據(jù)的權(quán)力,創(chuàng)建了一個對等環(huán)境。
允許本地站點能夠自主的處理,即使這些更新對其他站點不可用。
共享所有權(quán)可能導(dǎo)致沖突情況,而且復(fù)制架構(gòu)要能夠開發(fā)一種發(fā)現(xiàn)沖突和解決沖突的方法。22面向?qū)ο蟮腄BMS有關(guān)面向?qū)ο髷?shù)據(jù)模型已經(jīng)提出多種不同定義,其中一種:面向?qū)ο髷?shù)據(jù)模型
(OODM)一個捕獲面向?qū)ο缶幊讨兄С值膶ο蟮恼Z義的(邏輯)數(shù)據(jù)模型。面向?qū)ο髷?shù)據(jù)庫
(OODB)由OODM定義的持久的、共享的對象集合。面向?qū)ο驞BMS(OODBMS)OODB的管理者。23面向?qū)ο髷?shù)據(jù)模型的起源傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)持久性共享性事務(wù)并發(fā)控制恢復(fù)控制安全性完整性查詢數(shù)據(jù)模型語義概化聚合面向?qū)ο蟪绦蛟O(shè)計對象標識封裝繼承類型和類方法復(fù)合對象多態(tài)性擴展性特殊要求版本模式進化面向?qū)ο髷?shù)據(jù)模型24OODBMS的優(yōu)點豐富了建模功能。擴展性。消除了“阻抗不匹配”。能夠支持高級數(shù)據(jù)庫應(yīng)用。支持模式進化。支持長時間的事務(wù)。更具表達了的查詢語言。提高了性能。25OODBMS的缺點缺少可借鑒的經(jīng)驗。缺少標準。和RDBMS的競爭。復(fù)雜性。缺少視圖的支持。缺少安全性支持。26對象-關(guān)系DBMS很多RDBMS產(chǎn)品的廠商已意識到OODBMS的威脅和承諾。
承認傳統(tǒng)的RDBMS不能適用于高級應(yīng)用,而且需要附加的功能。
否認擴展的RDBMS不能提供有效的功能或者處理速度太慢而不能解決新的復(fù)雜性問題。
彌補關(guān)系模型的缺點最明顯的方法是擴展該模型使其具備面向?qū)ο蟮念愋吞卣鳌?/p>
27對象-關(guān)系DBMS的特征面向?qū)ο蟮奶卣靼?用戶擴展類型系統(tǒng)
封裝性繼承性多態(tài)性
方法的動態(tài)綁定
包括非第一范式對象的復(fù)雜對象對象知識28對象-關(guān)系DBMS的特征出現(xiàn)了一系列依賴于它朝哪個方向以何種程度來擴展的模型。
所有模型:共享相同的基本關(guān)系表和查詢語言
都合并了一些“對象”的概念
有些模型還能在數(shù)據(jù)庫中像存儲數(shù)據(jù)一樣存儲方法(或是存儲過程、觸發(fā)器)
29ORDBMS的優(yōu)點彌補了在19.2節(jié)中提到的很多弱點。重用性和共享性
重用性源于擴展DBMS服務(wù)器以實現(xiàn)標準功能。提高了開發(fā)者的效率,也提高了最終用戶的效率。擴展關(guān)系方法保留了開發(fā)關(guān)系型應(yīng)用程序的一些重要的知識和經(jīng)驗。30ORDBMS的缺點復(fù)雜性相關(guān)費用增加失去了關(guān)系模型最重要的簡單性和純正性一些人認為RDBMS擴展后只能適應(yīng)小部分應(yīng)用。面向?qū)ο笾С终邲]有被這些擴展所吸引。31數(shù)據(jù)倉庫的產(chǎn)生19世紀70年代以來,企業(yè)越來越多的關(guān)注他們在能夠自動處理業(yè)務(wù)的新的計算機系統(tǒng)上的投資。企業(yè)能夠通過該系統(tǒng)獲得更大的競爭力,即為顧客提供更有效更經(jīng)濟的服務(wù)。在這段時期,企業(yè)在他們的數(shù)據(jù)庫中積累了日益增長的大量數(shù)據(jù)。
現(xiàn)在企業(yè)開始關(guān)注使用這些操作數(shù)據(jù)來做出決策的方法,以獲得更強的競爭力。運作的系統(tǒng)從來就不是為了支持商業(yè)決策而設(shè)計的,所以使用這樣的系統(tǒng)可能永遠也不能得到簡單的解決方案。32一個企業(yè)可能會有幾個系統(tǒng)同時存在,所以有時會出現(xiàn)重復(fù)和沖突的定義,如數(shù)據(jù)類型。
企業(yè)的困難是如何將數(shù)據(jù)源轉(zhuǎn)換為知識源,從而為用戶提供一個集成/合成的企業(yè)數(shù)據(jù)視圖。數(shù)據(jù)倉庫的概念應(yīng)運而生,它滿足了系統(tǒng)的要求,能夠支持決策定制、從多個操作型數(shù)據(jù)源中獲得數(shù)據(jù)。33數(shù)據(jù)倉庫的概念
從一些不同的操作型數(shù)據(jù)源整理出企業(yè)數(shù)據(jù)的合成/集成的視圖,并有一系列最終用可使用的工具來支持從簡單到復(fù)雜的查詢以制定決策的工具。在數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的、集成的、隨時間變化的、穩(wěn)定的。34面向主題的數(shù)據(jù)
數(shù)據(jù)倉庫是圍繞企業(yè)的主要的主題(比如顧客、產(chǎn)品、銷售)而不是根據(jù)主要的應(yīng)用領(lǐng)域(如用戶發(fā)貨、庫存控制和產(chǎn)品銷售)來組織系統(tǒng)的。
這反映了存儲支持決策數(shù)據(jù)的需要,而不是存儲面向應(yīng)用的數(shù)據(jù)的需要。集成的數(shù)據(jù)數(shù)據(jù)源來自企業(yè)范圍內(nèi)不同的應(yīng)用系統(tǒng),所以源數(shù)據(jù)常常是不一致的。集成后的數(shù)據(jù)源必須一致以便給用戶提供一個統(tǒng)一的數(shù)據(jù)視圖。35隨時間變化的數(shù)據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)只在某個時間點或在一定的時間間隔中才是準確的、有效的。
數(shù)據(jù)倉庫隨時間變化的特征在數(shù)據(jù)運行時也會體現(xiàn),在所以數(shù)據(jù)都隱式或顯式的與時間有關(guān),事實上數(shù)據(jù)代表了一系列的“快照”時都會出現(xiàn)。穩(wěn)定的數(shù)據(jù)數(shù)據(jù)并不是實時更新的,而是定期從操作系統(tǒng)系統(tǒng)中刷新。新數(shù)據(jù)常常作為數(shù)據(jù)庫的補充增加進來,而不是替代原先的數(shù)據(jù)。36典型的數(shù)據(jù)倉庫架構(gòu)操作型數(shù)據(jù)源1操作型數(shù)據(jù)源2操作型數(shù)據(jù)源n操作型數(shù)據(jù)的存儲(ODS)負載管理器查詢管理器數(shù)據(jù)倉庫管理器數(shù)據(jù)倉庫管理器元數(shù)據(jù)高度綜合數(shù)據(jù)輕度綜合數(shù)據(jù)細節(jié)數(shù)據(jù)報表、查詢、應(yīng)用開發(fā)和EIS工具數(shù)據(jù)挖掘工具終端用戶訪問工具OLAP工具歸檔/備份數(shù)據(jù)37典型的數(shù)據(jù)倉庫架構(gòu)操作型數(shù)據(jù)由大型主機、私有的文件系統(tǒng)、私有的工作站和服務(wù)器以及諸如因特網(wǎng)這樣的外部系統(tǒng)提供。操作型數(shù)據(jù)存儲(ODS):用于分析當(dāng)前的和集成的數(shù)據(jù)的倉庫。常常和數(shù)據(jù)倉庫有同樣的組織方式
僅僅是作為把數(shù)據(jù)移入數(shù)據(jù)倉庫的集結(jié)區(qū)。負載管理器完成所有與數(shù)據(jù)抽取和加載數(shù)據(jù)到數(shù)據(jù)倉庫有關(guān)的操作。38數(shù)據(jù)倉庫管理器運行所有和數(shù)據(jù)管理有關(guān)的操作,例如數(shù)據(jù)源的轉(zhuǎn)移和合并。
查詢管理器完成所有與管理用戶查詢有關(guān)的操作。細節(jié)數(shù)據(jù)不是在線存儲的數(shù)據(jù),而是要經(jīng)過綜合后用于下一個級別的數(shù)據(jù)。但是細節(jié)數(shù)據(jù)定期作為綜合數(shù)據(jù)的補充加入到數(shù)據(jù)倉庫之中。
輕度綜合和高度綜合的數(shù)據(jù)由數(shù)據(jù)倉庫管理器事先定義并由數(shù)據(jù)倉庫存儲。
目的是加快查詢速度。在新數(shù)據(jù)載入數(shù)據(jù)倉庫時進行更新。39元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù))被數(shù)據(jù)倉庫中的所有處理使用。最終用戶訪問工具數(shù)據(jù)倉庫的首要目的是為制定決策的商業(yè)用戶提供信息。
用戶通過最終用戶訪問工具來和數(shù)據(jù)倉庫進行交互。
數(shù)據(jù)倉庫必須有效地支持特殊查詢、日常程序分析以及更復(fù)雜的數(shù)據(jù)分析。
包括可執(zhí)行信息系統(tǒng)工具、聯(lián)機分析處理工具以及數(shù)據(jù)挖掘工具。40數(shù)據(jù)集市
數(shù)據(jù)倉庫的一個子集,支持一個部門或者商業(yè)領(lǐng)域的決策制定要求。特征包括:存有數(shù)據(jù)倉庫的部分數(shù)據(jù)。以和特定部門或商業(yè)領(lǐng)域有關(guān)的綜合數(shù)據(jù)的形式存放。可以獨立存在,也可以和企業(yè)數(shù)據(jù)倉庫相連。數(shù)據(jù)集市的普及取決于數(shù)據(jù)倉庫的難以創(chuàng)建和使用。41數(shù)據(jù)集市體系結(jié)構(gòu)可以創(chuàng)建成兩層或三層的數(shù)據(jù)庫應(yīng)用程序。數(shù)據(jù)倉庫是可選的,屬于第一層。數(shù)據(jù)集市是第二層。最終用戶工作站是第三層。數(shù)據(jù)分散在三層之中。42創(chuàng)建數(shù)據(jù)集市的理由為用戶提供最經(jīng)常分析的訪問數(shù)據(jù)。提供一種符合要求的數(shù)據(jù)形式,符合部門或數(shù)據(jù)領(lǐng)域中一組用戶瀏覽的數(shù)據(jù)集合。由于減少了被訪問的數(shù)據(jù)量,因此改進了最終用戶的響應(yīng)時間。提供了由諸如聯(lián)機分析處理和數(shù)據(jù)挖掘工具等最終用戶訪問工具使用的合適的結(jié)構(gòu)化數(shù)據(jù)。43創(chuàng)建數(shù)據(jù)集市的理由實現(xiàn)和創(chuàng)建一個數(shù)據(jù)集市與建立一個企業(yè)數(shù)據(jù)倉庫比起來要簡單很多。實現(xiàn)一個數(shù)據(jù)集市的成本常常比建立一個數(shù)據(jù)倉庫的成本要少。數(shù)據(jù)集市的潛在用戶能夠更清楚地被定義,并且與企業(yè)數(shù)據(jù)倉庫項目比起來,他們能夠更容易被發(fā)展成為支持數(shù)據(jù)集市項目的目標群。44聯(lián)機分析處理OLAP 對大量多維數(shù)據(jù)進行動態(tài)綜合、分析和合并。OLAP描述了一種技術(shù),這種技術(shù)使用綜合數(shù)據(jù)的多維數(shù)據(jù)視圖來快速訪問策略信息,以便進行高級分析。
45聯(lián)機分析處理OLAP使得用戶能夠通過快速、一致和交互的方式訪問大量可能的數(shù)據(jù)視圖,對企業(yè)數(shù)據(jù)有更深入的了解和認識。允許用戶以如下方式使用企業(yè)數(shù)據(jù):它是企業(yè)真正的維度模型。46聯(lián)機分析處理OLAP能夠輕而易舉地回答“誰”和“什么”這樣的問題時,還能回答“如果……怎樣……”和“為什么”這樣的問題,這就是它們和一般目的的查詢工具的不同。
可以進行不同的分析,從基礎(chǔ)導(dǎo)航到瀏覽(即“切片和切塊”)、計算以及更復(fù)雜的分析(如時間序列和復(fù)雜建模)。47OLAP的應(yīng)用實例表19-1在不同商業(yè)領(lǐng)域的OLAP應(yīng)用實例商業(yè)領(lǐng)域OLAP應(yīng)用實例金融業(yè)預(yù)算、基于活動的成本、金融性能分析、財務(wù)模型銷售業(yè)銷售分析和銷售預(yù)測市場營銷市場研究分析、銷售預(yù)測、促銷分析、顧客分析、市場/顧客切分制造業(yè)產(chǎn)品計劃和次品分析48OLAP應(yīng)用首要要求是為用戶提供及時(JIT)信息的能力,這對為企業(yè)戰(zhàn)略方向作出有效的決策是必需的。
JIT信息是一種經(jīng)過計算的數(shù)據(jù),常常反映了復(fù)雜的關(guān)系,通常是在不運行的時候計算的。
只有響應(yīng)時間一直很短而且數(shù)據(jù)模型是靈活的,分析建模復(fù)雜的關(guān)系才有實際意義。49OLAP應(yīng)用
盡管OLAP應(yīng)用的商業(yè)領(lǐng)域有很大不同,但是它們都有以下主要特征:企業(yè)數(shù)據(jù)的多維視圖支持復(fù)雜的計算時間智能時間智能是任何一個分析型應(yīng)用的關(guān)鍵特征,因為性能常常由時間來衡量。50實現(xiàn)OLAP的好處
提高了最終用戶的生產(chǎn)力。通過給最終用戶更多的自主權(quán)來改變數(shù)據(jù)庫,建立他們自己的模型,縮短了IT工作人員進行應(yīng)用程序開發(fā)所做的工作。OLAP應(yīng)用程序依賴于數(shù)據(jù)倉庫和OLAP系統(tǒng)來刷新它們的數(shù)據(jù)源,所以保留了企業(yè)數(shù)據(jù)的完整性控制。減少了OLAP系統(tǒng)和數(shù)據(jù)倉庫的查詢量和網(wǎng)絡(luò)流量。
減少了潛在的風(fēng)險,提高了收益。51
數(shù)據(jù)挖掘 從大型數(shù)據(jù)庫提取出有效的、先前不知道的、可理解的、可控制的信息的程序,并用它作出重大的商業(yè)決策的過程。與數(shù)據(jù)分析和為尋找隱藏在數(shù)據(jù)集中的未知的模式和關(guān)系而使用的軟件技術(shù)有關(guān)。52
數(shù)據(jù)挖掘數(shù)據(jù)挖掘關(guān)注的是發(fā)現(xiàn)隱藏的位置的信息。
檢查數(shù)據(jù)中隱藏的規(guī)則和特征能夠確定模式和關(guān)系。數(shù)據(jù)挖掘分析人員往往基于數(shù)據(jù)工作,而得出最精確結(jié)果的技術(shù)通常要求利用大量的數(shù)據(jù)來得到可靠的結(jié)論。53
數(shù)據(jù)挖掘分析過程中首先為樣本數(shù)據(jù)結(jié)構(gòu)開發(fā)一個最優(yōu)表示,并在這個過程中獲得知識。這個知識接著被擴展到大量的數(shù)據(jù)集中。數(shù)據(jù)挖掘可以為已經(jīng)在數(shù)據(jù)倉庫方面大量投資的公司帶來豐厚的回報。
盡管數(shù)據(jù)挖掘仍然是一個相對新的技術(shù),但它已經(jīng)在很多領(lǐng)域中得到了應(yīng)用。
54
數(shù)據(jù)挖掘應(yīng)用舉例零售業(yè)/市場營銷確定顧客的購買模式發(fā)現(xiàn)顧客的統(tǒng)計特征直接的關(guān)聯(lián)預(yù)測通過電子郵件促銷的反應(yīng)情況市場籃子分析55
數(shù)據(jù)挖掘應(yīng)用舉例銀行業(yè)檢查欺詐信用卡的使用模式確定貴賓級顧客預(yù)測可能會改變他們的信用卡關(guān)系的顧客決定由顧客群共同使用的信用卡56
數(shù)據(jù)挖掘應(yīng)用舉例保險業(yè)提出分析預(yù)測會購買新保險方案的顧客藥業(yè)通過刻畫病人行為特征來預(yù)測外科的訪問率針對不同的病,確定成功的藥物治療方案57
數(shù)據(jù)挖掘操作四個主要的操作:預(yù)測建模數(shù)據(jù)庫分割鏈接分析違反檢測在應(yīng)用和相應(yīng)的操作中有一定的關(guān)系
例如,直接市場營銷策略通常使用數(shù)據(jù)庫分割操作來實現(xiàn)。58
數(shù)據(jù)挖掘技術(shù)實現(xiàn)數(shù)據(jù)挖掘操作的技術(shù)隨操作的不同而不同。
每種操作都有它自身的長處和弱點。
有時數(shù)據(jù)挖掘工具提供了操作方法的選擇來實現(xiàn)某個技術(shù)。59數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘工具的選擇標準:基于一定的輸入數(shù)據(jù)類型挖掘輸出的透明性對缺失變量值的容忍程度可能的標準水平增長的處理海量數(shù)據(jù)的能力60網(wǎng)絡(luò)數(shù)據(jù)庫集成自從1989年出現(xiàn)萬維網(wǎng),僅僅十幾年的時間它就成為目前為止最受歡迎、功能最強大的網(wǎng)絡(luò)信息系統(tǒng),過去幾年它幾乎呈指數(shù)級發(fā)展,引發(fā)了信息革命并且將在今后十幾年內(nèi)繼續(xù)飛速發(fā)展。現(xiàn)在,講網(wǎng)絡(luò)和數(shù)據(jù)庫結(jié)合給創(chuàng)造高級數(shù)據(jù)庫應(yīng)用提供了很多新的機會。61網(wǎng)絡(luò)數(shù)據(jù)庫集成網(wǎng)絡(luò)是傳遞和分發(fā)數(shù)據(jù)中心最引人注目的平臺。企業(yè)現(xiàn)在正迅速地利用網(wǎng)絡(luò)開發(fā)新的數(shù)據(jù)庫應(yīng)用程序或重建現(xiàn)有系統(tǒng),將它作為實現(xiàn)新穎商業(yè)解決方案的戰(zhàn)略平臺,并有效成為以網(wǎng)絡(luò)為中心的組織。62靜態(tài)和動態(tài)的網(wǎng)頁存儲在文件中的HTML/XML文檔是靜態(tài)網(wǎng)頁的例子。動態(tài)網(wǎng)頁的內(nèi)容將在每次訪問它時生成。
動態(tài)網(wǎng)頁擁有靜態(tài)網(wǎng)頁沒有的一些特征:它可以相應(yīng)來自瀏覽器的用戶輸入。它可以為每個用戶定制。
超文本需要由服務(wù)器生成。63靜態(tài)和動態(tài)的網(wǎng)頁編寫腳本來實現(xiàn)不同數(shù)據(jù)格式向HTML的轉(zhuǎn)化。由于數(shù)據(jù)庫是動態(tài)的,隨著用戶的創(chuàng)建、插入、更新、刪除數(shù)據(jù)會發(fā)生改變,所以生成動態(tài)網(wǎng)頁比創(chuàng)建靜態(tài)網(wǎng)頁更適合于數(shù)據(jù)庫應(yīng)用。
64Web-DBMS集成需求以安全方式訪問有價值的企業(yè)數(shù)據(jù)的能力。數(shù)據(jù)和廠商的獨立連接,允許自由地選擇現(xiàn)在或?qū)淼腄BMS。數(shù)據(jù)庫界面的獨立性,它不依賴于任何Web瀏覽器或Web服務(wù)器。能夠利用企業(yè)的DBMS的所有特征的連接解決方案。65Web-DBMS集成需求一個開放性架構(gòu)方案,允許各種系統(tǒng)和技術(shù)的互操作。一個具有擴展性、增加性、能根據(jù)企業(yè)戰(zhàn)略進行改變的高性價比解決方案,有助于降低開發(fā)成本和維護應(yīng)用程序的成本。支持跨多個HTTP請求的事務(wù)。66Web-DBMS集成需求支持基于會話和應(yīng)用的認證。可接受的性能。最小的管理附和。高生產(chǎn)率的工具集,允許以相對容易、快速的方式開發(fā)和維護應(yīng)用程序。67集成Web和DBMS的方法腳本語言。通用網(wǎng)關(guān)接口(CGI)。HTTPCookies。擴展Web服務(wù)器。Java,JDBC,SQLJ,Servlets,和JSP。特定廠商的解決方案,如:Microsoft的帶有ASP和ADO的WebSolutionPlatform。Oracle的InternetPlatform.68可擴展標記語言XMLWeb中的大多數(shù)文檔是即時存儲并轉(zhuǎn)變成HTML的。
HTML的一個優(yōu)點就是它的簡單些。但是,它的簡單又是它的缺點,隨著用戶對標記的需求的增長,他們希望標記可以簡化他們的工作并使HTML文檔更引人注目、更動態(tài)。
69XML為了滿足該需求,廠商提出了一些特定瀏覽器的HTML標記,但它難以開發(fā)復(fù)雜的、可以廣為瀏覽的Web文檔。
W3C提出了一個新的標準,即XML,可以保持一般的應(yīng)用獨立性,從而使得HTML可移植、功能更強大。70XML
XML是一種元語言(描述其他語言的語言),允許設(shè)計者創(chuàng)建自己定制的標記來提供在HTML中得不到的功能。是SGML(StandardGeneralizedMarkupLanguage)的一個受限制版本,專門為Web文檔設(shè)計。71XMLXML影響了程序設(shè)計中的每個方面,包括圖形接口、嵌入式系統(tǒng)、分布式系統(tǒng)和數(shù)據(jù)庫管理。已經(jīng)成為了軟件行業(yè)中數(shù)據(jù)通信的標準,而且迅速替代了EDI系統(tǒng),EDI系統(tǒng)曾經(jīng)是企業(yè)間互換數(shù)據(jù)的主要媒體。
有些分析家相信XML技術(shù)將成為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西方國家政治制度的歷史遺留試題及答案
- 機電工程考試全景試題及答案
- 面臨危機的公共政策反應(yīng)機制分析試題及答案
- 公共政策響應(yīng)危機的有效性評估與分析考點及答案
- 軟件設(shè)計師考試智能化工具使用試題及答案
- 軟件設(shè)計師考試標桿試題及答案解析
- 網(wǎng)絡(luò)工程師志愿者經(jīng)驗試題及答案
- 網(wǎng)絡(luò)實施合規(guī)性檢查試題及答案
- 網(wǎng)絡(luò)信息安全挑戰(zhàn)試題及答案
- 項目管理中的反饋與改進機制試題及答案
- 2024北京西城區(qū)三年級(下)期末語文試題及答案
- 中國裝備知到課后答案智慧樹章節(jié)測試答案2025年春上海電機學(xué)院
- 2025年基礎(chǔ)會計試題庫及答案
- 物業(yè)法律法規(guī)知識培訓(xùn)
- 四川省綿陽市名校2025屆中考生物五模試卷含解析
- 2025年《水安將軍》考試題庫-上(單選題部分)
- 地下車庫的火災(zāi)預(yù)防與疏散演練
- 客運行業(yè)安全培訓(xùn)
- 冀少版(2024新版)七年級下冊生物期末復(fù)習(xí)知識點提綱詳細版
- 工業(yè)風(fēng)量光催化凈化器安全操作規(guī)程
- 【MOOC】航天、人文與藝術(shù)-南京航空航天大學(xué) 中國大學(xué)慕課MOOC答案
評論
0/150
提交評論