




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘老師范圍最簡知識(shí)點(diǎn)第一章I數(shù)據(jù)倉庫:是一個(gè) 面向主題的,集成的,時(shí)變的,非易失的 的數(shù)據(jù)集合數(shù)據(jù)挖掘:就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過 程。數(shù)據(jù)挖掘分析方法:分類、估值、預(yù)言、相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚集、描述和 可視化數(shù)據(jù)挖掘的過程:第二章數(shù)據(jù)屬性:是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征 屬性類別:標(biāo)稱的 二元的 序數(shù)的 數(shù)值的數(shù)奧對(duì)象的屬性類型二標(biāo)稱二一】/j/標(biāo)稱士/對(duì)稱的AH;咦(1 眾敵里二元K"離散量也L; 能對(duì) t、一稱的),序數(shù)|眾敷和中位敷J區(qū)間標(biāo)度屬性M眾敗.中
2、位數(shù)、平均值 連唉、禺故比率標(biāo)度屬性數(shù)據(jù)的中心趨勢(shì)度量方法:均值、中位數(shù)、眾數(shù)數(shù)據(jù)相似性和異度量方法:歐式距離:它是在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離二罪平面上點(diǎn)信仍15力與艮立一了之)同的歐出距離=堆空點(diǎn)* x 1/1 ,Z1 )與印工# ,12闡的歐氏布雷曼哈頓距離:二維平面兩點(diǎn)a (x1, y1)與b(x2,y2)|間的曼哈頓距離:12 = |工M -%IBoKbM 1 ilhuri&im切比雪夫距離:切比雪夫距離是由一致范數(shù)(或稱為上確界距離)所衍 生的度量,也是越凸度量的一種在數(shù)學(xué)中,切比雪夫距離(1_8度量)是向量空間中的一種 度量,二個(gè)點(diǎn)之間的距離定義是其各坐標(biāo)數(shù)值差的最大
3、 值。 X(2f4),Y(1,6)* dist(X,Y)=nnax|2-1|J4-6|=2例子例2 19 歐幾里得距離和曼哈頓距福 今!=".2和力一九5表小如圖工2&所小的網(wǎng)個(gè)對(duì)象的點(diǎn) 間的歐幾里得距離是 "7T = 1 61,兩者的曼哈頓距離 M2 + 3 = 5,* 才產(chǎn),35戴出房峙 + j,1)' 斗飛期, =1 + 3 = J -m上下為的史 上購界距寓I,我|性舊用同時(shí)敗網(wǎng)對(duì)象1=口.&和一5),如 陶工曾研機(jī),第一個(gè)周惟給出這四個(gè)對(duì)題的電大也上為$-2 二拆甚兄這阿個(gè)對(duì)象網(wǎng)的上加 格串花一果科旭卜變量根據(jù)其據(jù)與性賦予 權(quán)也.一權(quán)的取幾
4、星及距相盯11用1或汁舞;dfM =一叫I知一町11 + f 孫一上國1+ *"仆 =). I' (XX) :n權(quán)也可以用于其做即即理施閔可夫斯基距離:閔可夫斯基距離(閔氏距離)不是一種距離,而是一切 距離的定義.閏氏距離是歐氏距離的推廣,是對(duì)多個(gè)踮 離度量公式的概括性的表述.公式如下二出崗X.V)= £ 后-%|尸加其中P是一個(gè)變參數(shù)當(dāng)所1時(shí),就是曼哈頓距離當(dāng)p=2時(shí),就是歐氏距離 當(dāng)pToo時(shí),就是切比雪夫距離根據(jù)受參數(shù)的不同,閔氏距禹可以表示一類的距離AfVz±r:弟二早數(shù)據(jù)預(yù)處理:是指在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理。比如缺項(xiàng),噪聲(工資=-1
5、00),不匹配(年齡和出生日期不匹配),冗余等等原因:不完備:丟失屬性,缺少某個(gè)感興趣的屬性,或僅含累計(jì)值。噪聲:包含錯(cuò)誤點(diǎn)和離群點(diǎn)不一致:存在代碼或者名稱的分歧數(shù)據(jù)預(yù)處理中的主要任務(wù):數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸納、數(shù)據(jù)變換處理缺失值數(shù)據(jù)的方法:忽略:刪除帶有缺失值的屬性或者案例、適用于錯(cuò)誤率低的數(shù)據(jù)手工填充缺失值自動(dòng)填充缺失值(根據(jù)推理得到)離群點(diǎn)分析的方法:通過如聚類來檢測離群點(diǎn)聚類將類似的值組織成群或“簇”,落在簇集合之外的值被視為離群點(diǎn)高_(dá) .a""-_ * ' ” / : V:工” 上 * «: 乂, ,1”界鬣*1中駐g M巾 H小,立探顯-1
6、W聘詢飾而 g杷U-徑町i如何對(duì)數(shù)據(jù)進(jìn)行分箱:分箱方法通過考察數(shù)據(jù)的臨近”來光滑有序數(shù)據(jù)值箱均值光滑箱中位數(shù)光滑箱邊界光滑。第四章數(shù)據(jù)倉庫與OLAP技術(shù)數(shù)據(jù)倉庫概念:數(shù)據(jù)倉庫是一個(gè) 面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程數(shù)據(jù)倉庫特點(diǎn):面向主題的、集成的、隨時(shí)間而變化的(反映歷史變化)、不容易丟失(相對(duì)穩(wěn)定)數(shù)據(jù)倉庫的組成:數(shù)據(jù)庫數(shù)據(jù)抽取工具(ETL)元數(shù)據(jù)訪問工具數(shù)據(jù)集市數(shù)據(jù)倉庫管理工具信息發(fā)布系統(tǒng)數(shù)據(jù)倉庫的體系結(jié)構(gòu):直理集總分析««XAOLA PM*摳tr翻世中中國小a 4PM 分 n意息敷Q化客總評(píng)器a«三層數(shù)據(jù)倉庫模
7、型聯(lián)系分析處理OLAP :概念:即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉庫的核心部心,所謂數(shù)據(jù)倉庫是對(duì)于大量已經(jīng)由OLTP形成的數(shù)據(jù)的一種分析型的數(shù)據(jù)庫, 用于處理商業(yè)智能、決策支持等重要的決策信息OLAP特點(diǎn):快速性:快速反應(yīng)能力可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析多維性:系統(tǒng)必須提供對(duì)數(shù)據(jù)分析的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。信息性:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。第五章關(guān)聯(lián)規(guī)則基本概念頻繁模式:是頻繁地出現(xiàn)在數(shù)據(jù)集中的模式(如項(xiàng)集、子序列或子結(jié)構(gòu))頻繁集項(xiàng):根據(jù)特征提取器得到的特征向量給一個(gè)被測對(duì)象
8、附一個(gè)類別標(biāo)記。支持度(support支持度:X, Y同時(shí)出現(xiàn)的概率,例如:尿布,啤酒同時(shí)出現(xiàn)的概率§ uppori =同時(shí)購買x,y的人數(shù)總?cè)藬?shù)尿布,啤酒的支持度=800 / 10000 = 0.08尿布,面包的支持度=100 / 10000 = 0.01*尿布,啤酒的支持度等于啤酒,尿布的支持度,支持度沒有先后順序之分置信度(confidence置信度:購買X的人,同時(shí)購買Y的概率,例如:購買尿布的人,同時(shí)購買啤 酒的概率,而這個(gè)概率就是購買尿布時(shí)購買啤酒的置信度confidence (X > j )=同時(shí)購買,,一的人數(shù)購買X的A數(shù)ccynfidenee (K >
9、X)=同時(shí)購買Xiy的人數(shù)購買的人數(shù)(尿布-> 啤酒)的置信度=800 / 1000 = 0.8(啤酒-> 尿布)的置信度=800 / 2000 = 0.4支持度與置信度規(guī)則的支持度和置信度是兩個(gè)規(guī)則興趣度度量,它們分別反映發(fā)現(xiàn)規(guī)則的有用性和確定性Apriori 算法:原理:Apriori使用一種稱作逐層搜索的迭代方法,k-項(xiàng)集用于探索(k+1)-項(xiàng)集。 首先,找出頻繁1-項(xiàng)集的集合。該集合記作 L10 L1用于找頻繁2-項(xiàng)集的集合 L2,而L2用于找L3,如此下去,直到不能找到頻繁k-項(xiàng)集。找每個(gè)Lk需要一 次數(shù)據(jù)庫掃描。步驟簡化:1 .連接2 .剪枝3 .驗(yàn)證4 .回到1,直到
10、沒有頻繁集生成FP-tree 算法:原理:FP Tree算法改進(jìn)了 Apriori算法的I/O瓶頸,巧妙的利用了樹結(jié)構(gòu)來提高 算法運(yùn)行速度。利用內(nèi)存數(shù)據(jù)結(jié)構(gòu)以空間換時(shí)間。步驟:5 .掃描數(shù)據(jù),得到所有頻繁一項(xiàng)集的的計(jì)數(shù)。然后刪除支持度低于閾值的項(xiàng), 將1項(xiàng)頻繁集放入項(xiàng)頭表,并按照支持度降序排列。6 .掃描數(shù)據(jù),將讀到的原始數(shù)據(jù)剔除非頻繁1項(xiàng)集,并按照支持度降序排列。7 .讀入排序后的數(shù)據(jù)集,插入FP樹,插入時(shí)按照排序后的順序,插入FP樹中, 排序靠前的節(jié)點(diǎn)是祖先節(jié)點(diǎn),而靠后的是子孫節(jié)點(diǎn)。如果有共用的祖先,則對(duì) 應(yīng)的公用祖先節(jié)點(diǎn)計(jì)數(shù)加1。插入后,如果有新節(jié)點(diǎn)出現(xiàn),則項(xiàng)頭表對(duì)應(yīng)的節(jié) 點(diǎn)會(huì)通過節(jié)點(diǎn)鏈
11、表鏈接上新節(jié)點(diǎn)。直到所有的數(shù)據(jù)都插入到FP樹后,F(xiàn)P樹的建立完成。8 .從項(xiàng)頭表的底部項(xiàng)依次向上找到項(xiàng)頭表項(xiàng)對(duì)應(yīng)的條件模式基。從條件模式基遞歸挖掘得到項(xiàng)頭表項(xiàng)項(xiàng)的頻繁項(xiàng)集。9 .如果不限制頻繁項(xiàng)集的項(xiàng)數(shù),則返回步驟 4所有的頻繁項(xiàng)集,否則只返回滿足項(xiàng)數(shù)要求的頻繁項(xiàng)集。分類概念:根據(jù)特征提取器得到的特征向量給一個(gè)被測對(duì)象賦一個(gè)類別標(biāo)記。基本任務(wù):分類的基本任務(wù)就是根據(jù)給定的一系列屬性集,最后去判別它屬于的類型常見的分類方法:決策樹分類貝葉斯分類最近鄰分類支持向量機(jī)(SVM )多層感知機(jī)與人工神經(jīng)網(wǎng)絡(luò)(NN)組合多分類器(ensemble )決策樹:決策樹又稱為判定樹,是運(yùn)用于分類的一種樹結(jié)構(gòu),其
12、中的每個(gè)內(nèi)部節(jié)點(diǎn)代表對(duì) 某一屬性的一次測試,每條邊代表一個(gè)測試結(jié)果,葉節(jié)點(diǎn)代表某個(gè)類或類的分布。 決策樹的決策過程需要從決策樹的根節(jié)點(diǎn)開始, 待測數(shù)據(jù)與決策樹中的特征節(jié)點(diǎn) 進(jìn)行比較,并按照比較結(jié)果選擇選擇下一比較分支, 直到葉子節(jié)點(diǎn)作為最終的決 策結(jié)果。black theapexpen siw歡不取11whitesmall網(wǎng)r 1小二不喜歡直歡選用禮病BP神經(jīng)網(wǎng)絡(luò):網(wǎng)絡(luò)結(jié)構(gòu):O計(jì)殲邛;特點(diǎn):層間無反饋、有監(jiān)督學(xué)習(xí)步驟:10.11.工作信號(hào)正向傳遞子過程誤差信號(hào)反向傳遞子過程幡由竺教酢信號(hào)的里新謨井伯號(hào)主要思想:在外界輸入樣本的刺激下不斷改變網(wǎng)絡(luò)的連接權(quán)值,以使網(wǎng)絡(luò)的輸出 不斷地接近期望的輸出。
13、兩環(huán)節(jié)組成:信息的正向傳遞與誤差的反向傳播SVM :一條非常完美的直線*(其他一律看不懂)*這也力保言辭!樸素貝葉斯:樸素貝葉斯是一種基于概率理論的分類算法 。p(類別特征尸遺嘲空2原理基于貝葉斯公式p特位)樸素貝葉斯詳解第七章:聚類分析的概念:聚類分析(Cluster Analysis)是根據(jù)給定的一組對(duì)象的描述信息,按照相似程度 劃分為多個(gè)簇(Cluster )的過程。聚類的任務(wù)發(fā)現(xiàn)內(nèi)部結(jié)構(gòu):作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)集中數(shù)據(jù)的分布情況;數(shù)據(jù)壓縮:作為其他數(shù)據(jù)挖掘算法的預(yù)處理步驟。作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)集中數(shù)據(jù)的分布情況;首先,對(duì)數(shù)據(jù)集執(zhí)行聚類,獲得所有簇;然后,根據(jù)每個(gè)簇中樣本的
14、數(shù)目獲得數(shù)據(jù)集中每類數(shù)據(jù)的大體分布情況。作為其他數(shù)據(jù)挖掘算法的預(yù)處理步驟。首先,對(duì)數(shù)據(jù)進(jìn)行聚類一一粗分類;然后,分別對(duì)每個(gè)簇進(jìn)行特征提取和細(xì)分類,可以有效提高分類精度聚類與分類的區(qū)別分類技術(shù)是一種有指導(dǎo)的學(xué)習(xí),即每個(gè)訓(xùn)練樣本的數(shù)據(jù)對(duì)象已經(jīng) 有類標(biāo)識(shí),通 過學(xué)習(xí)可以形成表達(dá)數(shù)據(jù)對(duì)象與類標(biāo)識(shí)間對(duì)應(yīng)的知識(shí)。聚類是一種無指導(dǎo)學(xué)習(xí)。也就是說,聚類是在 預(yù)先不知道欲劃分類(無標(biāo)識(shí)) 的情況下,根據(jù)信息相似度原則進(jìn)行信息聚類的一種方法。聚類常見聚類算法及原理:K-means (k均值算法):算法思路:事先確定常數(shù)K,常數(shù)K意味著最終的聚類類別數(shù),首先隨機(jī)選定初始點(diǎn)為質(zhì)心,并通過計(jì)算每一個(gè)樣本與質(zhì)心之間的相似度(這里為歐式距離),將樣本點(diǎn)歸到最相似的類中,接著,重新計(jì)算每個(gè)類的質(zhì)心(即為類中心),重復(fù)這樣的過程,知道質(zhì)心不再改變,最終就確定了每個(gè)樣本所屬的類別以及每個(gè)類 的質(zhì)心。K-means1、隨機(jī)選取K個(gè)質(zhì)心的值2、計(jì)算各個(gè)點(diǎn)到質(zhì)心的距離3、將點(diǎn)的類劃分為離他最近的質(zhì)心,形成 K個(gè)cluster4、根據(jù)分類好的cluster,在每個(gè)cluster內(nèi)重新計(jì)算質(zhì)心(平均每個(gè)點(diǎn)的值)5、重復(fù)迭代2-4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 互聯(lián)網(wǎng)商品推廣與品牌推廣策略服務(wù)協(xié)議
- 西餐調(diào)料購銷合同協(xié)議
- 花店批發(fā)采購合同協(xié)議
- 茶館轉(zhuǎn)讓合同協(xié)議書范本
- 茶園承包合同協(xié)議書模板
- 行李箱加工協(xié)議合同協(xié)議
- 茯苓種子銷售合同協(xié)議
- 草莓脫毒苗購買合同協(xié)議
- 裝卸貨合同協(xié)議書范本
- 裝修木工總包合同協(xié)議
- 工程設(shè)計(jì)資質(zhì)專業(yè)人員專業(yè)對(duì)照表
- 開放大學(xué)辦學(xué)組織體系建設(shè)的困境與突破路徑
- 立式機(jī)組軸線調(diào)整及瓦間隙計(jì)算
- 胸痛中心培訓(xùn)課件胸痛中心的時(shí)鐘統(tǒng)一及時(shí)間管理胸痛中心時(shí)間節(jié)點(diǎn)管理要求
- 孕期艾滋病檢測及服務(wù)流程
- 重癥肺炎患者護(hù)理查房PPT
- GB/T 9126.1-2023管法蘭用非金屬平墊片第1部分:PN系列
- GB/T 9126.2-2023管法蘭用非金屬平墊片第2部分:Class系列
- 教育調(diào)查報(bào)告3000字小學(xué)
- 功能性敷料類別及特點(diǎn)
- 液壓系統(tǒng)原理課件 液壓傳動(dòng)與控制
評(píng)論
0/150
提交評(píng)論