記憶基礎(chǔ)推理_第1頁
記憶基礎(chǔ)推理_第2頁
記憶基礎(chǔ)推理_第3頁
記憶基礎(chǔ)推理_第4頁
記憶基礎(chǔ)推理_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

記憶基礎(chǔ)推理第一頁,共六十九頁,編輯于2023年,星期五報(bào)告大綱

一、前言二、CaseStudy:到底誰才是鄰居?三、記憶基礎(chǔ)推理如何運(yùn)作?四、如何增進(jìn)MBR作業(yè)效能?五、CaseStudy:新聞報(bào)導(dǎo)分類六、反查與準(zhǔn)度的範(fàn)例七、距離的測(cè)量八、結(jié)論第二頁,共六十九頁,編輯于2023年,星期五一、前言第三頁,共六十九頁,編輯于2023年,星期五前言人們總是藉著過去的經(jīng)驗(yàn)做判斷,例如:

當(dāng)你聽到說話不捲舌,你會(huì)覺得她是臺(tái)灣人,為什麼?當(dāng)醫(yī)生要診斷一個(gè)病人時(shí),會(huì)依據(jù)過去的經(jīng)驗(yàn)與眼前的癥狀來做判斷及比對(duì),為什麼?第四頁,共六十九頁,編輯于2023年,星期五MBR(Memory-Basedreasoning)以上的敘述都是MBR的原理,只不過是換成了由人工智慧進(jìn)行比對(duì)。根據(jù)現(xiàn)有的資料庫,“記憶基礎(chǔ)推理”先找出新資料的“鄰近資料”(Neighbor),然後根據(jù)鄰近資料,對(duì)新資料進(jìn)行分析和預(yù)測(cè)。第五頁,共六十九頁,編輯于2023年,星期五關(guān)鍵運(yùn)用(一)MBR不在乎資料的格式必備要項(xiàng)

(1).距離函數(shù)(DistanceFunction)-負(fù)責(zé)判斷兩筆資料差異到底有多大

(2).組合函數(shù)(CombinationFunction)-將若干相似資料的結(jié)果結(jié)合,以產(chǎn)生答案。第六頁,共六十九頁,編輯于2023年,星期五關(guān)鍵運(yùn)用(二)MBR的相關(guān)應(yīng)用例子(1).詐欺案件的判斷(2).顧客回應(yīng)預(yù)測(cè)(3).最佳醫(yī)療措施選擇(4).顧客反應(yīng)分類(顧客抱怨單)第七頁,共六十九頁,編輯于2023年,星期五MBR優(yōu)點(diǎn)相較於其他DataMining技術(shù)時(shí),MBR的簡(jiǎn)易使用常讓人低估了他的強(qiáng)大能力.只要定義出距離函數(shù)與組合函數(shù),MBR的可以分析任何形式的資料-例如:地理區(qū)位、影像、純文字等。它能同時(shí)將新資料和舊資料結(jié)合,同時(shí)能從舊資料中分析出新的分類項(xiàng)和定義。第八頁,共六十九頁,編輯于2023年,星期五二、到底誰才是鄰居?第九頁,共六十九頁,編輯于2023年,星期五到底誰是鄰居?Tuxedo與NewYork的租金一般人的概念,地理上鄰近的城市,也就是其鄰居,租金應(yīng)該都差不了多少。但是妥善運(yùn)用MBR後,我們將會(huì)重新認(rèn)識(shí)並且定義什麼是“鄰居”。

MBR考慮的觀點(diǎn)較為客觀,而非單純是地理上的相關(guān),而是包含人口數(shù)、房屋價(jià)值中位數(shù)…等。第十頁,共六十九頁,編輯于2023年,星期五圖8.1第十一頁,共六十九頁,編輯于2023年,星期五到底誰才是真正的鄰居?作法:(1).從散佈圖中找出最鄰近於目標(biāo)的點(diǎn)(2).整合目標(biāo)資訊答案:ShelterIsland&NorthSalem是Tuxedo的鄰居TownPopulationMedianRentRent<$500(%)Rent$500~$750(%)Rent$750~$1000(%)Rent$1000~$1500(%)Rent>$1500(%)NORent(%)ShelterIsland2228$8043.134.631.410.73.117NorthSalem5173$1150310.221.630.924.210.2第十二頁,共六十九頁,編輯于2023年,星期五所以,租金是…Averagethemostcommonrentsofthetwoneighbors(usemidpointoftherange)(625+1250)/2,租金約是$938Or,pickthepointmidwaybetweenthetwomedianrents:(804+1150)/2,租金約是$977第十三頁,共六十九頁,編輯于2023年,星期五三、如何操作MBR?第十四頁,共六十九頁,編輯于2023年,星期五MBR操作MBR有兩個(gè)明顯的分析階段:(1)學(xué)習(xí)階段-產(chǎn)生歷史資料庫

(2)預(yù)測(cè)階段-將MBR運(yùn)用在新資料上運(yùn)用MBR的三項(xiàng)前置準(zhǔn)備工作:(1)選擇適當(dāng)?shù)挠?xùn)練資料集。

(2)找出最具效率的方式表達(dá)歷史記錄

(3)設(shè)定距離函數(shù)、組合函數(shù)和鄰近資料集的數(shù)目

第十五頁,共六十九頁,編輯于2023年,星期五選擇一個(gè)歷史記錄的平衡資料集定義:現(xiàn)有資料的子群組或是訓(xùn)練資料集(TrainingSet)限制:訓(xùn)練資料集必須能涵蓋大部分可能情況,如此新記錄的鄰近資料才能作為良好的預(yù)測(cè)基礎(chǔ)作法:建立訓(xùn)練資料集時(shí),不同類的資料記錄的數(shù)目應(yīng)該要平衡。Tip:選擇資料組時(shí),除確保約略相等的樣本數(shù)之外,每類最好有數(shù)十筆。第十六頁,共六十九頁,編輯于2023年,星期五訓(xùn)練資料的表示方法(一)MBR在預(yù)測(cè)效率取決於訓(xùn)練資料組如何表示。現(xiàn)今最常用的是關(guān)聯(lián)式資料庫。需要比對(duì)每一筆資料和此筆紀(jì)錄的距離,然後才能產(chǎn)生出最接近的鄰近資料集。當(dāng)訓(xùn)練集資料集累積越多筆資料時(shí),比對(duì)時(shí)間將急速上升。在關(guān)聯(lián)式資料庫為一筆新紀(jì)錄找尋鄰近資料集,雖需要掃描整個(gè)資料庫,但還算不會(huì)耗時(shí)太久;可是如果同時(shí)為多筆新紀(jì)錄找尋他們的鄰近資料集時(shí),需多次完整掃描整個(gè)資料庫,將會(huì)嚴(yán)重耗用電腦資源解決之道1:縮減訓(xùn)練資料集,不使用整個(gè)資料庫,見圖8.2第十七頁,共六十九頁,編輯于2023年,星期五訓(xùn)練資料的表示方法(二)Distance()運(yùn)算是可以帶進(jìn)任何特定的距離機(jī)制,這個(gè)運(yùn)算需要掃描整個(gè)資料庫。此步驟非常耗時(shí),因此,同時(shí)保存最相似的表格(解決之道2),視情況加入或刪除記錄,但是這些必須透過其他的程式語言,在SQL環(huán)境下無法執(zhí)行。SELECTdistance(),rec.categoryFROMhistorical_recordsrecORDERBY1ASCENDING;第十八頁,共六十九頁,編輯于2023年,星期五四、如何增進(jìn)MBR作業(yè)效率?第十九頁,共六十九頁,編輯于2023年,星期五增進(jìn)MBR作業(yè)效率減少歷史資料庫的紀(jì)錄數(shù)量,“前提”:訓(xùn)練資料組的大小可以大幅的影響記憶基礎(chǔ)裡作業(yè)效率。作法:找出含有不同分類項(xiàng)的群集,則各級(jí)群的中心可當(dāng)成縮減的訓(xùn)練資料集。條件:不同的分類項(xiàng)要離的夠遠(yuǎn),若有重疊或界線不明時(shí),將使MBR產(chǎn)生誤差。找出“SupportRecords”。第二十頁,共六十九頁,編輯于2023年,星期五第二十一頁,共六十九頁,編輯于2023年,星期五五、CaseStudy:新聞報(bào)導(dǎo)分類第二十二頁,共六十九頁,編輯于2023年,星期五新聞報(bào)導(dǎo)分類採用哪些關(guān)鍵字作為分類編碼?

政府機(jī)關(guān)、工業(yè)、商業(yè)、產(chǎn)品、地區(qū)、主題“幾乎所有的新聞稿件都有地區(qū)和主題編碼,有時(shí)甚至有三個(gè)編碼”第二十三頁,共六十九頁,編輯于2023年,星期五MBR運(yùn)用依照以下四個(gè)步驟改善新聞的分類編碼作業(yè)1.選擇訓(xùn)練資料集2.設(shè)定距離函數(shù)3.設(shè)定鄰近資料集數(shù)量4.設(shè)定組合函數(shù)第二十四頁,共六十九頁,編輯于2023年,星期五選擇測(cè)試資料組測(cè)試資料組包含了49,652件新聞。這些資料是三個(gè)月的新聞稿與100個(gè)消息來源。每一則平均有2700字(words)和八個(gè)編碼。

1.沒有經(jīng)過篩選,為反映真實(shí)散佈

2.若能採用具有更多罕見編碼的訓(xùn)練資料組會(huì)更好第二十五頁,共六十九頁,編輯于2023年,星期五設(shè)定距離函數(shù)利用“相關(guān)回饋”(RelevanceFeedback)的測(cè)試標(biāo)準(zhǔn),由任何兩則新聞稿的文字內(nèi)容比對(duì)他們的相似度。採用最相似的新聞稿當(dāng)成MBR所需要的鄰近資料第二十六頁,共六十九頁,編輯于2023年,星期五利用相關(guān)回饋建立距離函數(shù)(一)相關(guān)回饋是一種能夠讓使用者在比對(duì)相似資料庫,用以進(jìn)行精細(xì)分析的強(qiáng)大技術(shù)。作法:1.去除沒有附載有價(jià)值意義的單字

ex:it、of

2.將前20%最常出現(xiàn)的詞彙去除

3.剩下的字最轉(zhuǎn)存到一個(gè)可搜尋術(shù)語的字庫中,每個(gè)字給予加權(quán)值(-log2fi)4.複合語詞的納入ex:UnitedStates、NewYork5.計(jì)算兩篇報(bào)導(dǎo)之間的相關(guān)回饋分?jǐn)?shù)

score(A,B)為A與B各自的字的權(quán)值的加總第二十七頁,共六十九頁,編輯于2023年,星期五利用相關(guān)回饋建立距離函數(shù)(二)相關(guān)回饋是利用現(xiàn)有函數(shù)的修正用來取代真正的距離函數(shù)。公式:利用上面的公式將相關(guān)回饋分析轉(zhuǎn)換成一般的距離公式。第二十八頁,共六十九頁,編輯于2023年,星期五設(shè)定組合函數(shù)(一)組合函數(shù)採用加權(quán)總值技術(shù)(WeightedSummationTechnique):每一筆鄰近資料都有一個(gè)距離倒數(shù)成正比的權(quán)值,所以越相近的資料組就有越高的加權(quán)值。表8.3為未分類新聞?wù)页鱿嗨普呦嗨普呔嚯x權(quán)重編碼10.0760.924R/FE,R/CA,R/CO20.3460.654R/FE,R/JA,R/CA30.3690.631R/FE,R/JA,R/MI40.3930.607R/FE,R/JA,R/CA第二十九頁,共六十九頁,編輯于2023年,星期五設(shè)定組合函數(shù)(二)表8.4為未分類新聞評(píng)分CODE1234SCORER/CA0.9240.65400.6072.185R/CO0.9240000.924R/FE0.9240.6540.6310.6072.816R/JA00.6540.6310.6071.892R/MI000.63100.631若將門檻值設(shè)為1,則此篇文章可以指派的code為R/CA,R/FE,andR/JA第三十頁,共六十九頁,編輯于2023年,星期五設(shè)定鄰近資料集數(shù)量此案例嘗試使用1~11個(gè)鄰近資料集數(shù)目,發(fā)現(xiàn)使用越多鄰近資料集數(shù)目,結(jié)果越好此例,因每則新聞會(huì)得到的分類項(xiàng)不只一個(gè)。較典型的問題是配置在單一編碼或分類項(xiàng),此情況則較少的鄰近資料集數(shù)目,反而較好。第三十一頁,共六十九頁,編輯于2023年,星期五結(jié)果(一)為了測(cè)試MBR在編碼上的有效程度,我們將200則由人工(專家)及MBR編碼的新聞稿混合結(jié)果,交由一群編輯進(jìn)行複審,只有過半數(shù)同意才能被當(dāng)成“合格”。結(jié)果:人工編碼正確的數(shù)目比上“合格”編碼數(shù)目為88%(recall,回想);然而,人工編碼正確的數(shù)目比上人工編碼全部為83%(precision,精確),即不正確比例為17%。第三十二頁,共六十九頁,編輯于2023年,星期五圖8.4利用人工作業(yè)及MBR將新聞進(jìn)行分類的比較第三十三頁,共六十九頁,編輯于2023年,星期五結(jié)果(二)MBR表現(xiàn)並不好:由MBR分配編碼的recall為80%;而precision僅為72%。問題與原因:

Q:為什麼MBR表現(xiàn)不好?A:因?yàn)橘Y料數(shù)不足,無法讓MBR使用全由資深編輯分類的訓(xùn)練組資料可能是因?yàn)樵Y料處理者的專業(yè)程度不足結(jié)論:MBR比其他技術(shù)能夠處理困難的問題。第三十四頁,共六十九頁,編輯于2023年,星期五六、回想與準(zhǔn)度第三十五頁,共六十九頁,編輯于2023年,星期五回想與準(zhǔn)度回想(RECALL)

記憶基礎(chǔ)推理究竟提供了多少個(gè)正確碼。假如MBR所提供的編碼包含了每ㄧ個(gè)正確的編碼,其反查值就是100%,假如提供的編碼中沒有一個(gè)正確的,回想值就是0%準(zhǔn)度(PRECISION)在記憶基礎(chǔ)推理所提供的編碼中,有多少是正確的?準(zhǔn)度100代表著預(yù)測(cè)的編碼百發(fā)百中,若是提供的沒一個(gè)正確,那準(zhǔn)度就是0第三十六頁,共六十九頁,編輯于2023年,星期五回想與準(zhǔn)度的範(fàn)例-表8.5CODESBYMBRCORRECTCODESRECALLPRECISIONA,B,C,DA,B,C,D100%100%A,BA,B,C,D50%100%A,B,C,D,E,F,G,H,A,B,C,D100%50%E,FA,B,C,D0%0%A,B,E,FA,B,C,D50%50%第三十七頁,共六十九頁,編輯于2023年,星期五利用編碼類別測(cè)量回想與準(zhǔn)度個(gè)人編輯對(duì)新聞編碼,回想83%準(zhǔn)度88%記憶基礎(chǔ)推理,回想80%準(zhǔn)度72%CATEGORYRECALLPRECISIONGovernment85%87%Industry91%85%MarketSector93%91%Product69%89%Region86%64%Subject72%53%第三十八頁,共六十九頁,編輯于2023年,星期五七、測(cè)量距離第三十九頁,共六十九頁,編輯于2023年,星期五測(cè)量距離假設(shè)你要到一個(gè)小鎮(zhèn)旅行,而你想知道那裡的天氣狀況如何,但是卻沒有管道獲得資訊,因?yàn)樘鞖忸A(yù)報(bào)都只報(bào)導(dǎo)大城市。如果你在當(dāng)?shù)貨]有朋友,則通常的作法就是查詢附近大城市的天氣狀況,就以那個(gè)城市的天氣當(dāng)成判斷標(biāo)準(zhǔn),或者綜合附近三個(gè)大城市的天氣狀況。以上所描繪的正是利用記憶基礎(chǔ)推理找出天氣狀況的例子,而這裡的距離函數(shù)是兩個(gè)地點(diǎn)的距離。第四十頁,共六十九頁,編輯于2023年,星期五距離函數(shù)的特性(一)妥適定義(Well-defined):兩點(diǎn)之間的距離永遠(yuǎn)是可以找出來的,且大於零同位(Identity):從一點(diǎn)到它本身的距離一定是0交換性(Commutatively):距離沒有方向性,所以A到B的距離就是B到A的距離三角不等式(TriangleInequality)A與C的距離小於或等於A與B的距離加B與C的距離第四十一頁,共六十九頁,編輯于2023年,星期五距離函數(shù)的特性(二)妥適定義確保每ㄧ筆資料都一定有鄰近資料的存在,記憶基礎(chǔ)推理便是需要這些鄰近資料才能進(jìn)行分析同位確保每ㄧ筆資料最相似的資料就是它本身交換性和三角不等式則將鄰近資料限定在特定區(qū)域中,增加一筆新的資料進(jìn)資料庫,不會(huì)改變現(xiàn)有資料間的距離第四十二頁,共六十九頁,編輯于2023年,星期五資料差異性-圖8.5B的最鄰近資料是A,但A卻有與多筆比B還近的鄰近資料第四十三頁,共六十九頁,編輯于2023年,星期五一次建立一個(gè)單變數(shù)的距離函數(shù)以幾何學(xué)的角度,距離很容易推理,但問題是,我們?nèi)绾螢槎嘧償?shù)且不同資料型態(tài)的資料建立距離函數(shù)?答案是:ㄧ次建立單一變數(shù)的距離函數(shù),再組合起來。第四十四頁,共六十九頁,編輯于2023年,星期五表8.7行銷資料庫中的五個(gè)顧客資料RECNUMGENDERAGESALARY1Female27$19,0002male51$64,0003male52$105,0004Female33$55,0005male45$45,000第四十五頁,共六十九頁,編輯于2023年,星期五圖8.6三維分佈圖中展示五筆紀(jì)錄的分佈第四十六頁,共六十九頁,編輯于2023年,星期五距離矩陣表8.8顧客年齡變數(shù)的距離矩陣2751523345270.000.961.000.240.72510.960.000.040.720.24521.000.040.000.760.28330.240.720.760.000.48450.720.240.280.480.00第四十七頁,共六十九頁,編輯于2023年,星期五常見的距離加總方式加總:dsum(A,B)=dgender(A,B)+dage(A,B)+dsalary(A,B)標(biāo)準(zhǔn)化加總(NormalizedSummation):dnorm

(A,B)=dsum

(A,B)/max(dsum

)歐幾里得距離:dEuclid(A,B)=sqrt(dgender(A,B)2+dage(A,B)2+dsalary(A,B)2)第四十八頁,共六十九頁,編輯于2023年,星期五表8.9三種距離函數(shù)的最近似者組合此案例中,三種方式的結(jié)果完全ㄧ樣是個(gè)巧合DsumDnormDeuclid11,4,5,2,31,4,5,2,31,4,5,2,322,5,3,4,12,5,3,4,12,5,3,4,133,2,5,4,13,2,5,4,13,2,5,4,144,1,5,2,34,1,5,2,34,1,5,2,355,2,3,4,15,2,3,4,15,2,3,4,1第四十九頁,共六十九頁,編輯于2023年,星期五加入新的資料表8.10新顧客RECNUMGENDERAGESALARYnewfemale45$100,000第五十頁,共六十九頁,編輯于2023年,星期五表8.11新顧客最近似者組合12345NEIGHBORSDsum1.6621.6591.3381.0031.6404,3,5,2,1Dnorm0.5540.5530.4460.3340.5474,3,5,2,1Deuclid0.7811.0521.2510.4941.0004,1,5,2,3第五十一頁,共六十九頁,編輯于2023年,星期五其他資料形式的距離函數(shù)郵遞區(qū)號(hào)電話號(hào)碼產(chǎn)品編號(hào)第五十二頁,共六十九頁,編輯于2023年,星期五常見的組合函數(shù)民主方式(democracy)加權(quán)投票第五十三頁,共六十九頁,編輯于2023年,星期五民主方式(democracy)記憶基礎(chǔ)推理可使用的組合函數(shù)就是讓最近似的K個(gè)鄰近資料投票選出答案為了避免同票的情況,K必須是奇數(shù),當(dāng)類別數(shù)為C時(shí),鄰近資料應(yīng)該要有c+1個(gè)第五十四頁,共六十九頁,編輯于2023年,星期五民主方式案例表8.12顧客流失紀(jì)錄RECNUMGENDERAGESALARYINACTIVE1Female27$19,000No2male51$$64,000Yes3male52$105,000Yes4Female33$55,000Yes5male45$45,000Nonewfemale45$100,000?第五十五頁,共六十九頁,編輯于2023年,星期五民主方式案例表8.13使用MBR判斷新顧客是否會(huì)流失NEIGHBORSNEIGHBORATTRITIONK=1K=2K=3K=4K=5dsum4,3,5,2,1Y,Y,N,Y,Nyesyesyesyesyesdeuclid4,1,5,2,3Y,N,N,Y,Yyes?No?yesK=1K=2K=3K=4K=5dsumYes,100%Yes,100%Yes,67%Yes,75%Yes,60%deuclidYes,1005yes,50%No,67%Yes,50%Yes,60%表8.14流失預(yù)測(cè)的信心水準(zhǔn)第五十六頁,共六十九頁,編輯于2023年,星期五加權(quán)投票加權(quán)投票(類似股東民主)和民主方式類似,不同之處在於每一票的加權(quán)值和他與新資料的距離成反比(距離加1的倒數(shù))加權(quán)對(duì)於結(jié)果和信心水準(zhǔn)會(huì)有影響,主要的作用還是在消除鄰近資料為複數(shù)的情況下,無法判斷的結(jié)果(得票數(shù)相同)。至於使用或不使用加權(quán),可透過使用測(cè)試資料集比較何者有較好的表現(xiàn),再來決定例,見表8.15與8.16第五十七頁,共六十九頁,編輯于2023年,星期五CollaborativeFiltering:ANearestNeighborApproachtoMakingRecommendations第五十八頁,共六十九頁,編輯于2023年,星期五合作篩選合作篩選共有三個(gè)步驟(為一個(gè)新顧客提供建議):建立新顧客的Profile,即令新顧客對(duì)某些品項(xiàng)(例如電影、音樂、餐廳等)的偏好進(jìn)行評(píng)分。使用相似性或距離的測(cè)量,比較新顧客與其它就顧客的profiles,找出偏好最接近的幾個(gè)顧客(鄰近資料集)利用某種combinationfunction計(jì)算新顧客對(duì)某項(xiàng)尚未評(píng)分的品項(xiàng)的評(píng)分預(yù)測(cè)值

第五十九頁,共六十九頁,編輯于2023年,星期五合作篩選案例圖8.7(1/2(-1)+1/4(-4))/(1/2+1/4)=-1.5/0.75=-2第六十頁,共六十九頁,編輯于2023年,星期五Agoodcollaborativefilteringsystemgivesitsusersachancetocommentonthepredictionsandadjusttheprofileaccordingly.Ifitturnsthatthecustomerreallyliketheitemandgivesitaratingof4,hisnewprofilewillbeinslightlydifferentneighborhoodandoriginalneighbors’opinionswillcountlessforthisnewcustomer’snextrecommendation.第六十一頁,共六十九頁,編輯于2023年,星期五八、結(jié)論第六十二頁,共六十九頁,編輯于2023年,星期五獲得最佳結(jié)果MBR是一個(gè)很有效的DataMining技術(shù),它可以應(yīng)用在許多的直接DataMining問題上。1.選擇正確訓(xùn)練資料集

(1)足夠的資料數(shù)量

(2)增加某些罕見分類項(xiàng)的資料數(shù)量

(3)約略相等的資料數(shù)量2.距離函數(shù)

(1)加總法:較具有緩衝效果

(2)歐幾里得:注重每一個(gè)變數(shù)都必須維持在較小的差值第六十三頁,共六十九頁,編輯于2023年,星期五獲得最佳結(jié)果(二)3.鄰近資料數(shù)量

(1).需要由“分布狀況”和“面對(duì)的問題”決定

(2).鄰近資料的數(shù)量必須比分類項(xiàng)至少多”1”4.基本函數(shù)組合加權(quán)投票對(duì)於類別變數(shù)有效,但在連續(xù)數(shù)值時(shí),建議可以結(jié)合迴歸分析和最似鄰近資料模式,計(jì)算出最適線後,進(jìn)行推測(cè)。第六十四頁,共六十九頁,編輯于2023年,星期五MBR優(yōu)點(diǎn)結(jié)論容易推測(cè)

MBR能列出最似鄰近資料的特性,方便我們看出結(jié)果是如何產(chǎn)生運(yùn)用在任何資料型態(tài)、甚至是非關(guān)聯(lián)式資料上只依靠?jī)煞N機(jī)制:距離函數(shù)與組合函數(shù)任何數(shù)量的變數(shù)下都能運(yùn)作良好

MBR的效能主要是受訓(xùn)練組資料的數(shù)量多寡決定,將較之下原始資料變數(shù)多寡,並不會(huì)有太大影響訓(xùn)練資料集容易建立當(dāng)有新分類項(xiàng)產(chǎn)生時(shí),可直接加入訓(xùn)練資料組中第六十五頁,共六十九頁,編輯于2023年,星期五MBR缺點(diǎn)在分類和預(yù)測(cè)上運(yùn)算作業(yè)繁複

需要一一運(yùn)用距離含數(shù)計(jì)算出每一筆新資料和每一筆訓(xùn)練資料組紀(jì)錄之間的差異訓(xùn)練資料組需要大量紀(jì)錄

MBR的訓(xùn)練資料組就是模式,而資料數(shù)量越大越好,且必須要有一定的樣本數(shù)目高度依賴距離函數(shù)和組合函數(shù)

結(jié)果取決於距離函數(shù)和組合函數(shù)及鄰近資料數(shù)。第六十六頁,共六十九頁,編輯于2023年,星期五何時(shí)應(yīng)用MBR?MBR是一種對(duì)分類和預(yù)測(cè)都有效的直接式資料採礦技術(shù),和其他技術(shù)比較起來,更能針對(duì)特定情形進(jìn)行分析。

1.整體規(guī)律性不能提供良好解釋時(shí)

2.資料非常複雜時(shí)第六十七頁,共六十九頁,編輯于2023年,星期五SASEM

AnassumptionfortheMemory-BasedReasoningnodeisthatthevariablesthathavestatusofusearenumeric,orthogonaltoeachother,andstandardized.YoucanusethePrincomp/DmneuralortheSingularValueDecompositionnodestogeneratenumeric,ort

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論