




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘技術(shù)與應(yīng)用實(shí)驗(yàn)指導(dǎo)書數(shù)據(jù)挖掘技術(shù)與應(yīng)用實(shí)驗(yàn)指導(dǎo)書鄧克文編重慶大學(xué)經(jīng)濟(jì)與工商管理學(xué)院2014年7月目 錄第一章數(shù)據(jù)挖掘及工具簡(jiǎn)介11.1數(shù)據(jù)挖掘的基本概念 11.2數(shù)據(jù)挖掘的基本框架及流程 11.3數(shù)據(jù)挖掘軟件工具 1第二章基礎(chǔ)實(shí)驗(yàn)篇22.1實(shí)驗(yàn)一分類22.2實(shí)驗(yàn)二預(yù)測(cè)212.3實(shí)驗(yàn)三聚類332.4實(shí)驗(yàn)四關(guān)聯(lián)分析452.5實(shí)驗(yàn)五 RFM 模型 512.6基于遺傳算法的變量選擇 66參考文獻(xiàn)77附 錄78數(shù)據(jù)挖掘技術(shù)與應(yīng)用實(shí)驗(yàn)指導(dǎo)書104第一章1.1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘及工具簡(jiǎn)介1.2數(shù)據(jù)挖掘的基本框架及流程1.3數(shù)據(jù)挖掘軟件工具第二章基礎(chǔ)實(shí)驗(yàn)篇2.1實(shí)驗(yàn)一分類一、實(shí)驗(yàn)?zāi)康耐ㄟ^(guò)本次實(shí)
2、驗(yàn),學(xué)會(huì)使 Clememtine軟件及R軟件進(jìn)行數(shù)據(jù)挖掘的分類實(shí)驗(yàn),撐握 以下知識(shí)點(diǎn):Logistic分類模型;(2)決策樹C5.0分類模型及其Cost矩陣設(shè)置的重 要作用;(3)貝葉斯網(wǎng)絡(luò)分類模型;(5)支持向量機(jī)模型; 神經(jīng)網(wǎng)絡(luò)模型;(7)運(yùn)用 R軟件進(jìn)行連續(xù)函數(shù)離散化數(shù)據(jù)預(yù)處理,并對(duì)該數(shù)據(jù)用上述3個(gè)模型進(jìn)行挖掘,最后與連續(xù)性原始數(shù)據(jù)的挖掘結(jié)果進(jìn)行對(duì)比,并得出相關(guān)結(jié)論;(8)運(yùn)用Clememtine軟件解決 數(shù)據(jù)預(yù)處理中的缺失值填充問(wèn)題。二、實(shí)驗(yàn)安排1 學(xué)時(shí):本實(shí)驗(yàn)安排8個(gè)學(xué)時(shí),主要用于完成實(shí)驗(yàn)及實(shí)驗(yàn)報(bào)告。2 時(shí)間:由實(shí)驗(yàn)室統(tǒng)一安排3. 地點(diǎn):由實(shí)驗(yàn)室統(tǒng)一安排三、實(shí)驗(yàn)工具PC電腦1臺(tái),Wi
3、ndows 7系統(tǒng),Clememtine 12.0數(shù)據(jù)挖掘軟件,R軟件,以 及上市公司ST數(shù)據(jù)集和Clememtine自帶的telco.sav數(shù)據(jù)集。四、知識(shí)準(zhǔn)備五、實(shí)驗(yàn)背景六、實(shí)驗(yàn)過(guò)程實(shí)驗(yàn)1:基礎(chǔ)模型1. 按順序拖動(dòng)并設(shè)置以下節(jié)點(diǎn)EXULi"HTableSTL(1)設(shè)置數(shù)據(jù)來(lái)源(source中的excel來(lái)源)。點(diǎn)擊此 處選擇 數(shù)據(jù)源。320個(gè)上市公司的財(cái)Table節(jié)點(diǎn)運(yùn)行后,我們可以看到數(shù)據(jù)源的具體內(nèi)容,其包含務(wù)指標(biāo)以及在該財(cái)務(wù)指標(biāo)下第二年是否被 ST的數(shù)據(jù),ST= 1表示次年被ST, ST= 0則表示未被ST,其中X1至X18表示凈利潤(rùn)率、資產(chǎn)收益率等18邊續(xù)性的財(cái)務(wù)變量,最后
4、一個(gè)變量為Flag類型ST變量(3)將320.xls指向type節(jié)點(diǎn),編輯type,只有最后一項(xiàng)為輸出且類型為flag,其 他項(xiàng)為輸入,類型為連續(xù)型變量(ran ge)。FarmatAnrtotstioneFieldTypeValues Mi-ssina Check Diiettior夕 BangsI W I W. FT|i.a.3.0)Nons、InX13RnqeI1.U.3.0None、n©旳4護(hù) RangeH.a.2.0)None In曲X15冷 Rnqe|1 Q30None、n畚 RangeH 3.4 0)None In您或7Rnqe|1 Q3QMode nrio.3c)in
5、M>3T.® FlaaI.QfO.QNoneDicurrent f elds Vie unused field settincsResetOK I Car.c&l(4)將type指向partit on,設(shè)置訓(xùn)練集與測(cè)試集比例,對(duì)話框上部的gen erate處可分出訓(xùn)練集與測(cè)試集,下部的gen erate實(shí)現(xiàn)隨機(jī)抽樣分區(qū),在大樣本的情況下,這將使 得每位同學(xué)的實(shí)驗(yàn)得到的結(jié)果會(huì)有所不同。然后將partition指向testing和training。(5)選擇邏輯模型和決策樹模型,并將partition分別指向這兩個(gè)模型1)編輯決策樹模型的model,可選擇專家模型與普通模型
6、。Mooe nams: Auto Custcmk use pa rationed dataOutput3 D&dsiontree尺Ue Group aymlsclio口 Useboofllnc vlodJ SimpleExpert苗w;(Sr-Accuracy Q Generallly(peci?d no se(%):0 :Fields Node!COBlEAnalyseArndsliois| CK |j > toculeCancelAs ply Bese:2)編輯決策樹模型的costs,可確定誤判的代價(jià)Predicted001 0n oi11.01J0|«| Use
7、mijclassfication costsActualFieldsModel?':比Analyse /Vi notationsOK J» ExecuteCr)c9lApplyIBesetTe 曰I 口+ SA-Ski IS+sArdhTEl*(6)運(yùn)行邏輯模型,將新生成的數(shù)據(jù)拖到training與testing后并由它們指向數(shù)據(jù) 設(shè)置不同的決策樹模型,生成不同的數(shù)據(jù),由邏輯模型數(shù)據(jù)指向不同的決策樹模型 數(shù)據(jù)。在每條數(shù)據(jù)流末端增加analysis,并指向它們(7)不同決策樹設(shè)置下的數(shù)據(jù)及分析。1)決策樹設(shè)置:1誤判為0代價(jià)為10,0誤判為1代價(jià)為1。非專家模型。該代價(jià)矩 陣設(shè)
8、置應(yīng)該根據(jù)具體業(yè)務(wù)進(jìn)行設(shè)置,其意指:誤將ST公司當(dāng)成正常公司投資將會(huì)造成10單位的損失,而誤將正常公司判斷成為 ST公司的非投資行為將造成1單位的經(jīng)濟(jì)損 失。這樣設(shè)置的目的是讓決策樹模型盡可能的找出ST公司,其會(huì)導(dǎo)致模型的整體精確度下降,但在有預(yù)算的投資資金的情況下,投資者總能選擇出最佳的正常公司進(jìn)行投資, 現(xiàn)實(shí)意義顯著。這個(gè)設(shè)置也是決策樹與其它模型有所區(qū)別的地方。I.T£id曠業(yè)呼蚪2* lOaiDoa 3.冷2 曲*naiwVI MTIfl 1 908 -14E :H3035Izl韶3n-J.1 &.?1-J IX 10L Mfi肝 d DOOaooaDi41MTPT53
9、 dibv f麗砂2 1 COD 33;- 31*甜1.4FB3diDOiHiadBT一BJ2MQz皂計(jì)3i站&k_adcciq 1 naacnsJJMQ OC:Ia"EM醫(yī)3網(wǎng) Anasi? of T| J6f7,'方韋就 tollapsertll 陽(yáng) Expand All5|Eil£dr1H-Nixf¥gl ecliapse Ml% Expand K|巴 Araly&is of fSTJ *7|_r三Reunite Pr quW Ji field 3TR IrdhntiUal Mede sri ReeuIs hr gulicild ST
10、-intiMlua Mudels則riffi而1 TrtiftingC0rn:n:t303100«Wronga0%Totald-< olncldence hlafitlar 5L-ET (nuus shw EdualsiFitliir - _* uki nyC'.OfWOM 1 OOMODoiouou)iW0-i anntmn仲-J- C口mri/q3TConecti=T-a|ririQ 悝6G.0e%33 9*H2Q3-1 CDirriii-iCk M:rlv for SC-J5T (ICiWi GhJw iCtui3lG>| T-MH *= O.OOOOftO
11、COOOOiLitJLOUMTO921 .OUOlMJ0r Aorta iHonkbiBlwvin SL-STSC STFarrtlnn'1 rraininqAgios195 帥'E%l$-agteeB仙為T01&IJOJEi C arhsiFing qr*wnt jMrfh stConectT T-a|riinQ195atoo%0*T&U11 Ccinuduicu如1噸1 譏 n onl trow chovr acballi1 FK dr- 1c.owow1 OOMOO"OODOOO9201.000000u103|i: CJimpsring jJL-
12、ST swth GTFarllorf2_T«bbnaiontctnaB4 anWnarg75BB%TE制11?-Coincidence ilailiixlcr (L-ST rujus shiiff-a:1ui5l&)psradri = j_ TMmgD.UUCH1UO1 .uuumuooononn5!)1TOOUOOO &51F Cmparino K-S7 -Aih STPariaan"2 lesfir glyrrttl1C0 血能Wrang114>|Talsl'117-:C : inetclente Vafeh to EC-ET 0審將 Mh
13、科 pMipa陽(yáng)°artitgn = 2T&sb 廠口CJ.ODODDOO.OOMOa' .oooocoszHi oonocio3刖嚨呦刑 葉麗萸hi 3il_ST SC'PaMoinf 印re舊2LTii1jr>aIDS胸"召121026%Tatil117F CjiTiMdrimg 切1艸|時(shí)|1*血 STFartUQHi'7.TP帥叩Croect102 QF.H%Mvrang32.BraTO1M105C jinciiJenGO 'ilSb'K TOf crCrHie 1 (r >w$ i Chuikt)
14、6;jrtiljn =: 丁科byQ.QOOOQO 1 .OCQOOODiDDonna5Tl noooooi41Anai iArirnaffliiFW抑 司仲旨nngtatiQ-»2)決策樹設(shè)置:1誤判為0代價(jià)為100,0誤判為1代價(jià)為1。非專家模型3)決策樹設(shè)置:1誤判為0代價(jià)為10,0誤判為1代價(jià)為1。專家模型實(shí)驗(yàn)2:連續(xù)型變量與離散型變量的模型建立1. 打開(kāi) 320.xls,另存為 320.CSV2. 運(yùn)用R軟件編程,對(duì)數(shù)據(jù)進(jìn)行離散化處理,刪除無(wú)效屬性(屬性為單一值),并保存。由于離散數(shù)據(jù)占用計(jì)算機(jī)空間小,運(yùn)算速度快,因此在數(shù)據(jù)挖掘過(guò)程中把連續(xù)性 的數(shù)據(jù)分區(qū)離散化可以使得在不損
15、失有用信息的情況下提升模型的計(jì)算速度,簡(jiǎn)化計(jì) 算,并使得模型數(shù)據(jù)匹配各種模型(如:貝葉斯模型,對(duì)離散化的數(shù)據(jù)處理更為精確)。在本例中,除目標(biāo)變量,其余財(cái)務(wù)指標(biāo)均為連續(xù)性變量,我們將用成熟的離散化算法將 其轉(zhuǎn)化為離散化數(shù)據(jù),并重復(fù)上述的各模型,并把結(jié)果進(jìn)行對(duì)比。> gecwd():二F口sers/AjdiU-ZiistratQr/DocuinerLts> setwd(rtE:> x=read-cav("320.cav")> head(z)XIX2X3X4X5X6IT耳EX9X101 6663O.SSl0.22530<38470.21415.64S
16、0.61070.622503936-1.29140 6310 45090.01271*1702Q.0L221.360B1.S8S70 46090 3028-22 94230 5240*51670.02640.96050*0231*70641*70260 41550-2724-10-2058050000,382S0.03450.92340.02867.S6942.B9GA0.65E40.2837.05990 . C6290.46140.09920.71SS0.098S2.09763.2300.86910.4381-0.3149Q.39S40.27230.03430.7S590.03374.913
17、83.31131.47220.45S02.0501XllXI2XL3KiqXL5X16X17Xl-3ST1-9.762?7.056"7一02340.0636-0.3006-0,1960-Q.11S3-Q,763512-792£日7-D7S05MQlQ*石-1.36962.309-0.414B-1,627213'36,933S0,19000B834-Q.3B23'1.0352,9761'0.2S20099144-3736-0.2116-073270.0987-0.4517-2.0330-0.1382-1 521215-0.3121-0*115B-029
18、03-0,0043-0.2465-0,4089-0*10S0-Q 3454163-4401-0*1314003250*1991-0.2146-0.4474-0.0S33-0-46571> diaodisc1:ncel (x)The number cf partiricna for var 1 ia : 2Tte cut Doiuts are: 1 0*84765The number or rairizions ter var 2 is : zThe uupoinLa axe: 1 c*61The number cf 卜口工H匚Aquw lex val 3 la :2The cut poi
19、nts axei 1 G«1O3SETh* Eumb»r of partizicns fcr var 4 is 3Th* f-iat priintfl flr*r I 0 . F8735 0 . S72EThe number of tarticions fcr var 5 is : 3T)ie cuu points are: ( 1 a«C1335 0iieaThe eumber of pazCLicnj fex var $ is : 2The mV points orc匸15 <1325The number of paxxi.iona fexn is :
20、2:h= t-ut pa i -nt fl at*1 :1: f- . 71 35The nuni&er of ueixiuioTis foi var 8 is : 3The cuu points are: 1 0325 z.oicqThe uurt£>亡:? cr fexLiicnf rcr var ? is : ?The cut point? ate; 1; 0,7355The rzumbar cf partiiaTis t二Q:!_The tzut point 3 az?e : 1 GTtie rumber nf jrartLions ter var 11 is
21、: 2The cu匚 Domts are: 1 - . y43BThe ELiraOer of 匚axulLcns tor vaz L; 1 :3The cut paints art: 1 -C.002 3 50.0 S045The rzzmbtr of psrtliinns fc.1: 'rar 二3 is : 2The cut pcxnt a aze r 1; -fl.1745 -D.01The t;urr±i=r- fif part 1 iOnb fct var 14 im : 2The cut points are; 11 -G,0034d43.5423Sme run
22、r:2r er partiLons ter -/ar 二5is :Tne cue points d±e: 1 Cl. 12420.0042Tht nurcbr <3f 匚uh匸丄tidil出空亡工 'fit 士石 is ;Tht cut points aret !' -D ,23243 -0 .ClCSS3The number of partirLcns fer var 17丄2 ±The cut points srej :L: -0.07330.0015: ne number oi rams ions ter var 1S is :Tht cljL
23、pci丄n匚訝 d±rJ: 1-0,4175 3 -0 .OCflaS>head(disc)XIX2X3 X4X5X6X7XSX9XI0XllX12XI3XI4X15X16X17XI8ST1Riz22 13211111112121112111311111111111q1113121321111111111111141113221i112112i11115111 22112112111111216111 2211211213211111>dis匚二厲工耳匚r-10>head(disc)XIX2X3 X4X5X6X7XSXSXI1X12X13XI4XI5X16X17XI
24、SST1r w22 13211111121211121113111111111141113121321111111111111些1113221112112111115111 2211212111111216111 221121213211111!> wxite csv (cIjlsc f cs3r|r| F quot e = FALSE r row 11311!1£3=FALSE)饉 220. csv2014A0/12 11:35雹豈沁曹2012/10/13 2159® 320discxsv2014A0/12 15:56蜀 320disGxl&2014/10/
25、12 15: 5 EST上述結(jié)果表明,離散化后 X10只離散化為一個(gè)單一區(qū)間,這表明其與決策變量 沒(méi)有相關(guān)性,故在后續(xù)的分析中將其刪除。3用離散型與連續(xù)型兩個(gè)不同的數(shù)據(jù)來(lái)源建立兩個(gè)數(shù)據(jù)流,建立過(guò)程同上1Z5T乍"乓1S fcfgi; Nflrt樂(lè)T耳血GT£TKTST Sel-Eaes Mei4.離散型數(shù)據(jù)類型設(shè)置為set,連續(xù)型數(shù)據(jù)類型設(shè)置為rangeo> 斤繚旳MSCllfiWlirtl j GlMfiJM 畀山時(shí)Firid-jLsObetkL IHGllDh:v =124r Bei 3.2.O.3津:a/,噩1 J.2 D.J C< Bi'.0.1
26、0e fli1 叩 0,1 Q右Mr Se-:,m.小1 f& se1 1,2 C.3 r圧j 1 :機(jī)Se1恥Ti* rit1OI1CO-HMVnM-n-D L-N N N N N N-llllnlnlfllIFllnIrlo-« le.1 current I-elds Vie'unis&dield &HinflsTrpee Forinif即師創(chuàng)恃a(bǔ)ppk fieaei界MR己卞jtII u J0|Nciel|I onNeS'-II列Nzl"|i n.i n|Nd)«e '*IIO.JQINq-teII 第 o|N
27、mifl)1 l,3-0|NceS'-i winN(m Mt砧 ngeTypEEa和冋iTawiiyaimJ dMiYaliBj ClwiiJHI 悔uicjValuts- UiEm Chtck Dilecbm-73 :.urrertreds - ur jse3 tie d : 5乃牌& FiMni j Anr lAiirnfi5.設(shè)置貝葉斯模型,在Fields中,目標(biāo)設(shè)置為ST, Inputs只保留x1到x18; 分析比較不同數(shù)據(jù)類型的貝葉斯模型分析結(jié)果,離散型數(shù)據(jù)擁有較高準(zhǔn)確率。aitlion,1 Twi inc?即?1 %2 Tss3ng112cad?nir-Vdrcng
28、2a旳先5沁"ota2D3-Oompa n ng fcft- t;T wnh t: l1.000*)00E- <gripmg JfrSTwitfi9T,P:?fti11i»ri,l_Tr:iiinirgCcrretlIE9Artung24Total2C3B 2 25 嶺iBJJH二T a li »_;15211lT07.05 I.17.95KFsrjLp - 1 TwMmjaoaaaiDt.oaaoocg DinnnM9911 QQQQOO1心Fartftiar =o.oaoocD1JOCDOO DtIClUIKIIB2Lomoo3&idencelU
29、d-T竹怖弓 stowactualsjCukiduluri'. g kr丿li工Tqi IE ST仃艸 汕叭2曲ijParfitrn' 1淳巾11目nancrmni c agronD.OOOQQO1?1.UOOJOOir£6m b4«»n |>ffF $L9樸訊T SS-ST SESTPrlir ;NJ 岀咖anDbuuu1 DLUUUUUSUOO>JQCI4&i nnniaaS16. Clememti ne超節(jié)點(diǎn)的應(yīng)用。所謂超節(jié)點(diǎn),就是將數(shù)據(jù)預(yù)處理、模型建模等相同功 能的多個(gè)數(shù)據(jù)流節(jié)點(diǎn)合并為一個(gè)功能單一的超節(jié)點(diǎn),其目的是簡(jiǎn)化數(shù)
30、據(jù)流,使得模型結(jié) 構(gòu)清晰,易于理解。其方法是:選擇多個(gè)數(shù)據(jù)流中具體相同目的節(jié)點(diǎn),單擊右鍵選擇create supernode可將其整合為一星型超節(jié)點(diǎn)。7.右鍵單擊任意超節(jié)點(diǎn),如:pre-date,選擇zoom in,可查看詳細(xì)節(jié)點(diǎn)Set-Type320diTableTo Stream實(shí)驗(yàn)3:數(shù)據(jù)的預(yù)處理(篩選與填充)與建模eico.sav:I薩churn1.選擇數(shù)據(jù)來(lái)源:telco.sav數(shù)據(jù)集來(lái)自于Clememtine自帶的example數(shù)據(jù)集,該數(shù)據(jù)集收集了 1000位移動(dòng)用戶的信息,每位用戶有 38個(gè)屬性(收入,年齡等),希望對(duì)客戶流失進(jìn)行建模。2. 編輯類型,自動(dòng)讀取數(shù)據(jù)類型Typek
31、 ReadV ilussClearValuesClear All ValuesFieTvn !ValuesMissingCheck1w 'i "v r pDirection邂 loglong 霑 logtoll 霑 logequi logrd lagwre 念 Ininc d custcat 0 churri農(nóng) Ranee 爐 Range 少 Range 爐 Range Range Range 古g Flag-010535None1749199.None2 734367.None11.011600.None12701361.None119724.None1,2.3/None1
32、flJNoneInInInInInInInOut-* Tiew current fieldsView unused field settingsTypesFormat AnnotationsOK» | Cancel即ply geset3.變量選擇:添加churm模型,將type指向churm并運(yùn)行,自動(dòng)從38個(gè)變量中選擇了 27個(gè)重要屬性,生成數(shù)據(jù);將數(shù)據(jù)添加到模型區(qū)并將type指向數(shù)據(jù)審 di urn1Slid7| 口 I川晰k不門二%B 1117叵吃莎臣21*-0屈廠_|匚匚匚i 日嵋 Htrtiffign7曰jBJ iipVILI l|1 .*孑 F 3H1P*l mpculn
33、l1 D-< Il H l 1Fanje|*| mportsnl1 02D、Yireless|7| EurorUrrt1.021 5 "DM* nwrturl1.02?段 innc'23VJreiTiCi# "riF|t e呼runD硼|*| rTlptfirlSfilD5Q24 3If cone FamjeJI TniMilanl0f&5Mlrncm於總41陽(yáng)圈 rmhwrhirtD.liHbO mp-oittnD個(gè)I77Q cal陰il,P1|*| FpcillrEDM1nan:aiifi eell-|Unimpori.DE56 '-J -
34、refen護(hù)Fan je|*| Unmpad.06B3如® 1創(chuàng)氣Itl _i Qirim1"RsrtjiHn import.D.S33N SF1Hunimparf.述 fr-quifler孑 Fanpje冋n importDD5330 callld* Sb1HUnr-ipiMD.504創(chuàng)冬Icowt©d6上囪|AD.43?佻:nun n*Aon回 Uninpcid.冊(cè)5齊:Jrfin-# Rinip卜 I Un import w"'7 歲、f二 ni r fiJU* F p1'I 1 In p-'irti'Br1n t
35、RdR:ankFieldl>peImpa-flBncejes&k-ttAd2/ 血 ne 3 auaHbi£4»i1農(nóng)吃的WF岡旳FialoiTyp#R«#SDn心肚lln*利=higliJC;nriyiitYio 仲PnaoToo rrisrr mrssmci ”i 陽(yáng) s3 RangeC deicierrto< ua*ialion tslnx'ihi&Erj ”.t - a 95 +|03 » -: 0 9Mvdsi§LIEE 二呷Ar nri'iiririiCanc*i4. 添加filter處理
36、數(shù)據(jù),講非重要屬性過(guò)濾掉,運(yùn)行該處理,操作含有缺失值的那個(gè)屬性,在 miss ingin put處選定為 specify 05.在彈出的對(duì)話框中設(shè)置填允的原則,當(dāng)值為空或者為空格時(shí)自動(dòng)填充,算法為C&RT ,其原理是把數(shù)據(jù)完整的客戶數(shù)據(jù)用于建立 C&RT決策回歸樹模型,并用于預(yù)測(cè) 相關(guān)的缺失值,單擊okField:lotollimpuie wnen:Storage: 0 RealBlank &Nud Values 11 Imputation SettingsImpute MtfihudAlgarithrhAlgorithm: CSRTOK Cancel 且創(chuàng) p6.單擊
37、第 4 點(diǎn)圖 gen erate 中的 miss ing value super node 生成 miss ing value imputati on,后續(xù)的添加模型生成數(shù)據(jù)、進(jìn)行分析的操作同上。(TiUFi皿 f iHlU-AniiYvii7.分析結(jié)果如下七、實(shí)驗(yàn)結(jié)果及分析1模型務(wù)必按順序建立,并依次連接依次設(shè)置運(yùn)行。一般順序?yàn)椋簲?shù)據(jù)導(dǎo)入,數(shù)據(jù) 篩選并生成數(shù)據(jù)包,確定模型并生成數(shù)據(jù)包,分析模型準(zhǔn)確率等。2. 預(yù)處理是數(shù)據(jù)挖掘中最重要的部分。在數(shù)據(jù)進(jìn)入模型之前,我們可以使用R進(jìn)行 數(shù)據(jù)預(yù)處理,將數(shù)據(jù)離散化,也可以在 clementine中篩選出重要屬性,對(duì)缺失值進(jìn)行合 理填充,以此得到可信度較
38、高的模型。3. 模型的設(shè)置對(duì)結(jié)果的得出也至關(guān)重要,要防止過(guò)度擬合,也可以通過(guò)專家模型得 出簡(jiǎn)潔優(yōu)秀的模型。4. 各個(gè)節(jié)點(diǎn)名稱的設(shè)置有助于我們保持清晰的思路,防止數(shù)據(jù)、過(guò)程混亂,在模型 對(duì)比時(shí)尤其重要。2.2實(shí)驗(yàn)二預(yù)測(cè)一、實(shí)驗(yàn)?zāi)康耐ㄟ^(guò)本次實(shí)驗(yàn),學(xué)會(huì)應(yīng)用神經(jīng)網(wǎng)絡(luò)模型處理預(yù)測(cè)問(wèn)題,之所以本例使用神經(jīng)網(wǎng)絡(luò)模 型,是因?yàn)槠湓谔幚韽?fù)雜輸入和輸出方面有天然的優(yōu)勢(shì),在電力載荷預(yù)測(cè)案例中,有多 個(gè)輸入變量和3個(gè)輸出變量,其它模型建模稍顯復(fù)雜,幫而我們使用神經(jīng)網(wǎng)絡(luò)模型。此 外,我們還將對(duì) Clememtine自帶的數(shù)據(jù)集 Goodsln進(jìn)行促銷商品選擇的建模,學(xué)會(huì) in crease增加屬性節(jié)點(diǎn)),sort(排序
39、節(jié)點(diǎn))以及select選擇節(jié)點(diǎn))的使用。二、實(shí)驗(yàn)安排1 學(xué)時(shí):本實(shí)驗(yàn)安排4個(gè)學(xué)時(shí),主要用于完成實(shí)驗(yàn)及實(shí)驗(yàn)報(bào)告。2 時(shí)間:由實(shí)驗(yàn)室統(tǒng)一安排3. 地點(diǎn):由實(shí)驗(yàn)室統(tǒng)一安排三、實(shí)驗(yàn)工具四、知識(shí)準(zhǔn)備五、實(shí)驗(yàn)背景六、實(shí)驗(yàn)過(guò)程實(shí)驗(yàn)1根據(jù)已給出數(shù)據(jù)流,建立相同數(shù)據(jù)流。按順序創(chuàng)建并設(shè)置節(jié)點(diǎn)"shipi "ship1導(dǎo)入并查看數(shù)據(jù)巳13 iipldf. 122 re-rcrdi 壽勺詐月 1 0. 6. m o fl o.5 0.6 0.7y o.b.egGe9 0.6.w.h11iii.G.ti.'li.13113.6.1414 “151 5.6|161 伍.札一irnr.1016.
40、b.1910.6242 a”6.2tii.b222Z.h23J 3.G.342 J,.G.2525.6.2626.6.左?.6.28,:.C.29嘰Ci. c3D30.fi3T31.7.3231.33331.T._3434.r.35I軋.?.363B.7.3?3?“T” 一3B38.r.a6.Tib Itrnotition?0呆肓盒咚曰鱉對(duì)Si白壬FKt見(jiàn)1.0.19'6.S52130O.e?51l6&jO5919.40020.1 DD£21 :iD92.30 0S.MOO.OOD12.0002 0.1592.9211210 0021*'60.75174.別
41、D"S.fno30.40D89 nonF4JM0I'Q.OOOMM1 %2301-641123Q1D&1G 0強(qiáng)31 jqdHQJiOD2S9DDiqd aao44.ogaeiao1 OQQid 0.3419.7B61323 $07iE46.er33.20021.50027.Q0D90.00038.WQ11.2QD1.0002379.S2B1410.14$1E20-93229.30 24,40025.0 IDD88-000E8.MQ0.0005.0DQ0 0.2205.9111353 6001?9205526.00021.50022.0009MOOG6.0000.00
42、012.0007 0.23M7I1I1JQJiFMjaga?9>JCID21.8I0D2400yraoo73.M0i.iao14.uaaQ 0.2377.6 fl 6120031 JOO2WD27.50094 JOO67.WQ反叩DI1U0Q9 0.3147.37014192891?31 J2730.20031.7DD24.9 QD9000EO.OOO3.7CD15.000ia24R2 4D&1290 71671F:98432.300121,5002fm9&OOD430OQ11.4OD1 ooari.7623.7231470 S0733.3D023.9IDDZEl.DDw
43、54.CK3a4.9anB.naa12646 J J 111538.1312D?144130.4D02iDl27JDDKraOO06.000u.OObd.uOO13.Z11BJ331335£05175622026JQD21.40 D22.TDDar.aaDFTDM0.00 D12.000la22317191297 5671 則 bn©17?6.50D21.® DO23 9008&OOD74.croaQ.OQiO4 nao157D5f5J9D1X11 31 7IE-076475.70 a7.5 DDTgDDg.aaan.aau4naa18.21 50JB16
44、12D3.62a1 £.3O8e291,40022.200d z_.gZQQDsr.oaa3L4QIDg.ooa17.2205.251249.276izr&ae20-90 D237DDM3DD90.0007200QO.00D<ooa19.2222.43013.39 5K319227Q876.50022.5 DO24 40099000Fa4.000119?30斤136 日 7151 41 494?JQ&mm?sriogQQDBfliKQ4H00如.越醛161333 761123.9 DD»43D卿-QQO迪OQQ1.5CJ7.U0021,2635.520
45、13S1 £8S21: IT.00332.9Q024.3002S.2DD95-DODES.MQ3.2C0T.ODQ22.1993.9241«1 8T1i嚇即羽301.40022*00冷-grjooo80.0000.00012.00021.1312 亂U193.909?B.aoo22JDD2370D9000?e.u)oaoai12.00033J1J141255.4781-70-jgA27.10 D22.5 DD34.00D9S.DQD.ooa070 012.000is3490.75B1340 1341S30I65632.50 C21.SDDJ6S3D100.0QD56.000
46、1Q.2CD1.00025 .2B53 J991*59 615122/12935.30 D25.4 DD30100goaao5Z.QQD1 O.7OID1 noa27 .2409.03015F9 2S210D3U9S433.ODD24JAD27JOO9100 DB?.oaauni12.Dua仇.2623.80614251063230 C24 JUD27.0 DD9&.oao57.000BJODs.ooa嘰2220 JID 314022381674.77330.1QD24JDD36.7DDGDjDQD72s0«DQ0.00 D<ooa30 .23T51SZ1345 1STlAflnifia?331 QU7350Q27 7009?0QD54.«1011.1Q01 noa1 CLJB313J1 tiOT2052 69134.ZQD124J0D2910091 oao41300(9.7Q0i ooa10u2680*3?1500J
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 讓愛(ài)傳遞你我他-2025年教師家訪心得體會(huì)模版
- 區(qū)塊鏈科技引領(lǐng)商業(yè)變革探索未來(lái)趨勢(shì)的五大方向
- 三年級(jí)上冊(cè)數(shù)學(xué)教學(xué)工作總結(jié)模版
- 商務(wù)禮儀師考試的職業(yè)素養(yǎng)提升途徑試題及答案
- 供應(yīng)鏈金融中區(qū)塊鏈技術(shù)的融資策略研究
- 區(qū)塊鏈技術(shù)未來(lái)商業(yè)的新引擎
- 《高血壓宣教》課件
- 企業(yè)員工健康管理的策略研究-基于醫(yī)療大數(shù)據(jù)視角
- 智慧交通基礎(chǔ)設(shè)施的建設(shè)標(biāo)準(zhǔn)試題及答案
- 2025標(biāo)準(zhǔn)租賃合同范本2
- 廢品入庫(kù)單模板
- 2023年版-腫瘤內(nèi)科臨床路徑
- 婚育情況登記表
- word精美小升初簡(jiǎn)歷歐式模板
- 復(fù)旦大學(xué)附屬眼耳鼻喉醫(yī)院耳鼻喉進(jìn)修匯報(bào)
- 巖芯鑒定手冊(cè)
- DB32-T 3916-2020建筑地基基礎(chǔ)檢測(cè)規(guī)程-(高清現(xiàn)行)
- 快速排序算法高校試講PPT
- 甘肅歷史與甘肅文化
- 2022年執(zhí)業(yè)醫(yī)師證件租賃協(xié)議書
- 太上三官寶經(jīng)(共12頁(yè))
評(píng)論
0/150
提交評(píng)論