基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析_圖文_第1頁
基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析_圖文_第2頁
基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析_圖文_第3頁
基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析_圖文_第4頁
基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析_圖文_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、茸赴葶震基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析年月完成 】:!照!查迥墾!堡曼美壘墜魚!堡壘塾!:堡墮!曼!堡壘!:旦壘壘叢墮旦:墨墨堡墾!曼量曼墨墨!墾旦塾:魚墜壘旦 華東師范大學(xué)碩士學(xué)位論文華東師范大學(xué)學(xué)位論文原創(chuàng)性聲明鄭重盧明:本人呈交的學(xué)位論文基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析,足存華東師范大學(xué)攻讀砭名博士(請勾選)學(xué)位期間,在導(dǎo)師的指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含其他個(gè)人已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中作了明確說明并表示謝意。日期:多力仞年月夕華東師范大學(xué)學(xué)位論文著作權(quán)使用聲明基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析

2、系本人在華東師范大學(xué)攻讀學(xué)位期問在導(dǎo)師指導(dǎo)下完成的硬博士(請勾選)學(xué)位論文,本論文的研究成果歸華東師范大學(xué)所有。本人同意華東師范大學(xué)根據(jù)相關(guān)規(guī)定保留和使用此學(xué)位論文,并向主管部門和相關(guān)機(jī)構(gòu)如圖家圖書館、中信所和“知網(wǎng)”送交學(xué)位論文的印刷版和電子版:允許學(xué)位論文進(jìn)入華東師范大學(xué)圖書館及數(shù)據(jù)庫被查閱、借閱;同意學(xué)校將學(xué)位論文加入全國博士、碩士學(xué)位論文共建單位數(shù)據(jù)庫進(jìn)行檢索,將學(xué)位論文的標(biāo)題和摘要匯編出版,采用影印、縮印或者其它方式合理復(fù)制學(xué)位論文。本學(xué)位論文屬于(請勾選)()經(jīng)華東師范大學(xué)相關(guān)部門審查核定的“內(nèi)部”或“涉密”學(xué)位論文,于年月同解密,解密后適用上述授權(quán)。(不保密,適用上述授權(quán)。導(dǎo)師簽

3、名:蘭、竺一,本人簽癬疊印汐年旯沈“涉密”學(xué)位論文麻是已經(jīng)華東師范人學(xué)學(xué)位評定委員會辦公室或保密委員會審定過的學(xué)位論文(需附獲批的華爾師范人學(xué)研究生申請學(xué)位論文“涉密”審批表方為有效),朱經(jīng)上述部、審定的學(xué)何論文均為公開學(xué)位論文。此盧明欄不填寫的,默認(rèn)為公開學(xué)位論文均適上述授權(quán))。 郭良碩士學(xué)姓名職稱單位備注陳強(qiáng)璋教授上海商學(xué)院主席楊宗源教授華東師大信息學(xué)院顧君忠教授華東師大信息學(xué)院孫蕾副教授華東師大信息學(xué)院朱敏高工華東師大信息學(xué)院 論文摘要隨著信息化技術(shù)的快速發(fā)展和廣泛應(yīng)用,很多企業(yè)已經(jīng)積累了海量數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)很難充分利用蘊(yùn)藏在這些數(shù)據(jù)中的有用信息,數(shù)據(jù)挖掘技術(shù)的應(yīng)用開始得到企

4、業(yè)的重視。利用客戶資料數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘得到的知識指導(dǎo)市場活動(dòng)是數(shù)據(jù)挖掘的技術(shù)的一個(gè)重要的應(yīng)用方向。根據(jù)不同企業(yè)的類別,企業(yè)在營銷方面的成本會占到產(chǎn)品成本的到的比例,如何有效地使用在營銷方面的預(yù)算是每個(gè)企業(yè)能否盈利的關(guān)鍵。利用可以量化的數(shù)據(jù)庫技術(shù)對細(xì)分市場進(jìn)行精確的市場定位,突破廣告成本束縛,以更低的成本實(shí)現(xiàn)市場擴(kuò)張,是當(dāng)前數(shù)據(jù)技術(shù)在市場活動(dòng)應(yīng)用的重要趨勢。本文對培訓(xùn)機(jī)構(gòu)市場客戶數(shù)據(jù)建立維度模型,采用云計(jì)算的模式,基于酉(谷歌應(yīng)用程序開發(fā)接口)開發(fā)處理客戶數(shù)據(jù)地址信息的程序模塊,得到客戶精確的經(jīng)緯度地理信息;然后以客戶的地理信息作為基準(zhǔn)的維度設(shè)計(jì)數(shù)據(jù)挖掘算法,對客戶信息數(shù)據(jù)進(jìn)行聚類分析,取得客戶

5、的聚集特征;最后利用酉的地圖開發(fā)程序接口開發(fā)的程序模塊生成可視化的結(jié)果,把所有的分析結(jié)果信息顯示在地圖界面上,可方便市場決策人員形成直觀概念,從而對市場推廣的地面活動(dòng)起到全面支持的作用;同時(shí)對培訓(xùn)教學(xué)點(diǎn)的分布是否合理進(jìn)行驗(yàn)證:還可以直觀地對數(shù)據(jù)模型的建立、挖掘的結(jié)果進(jìn)行分析和檢驗(yàn),對照當(dāng)前的市場投放策略和目標(biāo)進(jìn)行分析和驗(yàn)證,最終實(shí)現(xiàn)對市場廣告溝通計(jì)劃的優(yōu)化和調(diào)整。在本文所設(shè)計(jì)的基于酉和聚類挖掘算法的基礎(chǔ)之上,可以處理各類基于客戶地址信息的市場分析并可以進(jìn)行知識發(fā)掘,對零售業(yè)、銀行保險(xiǎn)、快速消費(fèi)品、電信業(yè)等(企業(yè)對直接消費(fèi)者)行業(yè)都有應(yīng)用價(jià)值,對連鎖業(yè)的網(wǎng)點(diǎn)分布分析也有巨大的價(jià)值:并且在此計(jì)算方

6、法的基礎(chǔ)上可以擴(kuò)展開發(fā)出更多的數(shù)據(jù)分析應(yīng)用,如細(xì)分地區(qū)的客戶消費(fèi)預(yù)測、客戶出行的流動(dòng)性特征分析等。關(guān)鍵詞:數(shù)據(jù)挖掘,客戶信息處理,市場投放分析 鋤溉冊鋤如吼叩,:鋤伊鋤觚【勰,鶴百咖,伊咖西【黟冊嬲,叩哲觚撇【璐柚!,柚伽衄。他,啪觚喇觚邛砌【,柚他娩鋤他弛弱心觚觚【咖弱,印(),舢,觚鋤卸,:,咖, 第一章緒論引言研究背景研究目的應(yīng)用案例實(shí)現(xiàn)目標(biāo)本文的主要研究內(nèi)容和和創(chuàng)新工作論文組織結(jié)構(gòu)第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘理論。、本章目的數(shù)據(jù)倉庫的特點(diǎn)多維數(shù)據(jù)庫模式數(shù)據(jù)挖掘技術(shù)的產(chǎn)生數(shù)據(jù)挖掘技術(shù)的應(yīng)用。數(shù)據(jù)挖掘的主要任務(wù)類型數(shù)據(jù)挖掘項(xiàng)目的生命周期數(shù)據(jù)挖掘技術(shù)在客戶信息處理方面的應(yīng)用。聚類分析的基本概念常

7、用的典型聚類挖掘算法。、結(jié)第三章教育培訓(xùn)客戶數(shù)據(jù)倉庫的維度建模。本章目的。教育培訓(xùn)客戶維度模型建立教育市場商務(wù)分析框架。教育培訓(xùn)客戶的數(shù)據(jù)倉庫設(shè)計(jì)過程教育培訓(xùn)客戶數(shù)據(jù)倉庫的維度模型教育培訓(xùn)客戶維度表模型小結(jié) 第四章商業(yè)環(huán)境下的數(shù)據(jù)采集。本章目的數(shù)據(jù)來源的格式分析數(shù)據(jù)采集的方法執(zhí)行數(shù)據(jù)加載。小結(jié)。第五章客戶數(shù)據(jù)的清理和轉(zhuǎn)化本章目的數(shù)據(jù)清洗的基本方法客戶數(shù)據(jù)的質(zhì)量分析客戶數(shù)據(jù)的清洗地理信息數(shù)據(jù)轉(zhuǎn)換百介紹地理信息數(shù)據(jù)的精度分析獲取取得地理信息的經(jīng)緯度客戶地理信息數(shù)據(jù)的轉(zhuǎn)化處理。小結(jié)第六章對客戶的地理信息進(jìn)行聚類分析本章目的。改進(jìn)的聚類挖掘算法和實(shí)際應(yīng)用設(shè)計(jì)算法實(shí)現(xiàn)和應(yīng)用系統(tǒng)中的功能模塊說明。算法驗(yàn)證

8、和應(yīng)用效果。計(jì)算結(jié)果數(shù)據(jù)分析及應(yīng)用系統(tǒng)應(yīng)用效果及意義。小結(jié)第七章總結(jié)和展望總結(jié)展望 參考文獻(xiàn)。致謝。)( 程的管理。系統(tǒng)的應(yīng)用使企業(yè)積累了大量的客戶信息,這些數(shù)據(jù)背后往往隱藏著許多重要的信息,但由于技術(shù)和觀念的局限性,在許多服務(wù)行業(yè)中眾多客戶數(shù)據(jù)只是從表象上反映銷售信息,而這些數(shù)據(jù)背后隱藏的客戶信息和客戶知識無法被快速有效地挖掘出來,無法發(fā)掘現(xiàn)有客戶的消費(fèi)潛力,以及潛在的消費(fèi)群體和潛在的消費(fèi)領(lǐng)域,很難為經(jīng)營管理人員提供決策支持。教育培訓(xùn)市場的地面推廣是在所有的市場銷售活動(dòng)中費(fèi)效比最高的活動(dòng),同時(shí)地面推廣活動(dòng)也有投入大、人力資源占用多、成本高的缺點(diǎn),在決定地面推廣的方案時(shí),活動(dòng)的區(qū)域和地點(diǎn)的決策

9、是最重要的環(huán)節(jié)之一。參考和利用現(xiàn)有的客戶數(shù)據(jù)選擇地面推廣的范圍和地點(diǎn),是最直接的方法;目標(biāo)客戶群體在地理上的分布特征也可以作為重要的分析和研究的依據(jù)。在教育培訓(xùn)市場的客戶數(shù)據(jù)中,都會包含關(guān)于客戶的地理信息和消費(fèi)產(chǎn)品信息。由于客戶地理信息數(shù)據(jù)一般都是直接記錄的客戶所在的街道和小區(qū)等點(diǎn)狀和線狀的信息,很難直接判斷整體上的空間分布特征,利用傳統(tǒng)的數(shù)據(jù)庫的統(tǒng)計(jì)查詢方法和數(shù)據(jù)篩選方法也很難得出有價(jià)值的結(jié)論。利用地理信息系統(tǒng)取得學(xué)員信息的經(jīng)緯度數(shù)據(jù),并針對這個(gè)地理性信息、年齡、性別、金額、上課時(shí)間等數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析,可以得出更多隱性的規(guī)律,使市場人員能夠直觀地了解到市場的現(xiàn)狀和變化趨勢。因此,使用現(xiàn)有

10、的客戶數(shù)據(jù)資源,利用數(shù)據(jù)挖掘算法把大量的模糊的客戶數(shù)據(jù)信息轉(zhuǎn)換成知識和規(guī)律,在基于地理信息的數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,開發(fā)應(yīng)用分析系統(tǒng),對客戶數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘和分析,從而指導(dǎo)企業(yè)的市場銷售活動(dòng), 企業(yè)的客戶信息是企業(yè)數(shù)據(jù)庫中增長最快的數(shù)據(jù)類別,此類數(shù)據(jù)主要來源于以下兩個(gè)方面。首先,來自企業(yè)自己的客戶數(shù)據(jù)信息的積累,有超過的企業(yè)擁有信息化的銷售系統(tǒng)和客戶管理系統(tǒng),的企業(yè)率先進(jìn)入了商業(yè)自動(dòng)化技術(shù)、現(xiàn)代通信技術(shù)和網(wǎng)絡(luò)信息化技術(shù)相結(jié)合的數(shù)字化管理的集成階段【】,在這些系統(tǒng)中,每天都增加記錄客戶的個(gè)人信息和消費(fèi)行為,形成海量的信息。另外隨著營銷方式的演變,企業(yè)會采集和采購大量的潛在客戶信息,形成目標(biāo)客戶

11、數(shù)據(jù)庫,并且在此數(shù)據(jù)庫的基礎(chǔ)上展開精準(zhǔn)市場銷售活動(dòng)。在現(xiàn)在這個(gè)信息流通優(yōu)先于商品流通的時(shí)代,企業(yè)信息化進(jìn)程不可避免的帶來海量的、分布的、異構(gòu)的數(shù)據(jù)信息,如果海量的數(shù)據(jù)不能及時(shí)地轉(zhuǎn)化為知識,那企業(yè)經(jīng)營決策的時(shí)效性和正確性將大大受損。利用這些數(shù)據(jù)有兩種方式,首先是檢索和查詢,得到統(tǒng)計(jì)數(shù)據(jù)和特定的客戶列表,這種方式是建立在已經(jīng)掌握的客戶規(guī)律認(rèn)知基礎(chǔ)上,對客戶的特定的行為和數(shù)據(jù)進(jìn)行分析,另外一種方式就是采用數(shù)據(jù)挖掘的方法,找到客戶行為新的規(guī)律,發(fā)現(xiàn)新的市場知識。數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是有趣的、潛在有

12、用的信息、模式和知識的過程。通過數(shù)據(jù)挖掘可以把市場數(shù)據(jù)轉(zhuǎn)化成有用的信息,來幫助企業(yè)制定決策,從而在市場競爭中獲得優(yōu)勢地位。目前中國社會處于快速城市化的階段,在這個(gè)過程中,客戶的消費(fèi)模式和行為習(xí)慣都在快速的變遷中,這就造成市場人員的市場知識快速折舊和過時(shí)。如果充分利用數(shù)據(jù)挖掘的方法,可以發(fā)現(xiàn)新的消費(fèi)趨勢和特征,從而幫助企業(yè)準(zhǔn)確地制定全局戰(zhàn)略、區(qū)域戰(zhàn)略和連鎖門店戰(zhàn)略;幫助企業(yè)決策層進(jìn)行科學(xué)決策的數(shù)據(jù)支持:幫助企業(yè)與上下游進(jìn)行協(xié)調(diào)和協(xié)同決策;同時(shí)能夠細(xì)分客戶和市場,優(yōu)化顧客服務(wù)。數(shù)據(jù)挖掘技術(shù)世紀(jì)初得到飛速地發(fā)展,此時(shí)數(shù)據(jù)挖掘技術(shù)進(jìn)入我國,并被一些領(lǐng)域所應(yīng)用,其中以在(客戶關(guān)系管理)上的應(yīng)用最為突出。

13、數(shù)據(jù)挖掘技術(shù)在服務(wù)行業(yè)主要應(yīng)用于客戶市場細(xì)分,利用聚類分析將客戶信息資源中一個(gè)大的用戶群體劃分成多個(gè)小群體,每個(gè)小群體的客戶具有相同的特征,這對客戶服務(wù)的改善、市場行為預(yù)測、進(jìn)行新產(chǎn)品的開發(fā)也是一個(gè)重要的支持【。 華東師范大學(xué)碩士學(xué)位論文基于客戶所在的住址信息進(jìn)行客戶信息數(shù)據(jù)挖掘分析是一個(gè)非常重要的應(yīng)用,通過針對客戶信息的地理位置進(jìn)行分析,可以直觀地顯示出客戶分布特征,根據(jù)不同地區(qū)客戶的消費(fèi)習(xí)慣和行為特征調(diào)整市場活動(dòng)方案。本文將教育培訓(xùn)客戶數(shù)據(jù)的地理信息進(jìn)行處理,并結(jié)合聚類算法對數(shù)據(jù)進(jìn)行挖掘,得出對市場活動(dòng)有意義的結(jié)論。研究目的通過對客戶信息的數(shù)據(jù)挖掘分析得到的結(jié)論,可以支持精準(zhǔn)的廣告溝通和營

14、銷活動(dòng),提高廣告推廣活動(dòng)的費(fèi)效比,從而提高企業(yè)的市場占有率,提高企業(yè)的利潤。隨著市場競爭的加劇,企業(yè)市場銷售活動(dòng)的成本越來越高。近幾年,培訓(xùn)企業(yè)常用的推廣方式中:報(bào)紙廣告的成本每年都有到的增長,網(wǎng)絡(luò)搜索推廣的關(guān)鍵詞點(diǎn)擊價(jià)格也在年內(nèi)上升了倍,而地面推廣一直是一種費(fèi)效比相對低、目標(biāo)直接反應(yīng)式的營銷手段,是實(shí)現(xiàn)銷售目標(biāo)的重要方式,同樣,電話營銷也是很多行業(yè)拓展市場的重要手段,這些營銷方式都需要數(shù)據(jù)庫的支持和對數(shù)據(jù)的分析和挖掘利用。利用數(shù)據(jù)挖掘技術(shù)對客戶的特點(diǎn)和規(guī)律進(jìn)行分析,通過對教育培訓(xùn)客戶數(shù)據(jù)建立數(shù)據(jù)倉庫,并對客戶數(shù)據(jù)的地理信息、年齡、居住環(huán)境、參加課程、培訓(xùn)時(shí)間等緯度的信息進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)市場

15、規(guī)律,找到有效的市場手段和渠道,從而實(shí)現(xiàn)對目標(biāo)客戶實(shí)現(xiàn)精準(zhǔn)的廣告投放和營銷影響,提高客戶的響應(yīng)程度,降低分?jǐn)傇诿總€(gè)客戶上的市場成本,可以有效地提高企業(yè)的市場占有率,增加利潤,對企業(yè)來說具有重大的經(jīng)濟(jì)意義。應(yīng)用案例上海市昂立進(jìn)修學(xué)院是一個(gè)綜合型的教育機(jī)構(gòu),現(xiàn)在每年投入市場的推廣經(jīng)費(fèi)已經(jīng)達(dá)到千萬的數(shù)量級,極大推動(dòng)了企業(yè)的快速增長,如何有效地使用這筆費(fèi)用也是市場部面臨的一個(gè)巨大挑戰(zhàn)。昂立教育的系統(tǒng)已經(jīng)應(yīng)用多年,但是市場上利用客戶數(shù)據(jù)來分析營銷效果產(chǎn)品還是空白,目前還沒有這方面的應(yīng)用。充分利用數(shù)據(jù)挖掘的方法,對客戶數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理,可以分析出數(shù)據(jù)中潛在的知識和規(guī)律、實(shí)現(xiàn)廣告計(jì)劃中人力和費(fèi)用的精準(zhǔn)投

16、放,從而有效地提高 華東師范大學(xué)碩士學(xué)位論文廣告的效果。昂立教育是目前上海最大、全國知名的非學(xué)歷教育培訓(xùn)機(jī)構(gòu),在上海市教育培訓(xùn)市場中居于領(lǐng)先地位,曾經(jīng)培訓(xùn)過的學(xué)生達(dá)數(shù)十萬以上,數(shù)量相當(dāng)一個(gè)小型的城市。昂立教育充分利用自身優(yōu)勢,致力于建立完整的終生教育產(chǎn)業(yè)鏈,構(gòu)成了多元化的培訓(xùn)網(wǎng)絡(luò),其下屬各教育板塊已經(jīng)成為上海領(lǐng)先、全國知名的教育產(chǎn)品。】昂立教育目前有個(gè)事業(yè)部,在上海地區(qū)有個(gè)校區(qū),廣告宣傳手段除了覆蓋面較大的媒體廣告、網(wǎng)絡(luò)推廣、精準(zhǔn)營銷等手段以外,地面推廣活動(dòng)也是重要的市場手段。像單頁派發(fā)、人員促銷、信函推銷等直接反應(yīng)廣告都是針對某一地理區(qū)域的客戶進(jìn)行宣傳。由于客戶地理信息數(shù)據(jù)都是直接記錄客戶所

17、在的街道和小區(qū)等點(diǎn)狀和線狀的信息,很難直接判斷整體上的空間分布特征,利用傳統(tǒng)的數(shù)據(jù)庫的統(tǒng)計(jì)查詢方法也很難得出有價(jià)值的結(jié)論。本文通過建立數(shù)據(jù)倉庫,利用數(shù)據(jù)挖掘技術(shù)可以解決以上問題。本文通過抽取近三年的幾個(gè)部門萬條數(shù)據(jù)作為數(shù)據(jù)挖掘的分析基礎(chǔ),利用百應(yīng)用程序開發(fā)接口開發(fā)的模塊取得客戶地理信息的經(jīng)緯度信息,然后根據(jù)其所在的地區(qū)特征進(jìn)行聚類分析,從而取得最有價(jià)值的客戶的聚集特征,并根據(jù)其所在社區(qū)進(jìn)行分析得出人員流動(dòng)特征,為選擇地推的地理位置和廣告溝通要點(diǎn)方案提供了支持,使市場營銷活動(dòng)更有效果。實(shí)現(xiàn)目標(biāo)為了實(shí)現(xiàn)市場推廣計(jì)劃的科學(xué)性和精準(zhǔn)化,對客戶數(shù)據(jù)建立數(shù)據(jù)模型后,采集和處理教育培訓(xùn)客戶的歷史數(shù)據(jù),并利用

18、改進(jìn)的聚類分析算法對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,找到客戶數(shù)據(jù)的分布特征,從而取得市場推廣的決策依據(jù)。通過本文的數(shù)據(jù)挖掘分析,為以下市場活動(dòng)提供分析依據(jù):、教育培訓(xùn)客戶的地域分析通過對客戶來源的聚類分析,可以清晰地看到客戶的來源分部狀態(tài),對照其它的數(shù)據(jù)源、可以據(jù)此來判斷市場推廣重點(diǎn)是否有誤差。比如說如果某個(gè)社區(qū)根據(jù)特征應(yīng)該是屬于優(yōu)質(zhì)市場區(qū)域,如果此社區(qū)沒有產(chǎn)生足夠的用戶,那說明此區(qū)域有加強(qiáng)營銷的潛力。、廣告投放與客戶來源的偏移度分析偏移度是指銷售活動(dòng)投放的地域和實(shí)際客戶聚集地的偏移,通過數(shù)據(jù)分析發(fā)現(xiàn),在這個(gè)指標(biāo)上很多市場活動(dòng)具有巨大的改進(jìn)空間。、地推活動(dòng)(地面推廣市場活動(dòng))投放地指導(dǎo)根據(jù)數(shù)據(jù)分析結(jié)果找到最

19、佳投放地域和活動(dòng)地點(diǎn),制定地面推廣方案并進(jìn)行 華東師范大學(xué)碩士學(xué)位論文投放預(yù)算和預(yù)測,并根據(jù)市場效果進(jìn)行方案驗(yàn)證和改進(jìn)。、報(bào)名點(diǎn)和培訓(xùn)點(diǎn)的選址參考根據(jù)客戶的聚集特征來驗(yàn)證當(dāng)前校區(qū)地址的合理性,并根據(jù)結(jié)果來增加報(bào)名點(diǎn)。在以上數(shù)據(jù)分析的結(jié)論基礎(chǔ)上,可以進(jìn)一步優(yōu)化市場的投放方向和模式,增加市場活動(dòng)的投入產(chǎn)出比,從而實(shí)現(xiàn)更好的企業(yè)效益。本文的主要研究內(nèi)容和和創(chuàng)新工作本文對數(shù)據(jù)挖掘技術(shù)在培訓(xùn)服務(wù)業(yè)的客戶數(shù)據(jù)處理作了應(yīng)用研究,利用數(shù)據(jù)挖掘技術(shù)在市場活動(dòng)投放領(lǐng)域進(jìn)行分析和指導(dǎo),對企業(yè)市場活動(dòng)具有重要的經(jīng)濟(jì)意義。本文以昂立教育的客戶數(shù)據(jù)和廣告投放數(shù)據(jù)為例,運(yùn)用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù),基于近三年的客戶信息數(shù)據(jù)進(jìn)

20、行建模、挖掘,旨在解決如何優(yōu)化市場活動(dòng)的投放效率,解決市場活動(dòng)和客戶地理分布不匹配的問題,從而提高市場活動(dòng)的效率。本文的創(chuàng)新工作主要包括:、在典型的平均和中心點(diǎn)聚類算法的基礎(chǔ)上,針對以地理信息為基礎(chǔ)的客戶信息聚類分析做了算法的優(yōu)化和改進(jìn)。改進(jìn)的算法可以快速處理精確的地址信息,提高在大數(shù)據(jù)量運(yùn)算時(shí)的速度和精確度;并采用靈活的參數(shù)設(shè)置,優(yōu)化處理方法,適應(yīng)廣泛的不同的分析任務(wù),且具有良好的伸縮性,具有二次開發(fā)的價(jià)值。、本研究實(shí)現(xiàn)對客戶信息的地址信息進(jìn)行精確的處理。對于處理海量的客戶信息數(shù)據(jù)的地址和距離問題,誤差范圍從以公里為單位計(jì)算降低到以米為單位計(jì)算,從而可以有效地基于地址信息處理客戶信息,得出有

21、價(jià)值的結(jié)論。通過以上創(chuàng)新技術(shù)開發(fā)系統(tǒng),利用聚類挖掘技術(shù)對客戶地理信息處理進(jìn)行創(chuàng)新性的應(yīng)用,對市場決策工作提供了強(qiáng)大的支持,成為工作中重要的決策支持工具,在市場策略分析和培訓(xùn)網(wǎng)點(diǎn)分布選址方面有重要的應(yīng)用,對廣告和投資兩方面的工作均具有指導(dǎo)意義。論文組織結(jié)構(gòu)論文的組織結(jié)構(gòu)如圖所示:第一章,引言。介紹研究背景,研究目的和研究工作。 華東師范大學(xué)碩士學(xué)位論文第二章,數(shù)據(jù)挖掘理論及研究現(xiàn)狀分析。通過對數(shù)據(jù)挖掘在客戶數(shù)據(jù)分析方面的應(yīng)用特點(diǎn)來說明本研究的方法與算法的合理性。第三章,教育培訓(xùn)客戶的數(shù)據(jù)倉庫的維度建模。通過對對客戶的數(shù)據(jù)信息建立維度數(shù)據(jù)模型,構(gòu)建基于客戶信息的數(shù)據(jù)倉庫模型。第四章,商業(yè)環(huán)境下的客

22、戶數(shù)據(jù)收集和加載方法分析。第五章,教育培訓(xùn)客戶數(shù)據(jù)預(yù)處理,對客戶數(shù)據(jù)倉庫中數(shù)據(jù)進(jìn)行預(yù)處理,保證數(shù)據(jù)倉庫中數(shù)據(jù)的完整性和有效性;并對客戶的地理信息進(jìn)行處理,得到精確的經(jīng)緯度信息。第六章,對客戶的地理信息進(jìn)行聚類分析,分析客戶數(shù)據(jù)信息的數(shù)據(jù)挖掘的結(jié)果,并把結(jié)果和實(shí)際應(yīng)用結(jié)合起來,得到有價(jià)值的市場知識。最后一章,總結(jié)和展望。對研究成果進(jìn)行總結(jié),并規(guī)劃下一步數(shù)據(jù)挖掘技術(shù)的更深層次的應(yīng)用。對客戶的信息進(jìn)行聚類分析總結(jié)和展望圖論文組織結(jié)構(gòu)圖 本章目的第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘理論本章闡明了數(shù)據(jù)倉庫的設(shè)計(jì)方法,通過對數(shù)據(jù)挖掘在客戶數(shù)據(jù)分析方面的應(yīng)用特點(diǎn),來說明本研究方法與算法的合理性。數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫是

23、進(jìn)行數(shù)據(jù)挖掘設(shè)計(jì)的數(shù)據(jù)基礎(chǔ),關(guān)系數(shù)據(jù)庫系統(tǒng)是常見的應(yīng)用,比較數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫的特點(diǎn),利于進(jìn)行數(shù)據(jù)倉庫的設(shè)計(jì)和構(gòu)建。聯(lián)機(jī)操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢處理。這種系統(tǒng)稱為聯(lián)機(jī)事務(wù)處理()系統(tǒng)。它們涵蓋了一個(gè)組織的大部分日常操作,如購買、庫存、制造、銀行、工資、注冊、記帳等。另一方面,數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策方面為數(shù)據(jù)分析者提供調(diào)用任務(wù)的服務(wù)。這種系統(tǒng)可以用不同的格式組織和提供數(shù)據(jù),以便滿足不同用戶的形形色色需求。這種系統(tǒng)稱為聯(lián)機(jī)分析處理(心)系統(tǒng)。多維數(shù)據(jù)庫模式目前最流行的數(shù)據(jù)倉庫模型是多維數(shù)據(jù)模型,多維數(shù)據(jù)模型可以以星型模式、雪花模式和事實(shí)星座模式形式存在:、星型模式():

24、最常見的模型范例,其中數(shù)據(jù)倉庫包括一個(gè)大的包含大批量數(shù)據(jù)和不含冗余的中心表,也稱作事實(shí)表。還包括一組小的附屬表,或者叫維表,每個(gè)維度是一個(gè)表。這種模式圖很像星星爆發(fā),維表圍繞中心表顯示在射線上。、雪花模式():雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中,從而達(dá)到減少冗余的目的。雪花模式較星型模式更易維護(hù),更節(jié)省空間,因?yàn)楫?dāng)維結(jié)構(gòu)作為列包含在內(nèi)時(shí),大維表可能會非常大。當(dāng)數(shù)據(jù)非常大時(shí)這種空間的節(jié)省可以忽略。此外,從存儲成本和時(shí)間成本上來比較,執(zhí)行查詢時(shí)需要更多的聯(lián)機(jī)操作和映射處理,雪花結(jié)構(gòu)可能會影響分析的效率,從而影響到系統(tǒng)的性能。、事實(shí)星座():復(fù)雜的應(yīng)用

25、可能需要多個(gè)事實(shí)表共享維表,可以看作星型模式集,因此稱之為星系模式(),或事實(shí)星座。 維近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界和整個(gè)社會的極大關(guān)注,其主要原因是存在可以廣泛使用的大量數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應(yīng)用,包括市場分析、欺詐檢測、顧客保有、產(chǎn)品控制和科學(xué)探索等。數(shù)據(jù)挖掘可以看作是信息技術(shù)自然演化的結(jié)果。數(shù)據(jù)庫系統(tǒng)業(yè)界見證了如下功能的演化過程:數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建、數(shù)據(jù)管理(包括數(shù)據(jù)存儲和檢索、數(shù)據(jù)庫事務(wù)處理)、以及高級數(shù)據(jù)分析(涉及數(shù)據(jù)倉庫和數(shù)據(jù)挖掘)。例如,數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建機(jī)制的早期開發(fā)已經(jīng)成為后來數(shù)據(jù)存儲和檢索、查詢和事務(wù)處理

26、有效機(jī)制開發(fā)的先決條件。隨著提供查詢和事務(wù)處理的大量數(shù)據(jù)庫系統(tǒng)廣泛付諸實(shí)踐,高級數(shù)據(jù)分析自然成為下一個(gè)目標(biāo)。自世紀(jì)年代以來,數(shù)據(jù)庫和信息技術(shù)已經(jīng)系統(tǒng)地從原始的文件處理演變到復(fù)雜的和功能強(qiáng)大的數(shù)據(jù)庫系統(tǒng)。自世紀(jì)年代以來,數(shù)據(jù)庫系統(tǒng)的研究和開發(fā)已經(jīng)從早期的層次和網(wǎng)狀數(shù)據(jù)庫系統(tǒng)發(fā)展到開發(fā)關(guān)系數(shù)據(jù)庫系統(tǒng)(數(shù)據(jù)存放在關(guān)系表結(jié)構(gòu)中)、數(shù)據(jù)建模工具以及索引和存取方法。此外,用戶通過查詢語言、用戶界面、查詢處理優(yōu)化和事務(wù)管理,可以方便靈活地獲取數(shù)據(jù)。聯(lián)機(jī)事務(wù)處理(甲)的有效方法將查詢看作只讀事務(wù),對于關(guān)系技術(shù)的發(fā)展和關(guān)系技術(shù)作為大量數(shù)據(jù)的有效存儲、檢索和管理的主要工具得到廣泛認(rèn)可作出了重要貢獻(xiàn)。別自世紀(jì)年代中

27、期以來,數(shù)據(jù)庫技術(shù)的特點(diǎn)是廣泛接受關(guān)系技術(shù),研究和開發(fā)新的、功能強(qiáng)大的數(shù)據(jù)庫系統(tǒng)。這些推動(dòng)了諸如擴(kuò)充關(guān)系模型、面向?qū)ο竽P汀ο箨P(guān)系模型和演繹模型等先進(jìn)的數(shù)據(jù)模型的發(fā)展。包括空間的、時(shí)間的、多媒體的、主動(dòng)的、流的、傳感器的和科學(xué)與工程的數(shù)據(jù)庫、知識庫、辦公信息庫在內(nèi)的各種面向應(yīng)用的數(shù)據(jù)庫系統(tǒng)。異構(gòu)數(shù)據(jù)庫系統(tǒng)和基于因特網(wǎng)的全球信息系統(tǒng)(如萬維網(wǎng))也已出現(xiàn),并成為信息產(chǎn)業(yè)的生力軍。在過去的年中,計(jì)算機(jī)硬件技術(shù)穩(wěn)步的、快速的進(jìn)步導(dǎo)致了功能強(qiáng)大的和價(jià)格可以承受的計(jì)算機(jī)、數(shù)據(jù)收集設(shè)備和存儲介質(zhì)的生產(chǎn)的規(guī)模化。這些技術(shù)大大推動(dòng)了數(shù)據(jù)庫和信息產(chǎn)業(yè)的發(fā)展,使得大量數(shù)據(jù)庫和信息儲存數(shù)據(jù)庫用于事務(wù)管理、信息檢索和

28、數(shù)據(jù)分析。海量的數(shù)據(jù)庫數(shù)據(jù)卻缺乏有效的處理工具,這種現(xiàn)象可以稱作為數(shù)據(jù)豐富,但信息貧乏。快速增長的海量數(shù)據(jù)收集、存放在大型和大量數(shù)據(jù)儲存庫中,如果 華東師范大學(xué)碩士學(xué)位論文沒有強(qiáng)有力的數(shù)據(jù)處理工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。收集在大型數(shù)據(jù)儲存庫中的數(shù)據(jù)變成了“數(shù)據(jù)墳?zāi)梗蔀殡y得再訪問的數(shù)據(jù)檔案。這樣,重要的決策常常不是基于數(shù)據(jù)儲存庫中信息豐富的數(shù)據(jù),而是基于決策者的專業(yè)直覺,因?yàn)闆Q策者缺乏從海量數(shù)據(jù)中提取有價(jià)值知識的工具和有效驗(yàn)證專業(yè)直覺的數(shù)據(jù)分析工具。此外,當(dāng)前的專家系統(tǒng)技術(shù)通常依賴用戶或領(lǐng)域?qū)<胰斯さ貙⒅R輸入知識庫,這一過程常常有偏差和錯(cuò)誤,并且耗時(shí)和費(fèi)用高,而且不能適應(yīng)現(xiàn)在知識快

29、速折舊的現(xiàn)狀。對數(shù)據(jù)倉庫開發(fā)數(shù)據(jù)挖掘工具,對海量數(shù)據(jù)進(jìn)行深度數(shù)據(jù)分析,可以發(fā)現(xiàn)重要的數(shù)據(jù)模式和新的知識,對商務(wù)策略、知識庫、科學(xué)和醫(yī)學(xué)研究做出巨大貢獻(xiàn)。正在擴(kuò)大的數(shù)據(jù)庫和處理分析信息能力之間差距需要系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)換成知識“金塊。數(shù)據(jù)挖掘技術(shù)的應(yīng)用數(shù)據(jù)挖掘()就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間

30、的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動(dòng)進(jìn)行預(yù)測。【數(shù)據(jù)挖掘的主要任務(wù)類型按照數(shù)據(jù)挖掘作用模式來劃分,數(shù)據(jù)挖掘的任務(wù)可以分為兩大類:預(yù)測型模式(如:序列模式、分類模式、回歸模式、偏差分析模式等)和描述型模式(如:聚類模式、關(guān)聯(lián)模式和序列模式等)。預(yù)測模式能夠根據(jù)已有的數(shù)據(jù)集,預(yù)測某些未知數(shù)據(jù)項(xiàng)的知值。描述模式是對數(shù)據(jù)中存在的規(guī)律、規(guī)則作出一種描述,或者根據(jù)數(shù)據(jù)間的相似性將數(shù)據(jù)分組,一般不能直接用于預(yù)測。】數(shù)據(jù)挖掘常見的任務(wù)類型有:聚類、分類、關(guān)聯(lián)、回歸、預(yù)測、序列分析、偏差分析等。聚類也稱為細(xì)分,它基于一組屬性對事例進(jìn)行分組。在同一個(gè)聚類中的事例或多或少有相同的屬性值。聚類是一種無監(jiān)督的數(shù)據(jù)

31、挖掘任務(wù),沒有一個(gè)屬性用于指導(dǎo)模型的構(gòu)建過程。所有的輸入屬性都是平等對待。大多數(shù)聚類算法通過多次迭代來構(gòu)建模型,當(dāng)模型收斂的時(shí)候算法停止,也就是說當(dāng)細(xì)分的邊界變得穩(wěn)定時(shí)算法停止。聚類分析一般來說可以較快的實(shí)現(xiàn)計(jì)算的模型收斂,并且能夠比較直觀的得 華東師范大學(xué)碩士學(xué)位論文出數(shù)據(jù)倉庫中數(shù)據(jù)的特征,并容易形成可理解的結(jié)論。所以做數(shù)據(jù)挖掘可以先對數(shù)據(jù)進(jìn)行數(shù)據(jù)聚類分析,然后再利用其它的方法做進(jìn)一步的處理。利用聚類分析數(shù)據(jù),可以較快的對大量的數(shù)據(jù)進(jìn)行分類,對數(shù)據(jù)的分布特點(diǎn)做出有意義的描述,把海量的抽象的數(shù)據(jù)變成可以理解的分類描述。所以對數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析,首先采用聚類分析是一個(gè)比較好的選擇。數(shù)據(jù)挖掘項(xiàng)目

32、的生命周期數(shù)據(jù)挖掘項(xiàng)目一般包含八個(gè)步驟:數(shù)據(jù)收集、數(shù)據(jù)清理和轉(zhuǎn)換、模型構(gòu)建、模型評估、報(bào)告、預(yù)測(評分)、應(yīng)用集成和模型管理。第一步:數(shù)據(jù)收集。就是把相關(guān)的數(shù)據(jù)放到一個(gè)數(shù)據(jù)倉庫或者數(shù)據(jù)集市中,再從其他數(shù)據(jù)源收集數(shù)據(jù),從而達(dá)到豐富數(shù)據(jù)倉庫的目的。之后對數(shù)據(jù)進(jìn)行采樣,以減少數(shù)據(jù)集的大小。第二步:數(shù)據(jù)清理和轉(zhuǎn)換。是在數(shù)據(jù)挖掘項(xiàng)目中資源密集程度最高的一步。數(shù)據(jù)清理的目的是除去數(shù)據(jù)集中的噪聲和不相關(guān)的信息,而數(shù)據(jù)轉(zhuǎn)換的目的則是將源數(shù)據(jù)的數(shù)據(jù)類型與值轉(zhuǎn)換為統(tǒng)一的格式。目前有很多技術(shù)能應(yīng)用于數(shù)據(jù)清理和轉(zhuǎn)換,包括數(shù)據(jù)類型轉(zhuǎn)換、連續(xù)列轉(zhuǎn)換、分組、聚集、缺失值處理、刪除孤立點(diǎn)等方法。第三步:模型構(gòu)建。是數(shù)據(jù)挖掘的

33、核心,在確定項(xiàng)目是分類任務(wù),關(guān)聯(lián)任務(wù)或者是聚類(細(xì)分)任務(wù)的前提下,選擇比較適合的算法。但是算法的精確程度依賴數(shù)據(jù)的性質(zhì),比如可預(yù)測屬性的狀態(tài)個(gè)數(shù)、每個(gè)屬性的值分布、屬性之間的關(guān)系等,例如,所有輸入的屬性與可預(yù)測屬性之間的關(guān)系是線性的,那么決策樹法為最適合算法;如果屬性之間的關(guān)系比較復(fù)雜,應(yīng)該考慮神經(jīng)網(wǎng)絡(luò)算法。第四步:模型評估。目前較為常用的模型評估工具是提升圖,它使用模型預(yù)測測試數(shù)據(jù)集的值基于模型預(yù)測得到的值和概率,以圖形的方式顯示這個(gè)模型,從而評估模型的精確性。第五步:報(bào)告。數(shù)據(jù)挖掘工程師通常需要用文本形式或者圖形形式把項(xiàng)目結(jié)果以報(bào)告形式提交給相關(guān)負(fù)責(zé)人。報(bào)告形式一般有兩種類型:關(guān)于挖掘結(jié)

34、果(模式)的報(bào)告和關(guān)于預(yù)測的報(bào)告。第六步:預(yù)測(評分)。是數(shù)據(jù)挖掘項(xiàng)目中的最終目的,它是基于一個(gè)模型和一組新的事例進(jìn)行的。第七步:應(yīng)用集成。將數(shù)據(jù)挖掘功能嵌入到商業(yè)應(yīng)用程序中是為了讓商業(yè)應(yīng)用程序智能化,即實(shí)現(xiàn)閉環(huán)分析。第八步:模型管理。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域中,一些領(lǐng)域的挖掘模式相對比較穩(wěn)定,不要求頻繁地進(jìn)行重建,但是另外一些應(yīng)用領(lǐng)域的挖掘模式變化的非常頻 華東師范大學(xué)碩士學(xué)位論文繁。例如,網(wǎng)上書店每天都會有新的圖書,這意味著關(guān)聯(lián)規(guī)則每天都要改變。數(shù)據(jù)挖掘模型的持續(xù)時(shí)間是有限的,因此必須頻繁地創(chuàng)建新的挖掘模型。】數(shù)據(jù)挖掘技術(shù)在客戶信息處理方面的應(yīng)用數(shù)據(jù)挖掘在客戶信息處理中的應(yīng)用,就是把成熟的數(shù)據(jù)挖

35、掘理論和技術(shù),應(yīng)用到具體的企業(yè)問題上,創(chuàng)建描述和預(yù)測客戶行為的模型,通過與信息、通信等各種先進(jìn)技術(shù)的結(jié)合,優(yōu)化客戶信息處理流程,以實(shí)現(xiàn)有效的客戶關(guān)系管理。具體可以應(yīng)用到以下幾個(gè)方面:、客戶分類:用數(shù)據(jù)挖掘方法把大量的客戶按其性別、收入等屬性進(jìn)行群體細(xì)分,推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為。、客戶保持:對客戶數(shù)據(jù)庫中大量的歷史交易記錄、人口統(tǒng)計(jì)信息等相關(guān)資料,通過數(shù)據(jù)挖掘技術(shù)分析其行為特征、屬性及導(dǎo)致客戶流失的原因,針對不同客戶采用不同的保持策略,做好此類客戶的服務(wù)工作,吸引客戶繼續(xù)與企業(yè)保持良好的商務(wù)關(guān)系。、獲取新客戶:企業(yè)的增長需要不斷地獲得新的客戶,而數(shù)據(jù)挖掘能夠辨別潛在客戶群,并將

36、潛在客戶中對類似商品或服務(wù)感興趣的人員特點(diǎn)整理出來,讓他們有機(jī)會接觸到該項(xiàng)產(chǎn)品或業(yè)務(wù),并最終成為真正的客戶。、交叉營銷:指企業(yè)向已購買商品的當(dāng)前客戶銷售新產(chǎn)品或服務(wù)的過程,是企業(yè)和客戶關(guān)系在深度上的發(fā)展,建立在雙贏原則上,客戶因得到更多符合其需求的服務(wù)而獲益,企業(yè)則不僅是通過對現(xiàn)有客戶擴(kuò)大銷售來增加了利潤,而且提升了形象、培育了客戶忠誠度、保障企業(yè)可持續(xù)發(fā)展。、客戶分析:企業(yè)通過數(shù)據(jù)挖掘技術(shù),對不同市場活動(dòng)情況下客戶盈利能力的變化、零散的客戶反饋信息及大量歷史數(shù)據(jù)進(jìn)行分析及預(yù)測,制定相應(yīng)的營銷方案和市場策略,有效地降低成本,增加效益。、風(fēng)險(xiǎn)評估:利用數(shù)據(jù)挖掘技術(shù)找出風(fēng)險(xiǎn)投資中一些有用的規(guī)則,評

37、估投資風(fēng)險(xiǎn)以實(shí)現(xiàn)利潤的最大化和風(fēng)險(xiǎn)的最小化。聚類分析的基本概念聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個(gè)類的分析過程。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個(gè)簇中的對象彼此相似,與其它簇中的對象相異。目前主要的聚類算法可以劃分為如下幾類:、劃分的方法():給定一個(gè)個(gè)對象或元組的數(shù)據(jù)庫, 華東師范大學(xué)碩士學(xué)位論文一個(gè)劃分方法構(gòu)建數(shù)據(jù)的個(gè)劃分,每個(gè)劃分表示一個(gè)聚簇,并且。以下用到的平均算法和中心點(diǎn)算法屬于此類方法。、層次的方法():對給定數(shù)據(jù)對象集合進(jìn)行層次的分解。根據(jù)層次的分解如何形成的方式,層次的方法可以分為凝聚或分裂的方法。凝聚法(自底向上)一開始將每個(gè)對象

38、作為單獨(dú)的一個(gè)組,然后相繼地合并相近的對象或組,直到所有的組合并為一個(gè)(層次的最上層),或者達(dá)到一個(gè)終止條件。分裂法(自頂向下)一開始將所有的對象置于一個(gè)簇中,在迭代的每一步中,一個(gè)簇被分裂為更小的簇,直到最終每個(gè)對象在單獨(dú)的一個(gè)簇中,或者達(dá)到一個(gè)終止條件。、基于密度的方法():對給定簇的每個(gè)數(shù)據(jù)點(diǎn),在一個(gè)給定半徑的鄰域中必須至少包含最少數(shù)目的點(diǎn)。、基于網(wǎng)格的方法(鰣):把對象空間量化為有限數(shù)目的單元,形成一個(gè)網(wǎng)格結(jié)構(gòu),所有聚類操作都是在這個(gè)網(wǎng)格結(jié)構(gòu)(即量化的空間)上進(jìn)行的。、基于模型的方法(鵲):基于模型的方法為每個(gè)簇假定一個(gè)模型,尋找數(shù)據(jù)對給定模型的最佳擬合。【本文通過聚類算法來發(fā)現(xiàn)客戶信

39、息數(shù)據(jù)中有意義的聚類。通過對這些聚類的分析,我們能夠識別客戶密集和稀疏的區(qū)域,發(fā)現(xiàn)全局的分布模式以及數(shù)據(jù)屬性之間的有趣聯(lián)系,找到有價(jià)值的市場知識,從而為市場決策提供支持。常用的典型聚類挖掘算法針對細(xì)分市場制定精準(zhǔn)的市場宣傳策略,首先需要對客戶進(jìn)行分類的劃分。利用聚類挖掘算法對客戶數(shù)據(jù)進(jìn)行劃分的一般方法是:給定要構(gòu)建的劃分?jǐn)?shù)目,首先創(chuàng)建一個(gè)初始劃分。然后采用一種迭代的重定位技術(shù),通過對對象在各個(gè)劃分區(qū)間移動(dòng)來改進(jìn)劃分。別目前常用的兩種劃分的方法:、(平均)算法。在該算法中,把劃分的每個(gè)簇,用該簇中對象的平均值來表示。它的算法步驟為:首先隨機(jī)選取個(gè)對象作為初始的聚類中心:然后根據(jù)剩余的對象與各個(gè)初

40、始聚類中心的距離,將剩余的每個(gè)對象分配到最近的簇中;重新計(jì)算每個(gè)簇的平均值作為新的聚類中心。不斷重復(fù)上述過程直到準(zhǔn)則函數(shù)收斂為止。一般情況下,距離判斷的準(zhǔn)則函數(shù)采用的是平方誤差準(zhǔn)則函數(shù)即公式(): 象()從樣本點(diǎn)集合(,)中隨機(jī)選取個(gè)對象作為開始的聚類中心,。()將樣本點(diǎn)集合中的其他對象根據(jù)他們與聚類中心,的距離進(jìn)行聚類,得到個(gè)類別,。確定樣本對象與聚類中心距離的方法有很多,最常用的是歐氏距離。()用下面的公式()來計(jì)算調(diào)整聚類的中心,得到新的聚類中心,;,:。卜素()一。()重復(fù)上面的過程,直到得到最優(yōu)的聚類結(jié)果,一,】。、(中心點(diǎn))算法。在該算法中,把劃分的每個(gè)簇中的接近聚類中心的一個(gè)對象

41、來表示。算法和壯算法過程類似,它們的區(qū)別在于:算法用簇中最靠近中心的一個(gè)真實(shí)存在的數(shù)據(jù)對象來代表該簇,而柚算法用計(jì)算出來的聚類中心來代表簇,這個(gè)聚類中心是虛擬的,并不是真實(shí)存在于樣本集中的數(shù)據(jù)對象。聚類算法的基本策略:首先,隨機(jī)選擇個(gè)對象作為初始的個(gè)簇的代表點(diǎn),將其余對象根據(jù)其與代表點(diǎn)對象的距離分配到最近的簇;然后,反復(fù)用非代表點(diǎn)來替換代表點(diǎn),檢查聚類的質(zhì)量是否有所提高。若是,則保留該替換,否則放棄該替換,重復(fù)上述過程直到不再發(fā)生變化為止。聚類結(jié)果的目標(biāo)函數(shù)為公式()冬唧(,)()算法的一般形式為:()從樣本點(diǎn)集合(,)中隨機(jī)選取個(gè)對象作為丌始的聚類中心,。 華東師范大學(xué)碩士學(xué)位論文()將樣本

42、點(diǎn)集合中的其他對象根據(jù)他們與聚類中心,的距離進(jìn)行聚類,得到個(gè)類別,)。()隨機(jī)選取非中心對象()計(jì)算用代替作為新聚類中心,形成新聚類集合的代價(jià)。()如果,則用)(舯代替作為新的聚類中心,得到新的聚類中心,:,。()重復(fù)上面的過程,直到得到最優(yōu)的聚類結(jié)果,)。這兩種方法在中小規(guī)模的數(shù)據(jù)庫中,對于發(fā)現(xiàn)聚集簇很適用。但針對大規(guī)模的數(shù)據(jù)集進(jìn)行聚類,以及處理復(fù)雜形狀的聚類,還不能很好實(shí)現(xiàn),需要對基于劃分的方法進(jìn)一步改進(jìn)。本文在中心點(diǎn)算法的基礎(chǔ)上,結(jié)合了平均算法的特點(diǎn),設(shè)計(jì)和改進(jìn)了對客戶數(shù)據(jù)信息進(jìn)行聚類挖掘的算法,可以快速靈活的對客戶的地理信息數(shù)據(jù)進(jìn)行聚類挖掘分析并得到直觀有效的結(jié)論。這解決了對市場數(shù)據(jù)中

43、客戶住址信息進(jìn)行有效分析利用的問題,為市場分析和決策提供了科學(xué)和直觀的依據(jù),在實(shí)際工作中獲得了較好的應(yīng)用效果。小結(jié)數(shù)據(jù)挖掘技術(shù)在服務(wù)業(yè)方面已經(jīng)有廣泛的應(yīng)用,比較突出的有、銀行、證券分析、預(yù)測等領(lǐng)域。數(shù)據(jù)挖掘技術(shù)在客戶信息分析中應(yīng)用非常廣泛,通過對客戶信息的數(shù)據(jù)挖掘分析,可以形成有意義的分析結(jié)論,幫助進(jìn)行企業(yè)改善經(jīng)營能力的決策。對客戶信息的數(shù)據(jù)挖掘分析,首先選擇從聚類分析開始,可以較快的發(fā)現(xiàn)有價(jià)值的結(jié)論和規(guī)律,并再此基礎(chǔ)上展開進(jìn)一步的數(shù)據(jù)分析和應(yīng)用。數(shù)據(jù)挖掘分析所應(yīng)用到的數(shù)據(jù)倉庫維度設(shè)計(jì)采用星型模式進(jìn)行數(shù)據(jù)倉庫的維度建模和分析。 華東師范大學(xué)碩士學(xué)位論文第三章教育培訓(xùn)客戶數(shù)據(jù)倉庫的維度建模本章目的根據(jù)數(shù)據(jù)挖掘的目標(biāo)和所擁有的數(shù)據(jù)資源,以提高數(shù)據(jù)挖掘的運(yùn)算效率和降低設(shè)計(jì)復(fù)雜程度為設(shè)計(jì)目標(biāo),設(shè)計(jì)和建立數(shù)據(jù)倉庫的維度模型。數(shù)據(jù)倉庫模型結(jié)構(gòu)中除了包含需要處理的數(shù)據(jù)資源以外,也包含數(shù)據(jù)結(jié)構(gòu)以用來存儲處理后得到的信息數(shù)據(jù),方便以后隨時(shí)查詢調(diào)用。在建立數(shù)據(jù)倉庫的維度模型時(shí),需要對復(fù)雜數(shù)據(jù)的數(shù)據(jù)來源進(jìn)行分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論