2017大數(shù)據(jù)師資講習(xí)-理論框架_第1頁(yè)
2017大數(shù)據(jù)師資講習(xí)-理論框架_第2頁(yè)
2017大數(shù)據(jù)師資講習(xí)-理論框架_第3頁(yè)
2017大數(shù)據(jù)師資講習(xí)-理論框架_第4頁(yè)
2017大數(shù)據(jù)師資講習(xí)-理論框架_第5頁(yè)
已閱讀5頁(yè),還剩84頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)理論框架劉鵬大數(shù)據(jù)理論

—數(shù)據(jù)挖掘技術(shù)及應(yīng)用什么是數(shù)據(jù)挖掘?KDD數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases)從數(shù)據(jù)中識(shí)別有效的、新奇的、有用的以及可理解的模式的過(guò)程.機(jī)器學(xué)習(xí)(Machinelearning)數(shù)據(jù)庫(kù)(Databases)統(tǒng)計(jì)學(xué)(Statistics)信息檢索(Informationretrieval)可視化(Visualization)高性能計(jì)算(High-performancecomputing)...相關(guān)領(lǐng)域數(shù)據(jù)挖掘:KDD過(guò)程的核心knowledge數(shù)據(jù)清洗選取數(shù)據(jù)挖掘模式評(píng)估數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)任務(wù)相關(guān)數(shù)據(jù)數(shù)據(jù)集成數(shù)據(jù)挖掘:數(shù)據(jù)源關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)事務(wù)數(shù)據(jù)庫(kù)高級(jí)數(shù)據(jù)庫(kù)和信息庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)空間和時(shí)態(tài)數(shù)據(jù)庫(kù)時(shí)序數(shù)據(jù)流數(shù)據(jù)多媒體數(shù)據(jù)庫(kù)異種數(shù)據(jù)庫(kù)文本數(shù)據(jù)庫(kù)&WWW數(shù)據(jù)挖掘任務(wù)I分類(lèi)

(Classification)構(gòu)造模型(函數(shù))來(lái)描述和區(qū)分各種類(lèi)別或概念用于未來(lái)的預(yù)測(cè)表示:決策樹(shù),分類(lèi)規(guī)則,神經(jīng)網(wǎng)絡(luò)回歸分析(Regression)確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。用滿意度=0.645×質(zhì)量+0.221×價(jià)格概率估計(jì)

(Probabilityestimation)數(shù)據(jù)挖掘任務(wù)II聚類(lèi)(Clustering)類(lèi)的標(biāo)簽未知:對(duì)數(shù)據(jù)分組來(lái)形成新的類(lèi),如:對(duì)房子聚類(lèi)來(lái)發(fā)現(xiàn)分布模式把類(lèi)內(nèi)的相似性最大化&類(lèi)間的相似性最小化奇異點(diǎn)檢測(cè)關(guān)聯(lián)發(fā)現(xiàn)(Associationdetection)尿布à

啤酒[0.5%,75%]總結(jié)(Summarization)趨勢(shì)和偏差檢測(cè)(Trendanddeviationdetection)...給定一個(gè)記錄(樣本)集合(訓(xùn)練集

)每條記錄有一些屬性組成,其中一個(gè)屬性為類(lèi)別.(x1,x2,…,xn,c)找到一個(gè)將類(lèi)別屬性表示為其他屬性的函數(shù)的模型.(如c=f(x))目標(biāo):未見(jiàn)過(guò)的記錄盡可能準(zhǔn)確地被分類(lèi).一個(gè)測(cè)試集用來(lái)確定模型的精度.通常,給定的數(shù)據(jù)集被分成訓(xùn)練集和測(cè)試集,訓(xùn)練集用于建立模型,而測(cè)試集用于檢驗(yàn)該模型.分類(lèi):定義分類(lèi)任務(wù)演示TIDAttrib1Attrib2Attrib3class1YesLarge125KNo2NoMedium100KNo3NoSmall70KNo4YesMedium120KNo5NoLarge95KYes6NoMedium60KNo7YesLarge220KNo8NoSmall85KYes9NoMedium75KNo10NoSmall90KYesTIDAttrib1Attrib2Attrib3class11NoSmall55K?12YesMedium80K?13YesLarge110K?14NoSmall95K?15NoLarge67K?LearnModelApplyModelModelLearningalgorithmInductionDeduction預(yù)測(cè)腫瘤細(xì)胞是良性還是惡性將信用卡交易分為正常或是欺詐對(duì)蛋白質(zhì)的二級(jí)結(jié)構(gòu)進(jìn)行分類(lèi)手寫(xiě)體的識(shí)別:0,1,…,9Email過(guò)濾:識(shí)別垃圾郵件分類(lèi)任務(wù)例子常用的方法決策樹(shù)

(Decisiontrees)規(guī)則歸納

(Ruleinduction)貝葉斯學(xué)習(xí)(Bayesianlearning)神經(jīng)網(wǎng)絡(luò)(Neuralnetworks)支持向量機(jī)(SupportVectorMachine)Ensemble方法(AdaBoost,Bagging...)……決策樹(shù)例子TidRefundMaritalStatusTaxableeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes訓(xùn)練數(shù)據(jù)categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K劃分屬性MarStRefundTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K可能有多棵決策樹(shù)擬合同一個(gè)數(shù)據(jù)集!另一個(gè)決策樹(shù)例子TidRefundMaritalStatusTaxableeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes訓(xùn)練數(shù)據(jù)categoricalcategoricalcontinuousclass15RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K測(cè)試數(shù)據(jù)從樹(shù)的根節(jié)點(diǎn)開(kāi)始對(duì)測(cè)試數(shù)據(jù)應(yīng)用模型RefundMaritalStatusTaxableeCheatNoMarried80K?16RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K測(cè)試數(shù)據(jù)從樹(shù)的根節(jié)點(diǎn)開(kāi)始對(duì)測(cè)試數(shù)據(jù)應(yīng)用模型RefundMaritalStatusTaxableeCheatNoMarried80K?17RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K測(cè)試數(shù)據(jù)從樹(shù)的根節(jié)點(diǎn)開(kāi)始對(duì)測(cè)試數(shù)據(jù)應(yīng)用模型RefundMaritalStatusTaxableeCheatNoMarried80K?18RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K測(cè)試數(shù)據(jù)從樹(shù)的根節(jié)點(diǎn)開(kāi)始對(duì)測(cè)試數(shù)據(jù)應(yīng)用模型RefundMaritalStatusTaxableeCheatNoMarried80K?19RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K測(cè)試數(shù)據(jù)從樹(shù)的根節(jié)點(diǎn)開(kāi)始對(duì)測(cè)試數(shù)據(jù)應(yīng)用模型RefundMaritalStatusTaxableeCheatNoMarried80K?20RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K測(cè)試數(shù)據(jù)從樹(shù)的根節(jié)點(diǎn)開(kāi)始對(duì)測(cè)試數(shù)據(jù)應(yīng)用模型RefundMaritalStatusTaxableeCheatNoMarried80K?AssignCheatto“No”21支持向量機(jī)一個(gè)可能解B122支持向量機(jī)B2另一個(gè)可能解23支持向量機(jī)B2其他可能解24支持向量機(jī)哪一個(gè)更好?B1還是B2?如何定義“更好”?B2B125支持向量機(jī)找到最大化“邊際”的超平面=>B1比B2好B2b22b21b11b12marginB126支持向量機(jī)B1b11b12簇1聚類(lèi)2奇異點(diǎn)什么是聚類(lèi)?把數(shù)據(jù)聚類(lèi)成多個(gè)簇同一個(gè)簇中的數(shù)據(jù)相似不同簇中數(shù)據(jù)不相似非監(jiān)督學(xué)習(xí):沒(méi)有預(yù)先定義的類(lèi)應(yīng)用例子獨(dú)立的工具:發(fā)現(xiàn)數(shù)據(jù)分布作為其他算法的預(yù)處理步驟模式識(shí)別,空間數(shù)據(jù)分析,圖像處理,市場(chǎng)研究,WWW,…文檔聚類(lèi)對(duì)web日志數(shù)據(jù)聚類(lèi)來(lái)發(fā)現(xiàn)不同組的相同訪問(wèn)模式29多少個(gè)簇?4個(gè)簇2個(gè)簇6個(gè)簇聚類(lèi)的概念是模糊的劃分方法:K-Means012345678910012345678910K=2任意地選取k個(gè)對(duì)象作為簇的初始中心點(diǎn)把每個(gè)對(duì)象分配給最相近的中心更新簇的均值012345678910012345678910更新簇的均值重新分配重新分配兩個(gè)不同的K-means聚類(lèi)原始數(shù)據(jù)點(diǎn)最優(yōu)聚類(lèi)次最優(yōu)聚類(lèi)選取初始中心點(diǎn)的重要性大數(shù)據(jù)平臺(tái)—中科院數(shù)據(jù)挖掘平臺(tái)

登錄后界面工作流畫(huà)布job監(jiān)控框數(shù)據(jù)查看與管理預(yù)覽數(shù)據(jù)創(chuàng)建工作流配置工作流運(yùn)行工作流查看工作流結(jié)果文本ROC圖Lift圖數(shù)據(jù)壓縮與傳輸工作流調(diào)度情況BC-PDM的數(shù)據(jù)加載和導(dǎo)出數(shù)據(jù)加載數(shù)據(jù)導(dǎo)出將分布式文件系統(tǒng)(DFS)上的沒(méi)有元數(shù)據(jù)文件的數(shù)據(jù)生成元數(shù)據(jù)文件,或?qū)?shù)據(jù)進(jìn)行斷行、空行等初步處理,或作為工作流運(yùn)行的起始組件。將處理后的數(shù)據(jù)文件轉(zhuǎn)換成指定的格式或分隔符,數(shù)據(jù)仍然保存在DFS上。數(shù)據(jù)加載(導(dǎo)入)數(shù)據(jù)加載(導(dǎo)入)導(dǎo)入頭文件頭文件舉例start_time,date,開(kāi)始時(shí)間imsi,VARCHAR(10),IMSIcalling,VARCHAR(10),用戶號(hào)碼user_ip,VARCHAR(10),用戶IP地址APN,VARCHAR(10),訪問(wèn)方式IMEI,VARCHAR(10),終端標(biāo)識(shí)號(hào)rat,int,2G/3G網(wǎng)絡(luò)標(biāo)識(shí)App_type,int,應(yīng)用類(lèi)型LAC,VARCHAR(10),xmCell_ID,VARCHAR(10),xmsource_ip,VARCHAR(10),源IP地址dest_ip,VARCHAR(10),目的地址數(shù)據(jù)導(dǎo)出

ETL操作可以分為普通ETL和鏈?zhǔn)紼TL。并行數(shù)據(jù)處理(ETL)

ETL操作普通ETL鏈?zhǔn)紼TL清洗類(lèi)抽樣類(lèi)轉(zhuǎn)換類(lèi)集合類(lèi)集成類(lèi)更新類(lèi)計(jì)算類(lèi)其它類(lèi)清洗類(lèi)抽樣類(lèi)轉(zhuǎn)換類(lèi)集合類(lèi)集成類(lèi)更新類(lèi)計(jì)算類(lèi)其它類(lèi)類(lèi)別組件名功能清洗類(lèi)數(shù)據(jù)類(lèi)型檢查對(duì)輸入文件逐條記錄地檢查每個(gè)字段的數(shù)據(jù)是否與元數(shù)據(jù)中的類(lèi)型相符合外鍵約束升級(jí)主鍵表或升級(jí)外鍵表后的外鍵約束檢查主鍵約束對(duì)數(shù)據(jù)表的主鍵約束檢查,包括主鍵非空和主鍵唯一缺值處理按照指定的替換值填補(bǔ)數(shù)據(jù)文件中的缺值或Null值等空值域約束包括非空值約束、值域范圍檢查和自定義約束檢查去重將完全重復(fù)的數(shù)據(jù)行丟棄轉(zhuǎn)換類(lèi)Casewhen將符合條件的數(shù)據(jù)按指定進(jìn)行轉(zhuǎn)換,類(lèi)似SQL的casewhen計(jì)數(shù)區(qū)間化按計(jì)數(shù)將指定字段值區(qū)間化為N個(gè)區(qū)間,每個(gè)區(qū)間數(shù)據(jù)個(gè)數(shù)相等,并為該字段按不同區(qū)間設(shè)置特定值字段類(lèi)型轉(zhuǎn)換支持對(duì)多個(gè)字段進(jìn)行字段名或字段類(lèi)型的修改,提供多種數(shù)據(jù)類(lèi)型字段之間的強(qiáng)制轉(zhuǎn)換數(shù)值區(qū)間化按數(shù)值將指定字段值區(qū)間化為N個(gè)區(qū)間,每個(gè)區(qū)間數(shù)據(jù)取值范圍相等,并為該字段按不同區(qū)間設(shè)置特定值歸一化對(duì)指定字段按該字段的均值和標(biāo)準(zhǔn)偏差,進(jìn)行zscore歸一化屬性交換將屬性的兩列互換關(guān)聯(lián)規(guī)則數(shù)據(jù)生成將業(yè)務(wù)訂購(gòu)情況數(shù)據(jù)生成購(gòu)物籃數(shù)據(jù)供關(guān)聯(lián)規(guī)則算法使用PCA主成分分析將輸入數(shù)據(jù)的屬性由高維降到較低的維度集成類(lèi)Delete組件刪除符合一定表達(dá)式條件的記錄Join組件可將多個(gè)表按指定的字段關(guān)聯(lián),包括主鍵join、維表join和普通join三個(gè)組件,針對(duì)不同關(guān)聯(lián)情況使用不同組件Sort組件按用戶指定排序關(guān)鍵字字段進(jìn)行排序Where組件找出滿足用戶定義的表達(dá)式條件的記錄。計(jì)算類(lèi)計(jì)算生成列通過(guò)對(duì)現(xiàn)有多字段混合計(jì)算生成的新字段Groupby組件對(duì)數(shù)據(jù)按照用戶指定的屬性聚集、匯總統(tǒng)計(jì)計(jì)算每個(gè)字段的統(tǒng)計(jì)信息抽樣類(lèi)分層抽樣供分類(lèi)目標(biāo)字段數(shù)據(jù)平衡使用采樣按比例隨機(jī)抽樣數(shù)據(jù)集合類(lèi)集合差根據(jù)用戶指定的數(shù)據(jù)文件和集合運(yùn)算表達(dá)式進(jìn)行2個(gè)集合的差運(yùn)算集合交并根據(jù)用戶指定的數(shù)據(jù)文件和集合運(yùn)算表達(dá)式進(jìn)行多個(gè)集合間的交,并運(yùn)算。更新類(lèi)Update組件更新,類(lèi)似數(shù)據(jù)庫(kù)UpdateInsertupdate組件增量更新,類(lèi)似數(shù)據(jù)庫(kù)Insertupdate其他類(lèi)數(shù)據(jù)集分割根據(jù)比例將數(shù)據(jù)分割為訓(xùn)練集和測(cè)試集兩個(gè)數(shù)據(jù)清洗類(lèi)-數(shù)據(jù)類(lèi)型檢查根據(jù)元數(shù)據(jù)中各個(gè)字段的數(shù)據(jù)類(lèi)型,對(duì)輸入文件逐條記錄地檢查每個(gè)字段的數(shù)據(jù)是否與元數(shù)據(jù)中的類(lèi)型相符合,支持多種日期類(lèi)型。對(duì)發(fā)現(xiàn)不滿足數(shù)據(jù)類(lèi)型的記錄,應(yīng)用異常數(shù)據(jù)處理規(guī)則。并在有效性驗(yàn)證后提供一個(gè)驗(yàn)證報(bào)告,包括丟棄了多少數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行了什么處理等信息。參數(shù)說(shuō)明輸入文件設(shè)置輸入文件的地址及文件名輸出文件設(shè)置輸出文件的地址及文件名另存路徑設(shè)置異常數(shù)據(jù)文件的地址和文件名numOfmap設(shè)置Map個(gè)數(shù)numOfreduce設(shè)置Reduce個(gè)數(shù)根據(jù)用戶輸入的條件,將指定字段的值進(jìn)行轉(zhuǎn)換,類(lèi)似SQL的casewhen。用戶指定轉(zhuǎn)換的字段與轉(zhuǎn)換規(guī)則。支持對(duì)多字段進(jìn)行轉(zhuǎn)換,支持對(duì)某個(gè)字段多個(gè)轉(zhuǎn)換規(guī)則,支持default規(guī)則。可以配置轉(zhuǎn)換生成列的元數(shù)據(jù)信息。轉(zhuǎn)換類(lèi)-caseWhen參數(shù)說(shuō)明輸入文件設(shè)置輸入文件的地址及文件名輸出文件設(shè)置輸出文件的地址及文件名生成字段名設(shè)置要生成字段的名字字段類(lèi)型設(shè)置要生成字段的類(lèi)型條件表達(dá)式當(dāng)條件表達(dá)式為真時(shí),執(zhí)行替換表達(dá)式替換表達(dá)式設(shè)置替換表達(dá)式numOfmap設(shè)置Map個(gè)數(shù)numOfreduce設(shè)置Reduce個(gè)數(shù)1并行分類(lèi)算法Classifiers4MR分類(lèi)功能應(yīng)以用戶提供的歷史消費(fèi)清單作為訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)中有一個(gè)屬性作為分類(lèi)屬性,且每條記錄已標(biāo)明分類(lèi)屬性的值。分類(lèi)算法應(yīng)提供兩方面基本功能:學(xué)習(xí)分類(lèi)模型預(yù)測(cè)從訓(xùn)練集數(shù)據(jù)中發(fā)現(xiàn)潛在的分類(lèi)模型,并以特定方式表達(dá)。對(duì)用戶新提供的數(shù)據(jù)集,依據(jù)分類(lèi)模型預(yù)測(cè)出所屬類(lèi)別并行分類(lèi)算法包括:EmptyClassifier4M、C45決策樹(shù)、CBC分類(lèi)、CBR分類(lèi)、K近鄰、樸素貝葉斯、層次C45決策樹(shù)、線性回歸分類(lèi)、神經(jīng)網(wǎng)絡(luò)算法。把整個(gè)神經(jīng)網(wǎng)絡(luò)的神經(jīng)元?jiǎng)澐殖刹煌瑢哟危瑢?duì)同層次內(nèi)的不同神經(jīng)元進(jìn)行并行參數(shù)計(jì)算,并通過(guò)統(tǒng)一調(diào)度和精度控制對(duì)神經(jīng)元進(jìn)行快速的并行化訓(xùn)練。訓(xùn)練完畢后,對(duì)于每一個(gè)輸入,通過(guò)并行化神經(jīng)網(wǎng)絡(luò)快速地得到輸出神經(jīng)網(wǎng)絡(luò)算法參數(shù)設(shè)置trainInputPath設(shè)置訓(xùn)練集在DFS上的路徑testInputPath設(shè)置測(cè)試集在DFS上的路徑predictInputPath設(shè)置預(yù)測(cè)測(cè)試集在DFS上的路徑outputPath設(shè)置結(jié)果輸出在DFS的路徑numMapTasks設(shè)置Map的個(gè)數(shù),一般取計(jì)算集群核個(gè)數(shù)的4倍numReduceTasks設(shè)置Reduce的個(gè)數(shù),一般取計(jì)算集群核個(gè)數(shù)的2倍learningRate設(shè)置神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率,默認(rèn)為0.6moment設(shè)置神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)沖量,默認(rèn)為0.9middleNum設(shè)置神經(jīng)網(wǎng)絡(luò)的中間層數(shù)目,默認(rèn)為5middlePopulation設(shè)置神經(jīng)網(wǎng)絡(luò)的各個(gè)中間層上節(jié)點(diǎn)的數(shù)目,每一層的節(jié)點(diǎn)數(shù)用,隔開(kāi)。比如有兩個(gè)中間層,各有x個(gè)和y個(gè)節(jié),則參數(shù)配置為x,ymin_success_ratio期望達(dá)到的最小成功率,默認(rèn)為0.7index預(yù)測(cè)利用的屬性,默認(rèn)為出來(lái)目標(biāo)屬性外所有的整形和浮點(diǎn)型的屬性TargetIndex要預(yù)測(cè)的目標(biāo)屬性,默認(rèn)為最后一維modelPath訓(xùn)練中用來(lái)存儲(chǔ)模型的路徑,或者測(cè)試時(shí)要利用的模型文件的路徑?jīng)Q策樹(shù)算法結(jié)果展示2并行聚類(lèi)算法Clusterers4MR自動(dòng)聚類(lèi)預(yù)測(cè)將數(shù)據(jù)集形成簇模型;依據(jù)形成的簇模型,對(duì)新數(shù)據(jù)判定所屬的簇。聚類(lèi)算法應(yīng)對(duì)用戶提供的全體數(shù)據(jù)集,按照一定的聚類(lèi)原則,自動(dòng)聚成幾簇。每個(gè)簇內(nèi)的數(shù)據(jù)應(yīng)具有很高的相似性。應(yīng)提供的功能包括:并行聚類(lèi)規(guī)則算法包括:k均值算法、Clara聚類(lèi)算法、DBScan聚類(lèi)算法。PKmeas算法處理dm_call數(shù)據(jù)后結(jié)果聚類(lèi)算法結(jié)果展示3并行關(guān)聯(lián)規(guī)則算法Associations4MR關(guān)聯(lián)規(guī)則挖掘工具以選定的客戶消費(fèi)記錄全集作為輸入,分析消費(fèi)記錄中各消費(fèi)項(xiàng)間依賴關(guān)系,產(chǎn)生規(guī)則描述各消費(fèi)項(xiàng)之間同時(shí)出現(xiàn)的規(guī)律。關(guān)聯(lián)規(guī)則算法并行PApriori算法并行PAwfits算法并行PFPgrowth算法時(shí)序關(guān)聯(lián)規(guī)則時(shí)序關(guān)聯(lián)規(guī)則挖掘算法主要可以用于發(fā)現(xiàn)交易序列中的頻繁模式。因?yàn)榻灰仔蛄芯哂袝r(shí)間性,因此各數(shù)據(jù)項(xiàng)集之間存在時(shí)間上的先后關(guān)系,“買(mǎi)A又買(mǎi)B的顧客往往還會(huì)買(mǎi)C”的規(guī)則轉(zhuǎn)變成了“買(mǎi)A后又買(mǎi)B的顧客往往會(huì)接下來(lái)再買(mǎi)C”或者“買(mǎi)B后又買(mǎi)A的顧客往往會(huì)接下來(lái)再買(mǎi)C”,在時(shí)序關(guān)聯(lián)規(guī)則算法中,這后兩者是不同的兩個(gè)關(guān)聯(lián)規(guī)則。時(shí)序關(guān)聯(lián)規(guī)則算法參數(shù)設(shè)置inputpath設(shè)置測(cè)試集在DFS上的輸入路徑,例如:pku/seqpat/inputoutputpath設(shè)置DFS上的結(jié)果輸出路徑,例如:pku/seqpat/outputsupport設(shè)置序列的支持度(%),取值范圍為:0–100,一般為20maxlength設(shè)置序列關(guān)聯(lián)規(guī)則的最大長(zhǎng)度,一般取值為6confidence設(shè)置規(guī)則的置信度(%),若小于該閾值,則不保存該規(guī)則,否則保存到規(guī)則文件中。該閾值取值范圍為0~100,一般取80maptasks設(shè)置Map的個(gè)數(shù),一般取計(jì)算集群核個(gè)數(shù)的4倍reducetasks設(shè)置Reduce的個(gè)數(shù),一般取計(jì)算集群核個(gè)數(shù)的2倍preprocess設(shè)置預(yù)處理的輸入路徑,預(yù)處理的輸出路徑為inputpath,若路徑為空值,則不進(jìn)行預(yù)處理過(guò)程大數(shù)據(jù)應(yīng)用—精確營(yíng)銷(xiāo)案例數(shù)據(jù)業(yè)務(wù)的營(yíng)銷(xiāo)發(fā)展粗放式營(yíng)銷(xiāo)部分精細(xì)化營(yíng)銷(xiāo)(現(xiàn)狀)全面精細(xì)化營(yíng)銷(xiāo)與深度運(yùn)營(yíng)的要求仍有差距數(shù)據(jù)業(yè)務(wù)種類(lèi)多,但聚焦不夠;對(duì)業(yè)務(wù)進(jìn)行分析的維度較少;缺乏深度的主題分析;分析方法和工具不夠成熟。“基于數(shù)據(jù)挖掘技術(shù)的精確營(yíng)銷(xiāo)”將逐步成為移動(dòng)數(shù)據(jù)業(yè)務(wù)市場(chǎng)的主導(dǎo)營(yíng)銷(xiāo)策略。數(shù)據(jù)分為7個(gè)類(lèi)型,共833項(xiàng):基本信息手機(jī)號(hào)碼,手機(jī)品牌,手機(jī)型號(hào),是否具備GPRS、彩信、KJAVA功能等承載信息是否使用點(diǎn)對(duì)點(diǎn)短信、點(diǎn)對(duì)點(diǎn)彩信、非點(diǎn)對(duì)點(diǎn)彩信、GPRS等承載方式渠道辦理標(biāo)簽是否通過(guò)WEB/網(wǎng)上營(yíng)業(yè)廳、WAP、短信等渠道辦理業(yè)務(wù)業(yè)務(wù)標(biāo)簽是否使用點(diǎn)對(duì)點(diǎn)/夢(mèng)網(wǎng)短信、彩鈴、點(diǎn)對(duì)點(diǎn)/夢(mèng)網(wǎng)彩信、手機(jī)報(bào)紙、手機(jī)郵箱等內(nèi)容標(biāo)簽商務(wù)、生活、娛樂(lè)、游戲、資訊5大類(lèi)內(nèi)容,在這5大類(lèi)中再進(jìn)行劃分,如,娛樂(lè)類(lèi)再分為娛樂(lè)-交友、娛樂(lè)-聊天、娛樂(lè)-鈴聲等行業(yè)信息與餐館酒樓、休閑娛樂(lè)、機(jī)關(guān)團(tuán)體、金融行業(yè)、房地產(chǎn)等各個(gè)行業(yè)的接觸信息數(shù)據(jù)業(yè)務(wù)

相對(duì)指標(biāo)標(biāo)識(shí)客戶點(diǎn)對(duì)點(diǎn)短信上下行、點(diǎn)對(duì)點(diǎn)彩信上下行、WAP流量等的使用量及變化情況數(shù)據(jù)來(lái)源:BOSS系統(tǒng)、經(jīng)營(yíng)分析系統(tǒng)、相關(guān)業(yè)務(wù)支撐系統(tǒng)CRM項(xiàng)目建立數(shù)據(jù)業(yè)務(wù)客戶分群——數(shù)據(jù)說(shuō)明全球通品牌的數(shù)據(jù)業(yè)務(wù)客戶分群結(jié)果CRM項(xiàng)目建立數(shù)據(jù)業(yè)務(wù)客戶分群——數(shù)據(jù)挖掘的發(fā)現(xiàn)SS1、SS2、SS3,SS5,SS6是數(shù)據(jù)業(yè)務(wù)的活躍群;9個(gè)群的彩信滲透率、認(rèn)知度均較低(認(rèn)知度為通過(guò)補(bǔ)充調(diào)研獲得),要提高彩信用量,需通過(guò)宣傳提高客戶彩信認(rèn)知度,通過(guò)有吸引力的內(nèi)容培養(yǎng)客戶習(xí)慣。——SS5和SS6對(duì)手機(jī)郵箱的接受度較其他群高出許多,存在營(yíng)銷(xiāo)機(jī)會(huì);手機(jī)彩票站業(yè)務(wù)在SS1、SS2、SS5和SS6群的滲透率較其他群高出2到3倍,存在銷(xiāo)售機(jī)會(huì)。已運(yùn)用于案例5-手機(jī)郵箱的沉默用戶喚醒與推廣已運(yùn)用于案例2-彩信生活雜志的產(chǎn)品設(shè)計(jì)SS1:數(shù)據(jù)業(yè)務(wù)高空飛行者SS2:高價(jià)值數(shù)據(jù)業(yè)務(wù)客戶SS3:高價(jià)值短信冷漠者SS4:中間價(jià)值短信冷漠者SS5:成長(zhǎng)中的數(shù)據(jù)業(yè)務(wù)客戶SS6:有下滑危險(xiǎn)的數(shù)據(jù)業(yè)務(wù)客戶SS7:節(jié)儉的本地短信依賴者SS8:低價(jià)值漫游客戶SS9:數(shù)據(jù)業(yè)務(wù)冷漠客戶各群均與餐館酒樓、醫(yī)療、金融、房地產(chǎn)接觸較多(SS1、SS3接觸率最高),餐飲指南、健康保健、資訊等內(nèi)容的業(yè)務(wù)存在營(yíng)銷(xiāo)機(jī)會(huì)說(shuō)明:LIFT使用業(yè)務(wù)一的人群中有使用業(yè)務(wù)二的人數(shù)的百分比相對(duì)整個(gè)分析用戶群中使用業(yè)務(wù)二的人數(shù)的百分比所提升的倍數(shù)。數(shù)據(jù)業(yè)務(wù)的目標(biāo)客戶定位產(chǎn)品關(guān)聯(lián)性分析模型目標(biāo)業(yè)務(wù)彩信、彩鈴、點(diǎn)對(duì)點(diǎn)短信、手機(jī)郵箱、手機(jī)游戲、手機(jī)報(bào)紙、WAP娛樂(lè)、WAP新聞……承載與業(yè)務(wù)業(yè)務(wù)與業(yè)務(wù)客戶個(gè)人信息與業(yè)務(wù)數(shù)據(jù)業(yè)務(wù)與語(yǔ)音行為業(yè)務(wù)一類(lèi)別業(yè)務(wù)一業(yè)務(wù)一

使用用戶數(shù)業(yè)務(wù)二類(lèi)別業(yè)務(wù)二業(yè)務(wù)二

使用用戶數(shù)兩種業(yè)務(wù)用戶數(shù)LIFT夢(mèng)網(wǎng)數(shù)據(jù)業(yè)務(wù)新聞天氣104452數(shù)據(jù)增值業(yè)務(wù)手機(jī)郵箱181683100855.83夢(mèng)網(wǎng)數(shù)據(jù)業(yè)務(wù)新聞天氣104452數(shù)據(jù)增值業(yè)務(wù)購(gòu)買(mǎi)彩鈴歌曲600301132182.31夢(mèng)網(wǎng)數(shù)據(jù)業(yè)務(wù)鈴圖隨意當(dāng)217489數(shù)據(jù)增值業(yè)務(wù)手機(jī)游戲404161223815.26數(shù)據(jù)業(yè)務(wù)承載夢(mèng)網(wǎng)彩信163267數(shù)據(jù)業(yè)務(wù)承載WAP總站929634849846.14數(shù)據(jù)增值業(yè)務(wù)購(gòu)買(mǎi)彩鈴歌曲600301夢(mèng)網(wǎng)數(shù)據(jù)業(yè)務(wù)音樂(lè)頻道123376191902.84分析緯度案例:彩信精品盒,精彩盡在掌握--產(chǎn)品及營(yíng)銷(xiāo)創(chuàng)新從CRM項(xiàng)目挖掘潛在需求信息,并據(jù)此制定產(chǎn)品開(kāi)發(fā)策略:發(fā)現(xiàn)創(chuàng)意產(chǎn)生產(chǎn)品概念形成動(dòng)漫、圖鈴是客戶最感興趣的彩信內(nèi)容。彩信的滲透率和認(rèn)知度低,尚未形成一定規(guī)模效應(yīng)。打造以動(dòng)漫圖鈴為主要內(nèi)容的精品彩信產(chǎn)品,結(jié)合體驗(yàn)式營(yíng)銷(xiāo)提高彩信滲透率率先推出定制型的祝福、圖鈴類(lèi)業(yè)務(wù)——“彩信精品盒”把客戶“主動(dòng)下載”的模式變?yōu)椤白匀欢〞r(shí)接收”;為客戶搭建一個(gè)簡(jiǎn)便有效的產(chǎn)品獲取渠道;能提醒和促進(jìn)客戶轉(zhuǎn)發(fā)祝福彩信。需求挖掘產(chǎn)品開(kāi)發(fā)目標(biāo)客戶定位營(yíng)銷(xiāo)實(shí)施效益分析目標(biāo)客戶四大品牌客戶;年齡介于18-40歲之間,追求時(shí)尚,有祝福、圖鈴類(lèi)彩信的需求。業(yè)務(wù)簡(jiǎn)介彩信精品盒,為您及時(shí)放送精挑細(xì)選的各大節(jié)日祝福彩信讓彩信賀卡隨手拈來(lái),轉(zhuǎn)發(fā)祝福輕松便捷!精美月歷、熱門(mén)鈴聲、動(dòng)態(tài)屏保、待機(jī)彩圖等,輪流裝扮你的手機(jī),常換常新!讓你的個(gè)性更張揚(yáng)!資費(fèi)、頻次包月定制,1元/月(首次訂閱客戶3天免費(fèi)試用期)每月發(fā)送5-8條彩信定制方式(1)短信(2)互聯(lián)網(wǎng)(3)WAP案例:彩信精品盒,精彩盡在掌握--產(chǎn)品及營(yíng)銷(xiāo)創(chuàng)新根據(jù)客戶對(duì)彩信內(nèi)容的偏好,設(shè)計(jì)了“彩信精品盒”:需求挖掘產(chǎn)品開(kāi)發(fā)目標(biāo)客戶定位營(yíng)銷(xiāo)實(shí)施效益分析

體驗(yàn)式營(yíng)銷(xiāo)――發(fā)送彩信內(nèi)容,供目標(biāo)客戶免費(fèi)體驗(yàn)業(yè)務(wù);

整合營(yíng)銷(xiāo)傳播――各渠道(自有渠道、社會(huì)渠道、媒介傳播)同步強(qiáng)力宣傳,形成一個(gè)立體的營(yíng)銷(xiāo)體系。聯(lián)系客戶數(shù)銷(xiāo)售數(shù)成功銷(xiāo)售率目標(biāo)客戶組12423287

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論