數據挖掘商業案例分析和實現_第1頁
數據挖掘商業案例分析和實現_第2頁
數據挖掘商業案例分析和實現_第3頁
數據挖掘商業案例分析和實現_第4頁
數據挖掘商業案例分析和實現_第5頁
已閱讀5頁,還剩122頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

./目錄第一部分金融行業應用51.前言51.1客戶細分―使客戶收益最大化的同時最大程度降低風險51.2客戶流失―挽留有價值的客戶61.3交叉銷售61.4欺詐監測61.5開發新客戶71.6降低索賠71.7信用風險分析72.客戶流失82.1客戶流失需要解決的問題82.2客戶流失的類型92.3如何進行客戶流失分析?92.4客戶流失應用案例113.客戶細分213.1信用風險分析213.2客戶細分的概念213.3客戶細分模型223.4客戶細分模型的基本流程233.5細分方法介紹253.6客戶細分實例254.營銷響應304.1什么是營銷響應?304.2如何提高營銷響應率?304.3營銷響應應用案例325.信用評分385.1信用評分背景385.2信用評分的概念395.3信用評分的方法395.4信用評分應用案例426.客戶滿意度研究506.1為什么要進行客戶滿意度研究?506.2滿意度研究的目標和內容506.3滿意度研究方法516.4結構方程模型在客戶滿意度測評中的應用546.5滿意度研究在金融行業中的應用557.CRISP-DM簡介577.1數據理解587.2數據準備587.3建立模型587.4模型評估597.5部署〔發布598.數據挖掘經驗談608.1采用CRISP-DM方法論608.2以終為始608.3設定期望值608.4限定最初的項目范圍608.5確保團隊合作618.6避免陷入數據垃圾619.數據挖掘部署策略629.1策略1-快速更新批處理方式629.2策略2-海量數據批處理方式639.3策略3-實時封裝方式649.4策略4-實時定制方式6510.成功案例6710.1國外成功案例67BancoEspiritoSanto<BES>67BankFinancial67美國匯豐銀行68美國FirstUnion公司69Achmea公司70標準人壽保險公司7110.2國內成功案例7110.2.1中國建設銀行風險預警管理項目71光大銀行信貸風險管理項目72中國銀行信用風險評級管理項目72中國中信銀行72部分金融業客戶的名單〔排名不分先后73第二部分電信行業應用741.前言741.1數據挖掘的概念741.2數據挖掘技術在電信行業客戶關系管理的主要應用領域如下:751.3數據挖掘成功方法論751.4商業理解761.5數據理解與數據準備771.6建立模型771.7模型檢驗771.8模型發布與應用772.國內數據挖掘應用中存在的問題782.1數據質量和完備性782.2相應的人員素質782.3應用周期782.4數據挖掘項目的建議:783.客戶流失803.1客戶流失需要解決的問題803.2電信客戶流失的類型813.3如何進行客戶流失分析?813.4案例分析833.5商業理解833.6數據理解834.營銷響應894.1為什么要進行營銷響應分析?894.2營銷響應894.3什么是營銷響應?904.4如何提高營銷響應率?904.5案例分析925.客戶細分985.1客戶細分的背景985.2客戶細分的概念985.3客戶細分模型995.4客戶細分模型的基本流程1015.5細分方法介紹1025.6客戶細分實例1026.客戶滿意度1066.1結構方程模型用于客戶滿意度測評中的應用1066.2滿意度研究在金融行業中的應用1076.3研究目標1076.4研究過程1086.5滿意度研究的結果分析1086.6結論1096.7客戶總體滿意度1096.8各品牌主要商業過程滿意度及服務改進策略1096.9各品牌主要商業過程的具體滿意度及改進策略1107.忠誠度1127.1忠誠度水平與性質1127.2離網與蠶食風險1147.3提升策略1158.CRISP-DM簡介1168.1數據挖掘經驗談1188.2數據挖掘部署策略1199.成功案例1249.1國外成功案例124SouthwesternBell〔西南貝爾124CallCounter124RuralCellularCorporatio127英國電信公司1289.2國內成功案例130某省級電信公司130部分國內外電信客戶的名單〔排名不分先后131第三部分制造行業應用1331.簡介133第一部分金融行業應用前言隨著中國加入WTO,國內金融市場正在逐步對外開放,外資金融企業的進入在帶來先進經營理念的同時,無疑也加劇了中國金融市場的競爭。金融業正在快速發生變化。合并、收購和相關法規的變化帶來了空前的機會,也為金融用戶提供了更多的選擇。節約資金、更完善的服務誘使客戶轉投到競爭對手那里。即便是網上銀行也面臨著吸引客戶的問題,最有價值的客戶可能正離您而去,而您甚至還沒有覺察。在這樣一種復雜、激烈的競爭環境下,如何才能吸引、增加并保持最好的客戶呢?數據挖掘〔DataMining,DM是指從大量不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、有用的信息和知識的過程。其表現形式為概念〔Concepts、規則<Rules>、模式<Patterns>等形式。用統計分析和數據挖掘解決商務問題。金融業分析方案可以幫助銀行和保險業客戶進行交叉銷售來增加銷售收入、對客戶進行細分和細致的行為描述來有效挽留有價值客戶、提高市場活動的響應效果、降低市場推廣成本、達到有效增加客戶數量的目的等。客戶細分―使客戶收益最大化的同時最大程度降低風險市場全球化和購并浪潮使市場競爭日趨激烈,新的管理需求迫切要求金融機構實現業務革新。為在激烈的競爭中脫穎而出,業界領先的金融服務機構正紛紛采用成熟的統計分析和數據挖掘技術,來獲取有價值的客戶,提高利潤率。他們在分析客戶特征和產品特征的同時,實現客戶細分和市場細分。數據挖掘實現客戶價值的最大化和風險最小化。SPSS預測分析技術能夠適應用于各種金融服務,采用實時的預測分析技術,分析來自各種不同數據源-來自ATM、交易網站、呼叫中心以及相關分支機構的客戶數據。采用各種分析技術,發現數據中的潛在價值,使營銷活動更具有針對性,提高營銷活動的市場回應率,使營銷費用優化配置。客戶流失―挽留有價值的客戶在銀行業和保險業,客戶流失也是一個很大的問題。例如,抵押放款公司希望知道,自己的哪些客戶會因為競爭對手采用低息和較寬松條款的手段而流失;保險公司則希望知道如何才能減少取消保單的情況,降低承包成本。為了留住最有價值的客戶,您需要開展有效的保留活動。然而,首先您需要找出最有價值的客戶,理解他們的行為。可以在整個客戶群的很小一部分中盡可能多地找出潛在的流失者,從而進行有效的保留活動并降低成本。接著按照客戶的價值和流失傾向給客戶排序,找出最有價值的客戶。交叉銷售在客戶關系管理中,交叉銷售是一種有助于形成客戶對企業忠誠關系的重要工具,有助于企業避開"擠奶式"的飽和競爭市場。由于客戶從企業那里獲得更多的產品和服務,客戶與企業的接觸點也就越多,企業就越有機會更深入地了解客戶的偏好和購買行為,因此,企業提高滿足客戶需求的能力就比競爭對手更有效。研究表明,銀行客戶關系的年限與其使用的服務數目、銀行每個賬戶的利潤率之間,存在著較強的正相關性。企業通過對現有客戶進行交叉銷售,客戶使用企業的服務數目就會增多,客戶使用銀行服務的年限就會增大,每個客戶的利潤率也隨著增大。從客戶的交易數據和客戶的自然屬性中尋找、選擇最有可能捆綁在一起銷售的產品和服務,發現有價值的產品和服務組合,從而有效地向客戶提供額外的服務,提高活期收入并提升客戶的收益率。欺詐監測通過偵測欺詐、減少欺詐來降低成本。為了與欺詐活動作斗爭,首先您需要預測欺詐在何時、何地發生。數據挖掘技術偵測在欺詐中常見的模式,預測欺詐活動將在哪里發生。對于銀行業的公司來說,欺詐活動頻繁發生的一個領域是自動取款機〔ATM。數據挖掘幫助公司預測欺詐性的ATM交易。銀行可以來預測欺詐最有可能在哪個地理位置上發生。接著該信息就被傳送給ATM網絡的成員機構,由這些機構通知客戶,讓客戶確定交易是否正當,從而避免發生更多的欺詐行為。有了這些信息,他們可以更快地凍結帳戶或采取其它必要的手段。開發新客戶金融機構可以使用數據挖掘技術提高市場活動的有效性。銀行部門對給出反饋的活動對象進行分析,使之變成新的客戶。這些信息也可應用到其它客戶,以提高新的市場活動的反饋率。降低索賠保險公司都希望減少索賠的數量。可以使用聚類分析,根據現有客戶的特征檔案來找出哪些客戶更有可能提出索賠請求。這些檔案是通過對客戶提取200至300個不同的變量而產生出來的。接著,您就可以針對那些可能提出較少索賠請求的客戶開展獲取活動。信用風險分析傳統的風險管理已無法有效控制跨區域、跨部門、跨行業的多種風險,利用科學的數據分析系統提高欺詐的防范,降低信用風險尤為重要。客戶科學評估造成風險的因素,有效規避風險,建立完善的風險防范機制。客戶流失隨著金融體制改革的不斷深化和金融領域的對外開放,我國金融行業的競爭日趨激烈。《2006年金融服務指數研究報告》顯示,在我國金融業逐步對外資行業開放的今天,中國金融業的服務質量雖然有穩步提升,但總體仍需提高,中資銀行面臨著極大的優質客戶流失的危險。這將對銀行經營和效益產生極大的影響。除了提高服務質量,銀行要加強營銷活動,保留優質客戶,首先面臨的第一個問題就是,誰可能流失?應該針對哪些客戶進行客戶保留活動?針對所有的客戶開展保留活動,成本太大。合理的做法是應用數據挖掘技術,研究流失客戶的特征,從而對流失進行預測、并對流失的后果進行評估,采取客戶保留措施,防止因客戶流失而引發的經營危機,提升公司的競爭力。具體來說,客戶流失是指客戶終止與企業的服務合同或轉向其它公司提供的服務。客戶流失分析是以客戶的歷史通話行為數據、客戶的基礎信息、客戶擁有的產品信息為基礎,通過適當的數據挖掘手段,綜合考慮流失的特點和與之相關的多種因素,從中發現與流失密切相關的特征,在此基礎上建立可以在一定時間范圍內預測用戶流失傾向的預測模型,為相關業務部門提供有流失傾向的用戶名單和這些用戶的行為特征,以便相關部門制定恰當的營銷策略,采取針對性措施,開展客戶挽留工作。客戶流失需要解決的問題1哪些現有客戶可能流失?

客戶流失的可能性預測。主要對每一個客戶流失傾向性的大小進行預測。

2現有客戶可能在何時流失?

如果某一客戶可能流失,他會在多長時間內流失。

3客戶為什么流失?

哪些因素造成了客戶的流失,客戶流失的重要原因是什么。主要對引起客戶流失的諸因素進行預測和分析。

4客戶流失的影響?

客戶流失對客戶自身會造成什么影響?

客戶流失對公司的影響如何?

對可能流失客戶進行價值評估,該客戶的價值影響了運營商將要付出多大的成本去保留該客戶。5客戶保留措施?

針對公司需要保留的客戶,制定客戶和執行保留措施。客戶流失的類型為了避免由客戶流失造成的損失,必須找出那些有流失危險和最有價值的客戶,并開展客戶保留活動。客戶流失現象可以分為以下三種情況:

1公司內客戶轉移:客戶轉移至本公司的不同業務。主要是增加新業務,或者費率調整引發的業務轉移,例如從活期存款轉移至零存整取,從外匯投資轉移至滬深股市投資。這種情況下,雖然就某個業務單獨統計來看存在客戶流失,并且會影響到公司的收入,但對公司整體而言客戶沒有流失。

2客戶被動流失:表現為金融服務商由于客戶欺詐等行為而主動終止客戶與客戶的關系。這是由于金融服務商在客戶開發的過程中忽視了客戶質量造成的。

3客戶主動流失:客戶主動流失可分為兩種情況。一種是客戶不再使用任何一家金融服務商的業務;另一種是客戶選擇了另一家服務商,如客戶將存款從一家銀行轉移到另一家銀行。客戶主動流失的原因主要是客戶認為公司不能提供他所期待的價值,即公司為客戶提供的服務價值低于另一家服務商。這可能是客戶對公司的業務和服務不滿意,也可能是客戶僅僅想嘗試一下別家公司提供而本公司未提供的新業務。這種客戶流失形式是研究的主要內容。如何進行客戶流失分析?對于客戶流失行為預測來說,需要針對客戶流失的不同種類分別定義預測目標,即明確定義何為流失,進而區別處理。預測目標的準確定義對于預測模型的建立是非常重要的,它是建立在對運營商的商業規則和業務流程的準確把握的基礎之上。在客戶流失分析中有兩個核心變量:財務原因/非財務原因,主動流失/被動流失。對不同的流失客戶按該原則加以區分,進而制定不同的流失標準。例如,非財務原因主動流失的客戶往往是高價值的客戶,他們會正常支付服務費用并容易對市場活動有所響應,這種客戶是企業真正需要保留的客戶。而對于非財務原因被動流失的客戶,預測其行為的意義不大。研究哪些客戶即將流失,是一個分類問題。將現有客戶分為流失和不流失兩類,選擇適量的流失客戶和未流失客戶的屬性數據組成訓練數據集,包括:客戶的歷史通話行為數據、客戶的基礎信息、客戶擁有的產品信息等。Clementine提供人工神經網絡、決策樹、Logistic回歸等模型用于建立客戶流失的分類模型。關于流失用戶特征的分析,是一個屬性約減和規則發現問題。Clementine提供關聯分析方法,可以發現怎樣的規則導致客戶流失。也可以利用Clementine的決策樹方法,發現與目標變量〔是否流失,關系最為緊密的用戶屬性。由于不同類型的客戶可能具有不同的流失特征。因此,在進行深入的客戶流失分析時,需要先進行客戶細分,再對細分之后的客戶群分別進行挖掘。在預測客戶流失時一個很重要的問題是流失的時間問題,即一個客戶即將要流失,那么它可能什么時候會流失。生存分析可以解決這類問題。生存分析不僅可以告訴分析人員在某種情況下,客戶可能流失,而且還可以告訴分析人員,在這種情況下,客戶在何時會流失。生存分析以客戶流失的時間為響應變量進行建模,以客戶的人口統計學特征和行為特征為自變量,對每個客戶計算出初始生存率,隨著時間和客戶行為的變化,客戶的生存率也發生變化,當生存率達到一定的閾值后,客戶就可能流失。分析客戶流失對客戶自身的影響時,主要可以考慮客戶的流失成本和客戶流失的受益分析。客戶流失成本可以考慮流失帶來的人際關系損失等因素,通過歸納客戶的通話特征來表征。減少客戶流失的一個手段就是增加客戶的流失成本。客戶流失的受益分析就是判斷客戶流失的動機,是價格因素還是為了追求更好的服務等。這方面內容豐富,需作具體分析。分析客戶流失對公司的影響時,不僅要著眼于對收入的影響,而且要考慮其它方面的影響。單個的客戶流失對公司的影響可能是微不足道的,此時需要研究流失客戶群對公司收入或業務的影響。這時候可能需要對流失客戶進行聚類分析和關聯分析,歸納客戶流失的原因,有針對性的制定防止客戶流失的措施。在預測出有較大流失可能性的客戶后,分析該客戶流失對公司的影響。評估保留客戶后的收益和保留客戶的成本。如果收益大于成本,客戶是高價值客戶,則采取措施對其進行保留。至于低價值客戶,不妨任其流失甚至勸其流失。總之在利用數據挖掘研究客戶流失問題時,需要明確并深入理解業務目標,在明確的業務目標的基礎上準備數據、建模、模型評估,最后將模型部署到企業中。客戶流失應用案例為了舉例說明,我們設想一個虛構的銀行ZBANK使用保留客戶的應用或客戶流失建模。ZBANK正受到來自其它金融機構日益激烈的競爭。住房貸款是ZBANK最寶貴的客戶來源之一,在該業務中遇到一些客戶會轉投其它競爭對手。在營銷策略方面,ZBANK給它的房貸新客戶許多的優惠措施〔如免費的電器和家具優惠券,因此它獲得客戶的初始成本相對要高于競爭對手。但是,由于此類貸款由市場主導,因此房屋抵押貸款給ZBANK帶來較小的風險,同時也使其處于一個有利的戰略地位可以交叉銷售其它的服務如期房貸款和住房保險。除了保持其戰略性市場主導地位,對于ZBANK來說預測客戶流失的可能性也很重要,以便減少那些獲得不久就拖欠貸款的新客戶。ZBANK有一個客戶數據庫,包含了有關房貸客戶的交易和人口統計信息。〔1商業理解

預測現有用戶中哪些客戶在未來六個月中可能流失以及對哪些流失客戶采取保留措施。〔2數據理解a>數據說明選取一定數量的客戶〔包括流失的和未流失的,選擇客戶屬性,包括客戶資料、客戶賬戶信息等。利用直方圖、分布圖來初步確定哪些因素可能影響客戶流失。所選取的數據屬性包括:

〔1客戶號;

〔2儲蓄賬戶余額;

〔3活期賬戶余額;

〔4投資賬戶余額;

〔5日均交易次數;

〔6信用卡支付方式;

〔7是否有抵押貸款;

〔8是否有賒賬額度;

〔9客戶年齡;

〔10客戶性別;

〔11客戶婚姻狀況;

〔12客戶孩子數目;

〔13客戶年收入;

〔14客戶是否有一輛以上汽車;

〔15客戶流失狀態。

其中客戶流失狀態有三種屬性:

〔1被動流失;

〔2主動流失,這是分析中特別關注的一類客戶;

〔3未流失。

在分析中,我們主要關注的是主動流失的客戶。被動流失對銀行來說是意義最小的,因為該指標代表的大多數客戶是在貸款期內賣掉了房子,因此不再需要房貸了。主動流失指的是轉投向ZBANK競爭對手的客戶,是該行關注的焦點。在開發這個應用之前,ZBANK將所有現有的客戶歸到上述的三個類別中。同時按照常規,所有的人口統計信息〔也就是從客戶年齡到客戶是否有一輛以上汽車每六個月更新一次,而交易信息〔從儲蓄賬戶余額到是否有賒賬額度則是實時更新的。為了讓預測模型能預先進行指示以便采取補救措施,在目標變量〔因變量和輸入變量〔自變量之間設定了6個月的延遲。也就是說,輸入變量的采集六個月后再將客戶流失狀態分類;因此該模型提早6個月預測客戶流失。

b>數據描述及圖表分析

在數據理解中,可以利用描述及可視化來幫助探索模式、趨勢和關系。圖2.1顯示了Clementine中數據理解的數據流圖,包括:使用數據審核,統計分析,網絡圖,直方圖,兩步聚類,關聯分析,查看數據屬性之間的關系。

圖2.1:數據理解的數據流圖圖2.2顯示了數據審核結果。可以很清楚地了解14個數據字段的基本情況。如數據類型、最大最小值、平均值、標準差、偏度、是否唯一、有效記錄個數等。從圖2.2可見,房貸客戶的平均年齡是57.4歲,最小的18歲,最大的97歲。

圖2.2:數據審核圖這些描述能幫助理解數據。使用繪圖和直方圖節點將數據可視化就產生了客戶收入和年齡圖及日均交易數的直方圖〔見圖3。將可視化的結果與目標變量聯系起來,可以看出客戶流失狀態包含在不同的圖表中。例如,客戶的離中趨勢,男性和女性客戶的被動流失和主動流失以及每個級別的日均交易次數都包含在了圖表中。這種對關系的初步評估對于建模是很有用的。更重要的是,結果表明主動流失在女性客戶和不太活躍的客戶〔由日均交易次數確定中較為多見。

圖2.3:各種數據分布圖最后,一幅網狀圖表明了客戶性別,客戶婚姻狀況,信用卡支付方式,客戶流失狀態之間的聯系〔見圖3下左面板。較強的關系由較粗的線表示。那些在一定標準〔由用戶定義之下的聯系則不包括在圖中〔例如在被動流失和選中的一些輸入變量之間。網狀圖表明現有客戶〔即非流動者更多的是那些已婚男性,那些用其它賬戶進行信用卡支付的人。要注意的是,前面已經提到過,客戶流失狀態滯后輸入變量六個月。

c>關聯分析及聚類的結果為了進一步了解房貸客戶可以使用聚類。

圖2.4總結了使用雙步聚類節點獲得的結果。如圖所示,客戶似乎分為七種自然的聚類。所產生的聚類特征可用來定義和理解每個聚類以及聚類間的區別。例如,我們比較聚類1和聚類4,聚類1中包含的是較年輕并絕大多數已婚〔92.2%,并且年收入較高的女性。而聚類4中包含的是較年長〔平均要比1中大5歲,59.8%已婚,年收入較低〔平均要比1中低4000美元的男性。聚類的結果對于市場定位和分割研究是非常有用的,但是對于預測建模的作用則沒這么明顯。

圖2.4:兩步聚類的部分結果本例使用關聯分析來制訂規則,尋找輸入變量和目標變量間的關系。這些規則不僅對發現模式、關系和趨勢很重要,對于預測建模〔例如決定采用/不采用哪些輸入變量也很重要。我們使用Clementine的GRI〔廣義規則歸納節點來進行聯合分析,結果如圖2.5所示。其中,第一條聯合分析規則表明,有156名〔或11.0%的房貸客戶的投資賬戶余額低于4988美元,其中81.0%是被動流失的。同樣,第三條規則表明有198名〔或13.9%的房貸客戶的活期賬戶余額超過1017美元,其中81.0%是主動流失的。其它的規則可以類似地進行理解。這些規則表明交易和人口統計信息是如何與客戶流失狀態聯系起來的。要注意的是,客戶流失狀態滯后輸入變量六個月。

圖2.5:關聯分析的部分結果3數據準備

根據數據理解的結果準備建模用的數據,包括數據選擇、新屬性的派生,數據合并等。在本例中,利用Clementine進行數據準備的數據流圖如圖2.6所示。通過分裂節點,給數據集添加一個新的標志屬性。該標志屬性是0-16之間的隨機數。然后再根據標志屬性值〔<4和=4,利用過濾節點,將原來的數據樣本分成訓練集〔約占75%和測試集〔約占25%。

圖2.6:數據準備的數據流圖〔4建立模型及評估預測建模是本例中最重要的分析,神經網絡和決策樹尤其適用于對房貸客戶的流失建模。圖2.7和圖2.8展示的是使用Clementine訓練神經網絡模型和建決策樹功能得到的神經網絡和決策樹的結果。

圖2.7:C5.0決策樹結果

圖2.8:神經網絡模型結果決策樹模型中有4個終端節點和僅僅3個重要的輸入變量〔按照重要性降序排列:投資賬戶余額、客戶性別和客戶年齡。神經網絡模型在輸入層、隱藏層和輸出層分別有15個、5個和3個神經元。此外,最終要的5個輸入變量是〔按照重要性降序排列:活期賬戶余額、客戶孩子數目、儲蓄賬戶余額、投資賬戶余額和客戶婚姻狀況。Logistic回歸模型統計有效,卡方檢驗的p值為1.000,表明數據吻合得很好。此外,下列輸入變量在統計時,在0.05的有效水平上預測客戶流失狀態也統計有效:儲蓄賬戶余額c〔p值=0.000、活期賬戶余額〔p值=0.000、客戶年齡〔p值=0.002、客戶年收入〔p值=0.033及客戶性別〔p值=0.000。從用評估圖節點產生的提升表中可以看出每個預測模型都是有效的,如圖2.9所示〔從左至右分別為Logistic回歸、決策樹和神經網絡。提升表中繪制的是累積提升值與樣本百分比的關系〔在這里是構造/培訓樣本。基準值〔即評估每個模型的底限是1,它表示當從樣本中隨機抽取記錄的百分點時能成功地"擊中"現有客戶。提示值衡量的是當來自數據中的某一記錄是一個現有客戶的降序預測概率能被百分點反映時,預測模型"擊中"現有客戶的成功可能性〔準確度有多高。如圖2.9〔左所示,每個模型的提升值均大于1,在100%時收斂于1。由于每個預測模型都能以有效精度預測目標變量〔起碼對于現有客戶和非現有客戶之間的關系,因此我們可以說它們都是有效的。

圖2.9:提升圖〔左和三個模型的分析結果〔右值得注意的是神經網絡和決策樹得出的預測模型并不完全一致,這從圖2.9〔右兩個模型結果的比較可以看出來。所以,不僅要在訓練樣本中比較兩個模型的表現,也要在訓練/測試樣本中進行比較,而后者更加重要。對于這些預測模型來說,評估它們相對表現的最佳辦法應該是看它們預測目標變量〔客戶流失狀態的精確率。在本例中為了簡單起見,假設總體精確度包括了比較不同預測模型表現的評估標準。在圖2.10的右面板中,決策樹模型的預測相對精確,總體精確度為81.6%,因此根據評估標準,決策樹模型是最好的預測模型,應該在ZABNK預測房貸客戶的流失中使用。

圖2.10:測試集的提升表〔左和三個模型的分析結果〔右〔5模型部署在本例中,決策樹模型不僅精度最高,而且從圖2.7中的簡明的規則可以看出,決策樹的模型也容易理解。結果表明,ZBANK的房貸客戶中,那些39歲以上,在投資帳戶中余額超過4976美元的女性更可能主動流失。要注意的是,客戶流失狀態滯后輸入變量六個月。從到目前位置的結果來看,決策樹客戶流失預測模型能夠更精確地根據交易和人口統計的信息判斷出流失客戶和非流失客戶,從而產生增值效益。因此,ZBANK可以用決策樹模型判斷哪些客戶傾向于主動流失,然后向他們提供優惠措施或采取其它預防措施。同樣,客戶流失模型可以判斷哪些是流失風險較低的房貸申請者。使用數據挖掘的決策樹模型可以用來對現有客戶和新的房貸申請者進行評級。在Clementine中部署模型的數據流圖如圖所示。運行數據流后,Clementine自動將結果存儲在逗號分隔的文件中。銀行中其他人員即使沒有安裝Clementine,也可以使用記事本等軟件打開查看。并且可以很好的集成到銀行現有的其他業務系統中。圖2.12給出了一個結果的例子。其中按照客戶流失概率的大小,對客戶進行排序。

圖2.11:模型部署的數據流圖

圖2.12:流失概率和客戶價值的散點圖最后需要指出的是在本例中,模型的總體分類精確率是簡化計算的。在實際使用中,一般還需要考慮誤分類及其相關成本,還有流失客戶和非流失客戶在樣本和總體中的相對比重。客戶細分信用風險分析隨著金融市場逐步開放,商業銀行和保險公司面臨著巨大的壓力和挑戰。面對競爭和挑戰、重點是做好客戶市場細分,有效發掘客戶需求,提供客戶差異化服務。一個銀行的客戶是多種多樣的,各個客戶的需求也是千變萬化的,銀行不可能滿足所有客戶所有的需求,這不僅是由銀行自身條件所限制,而且從經濟效益方面來看也是不足取的,因而銀行應該分辨出它能有效為之服務的最具吸引力的市場,揚長避短,而不是四面出擊。對一個銀行來說,在經營管理中應用市場細分理論是很有必要的。客戶細分的概念客戶細分的概念是美國市場學家溫德爾?史密斯<WendeiiR.Smith>于20世紀50年代中期提出來的。客戶細分<CustomerSegmentation>是指按照一定的標準將企業的現有客戶劃分為不同的客戶群。客戶細分是客戶關系管理的核心概念之一,是實施客戶關系管理重要的工具和環節。SuzanneDonner認為:正確的客戶細分能夠有效地降低成本,同時獲得更強、更有利可圖的市場滲透。通過客戶細分,企業可以更好地識別不同客戶群體對企業的價值及其需求,以此指導企業的客戶關系管理,達到吸引合適客戶,保持客戶,建立客戶忠誠的目的。所謂客戶細分主要指企業在明確的戰略、業務模式下和專注的市場條件下,根據客戶的價值、需求和偏好等綜合因素對客戶進行分類,分屬于同一客戶群的消費者具備一定程度的相似性,而不同的細分客戶群間存在明顯的差異性。客戶細分的理論依據主要有:<1>客戶需求的異質性。影響消費者購買決策因素的差異決定了消費者的需求、消費者的消費行為必然存在區別。因此可以根據這種差異來區分不同的客戶,客戶需求的異質性是進行客戶細分的內在依據。<2>消費檔次假說。隨著經濟的發展和消費者收入水平的提高,消費量會隨之增加。但消費量的增加并非線性增長,而是呈現出區間性臺階式的變化形式,一旦消費者達到某種消費層次之后,消費變化的趨勢將變得非常平緩。根據消費檔次假說,消費者的消費檔次或消費習慣在一段時期內是相對穩定的,這就為通過消費行為來劃分消費群體提供了理論前提和基礎。<3>企業資源的有限性和有效市場競爭的目的性。資源總是希缺的,由于缺乏足夠的資源去應對整個客戶群體,因此必須有選擇地分配資源。為了充分發揮資源的最大效用,企業必須區分不同的客戶群,對不同的客戶制定不同的服務策略,集中資源服務好重點客戶。<4>穩定性。有效的客戶細分還必須具有相對的穩定性,足以實現在此基礎上進行的實際應用,如果變化太快,應用方案還未來得及實施,群體就已面目全非,這樣的細分方法就顯得毫無意義。客戶細分模型客戶群細分的目的是為了選擇適合企業發展目標和資源條件的目標市場。客戶細分模型是指選擇一定的細分變量,按照一定的劃分標準對客戶進行分類的方法。一個好的細分模型,首先是要滿足細分深度的要求,不同的使用者對客戶細分的深度也有不同的要求,這就要求模型劃分的結果能滿足不同使用者的需要。其次是對數據的處理能力和容錯能力,現代數據庫的存儲容量越來越大,數據結構也趨于多樣性,誤差數據也會隨之增多,這就要求模型能適應數據在量和樣上的膨脹,對誤差數據能做出判別和處理。最后是模型要有很強的適用能力,變化是絕對的,而穩定只是相對的,無論是個人消費者還是消費群體,他們的消費行為都是在變化的,這就要求模型對客戶的細分標準要隨新的情況而不斷更新。在對客戶進行細分的方法中,除了傳統的按照客戶基本屬性進行分類的方法以外,還有其他多種客戶細分模型,如基于客戶價值貢獻度的細分模型、基于不同需求偏好的細分模型和基于消費行為的細分模型。基于消費者消費行為的客戶細分模型研究,主要是以消費者的購買頻率、消費金額等為細分變量,如RFM模型和客戶價值矩陣模型。〔1RFM模型。RFM細分模型是根據消費者消費的間隔、頻率和金額三個變量來識別重點客戶的細分模型。

R-Recency指客戶上次消費行為發生至今的間隔,間隔越短則R越大;F—Frequency指在一段時期內消費行為的頻率;M—Monetary指在某一時期內消費的金額。研究發現,R值越大、F值越大的客戶越有可能與企業達成新的交易,M越大的客戶越有可能再次響應企業的產品和服務。

〔2客戶價值矩陣模型。

客戶價值矩陣模型是在對傳統的RFM模型修正的基礎上提出的改進模型。用購買次數F和平均購買額A構成客戶價值矩陣,用平均購買額替代了RFM模型中存在多重共線性的兩個變量,消除了RFM模型中購買次數和總購買額的多重共線性的影響。在客戶價值矩陣中,確定購買次數F和平均購買額A的基準是各自的平均值,一旦確定了坐標軸的劃分,客戶就被定位在客戶價值矩陣的某一象限區間內。依據客戶購買次數的高低和平均購買額的多少,客戶價值矩陣將客戶劃分成四種類型,即樂于消費型客戶、優質型客戶、經常客戶和不確定客戶,如圖3.l所示。

圖3.1:客戶價值矩陣客戶細分并沒有統一的模式,企業往往根據自身的需要進行客戶細分,研究目的不同,用于客戶細分的方法也不同。總的來講,客戶細分的方法主要有四類,一、基于客戶統計學特征的客戶細分;二、基于客戶行為的客戶細分;三、基于客戶生命周期的客戶細分;四、基于客戶價值相關指標的客戶細分。客戶細分模型的基本流程客戶細分包括六個基本流程:

第一步:理解業務需求。

在未來的業務中,知道誰是客戶是個非常好的起始點,以了解瞬息萬變的市場環境。清楚地了解客戶也是對每個客戶組采取有針對性措施的基礎。客戶細分就是根據其特征將相似的客戶歸組到一起,這是了解客戶和針對特定客戶組進行市場定向所不可缺少的。客戶細分可根據許多不同條件而進行。這些條件可由簡單的年齡、性別、地理位置或這些變量的組合來構成。當這些條件變得越來越復雜時,數據挖掘技術就應運而生了。決定使用哪些條件取決于客戶細分的目的和應用方法。在使用數據挖掘開發客戶細分時,最重要的部分是其結果應當在業務遠景中意義深遠,并且能夠在實際業務環境中進一步得到應用。需要記住的一點是:由于市場環境是動態變化的,細分建模過程應當是重復性的,且模型應隨著市場的變化而不斷革新。第二步:選擇市場細分變量。

由于變量選擇的優劣對細分結果質量的影響非常顯著,所以變量選擇應該建立在理解業務需求的基礎之上,以需求為前提,在消費者行為和心理的基礎上,根據需求選擇變量。此外,變量的選擇還應該有一定的數量,多了不好,少了也不好。第三步:所需數據及其預處理。

為創建數據模型,必須使用收集到的原始數據,并將其轉換成數據模型所支持的格式。我們稱這個過程中的這個階段為初始化和預處理。在金融業中進行客戶行為細分通常需要行為數據和人口統計數據等類型的數據。行為數據是客戶行為,可通過客戶的賬戶信息、購買產品的信息等捕獲。人口統計數據<如年齡、性別、工作等>可根據客戶辦理業務時,提供給金融機構的信息獲得。這在識別或描述客戶組的特征時很有用。第四步:選擇細分技術。

目前,通常采用聚了技術來進行客戶細分。常用的聚類算法有K-means、兩步聚類、Kohonen網絡等,可以根據不同的數據情況和需要選擇不同聚類算法來進行客戶細分。第五步:評估結果。

在對用戶群進行細分之后,會得到多個細分的客戶群體,但是,并不是得到的每個細分都是有效的。細分的結果應該通過下面幾條規則來測試:與業務目標相關的程度;可理解性和是否容易特征化;基數是否足夠大,以便保證一個特別的宣傳活動;是否容易開發獨特的宣傳活動等。第六步:應用細分模型。

根據客戶細分的結果,市場部門制定合適的營銷活動,進行有針對性的營銷。總之,客戶細分是金融機構與用戶二者實現雙贏的重要舉措。目前用戶需求呈現多樣化、個性化的趨勢,只有通過深入分析用戶消費行為,精確識別、細分用戶市場,開發出針對不同層次用戶的服務品牌進行服務營銷,方能使得各方價值發揮到最大,實現共贏。不同級別的客戶對服務的需求以及"贏"的概念是不同的,正是因為為不同的客戶提供不同的產品和服務才能使客戶都達到滿意,從而在市場上占據有利地位。細分方法介紹在數據挖掘中,往往通過聚類分析的方法來實現細分。聚類分析方法至少有以下幾類:〔1K-Means聚類法。使用者需要首先確定數據分為K群,該方法會自動確定K個群的中心位置,繼而計算每條記錄距離這K個中心位置的距離,按照距離最近的原則把各個記錄都加入到K個群,重新計算K個群的中心位置,再次計算每條記錄距離這K個中心位置的距離,并把所有記錄重新歸類,再次調整中心位置,依次類推……,當達到一定標準時,結束上述步驟。這種方法運算速度快,適合于大數據量。〔2兩步聚類法:這種方法首先需要確定一個最大群數〔比如說n,并把數據按照一定的規則分為n個群,這是該方法的第一步。接著按照一定的規則把n個群中最接近的群進行歸并,當達到一定的標準時,這種歸并停止,這就是該種方法最終確定的聚類群數〔比如說m,這是第二步。兩步聚類法的一個顯著優點是可以不指定聚類群數,它可以根據據結構本身自動確定應該把數據分為多少群。〔3Kohonen網絡聚類法:是運用神經網絡的方法對數據進行細分的數據挖掘方法。為了提升客戶的全面經驗,許多金融機構將數據挖掘應用于客戶細分在客戶個人屬性以及產品之間提取直觀的聯系。從這些現存的客戶以及潛在客戶中得到的客戶特征經驗的知識進而可以用于配合市場營銷工作來增加交叉銷售的機會,提高投資回報率〔ROI〔Peacock,1998。這使得金融機構可以提供特定的產品與服務來滿足客戶的需要。數據挖掘中典型的細分應用要么是使用有監督學習方法,要么是使用非監督學習方法來進行〔Chung和Gray,1999。對于前者,數據挖掘模型學習客戶的行為特征與已經確定的我們感興趣的輸出變量之間的關系。例如,客戶評價模型,將客戶分為不同的等級,并得出每個等級的特征。另一方面,非監督學習方法基于客戶的輸入屬性產生不同的類別,而且不需要設定我們感興趣的輸出變量。每個類別的成員享有相似的特征,并且與其它的類別之間的特征是截然不同的。客戶細分實例假設Z銀行擁有以下數據:

1.客戶號;

2.儲蓄賬戶余額;

3.活期賬戶余額;

4.投資賬戶余額;

5.日均交易次數;

6.信用卡支付模式;

7.是否有抵押貸款;

8.是否有賒賬額度;

9.客戶年齡;

10.客戶性別;

11.客戶婚姻狀況;

12.客戶家庭情況〔孩子數;

13.客戶年收入;

14.客戶是否擁有一輛以上小汽車;

15.客戶流失狀態。假設Z銀行希望建立更為有效的市場營銷戰略來給持有高價值投資組合的客戶推銷其金融產品。為了做到這些,Z銀行使用細分模型特征化了其客戶,并且依賴客戶屬性分割這些客戶為截然不同的類別。其后,自然可以利用這些從客戶中得到的特征剖面來定制其市場營銷戰略來給其潛在的客戶提供更多目標性的信息。

此外,假設Z銀行使用監督學習以及非監督學習建模技術來生成客戶的特征。這里我們使用SPSS公司的數據挖掘軟件Clementine。相關的數據挖掘應用程序圖示參見圖3.2。

圖3.2:投資賬戶余額分段對于監督學習模型,基于上面涉及到的十三個變量基礎進行細分。目標變量是由輸入變量-投資賬戶余額,直接生成的多分類變量。關于投資賬戶余額的分布可以由直方圖節點來決定如何適當的將每個客戶分類到三個箱柜中:高、中和低投資組合價值。關于投資賬戶余額的分布與歸箱也顯示在圖3.2中。關于投資賬戶余額的歸箱組成了我們感興趣的投資價值目標變量。進而可以構建Logistic回歸模型來生成基于不同單個客戶投資價值的不同分類的特征屬性。圖3.3描述了Logistic回歸模型的結果。進一步的結果表明,在預測每個客戶的投資價值的預測模型中統計上顯著的變量有儲蓄賬戶余額和活期賬戶余額。進而,高價值投資組合客戶的特征就由這些變量來決定。

圖3.3:Logistic回歸模型非監督學習細分模型是基于十四個變量來做出的。在這種情形下,不需要設定目標變量。對于非監督學習細分,通常可以使用三種數據挖掘算法,也就是,兩步聚類、Kohonen網絡以及K-means聚類。對于我們的演示,這里僅僅使用了兩步聚類。

圖3.4:兩步聚類分析結果圖3.4顯示了使用兩步聚類法生成的五個類別的聚類模型。關于每一類的信息也列了出來。例如,第4類包含278個客戶,它描述了在這個類別中大部分的客戶是男性且大部分無抵押貸款的客戶。另一方面,第2類描述了大多數為已婚女性且擁有賒賬額度的客戶。更進一步的數據探索是建立在兩步聚類結果上,通過利用我們所關心的變量的直方圖或是分布圖等圖形化展示手段來比較五個類別的結果。圖3.5顯示了關于五個類別中流失狀態以及流失率的比較。我們可以看到,第2類中擁有大多數的主動以及被動流失的客戶。同樣,第3類則是相當的混合了現存客戶以及主動流失的客戶。此外,第4類中具有最大的現存客戶。對于其他的分類輸入變量來講可以繪出相似的分布圖。

圖3.5:五個類別中流失狀態以及流失率的比較最后,關于投資賬戶的直方圖也可以根據五個類別分別繪出,參見圖3.6。我們可以看到,第1類包含了相對其它幾類更多的低投資賬戶的客戶。另一方面,第3類則是由持有高價值投資賬戶的客戶組成。如此,如果Z銀行能夠促銷新產品,第3類的客戶可能是更為有希望的目標群體,能夠生成更好的市場營銷結果。利用這些知識,Z銀行現在能夠設計適當的銀行產品來滿足那些不同的客戶群體。

圖3.6:五個類別的投資賬戶余額的直方圖營銷響應為了發展新客戶和推廣新產品,企業通常會針對潛在客戶推出各種直接營銷活動。然而,如果目標客戶的選擇不明確,營銷活動往往花費巨大而取得的實際效益不佳,甚至可能遭遇由于活動響應率太低而無法收回成本的境況。在當今競爭激烈的金融市場上,一方面,客戶每天通過短信、電話、郵件、電子郵件、網站廣告等方式會接觸到大量的金融業務廣告,缺乏針對性和足夠吸引力的營銷活動往往會被客戶直接忽略。另一方面,用戶越來越看重個性化服務,對新的金融產品具有較大的需求。為了更好的滿足客戶需求,許多公司采用了促銷活動管理系統來幫助執行促銷活動。這些管理系統增加了公司采取的促銷活動的數量,卻并不一定能改善促銷活動的效率。事實上,不合適的促銷活動和過多的促銷活動只會導致用戶對公司的不滿意度增加。所以,有效促銷活動不在于數量的多少,而在于要在恰當的時機,通過恰當的方式,向恰當的用戶推銷恰當的產品。也就是說,有效的促銷活動,不在于涉及客戶的數量多少,而在于針對的都是具有高響應概率的目標人群。這不僅可以提升客戶的滿意度,增強客戶對公司的忠誠度,而且可以降低客戶獲取費用,增加營銷活動投資回報率,直接帶來公司效益的增加。數據挖掘中的營銷響應分析可以幫助達到提高營銷活動回報率的目標。什么是營銷響應?營銷響應模型是一種預測模型。目標變量是預測誰會對某種產品或服務的宣傳進行響應,自變量是客戶及其行為的各種屬性,如:客戶年齡,客戶收入,客戶最近一次購買產品的時間,客戶最近一個月的購買頻率等。利用響應模型來預測哪些客戶最有可能對營銷活動進行響應,這樣,當以后有類似的活動時,可以針對具有較高響應可能性的客戶進行相應的營銷活動。而對響應度不高的客戶就不用對他們進行營銷活動,從而減少活動成本,提高投資回報率。如何提高營銷響應率?金融機構應當在深入了解客戶需求和客戶特征的基礎上,制定營銷策略,從而達到增加營業收入和客戶滿意度的雙重目標。我們提倡的不是針對最佳的客戶群開展營銷活動,而是針對每一個客戶開展活動。所謂"知己知彼,百戰不殆",建立在對客戶需求良好把握基礎之上極具針對性的營銷將極大地提高營銷活動的成功率。要開展這樣的營銷活動,首先需要回答以下幾個問題:?對誰開展營銷活動??多長時間開展一次營銷活動??何時開展營銷活動??如何開展營銷活動?金融機構在數據挖掘技術的幫助下,針對客戶數據建立營銷響應模型,在合適的時間,通過合適的渠道,以一種合適的接觸頻率,對合適的客戶開展活動,從而提高營銷活動的響應率和投資回報率。

圖4.1:營銷活動的四個要素1>選擇合適的客戶金融機構對以往的營銷數據進行分析,采用決策樹等數據挖掘方法,識別出具有高響應率的客戶的特征。通過選擇合適的客戶,可以排除對促銷活動響應不積極的客戶,將目標客戶的數量大大減小,從而在實現更有針對性地營銷的同時減小營銷成本。據統計,通過減小目標客戶的數量,通常可以節省25%-40%的營銷費用,同時增加營銷響應率。2>選擇合適的渠道第二步是要針對用戶選擇合適的營銷渠道,也就是和客戶接觸的方式。通過使用每個用戶偏愛的方式與之接觸,也有利于提升客戶響應率。在確定促銷渠道時,要考慮客戶對渠道的偏愛,渠道成本,期望的響應率,其他營銷限制條件等。3>選擇合適的時間在當今競爭激烈的社會里,客戶有很多滿足自己需求的機會和選擇。因此,一旦發現了客戶尚未被滿足的需求或者出現遺失客戶風險時,一定要及時和客戶接觸。這種事件驅動的促銷方式,通常也可以取得較高的響應率。4>選擇合適的活動頻率此外,并不是促銷活動越多,效果越好。活動計劃者需要根據實際情況,針對具體的客戶,選擇一個最優的活動次數,既使得客戶的各種需求得到較好的滿足,又避免因為過于頻繁的接觸而導致客戶的反感。同時,過多的營銷活動,也會增加營銷成本。需要在增加的成本和提高的響應率帶來的收益之間尋找一個最優點。客戶自身的偏好對于營銷活動的頻率確定也至關重要,比如,對于不喜歡過于頻繁的接到促銷電話的客戶,就要適量降低電話促銷的頻率。通過選擇更有針對性地選擇客戶和根據客戶的需求和偏好來推廣促銷活動,可以將促銷活動的投資收益率提高25%-50%。表4.1:營銷活動四階段總結階段1.合適的客戶2.合適的渠道3.合適的時間4.合適的營銷頻率目標為營銷活動選擇最佳客戶為目標客戶選擇最優營銷方式在合適的時間對目標客戶開展營銷確定最適合客戶的營銷頻率方法預測分析渠道優化事件營銷促銷優化策略預測誰是最有可能響應營銷并且能給營銷活動帶來收益的客戶在客戶偏愛的方式和公司的成本與能力之間選取最優結合點變小的,經常性的營銷活動為事件觸發的營銷活動在客戶響應率和公司收益之間選擇最佳結合點好處降低25%-40%的營銷成本降低接觸客戶的成本響應率的提高至少達到兩倍提高25%-50%的收益營銷響應應用案例一家虛擬銀行新推出了一種新的抵押貸款業務,為了推廣新產品,該銀行決定執行直接營銷活動。為此,分析人員收集了以往進行類似產品的營銷時公司執行營銷活動的相關數據,經過數據挖掘應用,計算客戶影響概率,得到客戶響應率模型,進而對客戶對新產品的響應概率進行預測。從中選取響應率高的客戶開展新產品營銷活動。〔1商業理解識別出可能響應直接營銷活動的客戶,提高營銷活動的響應率。〔2數據理解收集部分以往的營銷活動數據〔包括對活動響應的客戶數據和未對活動響應的客戶數據,選擇客戶屬性,包括客戶人口統計學特征和賬戶信息等。利用直方圖、分布圖來初步確定哪些因素可能影響客戶響應。所選取的數據屬性包括:用戶編號、年齡、收入、孩子數目、是否有汽車、是否抵押、居住區域、性別、婚姻狀況、在該銀行是否有儲蓄賬戶、在該銀行是否有活期賬戶、是否對促銷活動響應等12個字段。其中是否響應是預測的目標變量,共有兩個屬性:

否:客戶未響應營銷活動;是:客戶響應營銷活動。

圖4.2:數據首先采用直方圖,散點圖等工具對數據之間的關系進行初步探索。下圖是按照響應與否察看收入與孩子數目之間的散點圖。可見,如果只考慮"孩子數目"屬性,發現隨著孩子數目增加,響應的客戶比率降低。同時考慮"孩子數目"和"收入"屬性,發現響應比率與"收入"和"孩子數目"的比值相關,這個比值通常被成為"相對收入"。

圖4.3:收入與孩子數目的散點圖下圖是孩子數目的分布圖。有一個孩子的客戶占44.3%。而在這些客戶中,大部分是對直接營銷活動進行響應的客戶。總的說來,隨著孩子數目增加,客戶響應率降低。

圖4.4:孩子數目的分布圖〔3數據準備根據數據理解的結果準備建模需要的數據,包括數據選擇、新屬性的派生,數據合并等。在數據理解中發現,是否響應與"收入"和"孩子數目"的比率有關,因此,派生出"相對收入"屬性,定義為:如果"孩子數目"為0,則"相對收入"="收入";否則,"相對收入"="收入"/"孩子數目"。〔4建立模型及評估對數據進行預處理之后,分別使用C5.0決策樹模型,神經網絡模型,C&RT決策樹分類模型,以客戶屬性為輸入變量,以客戶是否響應為目標變量進行分類。然后對測試集分別應用這三個模型,選取效果最好的模型部署到企業中。

圖4.5:部分數據流圖使用C5.0決策樹對是否響應建模,發現與客戶響應相關的共有4條規則,與客戶不響應相關的共有8條規則。響應的客戶有如下特點:有孩子,相對收入大于49997元;或者有孩子,有車,居住在郊區,在該銀行開有儲蓄賬戶,相對收入大于25563元;或者是年齡大于45歲,沒有抵押貸款,在該銀行開有儲蓄賬戶,相對收入大于25563元;或者是年齡大于45歲,沒孩子,沒貸款,收入小于25563元。

圖4.6:C5.0決策樹分類結果神經網絡模型在輸入層、隱藏層和輸出層分別有20個、3個和2個神經元。此外,最重要的輸入變量包括〔按照重要性降序排列:相對收入,孩子數目,收入等。其估計精度達到了87.77%。

圖4.7:神經網絡的輸出結果使用C&RT對是否響應建模,得到的規則包括:當相對收入小于25564.5元時,客戶傾向于不響應;當相對收入大于25564.5元,孩子數目小于等于0.5〔需根據實際業務情況進行解釋,沒有抵押貸款,且年齡小于等于45時,傾向于不響應;當收入大于25564.5元,孩子數目小于等于0.5,沒有抵押貸款,且年齡大于45的客戶響應率高。使用測試集評估不同模型的表現。其中"客戶響應"表示目標變量的真實值,$C-響應、$N-響應、$R-響應分別表示使用C5.0、神經網絡、C&RT得到的預測值。可見,C5.0的預測精度〔95.29%最高。最后,還可以查看不同模型預測結果的一致性。

圖4.8:C&RT分類結果

圖4.9:模型評估〔5模型部署通過建模和評估后,選擇預測精度最高的C5.0模型部署到企業中。新的用戶數據在經過C5.0模型評分后,按照流失概率的高低排序,通過ClementineSolutionPublisher發布。

圖4.10:模型部署數據流圖

圖4.11:對新數據進行評分信用評分信用評分背景20世紀90年代以來,隨著中國經濟的快速發展,中國的信用消費已逐步浮出水面,信用卡消費、個人汽車貸款、耐用消費品貸款、助學貸款、住房按揭等各種個人消費貸款陸續開辦。中國銀行業資產規模進一步得到擴張,但信貸過快增長中潛在風險增大,不良貸款比率仍偏高并可能反彈。進一步加強信貸管理已經成為銀行控制風險、保持規模增長的首要問題。自1998年起,商業銀行就一直在強化信貸管理、規范信貸決策行為、防范信貸風險,并取得了一定的成績,但仍存在一些比較突出的問題。主要表現在:第一,對借款人的信用狀況缺乏較全面的了解。由于我國的征信體系的建設尚處于起步階段,商業銀行不能像國外發達國家那樣從征信局取得貸款申請人的信用資料,使得銀行不能全面了解貸款申請人的信用狀況,在發放個人貸款時信息不對稱的問題相當突出。第二,對個人信用評價缺乏科學的方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論