




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、.:.;金融行業數據發掘技術運用論壇 數據發掘討論組 朱建秋 HYPERLINK mailto:zhujianqiuhotmail zhujianqiuhotmail一、 簡介“金融行業數據發掘技術運用論壇由中國電子信息產業開展研討院(CCID)和其旗下賽迪集團戰略數據資源管理中心主辦,北京賽迪數據擔任詳細承辦,2002年11月25日在北京新世紀飯店召開。二、 會議紀要1 會議內容1) 數據發掘技術與金融分析內容 數據倉庫構造與技術 數據發掘技術 評分系統在金融決策中的運用 數據發掘用于評分系統主要觀念:1 數據倉庫是適宜知識發現的過程的構造。數據倉庫的處置過程是從“數據清理/整合數據倉庫數據
2、選擇數據發掘方式評價知識不斷循環的過程注:類似Fayyad 96年提出的數據發掘過程模型。2 將數據倉庫和發掘的構造劃分為四個層次:第一層是數據層,第二層是多維數據庫層MDDB,第三層是OLAP和OLAM,第四層是用戶界面。注:類似Han Jiawei的OLAM體系構造3 數據發掘過程包括:數據選擇,數據轉換,數據發掘,數據解釋。4 數據發掘的方法:聯想,劃分,聚類,預測,順序方式,類似時間序列。5 數據發掘的科學方法數學工具:統計學,決策樹,神經網絡,模糊邏輯,線性規劃。6 個人信譽評分系統是將個人信譽的歷史六個月以上經過45至65個要素的刻劃后表述的決策模型。通常個人信譽評分為350至85
3、0之間。每人從850分起,有壞帳記錄,即扣去不同比例的分數。經過評分模型的分析,最后得到決策評分。850為最好7 評分要素:過去的付帳歷史、信譽欠帳量、信譽卡運用時間、新信譽卡的懇求、信譽卡的類、信譽卡買賣情況、現金提取情況8 運用前景:銀行各類信貸風險分析,企業和個人信譽風險分析2) 如何利用數據發掘工具協助進展市場營銷內容 數據發掘的定義 IBM數據發掘的處理方案 在金融行業的運用主要觀念:1 強調了數據發掘過程,首先必需明確需求處理的商業問題。2 IBM有從數據庫到最上層的發掘工具的一整套商業智能處理方案。3 在銀行運用的層次:信譽評分,購物籃分析,區隔分析,交叉營銷/向上營銷,客戶流失
4、,客戶價值。4 講解了Lift Chart圖的含義3) 數據發掘在金融行業的運用趨勢分析內容 數據管理技術的挑戰 構造化數據發掘運用 非構造化數據發掘運用 金融行業數據發掘運用趨勢主要觀念:1 八十年代初,銀行自動化建立,九十年代初銀行網絡化建立階段,九五末期,數據大集中。2 2002年上半年金融行業IT運用特點:數據大集中平穩進展,“銀聯改善信譽卡環境,電視會議擴展運用,個人理財系統成為新焦點,農信社信息化市場升溫,無線局域網開場運用。3 構造化發掘原理:從現有業務系統中抽取數據業務數據、客戶數據,建立深層次的分析體系數據倉庫、數據集市、業務分析模型,以信息驅動業務的管理、新一代電子商務企業
5、市場觸覺敏感、以客戶為中心、以信息驅動。4 一個比喻:數據倉庫和數據發掘好比一個大的廚師燒菜,開場需求選擇原料,然后,將各種原料加工終了洗、切、剁等等,分門別類的放在廚房,這時候廚房就象數據倉庫。廚師根據這些原料做出菜肴,就象數據發掘得出有意義的知識。5 構造化數據發掘內容:6 人事、財務消費、銷售人事、財務消費、銷售客戶資料數據倉庫抽取過濾轉換市場需求客戶忠實度客戶等級客戶銷售模型分析7 非構造化數據發掘在企業競爭情報系統的運用,企業競爭情報系統將成為下一個數據發掘運用的熱點。8 金融行業數據發掘運用趨勢,在數據集中的平臺上,結合構造化和非構造化數據發掘技術,部署企業的商業智能、客戶關系管理
6、、市場銷售分析、競爭對手分析、市場需求動向等。4) 用友金融行業財務管理處理方案黃偉先生一上來演示了一個FLASH游戲,在多張不同花樣的牌中,讓觀眾記住一張牌,闡明他可以知道一切人記住的是什么牌。然后,他抽去一張牌,再翻開其他的牌,觀眾所記住的牌曾經都不在了。緣由很簡單,他換去了一切牌的花樣,呵斥一種錯覺。黃偉先生用這個游戲闡明,錯覺往往帶來錯誤的決策,引申開來,數據發掘需求有正確的數據,才干進展深化的發掘。引見了用友集中式的財務管理處理方案,闡明必需先搜集這些重要的財務數據,才干進展更深化的發掘。5) CA數據管理技術行業運用途理方案講解了CA公司的情況,以及CA的商業智能處理方案,特出了C
7、A本人研制的一種預測技術。6) 透過數據發掘改善客戶效力中心的管理講解了一些數據發掘概念性的東西,并舉出了那個經典的“啤酒-尿布的案例。7) 金融信譽決策的技術突破數據發掘的運用 引言 信譽周期普通引見 信譽決策的簡化流程 信譽決策技術解析 信譽決策技術的幾個例子 信譽決策技術帶來的利益 中國運用信譽技術的可行方案主要觀念:1 抵押貸款有很多缺陷,信譽貸款都能彌補,所以信譽貸款是好的,是趨勢。2 信譽周期Credit Life Cycle:招商招商Account Acquisition立戶Account Origination信譽決策管理CRM信譽風險,市場管理Risk & Marketing
8、付帳管理Billing & Remittance信譽量管理Line Increase & Line Decrease超支管理Over limit離走管理Attrition促銷管理Promotions定價管理Pricing再授信Reissue 資信金融Securitization收帳Collection & Recoverary3 信譽決策簡化流程外部內部外部內部數據管理Data MGMT決策制定中心執行系統Strategy Execution顧客或潛在顧客作用于Action反響及信息搜集Reaction4 傳統的決策制定中心是客觀制定決策JUDGEMENT,客觀決策存在一些缺乏,數據發掘給決策
9、技術帶來了突破。數據發掘是從廣義的角度講的,包括統計、機器學習、神經網絡等等。5 預測解析Predictive Analytics:信譽評分技術Credit Scoring。 內在了解分析Exploratory Analysis/KDD:模塊識別和相關性分析。 決策建模Decision Modeling:經過圖論方法建立模型,對于給定的一個或多個決策建立數學關系。 戰略優化Strategy Optimization:在給定的一些限制條件下,尋覓改良利潤的最優戰略解。 戰略精調Strategy Refinement:精調最優戰略解,使其穩定可靠,易了解、易執行。外部內部外部內部數據管理Data
10、MGMT執行系統Strategy Execution顧客或潛在顧客作用于Action反響及信息搜集Reaction數據發掘預測解析內在了解決策建模戰略優化戰略精調6 預測解析:針對不同的信譽周期階段和不同的商業目的,建立模型 招商:根據風險的招商模型,懇求模型,價值模型和呼應模型。 立戶:風險壞帳,破產等,離走和利潤定量等。 用戶管理:分檔系統,風險預測系統,壞帳、破產預警系統,債量預測模型,利潤預測模型,欺詐預測模型等。 收帳:前期收帳,后期收帳等。 總體:損失預測,營利預測,最優組合建立,階梯變壞率預測,等等。7 內在了解分析 普通了解分析:變量的相互關系。工具因子分析、主成分分析、聚類分
11、析、關聯規那么等。 特殊了解分析:對給定目的,尋覓奉獻或影響的變量。工具FISHER顯著性檢驗、參數估計、線性/非線性/LOGISTIC回歸、神經網絡、決策樹等。8 決策建模:對于1個或幾個決策建立圖論模型。從而建立起他們之間的數學關系。如以下圖所示:假設,、分別記作 利率、信譽量、債務,那么R收入= FX1,Xn,,L損失= FX1,Xn,,C費用= FX1,Xn,,最大利潤 = R收入max(,) - L損失min(,) - C費用min(,)壞帳模型離走模型壞帳模型離走模型當前債務利率調整信譽量調整債務轉移收入利潤損失和費用9 優化決策和決策精調: 高中高中低高中低高中-2%$1000.
12、00$2000.00-2%$2500.00$3000.000%$0.00$0.002%$-2000.00$0.00壞帳分數離走分數當前債務利率調整信譽量調整債務轉移優化決策和決策精調10 信譽評數技術:例子對偶模型 11 信譽決策技術利益:減少壞帳;添加利潤;效率提升,開銷減少;戰略的公平性和一向性得以保證。12 中國的可行方案 逐漸建立完好的數據庫 人員培訓預測建模技術,決策建模技術,戰略設計技術 逐漸建立決策系統這篇演講是非常有價值的,所以我將其詳細的整理出來。無論對于研討數據發掘或金融模型的學者/學生,還是從現實踐工程設計的工程人員,都有非常高的參考價值。三、 結語在短短的三個半小時內,
13、可以組織這樣一個規模大、內容豐富、偏重運用的論壇,賽迪是功不可沒的。一些可以討論的概念和思緒:1. 數據發掘的定義在提到數據發掘的時候,一些書或者文獻都要強調它與統計和OLAP的區別。我覺得應該從更廣義的概念上來了解數據發掘,它是一門跨越多個學科的技術,只需可以從數據發現有意義的方式,都可以稱為數據發掘。2. 數據倉庫和數據發掘的關系很多人一講數據發掘,首先必需講數據倉庫。數據發掘是從大量的數據中發現有意義的方式。大量的數據并不一定是來源于數據倉庫。由于,這樣會呵斥一種誤解,進展數據發掘工程,一定要先建立數據倉庫。另一方面,數據倉庫的構造,其實并適宜進展數據發掘分析,由于我們都看到,大部分數據
14、倉庫的構造采用星型或雪花型數據模型,這些數據倉庫其實是為OLAP建立的,更適宜進展OLAP的多維分析,而要從事數據發掘工程還需求將數據轉換成數據發掘算法可以識別的數據構造。數據倉庫為數據發掘所做的,應該從數據整合和清洗的角度來了解。也就是說,數據倉庫將不同操作源的數據存放到一個集中的環境中,并且進展適當的清洗和轉換。這點上面李峻博士所舉的廚房的例子是一個貼切的比喻。數據發掘所需求的數據,可以直接從數據倉庫獲得,但是獲得后還是需求進展轉換,假設沒有數據倉庫,就需求直接從操作型數據源中獲取,并且要進展ECTL抽取、清洗、轉換、裝載的操作。因此,沒有數據倉庫也是可以進展數據發掘工程,數據倉庫的構造不
15、是為數據發掘設計的,它更適宜OLAP操作。3. 國內的數據發掘工程現狀國內的金融行業真正從事數據發掘工程的不多,這從論壇的國內報告可以看出。報告的內容主要還是“看想說的步驟。也就是說,看一些資料/文獻/書,再從目前的情況中展開聯想,最后將這些整理的想法構成方案,并報告說出來。我們非常希望,在以后的運用論壇上,可以象林博士舉國外的信譽決策的例子一樣,來講國內的數據發掘案例。從而作到“看想做說。4. 金融行業如何從事數據發掘工程林博士的“中國信譽決策的可行方案是比較貼切的,除了信譽決策,對于其他曾經積累了很多業務數據的系統,都可以參考。利用數據發掘技術,構建決策系統,使得決策來源于數據,而不僅僅是客觀判別JUDGEMENT。金融行業的數據發掘研討,需求多方面的人員的共同參與,包括領域專家、數據管理員、數據分析人員、業務分析人員、數據發掘專家,構成一個團隊,從某一個實踐的問題出發,探求適宜本人企業的一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 線性代數中的向量運算:基于坐標描述的課件
- 《口腔間隙感染》課件
- 建筑項目部人力資源戰略規劃培訓課件
- 初中物理教案力的作用效果課件
- 《軟件工程概念》課件 - 深入解析軟件開發與維護
- 外貿商函專用課件
- 基礎化學物質的鑒別與檢驗 - 課件
- 《中文版世界地理》課件
- 建筑項目部員工晉升與發展培訓課件
- 建筑安全工程施工風險評估與控制策略課件
- 2025屆廣東省廣州市重點中學高考仿真卷英語試題含解析
- 福建省平和廣兆中學2024?2025學年高一下學期3月月考數學試卷(含解析)
- 2025至2030中國民宿行業發展狀況與未來前景預測研究報告
- 2025春季建投國電準格爾旗能源有限公司招聘31人(內蒙古)筆試參考題庫附帶答案詳解
- 2025銀川市輔警考試試卷真題
- 租房養狗合同補充協議
- 電機長期維修合同協議
- 第27課個人信息防泄露(教學設計)人教版(2024)初中信息技術七年級全一冊
- 遼寧省沈陽市2023?2024學年高一下學期期中考試數學試卷(含解析)
- 2025年北京市各區高三語文一模記敘文范文匯編
- 華圖面試協議班合同
評論
0/150
提交評論