2015網賽優秀第一階段題特等獎_第1頁
2015網賽優秀第一階段題特等獎_第2頁
2015網賽優秀第一階段題特等獎_第3頁
2015網賽優秀第一階段題特等獎_第4頁
2015網賽優秀第一階段題特等獎_第5頁
已閱讀5頁,還剩39頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數學建模網絡賽第一階段 關鍵 決策 土地儲備風險度數據挖 K—均值聚 因子分 logistic回 要本文主要運用數據挖掘中的決策樹技術對經過預處理后的土地儲備挖掘數據集中的數據進行分析,發現隱藏在大量數據中的隱含模式,最終得到土地儲備風險。的包括處型而這三部立客戶信用評價系統的成功經驗,在明確挖掘目的的前提下,深入理解數據挖掘、決策樹、數據采C4.5k型、、、、、49、54、66、72、7410(理由見正文)及人 ( 填寫 yInthispaper,weusethedecisiontreedataminingtechniquestoyzedatasetofattaent,wediddatapre-processingjobsbeforezing,andwefindoutmodewhichisbehindthemassivedataset.Finally,weconcludetheriskoflandreserveloansassessmentmodel.Decisiontreealgorithmisaimportantmethodofclassificationandprediction,it'seasy,efficientandexplicit.Thispapermainlytalkaboutthedatacollection,datapreprocessingandhowtobuildthemodel,andthosepartsarebasedondatamining,decisiontreetheoryandthebasicstepofdataminingprocess.Thispaperemphasizethatfinancialderivativeshasnotbeenheavilyinvolvedinland-relatedassetsoftheobjectivesituationofthelandreserveriskmanagement.Firstly,webuildthemeasuremodelingoflandriskreserve,andimportsuccessfulexperienceofbank,underthepremiseofaclearpurposetodeeplyunderstandthedatamining,decisiontree,dataacquisition,datapreprocessing,clustering ysis,andmodelevaluation.Onthisbasis,combiningthisproblemandthecharactersofdata,comparewithalotofmethod,andusetheC4.5decisiontreealgorithmandkaverageclusteringmethodtodataminingand ysisthosedata,Bycalculatethedegreeofriskmeasuresanddecisionsaffectthevaluetodeterminethescoreofeveryattribute,andconcludetheriskoflandreserveishigh.Thelandreserveriskassessmentisaimportantpartoflandreserveprocess,theaccuracypredictionandeffectivenessisdirectlyrelatedtoprofitorlossaswellastheprosperityofthefinancialmarketlandpurchasingandstoragedepartmentsandcreditinstitutions.Thecombinedmodelinpracticalapplicationsforriskcontrol nellandreservecentertomakesomedecisionsloansguidingrole,providingsupportforthelandbankriskcontroly一、問土地儲備風險的影響因素及其影響程度分析:風險的基本含義是指損失的不確定度創新,土地儲備制度還處于發展階段,在其運行中著諸多風險。主要有 占總量的89%,一些地級市土地儲備中銀行 高達95%(,2003)。由此可見,土地儲備的來源和運行風險就成為城市土地儲備工作中的主要問土地儲備中心自有資本金短缺,補充機制不健全土地儲備中心大多為事業編制的事業法人,中心運作所需的啟動一般是由財政注入一定的資本金作為或臨時啟動(于水,)。從整體而言,各地注入土地儲備運作的極其有限,甚至,少數城市因財政拿不出,而由劃撥一定的土地作為中心的啟動“”。中心再以劃撥土地作為抵押向銀行申請進行運作,而無實際投入。土地儲備機構由于自有,補充機制不完善,只好依賴銀行大規模運作,而在運作中自有與信貸的比率偏低,據《浙江省土地儲備工作的調研報告》顯示,有為%占的壓力太大,使土地儲備機構負擔沉重,據,有的城市土地儲備中心一天的銀行利息即達數十萬元。更為重要的是,從現代企業運營來看,單一的融資和畸高的債務(即比例高,期限短,與收購儲備運用存在時間上、期限上的不匹配)是企業的。土地儲備機構的利率風險至關重要由于土地儲備主要來源于銀行,過高的比例給土地儲備中心帶來了沉重的利息負擔,造成了儲備融資狹窄,且本高,風險大。不僅難以滿足城市土地儲備機構在收購城市土地時對的大量需求,還貸后的余額,所以增加量的同時也增加了營業收入不足以償還的可能性。違約風險是指儲備土地出讓或出租過程中,由于受讓者或承租者財務狀況而使土地投因讓各本,性二、問并從數據挖掘和風險度量模型的角度,造成這10個項目風險較大的原因。我們研究的內容主要包括、數據預處理以及模型的建立,而這三部分又是基于數據挖掘以及決策樹的相關理論,根據數據挖掘工作的一般步驟展開的,針對以及數據的特點,通過各種方法的分析與比較,用適合的和預處理方法對數據庫C4.5k個取值的分數值,得到土地儲備風險評估模型。最后使用剩余的一部分數據作為測好幾層含義:數據源必須是真實的、大量的、含噪聲的,發現的是用戶感的知識,發現的知識要可接受、可理解、可運用,并不要求發現放之四海皆準的知識,僅支持特數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務業同企非其價卻因石中淘金一樣,數據挖掘也因此而得名。因此,數據挖掘可以描述為:按企業既定業務目挖掘的目標是從數據庫中發現隱含的、有意義的知識、主要有以下5類功能:分析的目的是找出數據庫中隱藏的關聯網,有時并不知道數據庫中數據的關聯函數,即時不僅考慮對象之間的距離,還要求對劃分出的類具有的某種內涵進行描述,從而避免概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對之間的與知識應用這幾個階段,圖21描述了數據挖掘的基本過程和主要步驟:輯輯選擇處理轉抽息同選轉挖分搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘的數據,集成和合并數據到單一的數據挖掘庫中,并協調來自多個數據源的數據在數值上建立土地儲備評分模型:通過對數據的挖掘,對土地儲備方案的不同類別屬性給予不同分值,得到可以量化的土地儲備評分體系,從而可以從挑選土地方案的角度防止的發生。為了達到這個目標,首先根據土地儲備方案的信息,土地儲備項目可研報將經過結論解釋得到的信息作用于土地儲備風險評估,將作用后得到的反饋信息作我們研究的土地儲備信用風險評估的問題屬于分類問題。而對于分類問題,分要求是樣本量少并且要求數據的完整性,所以針對海量數據和不十分完善的數據,基于為輸入層、輸出層和隱含層,如圖22所示:331625除了輸入層的節點,神經網絡的每個節點都與很多它前面的節點連接在一起,每個連接對應一個權重Wxy,此節點的值就是通過它所有輸入節點的值與對應連接權重乘積的和6權重就是在建立神經網絡時要做的工作。神經元網絡和統計方法在本質上有很多差別。13(93可以發現交互作用的效果(如和的組合效果)。神經網絡的缺點是不易用它的權表不同的類別。由于分類規則是比較直觀的,因而此法比較容易理解,決策樹類似中的樹結構,其中每個內部節點表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節點代表類或類的分布。決策樹提供了一種類似在什么條件下會得到什么值這類規則的方法。比如,在申請中,要對申請的風險做出判斷"決策樹的基本CART沿著決策樹從上到下遍歷的過程中,在每個節點都會遇到一個問題,對問題的不同回答利用幾個變量(每個變量對應一個問題)來判斷所屬的類別(最后每個葉子會對應一個類對比這三種分類方法,結果列表2l所示:表2— 分類方法比差差好強弱強一個分枝對應屬性的一個,每個葉子結點則代表一個類或類分布。從根結點到在領域常用決策樹來分析數據并作出結論.例如,銀行在個貸業務中,可先算法采用信息增益作為屬性選擇的度量標準。后來,他又提出了改進版本C4.5算法。該算ID3C4.5算法采用信息增益率作為屬性選擇的度量標準,S是s個數據樣本的集合,假定類標號屬性具有m個不同類ii1,, si是類CiI

plog2(ps1

i

iip是任意樣本屬于Ciii

Si/設置屬性A具有V個不同的值a1 av,,...,用屬性A將S劃分為V個子s1s2svSjAaA(既 vE(A)is1j

s1j I(s1j,...,smj

其中 I s p 2(s i pijsijsjsjCi的概率。在A上劃分獲得的信息增益為:Gain(A)Is1,s2,...,smE( S的測試屬性,并由此產生相應的分支結點。ID3Ratio(A)Gain(A)/E( S的測試屬性,創建一個節點,并以該屬性標記,對屬性的每個值創建分枝,并且據此Ar和Ar,r 尋找最優的 的方法是ArA1A2)/2作為分割點(假nn1個分割點每個分割點都可將訓練集劃分為兩個子集,劃分后所得的信息增益Gainr,線性掃描r1r2,...rn1,比較所有可能的分割點,使得 信息增益率,選出信息增益率最高的屬性,然后按照該屬性的分割點,將當前樣本分為兩個子樣本集。對子樣本集采用同樣的方法繼續分割直到不能再分割或達到停止條件為止。C4.5處理空缺屬性值的方法是:在計算系統整體的不確定時,只根據那些已知測試含空缺屬性值的樣本按照一定的算法劃分為幾個子集,然后把那些丟失測試屬性值的樣本按照一定的概率分布到各個子集中,子集中含有空缺測試屬性值的樣本與有測試屬性值的樣本保持一個比例關系。在對含有空缺測試屬性值的未知實例進行分類時,C4.5該實例通過所有的分支,然后將結果進行合并,使它成為在類上的概率分布而不是某一NT由于C4.5某些異常,而這些異常通常在總體樣本中并不出現,從而導致決傾向于過度擬合(Overfitting)這個缺陷可以使用一種悲觀估計來補償,即選擇一組獨立于訓練樣本集本決。以允許訓練樣本集中出現屬性空缺的樣本,生成的決的分枝也較少。從理論上決的構決決23歸納決規用練據剪剪進行概化以及處理含空缺值的屬性,形成決的訓練集。對訓練集進行訓練,計算每個屬性的信息增益率,選擇信息增益率最大的屬性作為當前的主屬性節點,為該屬性的每一個可能的取值構建一個分支。對子結點所包含的樣本子集遞歸地執行上述過程,直到子集中的數據記錄在主屬性上取值都相同,或沒有決。對初始決進行樹剪枝,主要采用后剪枝算法對生成的初始決進行剪枝,由所得的決提取分類規則,對從根到樹葉的每一條路徑創建一個規則,形成系統運用決所得規則對新數據進行分析,預測該數據的類別,幫助銀行進行決構造的輸入是一組帶有類別標記的數據集,構造的結果是一棵二叉或多叉iiDD的子集,葉節點對應的數據集是純的訓練子集(數據屬于同一類),樹的葉子節點都是類別標記。構造決分為兩步:決的生創建一棵決可以遞歸地實現。首先,使用之前介紹的知識計算各屬性的信息增益率,選擇信息增益率最大的屬性作為根節點,然后把該屬性的每一個可能的值作為子個過程可以遞歸地應用到每個子樹上進行進一步的劃分,在任何時候,如果子集中的所{For(R{{A1=min(Ri);//A1為R1Am=max(Ri)://Am為RiAj=A1+j*(Am一A1得到基于{<=Aj,>Aj}分類的最大增益Gain(RiS}DRGain(D,S)|j=1,2m}|j=1,2…m}C4.5(R2{D},C,S1),C4.5(R2{D},C,S2),.二}現實世界中的數據一般有缺值,不完整,確和噪聲等,剪枝是一種噪聲的技術,同時也能使決得到簡化,變得更加容易理解"得到了完全生長的初始決后,為了除去噪聲數據和孤立點引起的分枝異常,C4.5采用后剪枝算法對生成的初始決進行剪枝。決的剪枝通常是用葉結點替代一個或多個,然后選擇出現概率最高的類作為該結點的類別,在C4.5中還允許用其中的樹枝來替代。二項分布BcfE,N),該二項分布為實例的誤判概率。N個實例判斷錯誤數為N*Ucf(EN。對于生成的決,可以直接從中提取規則"過程是將決轉化成比較直觀的規IFTHEN形式表示,每條規則都是一條從根到葉節點的路徑,葉結點表示具體的結論,而葉結點以上的結點及其邊表示的相應條件的條件取值。從決到決策規則的轉換如圖3一3所示:類類類轉圖2一 決到決策規則的轉數和類選定,構造和修剪決,進行分析和評估,生成分類規則等步驟后,完成分類挖三、模型一的建立求解與結論分前面的內容中我們已經介紹了本研究的理論基礎,現在開始,把理論應用于實際,具體介紹土地儲備風險評估模型的構造過程。而模型的構建必須建立在數據之上,這部分我們通過及數據預處理,得到適合挖掘的土地儲備挖掘數據從土地儲備項目可研報告中提取數據,并將它們為數據挖掘算法可以處理的模式。對于土地儲備項目可研報告來說,數據表很多結合本文研究的問題,經過分析得到5個與本研究有關的數據表:擬收儲地塊情況統計表、案例情況表、土地供應情況調查表、土地一級市場供應情況表、近年土地收儲情況表。然后,抽取各表中對本研究的數據庫中存在3922掘顯然是不合適的。我們使用隨機序列發生器,從土地儲備數據中隨機抽取一部分作為本研究的樣本數據,另外一部分將被用來測試。這種在數據挖掘的過程中采取隨機取樣的方式從原始數據中進行數據取樣的方法被認為是一種比較簡單有效的張反映土地儲備需求的二維關系表,稱之為土地儲備處理數據集。這個集合共有74條記錄,每條記錄由36個字段組成,分別是:收購儲備面積、財務內部受益率、動態回收周期、項目投資總額估算、申請額度、銀行額度、涉及拆遷補償人口、項3指標數據類型Reserve連 型連0.1241-連1- Applyfor申請額型銀行額連離0-離1 型landarea連 Thefirstlandtransfer連0.3e連Secondyears連續 land型Secondyear landtransfer連0.7Secondyeare型thecash連Thecash連0Netcash(-80000)-(- cashflow連(-80000)-(- netcashflow連(-80000)-(-Thefirstannualcashflow連Thefirstannualcashinflows連Thefirstannualnetcashflow型discounted型Thefirstyear cash型(-41237)-(-cashoutflow連0cashinflows連Secondyears連netcash續型Secondyears 連Thesecond cashflow連Landacquisitionanddevelopmentcosts3%internalrateof0.1171-Landacquisitionanddevelopmentcosts3% - (-Landrevenue3%internalrateof0.1170-Landrevenue 連 - (-Expected一個完整的數據挖掘系統必須包括數據預處理模塊。它以發現任務為目標,以領域據,從而減少挖掘內核的數據處理量,提高挖掘效率,提識發現的起點和知識的準確數據挖掘算法對要處理的數據集合一般都有一定的要求,比如數據的完整性要好、數據的冗余要少、屬性之間的相關性要小。然而,實際系統中的數據一般都具有不本研究中,土地儲備處理數據集中的數據必須轉換成適合數據挖掘算法的形式。但由于申請表是由申請人和銀行信貸人員手工記錄的,這就會存在記錄錯誤,它們多由筆誤造成。而數據庫錄入人員為非銀行信貸專業人員,對于一些屬性值的明顯出入不發現,同時錄入時偶爾也會將原本正確的數據輸錯,使得數據具有噪聲。帶為模板,所以對記錄項的取舍以及的詳略程度有差異,有些認為沒有用或用處不大的數據項,他們就會不作記錄或作簡要的記錄,那么有些統計值就會為空,缺損率會很高。土地儲備數據集中的數據具有數量大、記錄形式不夠統一、大量缺省值存在、余特征來消除多余數據,從原有大數據集中獲得一個精簡且完整的數據子集,節省挖掘這里將根據土地儲備數據信息的實際特征,對到的處理數據集中的原始數據使用適合的方法進行預處理,生成適合挖掘的目標數據,使其滿足下一步數據挖掘工平均值,用來替代遺漏值。土地儲備處理數據集中,“敏感性分析表”有4條有空缺值,照“增減幅度”,給予平均值。當所計算出的平均值是噪聲數據時,采用線性回歸的利用多元線性回歸處理噪聲數據。在顯著性水平0.05數均為顯著的,說明X13,X16整體上對X36屬性,有是負數的記錄,共有16條,手工改寫噪聲數據。比如與原稿校對,或者采用軟件工具來發現約束條件的數據。0,1數據集中,存在同一申請土地在同一時期或不同時期有多土地的情況,而本研相應的合并記錄函數,合并記錄,結果共刪除4條冗余記錄.2方法 2統計檢驗是對提供樣本的頻數分布的總體分布是否服從某種理論分布或某種假信息增益屬性間的相關性。除上述兩種方法外,本研究還通過前面己經介紹過 3-1:第一年與第二年土地出讓面積是

序第一年出讓土地+第二年出讓土收購面積-出讓總面第一年出讓總面積/總收2-10307-409800005060000000000-0000.0000 00X1、X2、X3、X4、X8、X9、X11、X12、X14、X17、X22、X31、X35、X36143-----1--0---------------<o----11-------1---------------1----13-3-相關矩收購儲備(戶量度元0---007---64---3-5---1----4--6--1--815--6--9-------0443---4---4----------111S.01000000902420411009010414005繼續對列去噪,得到X1、X2、X3、X4、X8、X9、X17、X22、X31、X35、X3611X35、X36共8列。 過選擇較小的數據表示形式來替代原數據以減少數據量.在過程中,本文選擇并構造了與挖掘目的有一定關系的屬性,且通過屬性冗余的處理,刪除了與挖掘任務不相關或弱相關的屬性,己經基本實現了土地儲備處理數據集屬性及數據塊約簡的目值域范圍內設定若干個離散化劃分點,將屬性的值域范圍劃分成一些離散化區間,再用號代個性分較替始泛化使得細節丟失,但泛化后的數據更有意義并容易理解,有助于挖掘不同抽象層次的3-指標屬性標屬性名預處理方Reserve收購儲備面積低=收購儲備面積中=收購儲備面積高=財務凈現值低=財務凈現值中=財務凈現值高=將涉及到的拆遷補償人口分為有拆遷人口無拆遷人口=有拆遷人口=將項目規劃用途較少的屬性樣本歸類到其 當年現金流出低=當年現金流出中=當年現金流出高=Landrevenue3%Increaseor增減幅度低=增減幅度中=增減幅度高=Expected預期收益低=預期收益中=預期收益高=對屬性列為:X1、X2、X3、X8、X9、X17、X35、X36共8列,進行因子分析和提取主成分的工作。分別得到相關矩陣、碎石圖、成分矩陣、成分圖等。接著對8個屬性值進行3-相關矩收購儲備面積()凈現值()內部受益率()拆遷補償人口項目規劃用當年現金流收入-3預期收益(萬相關收購儲備面積(平方--財務凈現---財務內部受益率---涉及拆遷---項目規劃-----當年現金--土地收入---預期收益---(收購儲備面積(財務凈現財務內部受益率涉及拆遷項目規劃當年現金土地收入預期收益)3-)公因子方涉及拆遷補償人口3-解釋的總%%12345692797803-)3-)成份矩陣1234米----------a.4無3-)3-)成份得分1234米----------3-成份得分協方差矩12341234)3-)初始聚類1234...涉及拆遷補償人口0---)3-)最終聚類1234...涉及拆遷補償人口8---2)3-)F7653283033涉及拆遷補償人口333333.3-每個聚類中的案例123474個樣本去噪,發現樣本、、、、、、3-3-19494現實含義是從每個屬性獲得的信息量,代表該屬性對結果類劃分貢獻的大小,而信息增息增益率太小的這兩個屬性,只對其他屬性進行分析,構造決。 決的分析結果表明當年現金流出是決分枝的最重要因素,次為項目規劃用計算出各個項目的風險大小,下表為由配合決統計出的十個風險最大項目。1223474849

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論