




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Z市建筑物尺度人口估算實證研究目錄TOC\o"1-2"\h\u4381Z市建筑物尺度人口估算實證研究 118038摘要 129647第一章緒論 2224081.1研究背景 2115861.2研究現狀 373781.3研究內容與技術路線 4249851.4本章小結 526576第二章理論基礎與研究數據 6273222.1研究區概況 6101752.2理論基礎 7194762.3數據來源 817492.4數據預處理 13290602.5本章小結 1627149第三章基于隨機森林的人口估算模型 17313323.1隨機森林算法理論基礎 17124133.2實現過程 1966633.3人口估算建模 21139163.4人口估算結果 2285003.5人口估算結果精度評價 232793.6本章小結 248286第四章模型解釋與分析 25258944.1特征重要性分析 25206474.2特征貢獻分析 26152384.3本章小結 288691第五章結論與展望 29112645.1研究結論 29324015.2研究不足與展望 2931394參考文獻 30摘要隨著我國城鎮化建設的穩步推進,城市人口也在不可避免的持續增長。在這個發展背景下,實現城市的人口分布監測,對城市的資源分配、生態維護和建設規劃等多方面都有著重要的意義。本文以鄭州市為研究范圍,使用POI數據(PointofInterest,興趣點)、夜間燈光數據等與人口分布息息相關的要素通過構建隨機森林人口估算模型得到了鄭州市的人口分布數據并依據特征重要性評價了模型的精度。主要探究成果為下面兩項:(1)經過數據預處理后提取出POI興趣點數據、珞珈一號夜間燈光數據和街道建筑物的輪廓特征,然后基于隨機森林回歸算法建立估算效果較優的隨機森林人口估算模型。該模型輸出鄭州市人口分布數據,與實有人口數據進行對比。模型精度良好;(2)在完成隨機森林模型的訓練及輸出人口估算結果后,運用特征重要性指標定量分析了各個特征在人口估算模型之中的重要性,并評估模型精度提升的方向;(3)探究各個特征對最終估算結果基于特征值的特征貢獻。思考產生誤差的隱含原因和改進目標。該人口估算方法是基于常見的數據能以較短的時間成本得到相對準確的人口分布數據,提供了獲取人口分布數據的新方法,為人口分布監測提供了新思路、新渠道。關鍵詞:人口估算;隨機森林;夜間燈光遙感數據第一章緒論1.1研究背景在近四十年以來隨著國家城鎮化建設的不斷邁進,我國的城鎮化率從1978年的17.9%增長到了2020年的60.60%。隨著改革開放和城市建設的推進,城市人口的增加也使得城市的生態、經濟、發展等方面產生相互影響。人口的分布狀況影響著城市的生態建設、城市建設以及資源分配等多方面問題,而城市的生態建設和城市建設又反過來影響著人口的分布。所以,在城鎮化建設如火如荼的當今,能以較短得時間、人力成本較低的方式獲得相對準確的人口數據,對城市的建設規劃和生態環境維護等方面都有著深遠意義REF_Ref27954\r\h[1]。目前,最為主要的人口數據獲取方式是十年一度的人口普查,其數據真實、完整。但人口普查數據獲取的時間間隔過長,無法刻畫普查間隔期內的人口數據,難以滿足更短時間的人口變化和更小尺度的人口統計研究。所以,要想獲取相對準確、過程簡潔的人口數據就得借助于地理信息系統和遙感數據等新技術。基于GIS和遙感得發展,我們可以較為容易得獲取許多與人口分布有關得數據其人口分布數據,也可以更加直觀得將抽象數據分析和展示出來。當前這一領域得研究主要集中于格網尺度得人口估算和街道建筑物尺度得人口估算。其中格網數據擁有計算便捷、規則性強等優勢的同時也有著對自然地物的分割的缺陷,相對難以刻畫真實人口分布狀況。相對而言,街道建筑物尺度更能反映人口分布得真實區域,故而本次論文選用街道尺度能夠真實刻畫人口統計情況。在上述背景下,生成以街道為基本單位的人口分布數據成為了一個亟待解決的問題。目前也有一些能夠準確反映人口聚集的數據分別從不同的維度刻畫了人口的分布信息,為人口估算的研究提供了必要的資源。1.2研究現狀近年來,地理信息系統和遙感技術取得了長足發展,我們可以輕松獲取到諸如路網水系、POI數據以及土地利用等與人類分布密切相關的數據,也可使用各類遙感數據派生出許多與人口分布模式相關的因子,如建筑物密度、建筑物容積率、綠化覆蓋率等。這些數據和因子有助于我們從更多不同的角度來描述人口分布。其中不同的土地利用類型影響著人口的分布,如居住地與水域山地的人口分布是截然不同的,與此同時,交通方便與否、房價與收入比例合理程度以及城市建設等多個因素也同樣影響人口的分布。所以人口分布本身就是一個超多因素影響得復雜模型。現提出一些已有的主要人口估算模型如下;國內外早期的人口估算方法是應用區域插值。其輸入人口統計數據,經過不同空間單元之間的區域變換,變換前后的空間單元分別標記為A、B區域。A區一般為行政區劃單元,B區更低一級的行政區劃單元或特定分辨率的格網單元。區域轉換一般是運用區域插值將A區數據轉換為更精細的柵格數據,再將它們聚合或分解到B區中。區域插值受A區域聚合或分解操作的誤差影響,其準確度在很大程度上取決于如怎么樣去定義A區和B區,所以受認為影響較大。插值過程中的泛化程度以及分區表面的特征。隨著近些年地理信息系統、遙感技術和機器算法模型的發展,我們可以獲取到更多的與人口分布密切相關得空間數據和更有效估算方式,在這個基礎上,人口估算方法已經從最開始的人口數據空間化向人口估算模型轉變,運用估算模型來評估人口和受其影響的各個變量之間的關系,最后再通過該關系直接應用于變量來獲取相對準確的人口數據。估算模型辦法能夠較為便捷的獲取相對準確的人口分布數據,但其也存在忽視的問題,例如與人口關系復雜的變量難以刻畫,或者與人口關系是否存在的變量難以確定等新問題。基于此,機器學習的人口估算方法應運而生,在數據中尋找規則,學習到人口數據與各種變量之間的復雜關系并變現出來。如一些較難刻畫的人口與變量的非線性關系可以通過機器學習的算法實現,故而機器學習可以完美解決上述兩個統計模型的遺留問題,是當前人口估算研究的前沿REF_Ref28251\r\h[3]。1.3研究內容與技術路線本節在總結前人研究經驗的基礎上提出讓隨機森林人口分布估算模型的研究基礎理論和實現路線方法。1.3.1研究內容通過對人口估算辦法理論和隨機森林等集成學習算法的學習來對鄭州市人口分布做一個有依據和理論支持的成果。大量搜集既往研究成果學習并綜合研判,對自身研究論文做出理論補充和合理規劃;分析客觀事實并得出結論,對理論和技術部分做合理歸納并分析其因果關系并從而得到結論。1.3.2研究方法根據當前人口估算研究的辦法,本文致力于運用常見的和盡可能簡單的數據來刻畫相對準確的鄭州市人口分布。基于此,本文的研究內容如下;(1)本文運用POI數據、夜間燈光數據、行政區劃數據等表述人口分布的變量數據并提取其特征,為接下來的機器學習建模訓練建立估算模型提供數據支持。(2)運用隨機森林回歸算法,結合基于夜間燈光遙感影像、POI數據及街道區劃數據構建的特征,將鄭州市街道尺度實有人口數據作為驗證數據,將數據按照8:2的比例分為訓練數據和測試數據對人口估算模型進行訓練和建立,使模型精度達到相對準確。最后建立一個結合多變量的鄭州市人口估算模型,直接向模型輸入變量,從而得到鄭州市人口分布估算的結果。將模型輸出的人口分布估算結果與普查人口數據做對比,并作出模型精度方面得評價。(3)評估人口估算模型中各個主要特征的重要性,以及各特征對最終得人口估算模型輸出的人口估算結果所做出的特征貢獻。1.3.3技術路線本文在提取到有關人口分布信息的特征數據之后,與實有人口數據合為原始數據集參與建立隨機森林人口估算模型,具體技術路線如圖1.1。圖1.1技術路線圖1.4本章小結本章首先闡述了人口數目及其分布與城市建設等方面的相互關系,指出其緊迫性和重要性,然后解釋了人口分布估算模型建立的必要性和可行性,在其基礎上總結了之前學者在人口估算方面的經驗和方法,進而提出本次論文所采用的人口估算辦法——隨機森林人口估算模型以及其基理論和技術路線。第二章理論基礎與研究數據2.1研究區概況本文選取鄭州市作為研究區域。鄭州市是河南省省會、特大城市、中原城市群核心城市。常住人口1260萬人是河南省省會、特大城市、中原城市群核心城市,國務院批復確定的中國中部地區重要的中心城市、國家重要的綜合交通樞紐,如圖2.1所示,截至2021年,全市下轄6個區、1個縣、代管5個縣級市,總面積7567平方千米,常住人口1260萬人,城鎮人口987.9萬人,城鎮化率78.4%。2020年地區生產總值12003億元。圖2.1鄭州市區劃2.2理論基礎2.2.1鄭州市人口分布鄭州市作為河南省省會,準確及時地獲取其人口數據對城市建設和資源調配等方面具有深遠意義。其人口主要分布于市區、市區東郊和新鄭市,在市區北部和西部人口密度較低,關于鄭州市相對準確的人口估算成果而查找過往研究資料發現,學者何克福和李娟從GDP影響人口分布的角度結合DMSP夜間燈光數據研究了鄭州市的人口分布估算模型。但從其他角度或者更優的算法模型探究鄭州市人口估算的課題還鮮有人涉足,而本文將基于前輩所做的人口估算工作經驗提出了一種準確性更優的人口估算模型。2.2.2地理信息系統地理信息系統是強大的空間信息技術,其結合了地理學、遙感及計算機科學多學科,可以快速準確的輸入、分析、查詢、存儲、輸出地理數據因而在愈多領域取得了廣泛的應用。依靠GIS技術可以對相關的研究對象進行空間特征的相關分析,其可視化的特點也可以對分析對象和輸出結果做可視化表達,地理信息系統把這種獨特的視覺化效果和地理分析功能和一般的數據庫查詢分析等操作集成在一起。從而讓人更加直觀的了解到相關內容,為相關決策和發展預測提供技術支持。基于地理信息系統強大的功能,本次論文運用地理信息系統分析處理了能夠表現人口分布相關的夜間燈光數據和POI數據,完成了夜間燈光影像的亮度、坡度和曲率提取以及POI數據的合并分類工作,并根據隨機森林人口估算模型的所需提取了上述數據在尺度上的特征數據。最后對人口估算模型輸出的結果進行可視化分析。2.2.3隨機森林算法隨機森林算法是集成學習算法的一種,于1995年被最早提出,其源于bagging算法,隨機森林顧名思義以“隨機”和“森林”為特點,“隨機”意思使對特征數據隨機采樣,“森林”的意思是組合多顆決策樹,使各顆決策樹的結果相互彌補從而避免了結果的局限性,使最終估算結果準確性更高。所以隨機森林算法天然就比單一算法具有更高的精度,抗噪聲能力和避免過擬合方面因為訓練數據和隨機數據的劃分而產生兩個隨機性的引入也比一般算法更具優勢。除此之外隨機森林能夠處理高維特征的輸入數據并不需要降維,也能評估各個特征在問題上的重要程度以便于后續改進。尤其使在對各個特征數據與人口分布之間的關系不甚清楚的情況下,隨機森林可以完美的避開這一點而建立相對準確的估算模型,是探究人口分布的優秀工具REF_Ref28402\r\h[7]。2.3數據來源本文使用的數據包括珞珈一號夜間燈光遙感影像、POI數據、鄭州市街道區劃數據、鄭州市街道尺度實有人口數據和鄭州市建筑物矢量輪廓數據。2.3.1珞珈一號夜間燈光遙感影像本文選用夜間燈光遙感影像可以變現人口分布的狀況,其由于檢測范圍大以及時空分辨率高等優勢正成為探測人類活動信息的關鍵數據。例如人口估算、建成區監測、GDP估算以及多個社會經濟方面的監測。夜間燈光影像記錄的燈光強度、曲率和坡度等信息與人口數量有正相關關系,過往的研究表明了夜間燈光和人口數量之間存在的關系,也開發了其他表征人口數據的變量結合夜間燈光數據估算人口分布數據的新方向。目前監測人口活動分布廣泛使用的有DMSP/OLS和NPP/VIIRS夜間燈光遙感數據,這兩種數據的空間分辨率相對珞珈一號存在不足,只能在較為宏觀的角度來刻畫人口。隨著珞珈一號的升空,在空間分辨率方面取得較大提升,相比前兩種夜間燈光數據,其更有利于反映小尺度省的人口分布估算。如表2.1所示對珞珈一號、DMSP/OLS及NPP/VIIRS三種數據的參數進行比較,可以看出在空間分辨率方面的區別。珞珈一號是武漢大學與相關機構共同研發的夜光遙感衛星,于2018年6月升空,彌補了我國在夜間燈光數據獲取方面的不足。它是中國第一顆專注于夜間燈光遙感的衛星,也是目前國際上第三顆具備夜間燈光數據拍攝能力的衛星,具有重要的價值和意義。珞珈一號01星重量22千克,采用大相對孔徑像方遠心光學系統、大像元高靈敏成像器件等,珞珈一號改進前代產品以使其能夠獲取較高精度的夜間燈光影像。珞珈一號的夜間動態范圍高達14位,空間分辨率約為130米,圖幅為250公里,優于美國國防氣象衛星。珞珈一號衛星可以為人口、GDP等社會經濟指標、生態建設維護、城市建設以及公共衛生等多方面提供數據支持,使我國遙感衛星從地表檢測轉向社會經濟發展檢測具有重要意義。本次所用影像如圖2.2所示,該數據在湖北數據與應用中心可以免費下載REF_Ref27954\r\h[1]。表2.1DMSP/OLS、NPP/VHRS和Luojia1-01參數對比DMSP/OLS NPP/VIIRS Luojia1-01發射機構美國國防部NASA武漢大學波長范圍1992年-2013年2011年至今2018年至今軌道高度830KM830KM645KM空間分辨率2.7KM742M130M幅寬3000KM3000KM260KM重訪周期12小時12小時15天在軌定標否是是圖2.2鄭州市夜間燈光遙感影像(珞珈一號)2.3.2POI數據POI數據中文翻譯是興趣點數據,其在地理信息系統中可以代表一個房子、一個公交站、一個商鋪等地理實體,一般應用在導航地圖中。而在人口分布估算的實驗中,POI數據也是一項可以突出人口分布空間差異的數據,作為地理實體的一種抽象表征數據,無論是二維的、三維的、真實的、虛擬的,都能抽象成一個零維的點。另外POI數據還具有多種優勢,例如數量多、信息豐富等都可以作為反映人口分布的輸入數據用以彌補夜間燈光數據刻畫人口分布的片面性。每個POI數據包含四方面信息,即名稱、類別、坐標、分類,一般按照一級分類和二級分類與相應的行業或名稱對應如表2.2所示。由于其特點和優勢,POI數據被廣泛應用于導航、城市結構和城市功能區分析等地理現象的研究REF_Ref28656\r\h[2]。本文所用POI數據來自數據云平臺,如圖2.3所示。是由中國科學院地理科學與資源研究所建立的數據中心,所采用鄭州市POI點數據共計17萬余。在研究區鄭州市共提取到POI數據分為十余類,根據中國土地利用分類標準,將POI數據重新劃分為商務住宅、商業服務、公共服務余交通運輸共四大類,POI數據記錄了這些地理實體的名稱、地址、坐標以及類別編號。圖2.3POI數據表2.2POI數據類別類別編號一級類別二級類別1商務住宅居民小區賓館酒店餐飲服務購物廣場2商業服務會展中心金融服務休閑娛樂公共設施3公共服務生活服務醫療服務運動健身政府機構4交通運輸交通設施汽車服務2.3.3鄭州市街道區劃數據在建立估算模型和結果可視化的過程中,需要對學習數據做一個基本單元的分類提取與展示,故而本研究使用街道區劃數據作為人口數據空間化的基底數據,數據采集于2019年,其記錄了鄭州市199個街道信息包含名稱、編號、位置等字段。將作為影響人口分布的變量特征提取和人口空間分布可視化的基底數據來使用。數據來源于BIGEMAP地圖下載器。2.3.4鄭州市第六次人口普查數據隨機森林建立估算模型需要真實數據作為建模前的學習數據和估算結果的驗證數據,所以本文采用鄭州市實有人口數據作為本實驗中的機器學習輸入數據和人口估算結果的驗證數據,來源于國家統計局官網,從第六次人口普查數據中裁剪所得。記錄了2010年鄭州市各街道區劃內常住人口數量,字段包括人口總數、男/女人口數、未成年人口數、成年人口數以及65歲以上人口數據。在后續的模型建立過程中,將實有人口數據作為模型的輸入數據和估算結果的驗證數據。本文所用人口數據及其字段如表2.3所示。表2.3鄭州市實有人口數據字段名字段類型備注FIDString記錄編碼所屬區縣String記錄所在區縣名稱所屬街道String記錄所在街道名稱經度Double記錄中心點經度緯度Double記錄中心點緯度某年齡段男(女)人數Long記錄特定年齡段特定性別人口數,如“男人/女人(四個字段)數”、“未成年數”等合計Long記錄街道內常住人口數量2.3.5鄭州市建筑物輪廓數據本文使用了建筑物輪廓數據作為建筑物特征,通過人工目視解譯高分辨率遙感影像所得。鄭州市共計12萬余建筑物面狀要素,包含面積、樓層、編號字段,刪除面積為0的四千多個數據后投入使用。該數據來源于博文測繪GIS服務中心。2.4數據預處理2.4.1實有人口數據與行政區劃數據匹配在隨機森林建立人口估算模型的過程中,需要統一單元作為最終估算結果可視化的單位,并且需要各個單元的人口數據作為機器學習的輸入訓練數據和結果檢驗數據,所以在空間上兩者需要達到一對一匹配的處理。而實際獲取到人口數據有183個,街道區劃數據有199個,并非一一對應,有的街道有多個人口點,有的街道無人口點。主要原因是(1)人口數據是2010年第六次人口普查結果,而街道區劃是2019年的數據,十年來有一些新成立的街道未進行人口普查故而無人口數據,也有一些之前存在的街道改名或分解導致數據無法匹配;(2)人口數據和街道數據的統計單位不同,導致坐標不統一而出現人口點與街道面之間的偏移現象。以街道行政區劃數據的空間位置為基準,經過兩項處理使得人口點數據和街道數據建立一對一的關系。(1)對于無人口普查數據的街道根據互聯網搜集最新人口數據或根據周邊街道人口數據進行合理估算。對于存在人口數據但無對于街道面的點,選擇刪除;(2)對于人口點和街道面出現偏移的情況采用手動修改人口點坐標的方式平移至對應行政區面中心。經過這兩項處理,實現了199個人口點與199個街區面的一一匹配。2.4.2特征提取在隨機森林建立鄭州市人口估算模型的過程中,決策樹的生成和分裂都需要特征數據作為樣本來采集。特征是某一類對象與其他類對象有所區分的相應特點,或這些特點特征的集合。對本次隨機森林建立人口估算模型而言,需要提供不同單元的各個特征用于機器學習和訓練。在特征選取之前,我們不知道每一個屬性特征的重要程度甚至有用與否,為了使得最終的人口估算結果相對準確,本著應有盡有的原則,選取了與人口分布數據關聯性各異甚至可能不相關的各種特征,以便于后續的模型訓練和學習REF_Ref28728\r\h[4]。城市人口的數量及其分布一般偏向于環境良好、資源豐富的地區,與各種社會經濟指標有較強規律。故而一般認為,通過觀察夜間燈光數據,其亮度的強度和面積能夠部分反映人類經濟活動的強弱也能側面反映出人類的分布情況,但人類的聚集是個復雜的分布,受多方面因素影響,例如房價收入比例、生態文明建設狀況、地區發展前景等,所以在采用夜間燈光數據作為刻畫人類分布的輸入數據之外我們繼續引入POI數據作為地理實體的分布來反映人類分布情況,這兩類數據可以相對準確的反映出區域內人口的分布。圖2.4夜間燈光影像坡度首先通過將夜間燈光遙感數據裁剪出鄭州市范圍,再運用地理信息系統得到其坡度和曲率數據,如圖2.4所示為夜間燈光影像坡度,最后根據現有行政區劃提取相應的燈光特征。對先前做好分類工作的POI點數據進行核密度處理,對得到的柵格數據同樣根據現有行政區劃提取至相應單元。最后選取了各行政區內的建筑物特征作為補充,數據有建筑物面積和高度。數據處理后得到共計二十多個特征。街道建筑面積、夜間燈光輻亮度MIN、夜間燈光輻亮度MEAN、夜間燈光輻亮度MAX、夜間燈光坡度MIN、夜間燈光坡度MAX、夜間燈光坡度MEAN、夜間燈光曲率MIN、夜間燈光曲率MAX、夜間燈光曲率MEAN、商務住宅MIN、商務住宅MAX、商務住宅MEAN、公共服務MIN、公共服務MAX、公共服務MEAN、商業服務MIN、商業服務MAX、商業服務MEAN、交通業務MIN、交通業務MAX、交通業務MEAN、*特征名稱中的MEAN表示均值,MIN表示最小值,MAX表示最大值。2.5本章小結本章首先介紹了研究區域鄭州市的基本情況以及所用人口估算方法的基本數據及其來源,著重介紹了各數據在模型建立過程中所承擔的作用和貢獻。之后介紹了數據處理方面的基本理論和處理的流程并得到了建立隨機森林人口估算模型所需要的二十余個與人口分布有密切關系的特征變量。
第三章基于隨機森林的人口估算模型3.1隨機森林算法理論基礎隨機森林本質是是一種有監督學習的算法,是以決策樹為基學習器的集成學習算法。在了解隨機森林之前我們首先要指導集成學習的思想和其分支bagging算法。本次論文我們的目標是學習一個穩定且在各方面表現良好的模型,但現實往往不甚理想的得到多個在個別方面表現較好的弱監督模型。對此問題,集成學習算法就展現了優勢,它將多個弱監督模型進行組合而使其成為相互之間錯誤能夠得到彌補和糾正的強監督模型。嚴格來說,集成學習并不是一種分類器,而是一種分類器結合的辦法,通俗的講就相當于多個決策著決策同一件事,以期降低偏差、改進預測效果。對于集成學習算法的首要問題,個體學習器的種類的不同可以將他們分為同質和非同質。在同質學習器中,可以根據之間是否存在依賴關系而分為兩類,bagging算法就是依賴關系不強的個體學習器算法之一。Bagging的基本思路是:當有一個訓練集D,使用基于Bagging思想的算法在該訓練集上進行分類或回歸時,首先從中均勻、有放回地(使用自助抽樣法)選出m個大小為rf的子集作為新的訓練集。其次在這m個訓練集上使用分類、回歸等算法,則可得到m個模型,再通過取平均值、取多數票等方法,即可得到最終結果。當Bagging應用于決策樹算法時,給定訓練集X和目標Y。Bagging方法重復B次從訓練集中有放回地采樣,在這些樣本上重復訓練決策樹模型,在訓練結束之后,對未知樣的預測可以通過對所有單個回歸樹的預測求平均來實現如果簡單地在同一個數據集上訓練多棵決策樹會產生強相關的決策樹,決策樹之間的相似性較高。Bagging是一種通過產生不同訓練集從而降低決策樹之間關聯性的方法。所有單個回歸樹的預測的標準差可以作為預測的不確定性的估計REF_Ref27954\r\h[1]。Bagging算法的子采樣就是放回抽樣,即每一次采集樣本之后都在放回后有一定概率被繼續采集,通常我們采集與訓練集樣本數一樣的樣本,這樣我們得到的訓練集和樣本集的樣本個數就相同而樣本內容不同。例如采集Y次,則Y個采樣集之間胡不一樣。Bagging算法對弱學習器沒有限制,最常用的一般是決策樹和神經網絡。因為隨機采樣的原因,該算法的泛化能力較強,但對于訓練集的擬合程度就會差一些,也就是模型偏差較大。在理解bagging算法的基礎上,我們就能很好的掌握隨機森林算法。隨機森林就是一個進化版的bagging算法,他們的思想是共通的,知識進行了特有的改進。隨機森林的特點也是隨機采樣,隨機采樣就是從我們的訓練集當中有放回的采集固定個數的樣本,這就會導致有些樣本被多次采集,而有些樣本卻沒有被采集到,對于一個包括X各樣本的訓練集進行隨機采樣,任意一個樣本被采集到的概率為1/X,不被采集到的概率為1-1/X,那么經過X次采樣都沒有被采集的概率為(1-1/X)的X次方,當X趨向無窮大時,(1-1/X)的X次方等于1/e,約等于0.368。通常我們把這些沒有被采集到的約36.8%的數據被稱為袋外數據,這些袋外數據沒有參與訓練集模型的擬合,因此可以用來檢測模型的泛化能力REF_Ref28833\r\h[5]。圖3.1隨機森林原理隨機森林相比于bagging算法,用決策樹作為弱學習器,決策樹是樹狀結構,可以用枝節和節點形象刻畫決策過程和決策結果。其算法核心與上述一樣是為了組合多個決策樹以降低單一結果的片面性和提升預測的準確程度。其過程是首先隨機有放回的抽取M個樣本,共進行N次采樣,從而生成N個訓練集。對這N個訓練集分別訓練N個決策樹模型,在單個決策樹模型的每次分裂中根據其信息增益或基尼指數選擇一個最好的特征進行分裂每棵決策樹都依次分裂直到該節點的所有訓練樣例都屬于同一類截止。通過袋外數據誤差比對確定各個特征的重要性。隨機森林就是生成的多顆決策樹的組合,對于分類問題我們通常使用投票的辦法投票法有考慮類別權重的復雜投票也有簡單的相對多數投票。對于回歸問題我們使用算術平均值或者考慮權重的加權平均值REF_Ref28934\r\h[9]。由于隨機森林采樣過程中對樣本和特征都進行了隨機引入,所以在抗噪聲和防止過擬合方面相比一般算法有一定優勢。本次模型實現流程如圖3.1所示。3.2實現過程隨機森林是一種特殊的bagging算法,與其他集成學習算法類似,都是對弱監督模型/決策樹進行組合而得到預測效果更好的強監督模型。具體實現過程分為一下幾個過程。(1)隨機采樣首先對樣本數據按照8:2的比例劃分為測試數據和訓練數據。其采用隨機選點的方式產生,保證了樣本的隨機性。同時也保證了樣本數據在研究區域范圍內的均勻分布,可以更有效的使模型學習到不同因子對不同地塊的人口分布影響,使得模型更能反映人口的空間分布。之后對樣本數據進行有放回的抽樣參與訓練,共計采集N次并由此構建N個決策樹。在這個過程中不可避免的會有數據被多次采樣,而有的數據沒有被采樣,假設訓練集中樣本個數為X,當X足夠大時,我們可以推導出每個未被抽取的樣本概率,大約為36.8%。這些沒有被采樣的數據被稱為袋外數據,它們沒有參與訓練。(2)決策樹分裂決策樹分裂和樣本采集類似,其分裂過程沒有用到全部待選特征同樣是采用無放回的在待選特征中選取。在單個決策樹模型的每次分裂中根據其信息增益或基尼指數選擇一個最好的特征進行分裂每棵決策樹都依次分裂直到該節點的所有訓練樣例都屬于同一類截止。至此構建森林和各個決策樹建立完成。(3)參數調優初步建模完成后,將特征數據和比對數據按照2比8的比例分為訓練和測試部分,訓練數據作為輸入參與到訓練中。隨機森林模型的訓練實際上就是模型參數的調優,在眾多不同組合產生復雜影響關系的情況下,唯有不斷訓練調整以得到適合我們問題的參數組合。隨機森林模型的參數主要包括決策樹參數(決策樹深度、結點分裂最小樣本數、最大葉子結點數、葉子節點最小樣本數等)和隨機森林框架參數(決策樹個數等)兩種。n_estimators:最大弱學習器個數(決策樹個數)。默認值為一百,該參數決定了隨機森林的復雜程度,值越大則決策樹個數越多;max_features:尋找最佳分裂時考慮的最大特征數量。決策樹在分裂節點時會根據衡量標準,比如基尼系數,考慮所有的特征,選擇信息增益最大的特征進行分裂,但是這樣比較耗時,特別是特征很多的時候。所以如果特征數非常多,我們可以只考慮的部分特征,以控制決策樹的生成時間random_state:該參數控制隨機狀態。為了保證同樣的算法模型在不同的訓練集和測試集上的效果相同,所以該參數可以控制程序每次運行都對訓練集和測試集作恒定劃分。表3.1隨機森林本模型參數最優取值參數名稱scikit-learn參數名最優取值最大弱學習器個數n_estimators17最大特征數max_features100隨機種子random_state21運用網格搜索法對待優化的參數進行調整,該實現過程是構建一個包括所有參數的所有取值范圍在內的參數字典,再對每一個待優化的參數作一一嘗試并尋求最優取值。其可以判斷每一個參數的每個值對結果精度的影響,以求最終獲得最優的參數組合。即模型訓練結束。在調優參數的過程中,有的參數對模型整體精度和效率影響較大,本次模型得到這些參數的最優取值如表3.1所示。(4)分類與回歸在將多個決策樹組合成隨機森林及模型訓練結束之后,我們可以用隨機森林模型對新的數據進行分類和回歸預測。其中分類問題是根據各決策樹輸出結果的投票決定,若結果A決策樹票數多于結果B,則最終結果為A,這類似于少數服從多數;而回歸模型則是基于各決策樹做加權平均值或者簡單的算術平均值,值得注意的是,加權平均值由于權重估算不準確而并不一定比算術平均值更具優勢。(5)重要性評價特征重要性是模型評估的重要環節,對于某個特征Y,其實現原理是先對每一顆決策樹使用相應的袋外數據來計算它的袋外數據誤差,再將其與加入噪聲干擾的后的袋外誤差做一個比較。若對某個特征而言,加入噪聲之后,其袋外準確率大幅度下降,則證明該特征對模型影響較大,也就是重要性較高。通常我們使用變換后的預測誤差與原來相比差的均值來反映特征重要性。3.3人口估算建模首先將第二章的二十余個特征和鄭州市人口普查數據作為建模的特征數據和目標數據。并對其進行劃分,本次實驗按照8比2的比例隨機選取了測試數據和訓練數據REF_Ref28999\r\h[6]。Sklearn機器學習庫包含各大類的模型以及數據處理函數,對初學者及其有幫助。運用Python編程語言和第三方開源機器學習算法庫編寫。使用各個參數的初始默認值構建初始模型,之后記錄初始模型的精度、特征重要度和平均精確度減少值,并根據平均精確度較少值做特征篩選。某特征的平均精確度減少的越多,就表明該特征對模型精度提升的正向效應越強。代碼實現如下:轉換所有特征形式為float;隨機對數據采樣構建子集并選取最有特征;構造多個決策樹并組合創建隨機森林;用測試集完成測試并輸出結果。由于本次建模選取特征較少,所以沒有用初始模型按照特征重要性對特征數據做篩選。最終應用的特征如表3.1所示。表3.1選取特征建筑面積商務住宅MAX夜間燈光輻亮度MIN商務住宅MEAN夜間燈光輻亮度MEAN公共服務MIN夜間燈光輻亮度MAX公共服務MAX夜間燈光坡度MIN公共服務MEAN夜間燈光坡度MEAN商業服務MIN夜間燈光坡度MAX商業服務MAX夜間燈光曲率MEAN商業服務MEAN夜間燈光曲率MIN交通業務MIN夜間燈光曲率MAX交通業務MAX商務住宅MIN交通業務MEAN*特征名稱中的MEAN表示均值,MIN表示最小值,MAX表示最大值.3.4人口估算結果上一節通過訓練模型得到了預測效果較好的鄭州市人口估算模型,該模型輸入二十余個特征并輸入鄭州市各個街道的人口預測結果如圖3.3所示。其中預測值如圖3.2所示,R方=0.90,預測效果良好。使用地理信息系統和鄭州市區劃數據作為位置數據實現估算結果的可視化,結果顯示鄭州市人口主要集中于市區周邊和新鄭市,市區以西和東南方向人口密度較低,結果符合預期。圖3.2預測結果圖3.3人口估算結果3.5人口估算結果精度評價對估算結果與真實數據進行比較,將兩者生成散點圖如圖3.4所示,觀察可知絕大多數散點位于趨勢線附近,位于下方的散點數多于上方的散點數,表明結果相對較為高估。模型估算結果得到判定系數呈現R方=0.90,總體精度良好。圖3.4估算人口3.6本章小結本章首先對集成學習算法和決策樹進行了解釋,并詳細描述了隨機森林算法的原理。再此基礎上勾勒出一個切實可行的實施過程并經過特征采集、數據訓練,運用Python編程語言實現了估算模型的建立。最后對模型輸入特征得到了估算結果,將真實數據于估算數據進行對比得到判定系數R方=0.90。總體精度良好。第四章模型解釋與分析上一章描述了集成學習和隨機森林算法的理論基礎與實現的過程,運用第二章所建立的特征數據訓練構建了一個鄭州市的隨機森林人口估算模型,經過與人口普查數據比較分析,對預測結果和模型精度做出了評價。本章繼上一章的基礎上對模型進行解釋分析,從而找到誤差產生的原因,一般而言,當決策樹的特征數量和深度、數量較大時,森林結構也會趨于復雜,即使對于一顆深度為10的決策樹,分析表述也是極其困難的。該算法相當于一個黑匣子,在特征數較大的情況下不具有解釋分析的可行性。因此我們了解隨機森林內部機制通常是利用其袋外數據錯誤率得出的特征重要性和基于決策路徑特征值的特征貢獻方面來刻畫。本章也將從這兩個方面來對模型進行解釋分析REF_Ref29071\r\h[8]。4.1特征重要性分析特征重要性,就是描述特征數據對模型估算結果所產生影響的重要程度,也能夠反映出該特征在特征庫中的重要程度,屬于模型解釋分析的重要指標之一。一般而言特征重要性的計算是通過比較某特征在每顆決策樹的袋外數據誤差和隨機添加噪聲后的袋外數據誤差來評價該特征對模型影響程度,弱加入噪聲后,其袋外準確率大幅下降,則表明其影響較大,也即重要性較高。在隨機森林的特征選擇和模型解譯過程中,特征重要性是一個十分重要的指標。一個特征的特征重要性既可以反映出該特征對于模型預測結果起到的效果,同時也可表示出該特征在多維特征庫中的重要程度。特征重要性表示當模型特征庫中的某特征序列被加入噪聲干擾時,對模型精確度的影響程度。特征重要性的計算是基于每次有放回抽樣的過程中始終未被采集的大約三分之一的數據,這些數據被稱作袋外數據。由于其沒有被采樣,所以這些數據也沒有參與建立決策樹,故而模型可以通過計算袋外數據誤差進行模型預測結果的精度評價,故而在做模型的精度評價時候,可以通過計算袋外數據的誤差來進行。這種對模型精度進行評價的方法稱為袋外估計法。特征重要性的計算思路如下:對隨機森林中的決策樹利用其袋外數據計算誤差;計算隨機對袋外數據的所有樣本特征加入噪聲干擾后的誤差;比較兩個誤差的出最終特征重要性排序。如圖4.1可視化了隨機森林人口分布估算模型的特征重要性。可以看出建筑物面積是重要性最高的特征,達到了0.23,表明其對模型估算結果影響最大。影響最小的是坡度MAX,對模型精度影響可以忽略不計。其他值得關注的重要特征有商業服務POI核密度平均值商業服務MEAN、公共服務POI核密度平均值公共服務MEAN、商務住宅POI核密度平均值商務住宅MEAN、夜間燈光數據坡度最小值坡度MIN、商務住宅最大值商務住宅MAX和商業服務最大值商業服務MAX。其特征重要性均超過0.05。圖4.1特征重要性4.2特征貢獻分析特征重要性是從總體的角度評估各個特征數據對模型最終預測結果的貢獻,而在更精細的尺度上,例如基于特征值、分地塊等方面評估特征重要性會得到不一樣的結果,對提升后續模型精度的工作上,特征貢獻分析比特征重要性更為關鍵。本文將從特征值方面來評估主要特征數據的特征貢獻。4.2.1特征貢獻分析原理我們通常把決策樹從生成到輸出結果的路徑成為決策路徑,每一次結點的分裂就是一次特征主導的決策。我們通過觀察決策樹的每一次結點分裂對最終模型預測結果的增強或削弱影響及它們在不同類別樣本中的分布可以得出每個特征到底對最終輸出的人口分布結果產生什么樣的作用及效果REF_Ref27954\r\h[1]。了解決策貢獻之前先要清楚一個基本理論,即在模型中的一個學習器訓練的過程中,對每一個最終所得的結果而言,都有確定的一條從初始點到最末端的決策路徑。決策路徑的每一次決策就是一次樹的劃分,其受到一些由特征所主導的決策產生,每一次樹的分裂都會對最終結果產生積極或消極的影響。隨機森林可以依據決策路徑生成基于個體樣本的特征貢獻序列,通過觀察特征貢獻在空間和不同類別樣本中的分布,可以了解到各個特征對于每個樣本的人口估算結果起到了什么作用。如果特征貢獻為正,表明該特征對人口數量有增加的效果。反之,如果特征貢獻為負值,則表示該特征降低了人口的估計值REF_Ref27954\r\h。在完成回歸樹的構建后,回歸樹中的每一個子結點均通過某個特征與父結點建立了聯系,這種聯系進而不斷上溯到根結點。根結點的估計值是所有樣本因變量的平均值,每一個子結點的估計值都是在父結點估計值的基礎上發生一定程度的增益或者損失。從父結點估計值到子結點估計值的增益或者損失即為特征對父結點劃分產生的貢獻,稱為特征貢獻。當發生增益時特征為正,當存在損失時特征貢獻為負。隨著回歸樹深度不斷增加,結點不斷分解,估計值越來越接近目標值。具體每個特征的最終貢獻取決于它經過的決策路徑和結點,增強為正,削弱為負,結果等于經過結點的貢獻之和。4.2.2基于特征值的特征貢獻分析觀察對模型的特征重要性較高的建筑物面積、商業服務MEAN、公共服務MEAN和商務住宅MEAN隨著特征值變化的特征貢獻變化。觀察散點圖發現與人口分布關系緊密的幾個特征,如圖4.3所示,鄭州市建筑物面積、商務住宅核密度均值隨著特征值的增加而增加,變化的趨勢較為明顯。特征貢獻隨公共服務POI核密度均值的增加總體呈現上漲趨勢,商業服務POI均值的特征貢獻變化趨勢相對較緩。如圖4.2所示,夜間燈光輻亮度MEAN對特征的貢獻比較不同,總體上隨著特征值增加,特征貢獻是下降的。按地域分地段分析,夜間燈光輻亮度均值MEAN特征在模型的特征優選過程中在住宅區是正向影響,在其他地段影響相反。這表明在一些公共設施和燈火通明的公路上,燈光強度并不能很好的代表人口聚集程度。圖4.2夜間燈光亮度MEAN特征貢獻圖4.3建筑物面積特征貢獻4.3本章小結本章探尋了人口分布估算模型的特征重要性和特定值的特征貢獻。首先介紹了特征重要性性地基礎理論和計算辦法,然后解釋分析了本次實驗建立的人口分布估算模型的特征重要性,通過可視化觀察結果,得出鄭州市建筑物面積特征的重要性最高,達到了0.23,夜間燈光數據坡度MAX的特征重要性最低的結論。第二節簡要介紹了模型特征貢獻的基本理論和方法,進一步分析了特征值方面的特征貢獻,得到鄭州市建筑物面積隨著特征值的增大而總體增大,夜間燈光輻亮度MEAN隨特征值的增大而較小的結論并解釋了其原因。第五章結論與展望5.1研究結論本文運用機器學習之中隨機森林算法和夜間燈光、POI等于人口分布息息相關的數據建立鄭州市人口分布估算模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年江蘇省農村土地承包經營權流轉合同范本
- 2025實驗室裝修合同范本
- 2025精簡版裝修施工合同樣本
- 代付款三方協議書范本
- 海口市房屋租賃合同書
- 保險車輛維修協議書
- 道路硬化捐贈協議書
- 2025年03月河南安陽市事業單位招才引智“綠色通道”引進129人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 生物試題2025年東北三省四城市聯考暨沈陽市高三質量監測(二)及答案
- 廣西警察學院《藥理學A(實驗)》2023-2024學年第二學期期末試卷
- GB/T 4513.1-2015不定形耐火材料第1部分:介紹和分類
- GB/T 23641-2018電氣用纖維增強不飽和聚酯模塑料(SMC/BMC)
- 中醫經絡之手太陰肺經課件講義
- 裝配式建筑施工組織設計(修改)
- 廣西基本醫療保險門診特殊慢性病申報表
- 維維食品飲料有限公司-質量獎自我評價報告
- 土壤分析技術規范(第二版)
- 食品從業者工作服清洗消毒記錄
- 裝修單項項目確認單
- 華為員工準則手冊
- 分子生態學1分子標記
評論
0/150
提交評論