




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
從2016年12月開(kāi)始,重慶樓市開(kāi)始走進(jìn)人們的視野,越來(lái)越多的購(gòu)房者開(kāi)始涌向這個(gè)樓市價(jià)值洼地。最近幾年,重慶二手房市場(chǎng)開(kāi)始逐漸火熱起來(lái),截止2020年1月重慶二手房鏈家量超過(guò)13萬(wàn)套,如此巨大的市場(chǎng)存量決定著想從重慶主城區(qū)挑選滿意的住房并非易事,本章希望通過(guò)分析采集到重慶主城區(qū)二手房房源數(shù)據(jù),深入分析大量數(shù)據(jù)背后隱藏的房?jī)r(jià)波動(dòng)和城市發(fā)展規(guī)律,以求更好的幫助大家進(jìn)行購(gòu)房決策。案例背景本章以重慶市主城區(qū)二手房為例,利用K-Means算法對(duì)二手房數(shù)據(jù)進(jìn)行聚類(lèi)分析,具體過(guò)程及挖掘目標(biāo)如下所示:(1)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)采集鏈家網(wǎng)上部分重慶二手房的房源數(shù)據(jù),然后對(duì)采集到的數(shù)據(jù)進(jìn)行初步清洗。(2)對(duì)清洗之后的數(shù)據(jù)進(jìn)行數(shù)據(jù)可視化分析,探索隱藏在大量數(shù)據(jù)背后的規(guī)律;(3)采用K-Means聚類(lèi)算法對(duì)重慶主城區(qū)二手房數(shù)據(jù)進(jìn)行聚類(lèi)分析,并根據(jù)聚類(lèi)分析的結(jié)果,將這些房源大致分類(lèi),以對(duì)所有數(shù)據(jù)的概括總結(jié)。通過(guò)上述分析,我們可以了解到目前重慶市主城區(qū)市面上二手房各項(xiàng)基本特征及房源分布情況,幫助人們進(jìn)行購(gòu)房決策。本章具體目標(biāo)本小節(jié)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)程序抓取鏈家網(wǎng)上部分重慶市主城區(qū)數(shù)據(jù),收集原始數(shù)據(jù),作為整個(gè)數(shù)據(jù)分析與挖掘的基石。在分析重慶鏈家二手房主頁(yè)之之后,從中選取重慶市主城九區(qū)(渝中、江北、渝北、沙坪壩、南岸、九龍坡、北碚、大渡口、巴南)二手房房源數(shù)據(jù)作為爬取目標(biāo),截至目前為止,重慶二手房總體存量超過(guò)13萬(wàn)套,通過(guò)訪問(wèn)網(wǎng)址:/ershoufang/)能夠看出,總計(jì)顯示100頁(yè),每頁(yè)顯示30個(gè)房源信息,因此在爬取數(shù)據(jù)的時(shí)候需要考慮如何處理才能爬取更多數(shù)據(jù)?數(shù)據(jù)采集-鏈家網(wǎng)站結(jié)構(gòu)分析我們需要采集的目標(biāo)數(shù)據(jù)就在該頁(yè)面,包括基本信息、房屋屬性和交易屬性三大類(lèi)。各類(lèi)信息包括的數(shù)據(jù)項(xiàng)如下:1)基本信息:小區(qū)名稱、所在區(qū)域、總價(jià)、單價(jià)。2)房屋屬性:房屋戶型、所在樓層、建筑面積、戶型結(jié)構(gòu)、套內(nèi)面積、建筑類(lèi)型、房屋朝向、建筑結(jié)構(gòu)、裝修情況、梯戶比例、配備電梯、產(chǎn)權(quán)年限。3)交易屬性:掛牌時(shí)間、交易權(quán)屬、上次交易、房屋用途、房屋年限、產(chǎn)權(quán)所屬、抵押信息、房本備件。數(shù)據(jù)采集-目標(biāo)數(shù)據(jù)(1)關(guān)鍵問(wèn)題1:鏈家網(wǎng)二手房主頁(yè)最多只顯示100頁(yè)的房源數(shù)據(jù),所以在收集二手房房源信息頁(yè)面URL地址時(shí)會(huì)收集不全,導(dǎo)致最后只能采集到部分?jǐn)?shù)據(jù)。解決措施:將所有重慶市主城區(qū)手房數(shù)據(jù)分區(qū)域地進(jìn)行爬取,100頁(yè)最多能夠顯示3000套房,該區(qū)域房源少于3000套時(shí)可以直接爬取,如果該區(qū)域房源超過(guò)3000套可以再分成更小的區(qū)域。(2)關(guān)鍵問(wèn)題2:爬蟲(chóng)程序如果運(yùn)行過(guò)快,會(huì)在采集到兩、三千條數(shù)據(jù)時(shí)觸發(fā)鏈家網(wǎng)的反爬蟲(chóng)機(jī)制,所有的請(qǐng)求會(huì)被重定向到鏈家的人機(jī)鑒定頁(yè)面,從而會(huì)導(dǎo)致后面的爬取失敗。解決措施:①為程序中每次http請(qǐng)求構(gòu)造header并且每次變換http請(qǐng)求header信息頭中USER_AGENTS數(shù)據(jù)項(xiàng)的值,讓請(qǐng)求信息看起來(lái)像是從不同瀏覽器發(fā)出的訪問(wèn)請(qǐng)求。②爬蟲(chóng)程序每處理完一次http請(qǐng)求和響應(yīng)后,隨機(jī)睡眠1-3秒,每請(qǐng)求2500次后,程序睡眠20分鐘,控制程序的請(qǐng)求速度。數(shù)據(jù)采集-網(wǎng)絡(luò)爬蟲(chóng)程序關(guān)鍵問(wèn)題說(shuō)明爬取鏈家數(shù)據(jù)的核心模塊包括4個(gè),分別為爬蟲(chóng)程序主模塊、網(wǎng)頁(yè)加載模塊、網(wǎng)頁(yè)解析模塊、數(shù)據(jù)輸出收集模塊,各模塊具體代碼及解析如下:(1)網(wǎng)頁(yè)加載模塊對(duì)于網(wǎng)頁(yè)加載模塊來(lái)說(shuō),在加載后續(xù)需要解析的網(wǎng)頁(yè),為了更好應(yīng)對(duì)鏈家反爬蟲(chóng)機(jī)制,在處理過(guò)程中會(huì)不斷更改header,然后不斷更改header以求更好模擬不同瀏覽器的訪問(wèn)請(qǐng)求。(2)網(wǎng)頁(yè)解析模塊對(duì)于網(wǎng)頁(yè)解析模塊來(lái)說(shuō),它是在網(wǎng)頁(yè)加載模塊的基礎(chǔ)上進(jìn)行深度分析網(wǎng)頁(yè),需要用到前面章節(jié)介紹的BeautifulSoup知識(shí)和Web開(kāi)發(fā)中學(xué)過(guò)的HTML頁(yè)面相關(guān)知識(shí)。另外,還需要用到自己編寫(xiě)的log.py,此處利用fromlogimportMyLog引入。數(shù)據(jù)采集-爬蟲(chóng)代碼解析1(3)數(shù)據(jù)收集模塊對(duì)于數(shù)據(jù)采集模塊來(lái)說(shuō),它是建立在頁(yè)面分析模塊的基礎(chǔ)上,根據(jù)挖掘需要確定輸出內(nèi)容,并將爬取文件輸出到制定文件中。(4)爬蟲(chóng)程序主模塊對(duì)于爬蟲(chóng)主模塊來(lái)說(shuō),它需要調(diào)用網(wǎng)頁(yè)加載模塊、網(wǎng)頁(yè)解析模塊、數(shù)據(jù)輸出收集模塊。由于重慶市二手房市場(chǎng)存量數(shù)據(jù)超過(guò)13萬(wàn)套,本章重點(diǎn)關(guān)注選擇的主城九區(qū)數(shù)據(jù),因此在代碼中要實(shí)現(xiàn)區(qū)域選擇,每個(gè)區(qū)域爬取100頁(yè)數(shù)據(jù)。數(shù)據(jù)采集-爬蟲(chóng)代碼解析2對(duì)于爬蟲(chóng)程序采集得到的數(shù)據(jù)并不能直接分析,需要先去掉一些“臟”數(shù)據(jù),修正一些錯(cuò)誤數(shù)據(jù),統(tǒng)一所有數(shù)據(jù)字段的格式,將這些零散的數(shù)據(jù)規(guī)整成統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)。本文爬取到的數(shù)據(jù)編碼格式并不是utf-8,這就導(dǎo)致后續(xù)的數(shù)據(jù)清洗比較麻煩,因此在進(jìn)行數(shù)據(jù)清洗之前需要對(duì)文件進(jìn)行轉(zhuǎn)碼,數(shù)據(jù)轉(zhuǎn)碼之后需要對(duì)數(shù)據(jù)進(jìn)行清洗,具體操作內(nèi)容如下:1)將雜亂的記錄的數(shù)據(jù)項(xiàng)對(duì)齊;2)清洗一些數(shù)據(jù)項(xiàng)格式;3)缺失值處理。數(shù)據(jù)清洗在數(shù)據(jù)清洗完成后,我們就可以開(kāi)始對(duì)數(shù)據(jù)進(jìn)行可視化分析。該階段主要是對(duì)數(shù)據(jù)做一個(gè)探索性分析并將結(jié)果可視化呈現(xiàn),幫助人們更好、更直觀的認(rèn)識(shí)數(shù)據(jù),把隱藏在大量數(shù)據(jù)背后的信息集中和提煉出來(lái)。本文主要對(duì)二手房房源的總價(jià)、單價(jià)、面積、戶型、地區(qū)等屬性進(jìn)行了分析。數(shù)據(jù)可視化分析主要步驟如下:1)數(shù)據(jù)加載;2)數(shù)據(jù)轉(zhuǎn)換;3)數(shù)據(jù)可視化呈現(xiàn)。數(shù)據(jù)可視化分析數(shù)據(jù)分析和建模的大量工作都是用在數(shù)據(jù)準(zhǔn)備上的,如:清理、加載、轉(zhuǎn)換等。清洗完成后的數(shù)據(jù)仍然存儲(chǔ)在文本文件(CSV格式)中,要對(duì)數(shù)據(jù)進(jìn)行可視化分析,必須先要將數(shù)據(jù)按一定結(jié)果加載到內(nèi)存中。我們使用Pandas提供的DataFrame對(duì)象來(lái)加載和處理我們清洗后的數(shù)據(jù),Pandas同時(shí)提供將表格型數(shù)據(jù)讀取為DataFrame對(duì)象的函數(shù)。數(shù)據(jù)加載處理過(guò)程中需要注意的主要問(wèn)題如下:(1)數(shù)據(jù)項(xiàng)的行列索引的處理;(2)數(shù)據(jù)類(lèi)型推斷和數(shù)據(jù)轉(zhuǎn)換;(3)缺失值的處理。主城二手房數(shù)據(jù)加載數(shù)據(jù)加載后,數(shù)據(jù)基本情況見(jiàn)教材圖10.1。從圖中可以看到加載后的數(shù)據(jù)一共26372行、22列,占用內(nèi)存4.4+MB。在數(shù)據(jù)類(lèi)型上,一共有1列float64類(lèi)型,3列int64類(lèi)型,18列object類(lèi)型。除了房屋年限和上次交易時(shí)間三列數(shù)據(jù)項(xiàng)缺失值比較多之外,其他列數(shù)據(jù)項(xiàng)的缺失值都不多,所以數(shù)據(jù)整體的質(zhì)量還不錯(cuò)。從整體數(shù)據(jù)文件詞云,如教材圖10.2所示,我們可以得到在重慶二手房房源信息中經(jīng)常出現(xiàn)的高頻詞,如商品房、普通住宅、鋼混結(jié)構(gòu)、平層、塔樓等。我們可以通過(guò)這些高頻詞,十分粗略的了解整個(gè)數(shù)據(jù)文件中的基本內(nèi)容。通過(guò)前面的分析,我們可以看出該數(shù)據(jù)文件的整體質(zhì)量還不錯(cuò)。雖然存在一些缺失值比較多的數(shù)據(jù)項(xiàng),但我們比較關(guān)注一些數(shù)據(jù)項(xiàng)缺失值不多。這些缺失值較多的都是一些次要的數(shù)據(jù)項(xiàng),不影響我們的分析。數(shù)據(jù)整體質(zhì)量分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房基本信息可視化分析主要針對(duì)二手房:區(qū)域、總價(jià)、單價(jià)、建筑面積四個(gè)屬性的分析。重慶主城區(qū)二手房基本信息可視化分析二手房房屋屬性可視化分析主要針對(duì)二手房:房屋戶型、房屋裝修占比、房屋朝向等三方面分析。重慶主城區(qū)二手房房屋屬性可視化分析二手房房屋屬性可視化分析主要針對(duì)二手房:房屋戶型、房屋裝修占比、房屋朝向等三方面分析。重慶主城區(qū)二手房房屋屬性可視化分析二手房房屋屬性可視化分析主要針對(duì)二手房:房屋戶型、房屋裝修占比、房屋朝向等三方面分析。重慶主城區(qū)二手房房屋屬性可視化分析該階段采用聚類(lèi)算法中的k-means算法對(duì)爬取的二手房數(shù)據(jù)進(jìn)行聚類(lèi)分析,根據(jù)聚類(lèi)的結(jié)果和經(jīng)驗(yàn),將這些房源大致分類(lèi),已達(dá)到對(duì)數(shù)據(jù)概括總結(jié)的目的。在聚類(lèi)過(guò)程中,我們選擇了面積、總價(jià)和單價(jià)這三個(gè)數(shù)值型變量作為樣本點(diǎn)的聚類(lèi)屬性。對(duì)于K-means算法來(lái)說(shuō),它的原理相對(duì)簡(jiǎn)單,不過(guò)在聚類(lèi)之前要實(shí)現(xiàn)給出聚類(lèi)的簇?cái)?shù)k值,但在很多時(shí)候中k值的選定是十分難以估計(jì)的,很多情況我們聚類(lèi)前并不清楚給出的數(shù)據(jù)集應(yīng)當(dāng)分成多少類(lèi)才最恰當(dāng)。另外,k-means需要人為地確定初始質(zhì)心,不一樣的初始質(zhì)心可能會(huì)得出差別很大的聚類(lèi)結(jié)果,無(wú)法保證k-means算法收斂于全局最優(yōu)解。下面我們將會(huì)重點(diǎn)介紹如何選擇合適的K值和質(zhì)心。重慶市主城區(qū)二手房模型構(gòu)建根據(jù)聚類(lèi)原則:組內(nèi)差距要小,組間差距要大。我們先算出不同k值下各個(gè)SSE(Sumofsquarederrors)值,然后繪制出折線圖,如教材圖10.12所示,從中選定最優(yōu)解。從圖中,我們可以看出k值到達(dá)5或6以后,SSE變化趨于平緩,本次實(shí)驗(yàn)我們選擇K值為5。重慶市主城區(qū)二手房模型構(gòu)建--K值的選擇初始的k個(gè)質(zhì)心選定是采用的隨機(jī)法。從各列數(shù)值最大值和最小值中間按正太分布隨機(jī)選取k個(gè)質(zhì)心。離群點(diǎn)就是遠(yuǎn)離整體的,非常異常、非常特殊的數(shù)據(jù)點(diǎn)。因?yàn)閗-means算法對(duì)離群點(diǎn)十分敏感,所以在聚類(lèi)之前應(yīng)該將這些“極大”、“極小”之類(lèi)的離群數(shù)據(jù)都去掉,否則會(huì)對(duì)于聚類(lèi)的結(jié)果有影響。離群點(diǎn)的判定標(biāo)準(zhǔn)是根據(jù)前面數(shù)據(jù)可視化分析過(guò)程的散點(diǎn)圖和箱線圖進(jìn)行判定。根據(jù)散點(diǎn)圖和箱線圖,需要去除離散值的范圍如下:1)單價(jià):基本都在50000以內(nèi),沒(méi)有特別的異常值。2)總價(jià):基本都集中在500萬(wàn)以內(nèi),這里我們需要去除500萬(wàn)外的異常值。3)建筑面積:基本都集中在400平米以內(nèi),這里我們需要去除400平米外的異常值。重慶市主城區(qū)二手房模型構(gòu)建--初始K個(gè)質(zhì)心選定及離群點(diǎn)處理因?yàn)榭們r(jià)的單位為萬(wàn)元,單價(jià)的單位為元/平米,建筑面積的單位為平米,所以數(shù)據(jù)點(diǎn)計(jì)算出歐幾里德距離的單位是沒(méi)有意義的。同時(shí),總價(jià)都是500萬(wàn)以內(nèi)的數(shù),建筑面積都是400以內(nèi)的數(shù),但單價(jià)基本都是10000以上的數(shù),在計(jì)算距離時(shí)單價(jià)起到的作用就比總價(jià)大,總價(jià)和單價(jià)的作用都遠(yuǎn)大于建筑面積,這樣聚類(lèi)出來(lái)的結(jié)果是有問(wèn)題的。這樣的情況下,我們需要將數(shù)據(jù)標(biāo)準(zhǔn)化,即將數(shù)據(jù)按比例縮放,使之都落入一個(gè)特定區(qū)間內(nèi)。去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無(wú)量綱的純數(shù)值,便于不同單位或量級(jí)的指標(biāo)能夠進(jìn)行計(jì)算和比較。我們將單價(jià)、總價(jià)和面積都映射到500,因?yàn)槊娣e和總價(jià)本身就都在500以內(nèi),不要特別處理。單價(jià)在計(jì)算距離時(shí),需要先乘以映射比例0.005。這就能夠在一定程度上保證聚類(lèi)效果不受數(shù)據(jù)量綱不統(tǒng)一的影響。重慶市主城區(qū)二手房模型構(gòu)建--數(shù)據(jù)的標(biāo)準(zhǔn)化經(jīng)過(guò)K-means算法聚類(lèi)分析,下面對(duì)聚類(lèi)結(jié)果進(jìn)行深入分析,以求更好的為購(gòu)房者提供決策支持。聚類(lèi)結(jié)果統(tǒng)計(jì)信息如下表所示:重慶市主城區(qū)二手房模型構(gòu)建--聚類(lèi)結(jié)果分析聚類(lèi)后的單價(jià)與建筑面積散點(diǎn)圖和總價(jià)與建筑面積散點(diǎn)圖如下所示:重慶市主城區(qū)二手房模型構(gòu)建--聚類(lèi)結(jié)果分析聚類(lèi)后的單價(jià)與建筑面積散點(diǎn)圖和總價(jià)與建筑面積散點(diǎn)圖如下所示:重慶市主城區(qū)二手房模型構(gòu)建--聚類(lèi)結(jié)果分析根據(jù)以上聚類(lèi)結(jié)果和我們的經(jīng)驗(yàn)分析,我們大致可以將這20000多套房源分為以下5類(lèi):1)大戶型(面積大,總價(jià)高),屬于第3類(lèi)。平均面積都在200平以上,這種大戶型的房源相對(duì)數(shù)量較少,主要分布區(qū)域江北、渝北、渝中、南岸等地。2)改善型(單價(jià)高、面積較大),屬于第1類(lèi)。此類(lèi)房源數(shù)量不少,比較適合具有一定經(jīng)濟(jì)能力改善型需求,比如說(shuō)比如江北、渝北等地洋房、大平層。3)經(jīng)濟(jì)型(單價(jià)居中,面積居中,總價(jià)合適)屬于第2類(lèi)。此類(lèi)房源數(shù)量最多,小三房居多,能夠滿足日常生活需求,分布區(qū)域較為廣泛。4)高性價(jià)比型(單價(jià)低、面積大)屬于第0類(lèi)。此類(lèi)房源多分布在
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年花藝師參與社會(huì)活動(dòng)的考題試題及答案
- 應(yīng)激反應(yīng)力測(cè)試題及答案
- 2024年農(nóng)藝師考試復(fù)習(xí)過(guò)程中的常見(jiàn)偏差及矯正策略試題及答案
- 園藝師園藝經(jīng)濟(jì)學(xué)基礎(chǔ)試題及答案
- 2024年福建事業(yè)單位考試知識(shí)講解試題及答案
- 對(duì)照標(biāo)準(zhǔn)的2024年花藝師考試試題及答案
- 現(xiàn)代農(nóng)業(yè)發(fā)展中的經(jīng)濟(jì)適用技術(shù)試題及答案
- 2024年各高校輔導(dǎo)員招聘考試的職場(chǎng)選擇試題及答案
- 輪渡船長(zhǎng)考試題及答案
- 輔導(dǎo)員考試應(yīng)對(duì)困境的方法與策略試題及答案
- TD/T 1057-2020 國(guó)土調(diào)查數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)(正式版)
- 【含答案】高處安裝、維護(hù)、拆除理論考試200題
- 太極拳文化與養(yǎng)生智慧樹(shù)知到期末考試答案章節(jié)答案2024年寧波財(cái)經(jīng)學(xué)院
- 2024年開(kāi)封大學(xué)單招職業(yè)適應(yīng)性測(cè)試題庫(kù)及答案解析
- 電子稅務(wù)局出口退稅在線申報(bào)操作(生產(chǎn)企業(yè))
- 個(gè)人價(jià)值傾向測(cè)試題附有答案
- (2023)四年級(jí)科學(xué)質(zhì)量監(jiān)測(cè)試題
- 自然常數(shù)e的意義與計(jì)算
- 糖尿病眼部護(hù)理課件
- (課件)文題5【鄉(xiāng)情】
- 如何培養(yǎng)嚴(yán)重精神障礙患者的社交技能和人際交往能力
評(píng)論
0/150
提交評(píng)論