鏈家網上海市二手房數據采集與分析_第1頁
鏈家網上海市二手房數據采集與分析_第2頁
鏈家網上海市二手房數據采集與分析_第3頁
鏈家網上海市二手房數據采集與分析_第4頁
鏈家網上海市二手房數據采集與分析_第5頁
已閱讀5頁,還剩18頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

湖南商務職業技術學院畢業設計

目錄

1引言1

1.1項目背景1

1.2開發環境與工具1

1.2.1Python簡介1

1.2.2hadoop簡介1

1.2.3pyecharts簡介2

2需求分析2

2.1可行性需求分析2

2.2采集目標功能分析3

2.3關鍵技術分析3

2.3.1網絡爬蟲技術3

2.3.2文件存取技術3

2.3.3可視化技術3

3數據采集4

3.1采集頁面分析4

3.2字段分析5

3.3編程實現5

4數據清洗與處理10

4.1數據清洗說明10

4.2數據清洗需求10

4.3編程實現11

5數據統計與分析14

5.1數據準備14

5.2數據分析與展示15

5.2.1統計上海各區的房源數量和價格15

5.2.2統計每年建造的房屋數量和價格16

5.2.3統計最受歡迎的的樓層和平均價格17

I

湖南商務職業技術學院畢業設計

5.2.4統計各個戶型的數量個平均價格18

5.2.5分析關注人數與價格之間的關系19

5.3本章小結20

6設計小結20

參考資料21

II

湖南商務職業技術學院畢業設計

鏈家網上海市二手房數據采集與分析

1引言

以上海市的鏈家網二手房數據為研究對象,利用Python編程語言和相關技

術,完成了數據采集、清洗、分析和可視化等一系列工作。通過對房屋價格、

面積、位置、戶型、朝向等多維度數據的統計分析,可以更好地了解上海市二

手房市場的現狀和趨勢,為購房者、房地產公司和政府監管部門提供有益的參

考。同時,本畢業設計也探討了Python在數據采集、清洗、分析和可視化等方

面的應用,對于進一步提升相關領域的數據處理能力和技術水平有一定的參考

價值。

1.1項目背景

隨著中國城市化的快速發展,房地產市場成為一個非常重要的經濟領域。

其中,二手房市場對于購房者、房地產公司以及政府監管機構都具有重要意義。

因此,對二手房市場的數據進行采集和分析,可以幫助人們更好地了解市場現

狀,做出更明智的投資決策,同時也可以幫助政府部門監管市場秩序。而在這

一過程中,數據采集、清洗、分析和可視化等技術都發揮著至關重要的作用。

1.2開發環境與工具

1.2.1Python簡介

Python是一種高級編程語言,它的語法簡潔易懂,學習曲線較為平緩,因

此被廣泛應用于各種領域,包括Web開發、數據科學、人工智能等等。Python

可以運行在多個操作系統上,包括Windows、MacOS和Linux,而且有豐富的第

三方庫和工具可以方便地實現各種功能。Python也有很多優秀的開源項目和社

區支持,使得開發和分享代碼變得更加容易??傊?,Python是一門易學易用、

功能強大、生態豐富的編程語言。。

1.2.2hadoop簡介

Hadoop是一個用于處理大數據的開源軟件框架,可以在廉價的硬件設備上

運行。Hadoop的兩個核心模塊是HDFS和MapReduce。HDFS(HadoopDistributed

FileSystem)是一個分布式文件系統,可以將數據存儲在多臺服務器上,提供

1

湖南商務職業技術學院畢業設計

高可靠性和容錯能力,同時也支持大數據的高速讀寫。MapReduce是一種數據處

理模型,它能夠并行處理大規模數據集。它將數據劃分成許多小的塊,并在集

群上進行并行計算,最后將結果匯總起來。MapReduce的核心思想是將數據分布

式地處理,這樣可以充分利用大規模集群的處理能力,從而實現快速處理大數

據。

1.2.3pyecharts簡介

Pyecharts是一個Python可視化庫,它可以幫助用戶用代碼生成各種各樣

的圖表,比如折線圖、柱狀圖、餅圖等。它使用的是百度的Echarts圖表庫作

為底層支持,因此生成的圖表非常漂亮、交互性強。同時,Pyecharts還具有良

好的可擴展性和靈活性,可以與各種Python框架和數據源進行集成,使用非常

方便。

2需求分析

2.1可行性需求分析

1)技術可行性

采集部分:使用Scrapy框架進行數據爬取,該框架已經成為Python爬蟲

領域的標準框架,可用于高效地提取所需的數據。清洗部分:使用MapReduce

處理數據,該技術可以分布式處理大規模數據,能夠處理上海鏈家網的海量數

據。分析部分:使用Hive進行數據分析,該工具可以輕松地處理大規模的數據

集,并且具有高性能和可擴展性。可視化部分:使用Pyecharts庫進行數據可

視化,該庫是一個基于Echarts的Python可視化庫,可以將數據轉換為直觀、

易于理解的可視化圖表。

2)資源可行性

采集和分析數據需要大量的計算資源,而且上海鏈家網二手房數據的更新

速度很快,因此需要強大的硬件和網絡資源來支持項目的正常運行。本項目需

要使用高性能的計算機和高速的網絡連接,確保數據采集、清洗、分析和可視

化過程的高效性和穩定性。

3)經濟可行性

本項目的經濟可行性主要取決于成本和收益之間的平衡。對于成本方面,

需要考慮硬件和軟件的費用、人力成本等;對于收益方面,可以通過數據分析

和可視化,為房地產投資者提供有價值的信息和指導。同時,還可以通過出售

2

湖南商務職業技術學院畢業設計

數據或提供數據服務等方式獲得收益。

2.2采集目標功能分析

本次項目的數據集的來源是上海鏈家網二手房網站,是通過scrapy爬取上

海市二手房的全部數據。分析鏈家網網頁信息,明確我們需要爬取的二手房出租

參數有租房名稱、住房簡介、地址、住房類型、戶型、價格、建筑面積在對原

始數據進行預處理后我們會對其數據進行多個維度的分析。

2.3關鍵技術分析

2.3.1網絡爬蟲技術

網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱

為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者

腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。但

是,網絡爬蟲技術的使用需要遵守相關法律法規和道德規范,同時應尊重網站

的隱私和版權,不進行惡意訪問和數據濫用。

2.3.2文件存取技術

文件存儲技術是指用來存儲和管理數據文件的技術,包括硬盤、U盤、光盤、

磁帶等儲存介質。在計算機應用中,文件存儲技術是最基本、最常用的技術之

一。在文件存儲技術中,硬盤是最常用的儲存介質之一,其使用成本低、容量

大、讀寫速度快、可靠性高。U盤則是一種小型、便攜式的存儲設備,可隨身攜

帶,容量較小但讀寫速度較快。光盤也是常見的儲存介質,它具有高容量、長

期保存、易于傳播等特點。磁帶則主要用于備份數據和存檔,其存儲容量較大,

但讀寫速度較慢。

2.3.3可視化技術

可視化(Visualization)是利用計算機圖形學和圖像處理技術,將數據轉

換成圖形或圖像在屏幕上顯示出來,再進行交互處理的理論、方法和技術。在

數據分析領域,可視化技術可以幫助人們更好地理解數據,從而做出更準確的

決策。在現代數據處理技術的發展中,可視化技術成為數據處理技術不可或缺

的一環,它可以使復雜數據變得易于理解和應用。

3

湖南商務職業技術學院畢業設計

3數據采集

3.1采集頁面分析

鏈家網()是中國最大的房地產在線交易平臺之一,成立于

2001年,總部位于北京市。該平臺提供了房屋買賣、租賃、房屋估價等房地

產相關服務,涵蓋了全國范圍內的房地產信息。在鏈家網中,每個城市都是一

個獨立的url,比如長沙市的url和上海市的url不相同,也不能通過跳轉進

入其他城市的頁面。

本次項目主要采集上海市的房源信息,在百度搜索上海鏈家網即可找到官

網,如下圖3-1所示:

圖3-1上海鏈家網

由于上海市房源數量非常巨大,如果使用requests進行數據采集,效率會

相當低下。requests主要用于小規模的數據抓取和簡單的爬蟲需求,而scrapy

更適用于大規模的數據抓取和復雜的爬蟲需求。

所以本次項目使用scrapy進行數據采集,scrapy有以下幾個特點:

1)高效性:Scrapy基于Twisted異步網絡框架實現,可以高效地處理大規模

爬取任務,支持并發和異步請求,能夠快速地爬取目標網站的數據。

2)可擴展性:Scrapy提供了多種可擴展的組件,如中間件、擴展和管道,用

戶可以通過編寫自己的組件來實現各種自定義功能和擴展需求。

3)靈活性:Scrapy提供了豐富的配置選項和可定制化的設置,用戶可以根據

實際需求來自定義爬蟲的行為、流程和數據處理邏輯。

綜上所述,Scrapy是一款功能強大、高效、可擴展、靈活、方便、處理規則豐

4

湖南商務職業技術學院畢業設計

富、支持多種數據格式的Python網絡爬蟲框架,適用于各種規模和復雜度的爬

蟲任務。

3.2字段分析

點擊頁面的“開始找房“按鈕,進去選房頁。在選房頁中可以在篩選框中條

件查找自己感興趣的房源,在本項目中為了保證數據分析的真實性和正確性,

這里需要全量采集數據,篩選框中都選擇全部。如下圖3-2所示:

圖3-2房源篩選頁

本次數據采集的字段有:房源名稱、區域、地址、戶型、面積、年份等字段,

這些字段都在縮略頁中有顯示,如下圖3-3所示:

圖3-3房源字段

通過觀察發現,大多數字段都保存在HTML中,在解析字段時,可以直接使

用xpath方法進行獲取。其中“區域“字段比較特殊,在縮略頁中并沒有顯示,

所以在采集“區域”字段時需要逐一請求每個區域的url,并將該區域名稱進行

保存。

3.3編程實現

到指定的目錄下,打開命令窗口,輸入如下命令創建scrapy項目,如下圖3-4

所示:

5

湖南商務職業技術學院畢業設計

圖3-4創建scrapy項目

其中,lianjia是項目名稱,執行該命令會在當前目錄下創建一個名為

lianjia的Scrapy項目。該項目的目錄結構如下圖3-5所示:

圖3-5scrapy項目的目錄結構

Scrapy項目創建完成后,還需要根據具體需求進行配置和修改,比如編寫

書解析方法、設置User-Agent、設置Pipeline、設置爬取速度限制等等。

1、Spider類實現

在Scrapy中,Spider類是用戶編寫爬蟲程序的核心類,它定義了如何進行

網頁抓取、如何提取數據以及如何跟進鏈接等一系列操作。在Spider類中,用

戶需要定義一些屬性和方法來實現網頁爬取的流程和邏輯。

需要設置的關鍵屬性如下圖3-6所示:

圖3-6設置spider類的屬性

這些基本屬性的設置可以在Spider類中進行,用于指定爬蟲程序需要爬取

的網站和頁面。在爬蟲程序運行時,Scrapy會根據這些屬性自動發送請求,并

把響應數據傳給回調函數進行處理,從而實現數據的抓取和處理。

在回調函數parse方法中,通過xpath語法定位到區域的列表頁,通過for

循環遍歷每個區的url。如下圖3-7所示:

圖3-7區域列表

Parse方法的詳情如下圖3-8所示:

6

湖南商務職業技術學院畢業設計

圖3-8parse方法

該parse方法是獲取區域url和名稱的關鍵方法。通過XPath表達式從響

應對象中提取出上海所有區的鏈接和名稱,存儲在area_items變量中。通過循

環遍歷所有的區鏈接和名稱,并且通過yield語句將鏈接和名稱封裝在Request

對象中返回。每個Request對象都會被Scrapy框架自動發送請求,且返回的響

應數據會被傳遞給parse_area方法進行處理。它從起始URL開始,逐步解析網

站上的頁面,抽取出需要的數據,并通過yield語句返回給Scrapy框架的

parse_area方法繼續處理。

parse_area方法如下圖3-9所示:

圖3-9parse_area方法

在parse_area方法中,通過循環遍歷每個房源的標簽,通過xpath方法獲

取房源的各個字段,并將這些字段保存到字典中,并通過yield語句返回給

Scrapy框架進行后續處理。

前面的parse方法和parse_area方法可以獲取到房源的所有字段,但是還

無法進行翻頁處理,所以在parse_area方法中加入以下代碼即可進行翻頁,如

下圖3-10所示:

圖3-10翻頁處理

next_page_url:該語句通過XPath表達式獲取下一頁的鏈接。在該實現中,

7

湖南商務職業技術學院畢業設計

//a[contains(@class,"item-next")]/@href表示查找包含class屬性值

為"item-next"的a元素,并且獲取它的href屬性值。ifnext_page_url:

該語句判斷下一頁的鏈接是否存在。如果存在,就繼續進行下一步操作;否則,

程序結束。

response.urljoin(next_page_url):該語句用于將下一頁的鏈接轉換為絕

對路徑。在Scrapy框架中,如果請求的URL是相對路徑,則需要使用該語句將

其轉換為絕對路徑,以便正常訪問網站。

2、LianjiaItem類實現

在Scrapy中,Item是用于存儲爬取到的數據的容器,類似于字典(dict)

的數據結構。通過定義一個Item類型,并指定其包含哪些字段,可以將爬取到

的數據存儲為結構化的形式,便于后續的數據處理和存儲。

Scrapy中的Item類需要繼承自scrapy.Item類,并通過定義各個字段來

描述數據的結構。每個字段都是scrapy.Field類型的實例,用于描述每個字段

的類型和屬性,如是否允許為空、是否需要進行數據類型轉換等。

在Spider中,當爬取到一條數據時,可以將其打包成一個Item實例并通

過yield語句返回,從而傳遞給ItemPipeline進行后續處理。Item是一種

輕量級的數據容器,與數據存儲和處理邏輯解耦,使得爬蟲代碼更加簡潔清晰,

也方便進行代碼復用和維護。

LianjiaItem類如下圖3-11所示:

圖3-11LianjiaItem類

LianjiaItem類是scrapy.Item子類,用于存儲從上海鏈家網爬取的房源信

息。其中,每個字段都是scrapy.Field類型的實例,用于描述每個字段的類型

和屬性。在spider中獲取到的房源信息會被打包成一個LianjiaItem實例并

在yield語句中返回,從而傳遞給Pipeline進行后續處理。

3、Pipeline類實現

8

湖南商務職業技術學院畢業設計

在Scrapy中,Pipeline是用于對爬取到的數據進行處理的組件。Pipeline

接收爬蟲Spider返回的Item對象,然后進行一系列的處理,例如數據清洗、

數據過濾、數據存儲等,并將處理結果傳遞給下一個Pipeline或輸出到文件系

統、數據庫等存儲介質。

LianjiaPipeline類如下圖3-12所示:

圖3-12pipeline類

該Pipeline會將爬取到的數據保存到一個txt文件中。在初始化函數

__init__()中,會創建一個文件對象self.file,文件名為"shData.txt",模式

為"w"即寫模式,編碼為"utf-8"。然后,將該文件的第一行寫入數據字段的名

稱,即LianjiaItem類中定義的字段名稱。在process_item()函數中,將傳入

的item對象轉換為字符串格式,并寫入文件中。最后,關閉文件的操作在

close_spider()函數中完成,該函數會在爬蟲結束時自動被調用。

4、運行爬蟲程序

使用scrapycrawllianjia命令即可啟動scrapy框架,程序運行結束后回

到當前目錄下生成shData.txt,打開shData.txt文件如下圖3-13所示:

圖3-13shData.txt

數據采集是數據分析和數據挖掘的重要前置步驟,獲取到的數據可以用于建

模、預測、分類、聚類、可視化等任務。本項目一共采集了6萬多條記錄,這

個數據量已經滿足了數據分析和可視化的要求。

9

湖南商務職業技術學院畢業設計

4數據清洗與處理

爬蟲采集上海鏈家網二手房源數據后,可以進行數據清洗來保證數據的質量

和準確性,包括數據去重、數據篩選、數據格式化等,以便更好地進行數據分

析和挖掘。例如,在上海鏈家網爬取的二手房源數據中可能會存在重復數據,

如同一個房源在不同的時間點被采集,采集到的數據可能存在略微差異,因此

需要進行數據去重處理,以避免數據分析時對同一數據進行重復計算,從而導

致分析結果的誤差。

4.1數據清洗說明

使用MapReduce進行數據清洗的優勢在于其具有可伸縮性和容錯性。它是

一種分布式計算框架,能夠將大數據集分成若干個小數據集,對小數據集進行

計算,最后將計算結果進行合并,從而實現分布式計算。因此,當數據量非常

大時,可以使用MapReduce將數據分布到多臺計算機上進行處理,提高處理速

度和效率。此外,MapReduce還具有容錯性,即當某臺計算機出現故障時,可以

將任務重新分配到其他計算機上進行處理,從而保證了整個數據處理過程的可

靠性和穩定性。

4.2數據清洗需求

原始文件的數據格式為txt文件,字段之間使用逗號進行分隔,在使用

maoreduce讀取文件時,需要使用逗號切分每一行,編寫對應字段的數據清洗方

法。通過觀察原始數據,可以剔除以下幾點數據清洗需求:

1)House_info字段是一個復合字段,可以從該字段拆分出:房型、面積、朝

向、裝修風格、樓層和房源類型等字段

2)follow_info字段同樣也是一個復合字段,從該字段中拆分出:關注人數和

發布時間。

3)在all_price和square_price字段代表價格字段,在原始數據中,價格使

用逗號分隔,這一點跟字段分隔符發生了沖突,如下圖4-1所示:。需要將

該字段格式化,并剔除單位。如:”52878,806元/平”處理之后為:

“52878806“。

圖4-1價格字段的格式

10

湖南商務職業技術學院畢業設計

4.3編程實現

house_info字段是一個復合字段,通過觀察發現,它有兩種格式,第一種

是包含了“年建”字段,第二種是不包含“年建”字段,在切分成數組后長度

上會有區別,包含“年鍵”的數組長度為7,不包含”年鍵”的數組長度為6。

這兩種情況需要分別處理。代碼如下圖所示:

圖4-2處理house_info字段

clean_house_info方法,用于清理鏈家網二手房源信息中的

"house_info"字段。方法接收一個字符串類型的"house_info",并將其按照

"|"字符進行切分。如果切分后的數組長度為7,則將"|"替換為","并返

回字符串。如果長度不為7,則調用"connect"方法將切分后的前5個元素

拼接成一個字符串,并在第5個和第6個元素之間添加兩個逗號,然后再與

最后一個元素拼接并返回一個字符串。

connect,用于將多個字符串連接起來,并以逗號分隔。其中用到了可變

參數,和StringBuilder類,代碼如下4-3所示:

圖4-3connect方法

通過編寫clean_follow_info方法用于處理follow_info字段。該方法使用

正則表達式解析輸入字符串follow_info,提取出其中的數字,并拼接成以逗號

分隔的字符串返回。

具體步驟如下:

1)使用正則表達式(\\d+).*?(\\d+)編譯一個模式compile;

11

湖南商務職業技術學院畢業設計

2)使用模式compile對輸入字符串follow_info進行匹配,返回一個匹配器

matcher;

3)如果匹配成功,提取出第一個數字和第二個數字,并拼接成以逗號分隔的字

符串返回;

4)如果匹配失敗,返回以兩個逗號分隔的空字符串。

例如,當輸入字符串follow_info為看房5次,歷時1個月時,該方法的返

回值為5,1。代碼如下圖4-4所示:

圖4-4clean_follow_info方法

在前面數據清洗需求分析小結已經提到,all_price字段和unit_price字

段種的逗號與字段分隔符發生沖突,為了避免后續的數據處理發生錯誤,這里

需要進行處理。clean_price方法如下圖4-5所示:

圖4-5clean_price方法

該函數實現的是清洗房源價格的功能,將價格拼接成統一的格式。輸入參數

有兩個:price_pre是房源價格的前綴,price_slice是房源價格的后綴,剔除

后綴種的單位字符串,最后將前綴和后綴拼接成新的字符串,并返回。

12

湖南商務職業技術學院畢業設計

在map方法種,利用數據清洗方法處理各個字段,map方法代碼如下圖4-6

所示:

圖4-6map方法

用于HadoopMapReduce中的數據清洗。該函數會將輸入的一行數據按照逗

號分隔符進行切割,如果切割后的字段數量不為10,則返回,否則進行數據清

洗操作。具體地,它會調用clean_house_info()函數,將房屋信息中的豎線符

號“|”替換為逗號“,”;調用clean_follow_info()函數,從關注信息字段中

提取出關注人數和帶看次數;調用clean_price()函數,將價格信息字段中的元

/平去掉。

數據清洗完成后,函數會將處理后的字段用逗號拼接成一個字符串,并在最

后一個字段后面加上換行符,再寫出到Hadoop的輸出文件中。由于MapReduce

中的輸出要求是鍵值對形式的,因此在這里鍵使用了NullWritable類型,值則

是Text類型,代表輸出的是一個文本字符串。

在main方法中,指定輸入和輸出路徑,用于將輸入的數據集和輸出的結果

寫入到指定的文件中。創建了一個MapReduce作業,并為其設置了相關的屬性,

例如Mapper類和Reducer類,輸入鍵和值以及輸出鍵和值的類型。使用Hadoop

的Configuration類創建了一個配置對象,用于設置作業相關的屬性,例如集

群的地址和端口等。調用waitForCompletion()方法來啟動作業并等待其完成。

13

湖南商務職業技術學院畢業設計

圖4-7mapreduce運行日志

程序運行結束之后會到指定的目錄中生成output文件夾,這個output文件

夾中的part-r-00000文件就是數據清洗的結果文件。如下圖4-8所示:

圖4-8mapreduce運行結果

5數據統計與分析

5.1數據準備

數據分析部分使用hive數據倉庫管理工具來完成,hive能夠數據文件映射

成一張表,它提供了類SQL語句和大量的函數。Hive數據存儲使用的是hdfs分

布式文件系統,計算引擎用的mapreduce框,所以能夠比較輕松的處理大數據。

創建hive表將數據文件導入,如下圖5-1所示:

14

湖南商務職業技術學院畢業設計

圖5-1創建hive表

使用hive提供的load語句將part-r-00000文件導入到hive表中,因為是

從本地文件系統導入,所以在命令中需要加入local關鍵字。如下圖5-2所示:

圖5-2數據導入

數據導入成功之后就可以使用sql對數據進行多維度、多角度的分析了。

數據分析結果使用insertoverwrite語句導入到本地,后續使用pyecharts進

行數據的可視化。

5.2數據分析與展示

5.2.1統計上海各區的房源數量和價格

編寫sql查詢上海鏈家網的房源數據按照區域分組,并按照數量從多到少排

序。查詢結果包括區域、房源數量以及每個區域平均房價(保留兩位小數)。

selectregion,count(1)asnum,round(avg(unit_price),2)asprice

fromshlianjie

groupbyregion

orderbycount(1)desc

圖5-3統計上海各區的房源數量和價格

從上圖可知,徐匯區是上海市二手房數量最多的區,其次是浦東區和普陀區。

15

湖南商務職業技術學院畢業設計

其中,徐匯區二手房數量達到14965套,遠遠超過其他區,可能是由于其交通

便利、人口密集等因素影響的結果。

在二手房平均價格方面,徐匯區同樣是最高的,達到71637.43元/平米。其

次是浦東區、普陀區和寶山區。從平均價格來看,這些區的二手房市場相對較

為活躍,購買者的購房意愿較強。

從區域分布來看,這些二手房數量和平均價格較高的區域大多位于上海市中

心區域和新城區域,包括徐匯區、浦東區、普陀區、黃浦區和靜安區等。這些

區域的房價相對較高,可能是由于其地理位置優越、城市資源豐富等因素影響

的結果。

5.2.2統計每年建造的房屋數量和價格

從shlianjie表中提取出年份,并統計每個年份的房源數量和平均單價,然

后按照房源數量倒序排序。

selectregexp_extract(year,"\\d{4}")asyear,count(1)as

num,round(avg(unit_price),2)asprice

fromshlianjie

groupbyregexp_extract(year,"\\d{4}")

orderbycount(1)desc

圖5-3每年建造房屋的數量和價格

根據上面的數據,我們可以了解到上海市從1955年至2021年期間,共建造

房屋共計41515套,建造的年代分布比較廣泛,其中,1980年至2008年是上海

16

湖南商務職業技術學院畢業設計

市建造房屋數量比較密集的年代。下面是該數據的分析報告:

其中,房屋數量的最大值為3711套,最小值為2套,平均值為728.77套;

建造房屋的平均價格的最大值為147976元/平方米,最小值為45555元/平方米,

平均值為77911.56元/平方米。

5.2.3統計最受歡迎的的樓層和平均價格

將房屋所在樓層(storey)、關注度(follow)、房屋數量(num)和平均

單價(price)分組,并按關注度從高到低排序,最后限制結果為前10條記錄。

關注度越高代表該樓層越受歡迎。

selectstorey,sum(follow)asfollow_num,count(1)as

num,round(avg(unit_price),2)asprice

fromshlianjie

groupbystorey

orderbysum(follow)desc

limit10

圖5-4統計房源的分布

中樓層和高樓層是二手房市場的主要房源類型,其中中樓層房屋數量最多,

高樓層房屋價格相對較高。在中樓層中,6層建筑的數量最多,而在高樓層中,

18層和19層建筑的數量最多。頂層房屋數量相對較少,但價格較低,可能受到

樓層高度的限制。高樓層(共10層)和16層建筑的數量相對較少,可能受到

市場需求和規劃規定的限制。高樓層(共32層)建筑數量相對較多,但價格較

17

湖南商務職業技術學院畢業設計

低,可能受到建筑物所在區域和建筑年代的影響。

總之,樓層高度在二手房市場中具有重要影響,購房者應根據自身需求和預

算綜合考慮。

5.2.4統計各個戶型的數量個平均價格

統計鏈家數據中每種戶型的數量和均價。其中unit_type是戶型的類型,例

如:“1室1廳”、“2室1廳”等等。num統計了該戶型的房屋數量,price

統計了該戶型的平均房價。

selectunit_type,count(1)asnum,round(avg(unit_price),2)asprice

fromshlianjie

groupbyunit_type

圖5-5統計各戶型的數量和平均價格

首先,根據數據,3室2廳戶型是數量最多的,其次是2室1廳和1室1廳,

數量分別為19832和5453。而戶型數量最少的為8室3廳,僅有12個。此外,

4室1廳、3室1廳、4室2廳和2室2廳這些常見戶型的數量也較多。

其次,就平均價格而言,8室3廳和4室3廳這兩種戶型的平均價格最高,

分別為102919和65586.22元。而6室3廳和高檔大戶型5室3廳的平均價格

則相對較低,分別為29992.5和47314.4元。從整體來看,各個戶型的平均價

格都在6萬到8萬之間,沒有太大的差別。值得注意的是,1室0廳和3室0廳

的樣本數量較少,平均價格的可靠性可能較低。

綜上所述,根據提供的數據分析,房屋的數量和平均價格與戶型有關,不同

18

湖南商務職業技術學院畢業設計

戶型的數量和價格也有所不同,其中6室3廳和8室3廳的平均價格較高,而1

室1廳和2室1廳的數量較多。

5.2.5分析關注人數與價格之間的關系

從shlianjie表中選擇關注人數數(follow)和單位價格(unit_price),

并且只保留跟隨數不等于0的行。根據關注人數和單位價格繪制出散點圖,即

可分析其中的關系。

selectfollow,unit_price

fromshlianjie

wherefollow!=0

圖5-6關注人數與價格之間的關系

根據數據,可以看出高房價的房屋關注人數較少,低房價的房屋關注人數較

多。

從統計學的角度來看,這個結論得到了很好的支持。房價與關注人數之間的

相關性是負相關的,即房價上漲時,關注人數下降。這種趨勢可能與消費者的

心理有關,高房價的房屋一般比低房價的房屋更為昂貴,購買者通常更為謹慎,

關注度較低。另外,低房價的房屋通常更適合購買者的預算,因此更多的購買

者會對其關注和關心。

在未來的房地產市場分析中,這種趨勢可以被用來預測購房者的關注點,以

及如何調整營銷策略以吸引更多的潛在客戶。

19

湖南商務職業技術學院畢業設計

5.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論