




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Python爬蟲大數據采集與挖掘(11-2)
--文本主題、社交網絡與時間序列《Python爬蟲大數據采集與挖掘》第二版.微課視頻版(清華大學出版社,2025)教材《Python爬蟲大數據采集與挖掘》及配套公眾號
(當當、京東可購書)提綱聚類算法主題及其實現技術社交網絡分析時間序列挖掘大數據可視化技術聚類方法目的在于對數據集尋找一種合適的劃分,將數據點劃分成為若干個簇,但這些簇的具體含義并非事先預設的。通過聚類可以發現大數據中的蘊含模式,例如,聚類可以幫助市場分析人員從消費者數據庫中區分出不同的消費群體。K-Means是一種基于劃分的聚類方法,該算法由于簡單、高效、易實施等優點,在很多領域被廣泛應用。#生成數據點集X,y=make_blobs(n_samples=30,n_features=2,centers=3,cluster_std=0.6,random_state=0)#Kmeans聚類,并獲得每個數據點的簇號cluster=KMeans(n_clusters=3,random_state=1).fit(X)y_pred=cluster.labels_#查看每個簇的中心centroid=cluster.cluster_centers_三簇DBScan發現2個無法成簇的點提綱聚類算法主題及其實現技術社交網絡分析時間序列挖掘大數據可視化技術主題定義主題代表著某種敘事范圍,廣泛應用于主題爬蟲、新聞熱點挖掘等中。而首要問題是如何定義主題,如何描述一個主題。從目前所使用的方法看,主要有以下幾種方法。采用關鍵詞集來描述主題關鍵詞及權重集來描述主題。對關鍵詞集進行某種劃分,通過對子主題的描述來實現對整個主題的定義。主題關鍵詞集大數據大數據數據挖掘特征選擇數據SparkHadoop世界杯足球賽世界杯足球賽俄羅斯法國隊大力神FIFA股票市場股票市場看漲看跌股市行情發行券商主題關鍵詞集大數據大數據/0.4數據挖掘/0.2特征選擇/0.1數據/0.1Spark/0.1Hadoop/0.1世界杯足球賽世界杯/0.4足球賽/0.3俄羅斯/0.1法國隊/0.1大力神/0.05FIFA/0.05股票市場股票/0.2市場/0.2看漲/0.1看跌/0.1股市/0.2行情/0.1發行/0.05券商/0.05基于向量空間的主題構建中心向量法將每個文本按照分詞、提取特征詞、計算權重等步驟后,表示為向量,對這些向量計算其幾何中心。中心向量法將整個主題用一個向量表示聚類法當主題中包含多個不同的子主題,而且這些子主題之間的凝聚性不好的時候,就不是太合適只用一個向量來表示了。因此,聚類法就是為了將整個文檔向量按照合適的方法進行分割,將這些向量分割成為若干個密集區域,而每個區域用一個中心向量來表示。LDA主題模型不管是用一個向量還是用多個向量來表示主題,都是一種幾何的表示方法,在主題邊界的刻畫方面尚存在很大不足。將主題看作是一種詞匯空間上的概率分布則可以解決這個問題,因此,另外一大類用來表達主題的方式就是概率主題模型。LDA的圖模型在LDA模型中,話題和詞項的分布都是隱變量,從外部可見的隱變量即為
這兩個先驗分布的變量,從而可以通過調整先驗分布變量來調整話題和詞項的分布情況。LDA模型的Python實現幾個主題?一是,通過人工指定的方式。對于人工選擇的語料,如果自己比較熟悉,人工指定K還是可行的。二是,通過利用驗證集在不斷調整K的情況下,計算模型的困惑度,最終在一定范圍內搜索時困惑度最小的K。這種方式需要進行多次的模型訓練,因此要花費大量的計算時間。在Python開發環境中,有若干個比較流行的機器學習開發包,里面提供了對LDA模型的支持。常見開發包scikit-learn、gensim和sparkMLlib,都提供了LDA的相關函數,但是API不太一樣,支持的開發方法也有所不同。1.基于scikit-learn開發包的實現方法(1)sklearn.decomposition.LatentDirichletAllocation,是對LDA主題模型封裝。(2)scikit-learn也提供了sklearn.feature_extraction可以用于進行詞頻矩陣的生成。在使用scikit-learn進行LDA建模,最主要的API是sklearn.decomposition.LatentDirichletAllocation類的調用,其中涉及到需要提供的參數,需要明白其含義。2.基于gensim開發包的實現方法代碼及說明見教材提綱聚類算法主題及其實現技術社交網絡分析時間序列挖掘大數據可視化技術概念社交關系網絡是互聯網上典型的網絡生態,是互聯網大數據的重要部分。社交關系網絡包括顯式網絡和隱式網絡兩種。前者指用戶通過關注而建立聯系,在微博、微信以及網絡論壇上,顯式社交網絡以粉絲、關注列表的形式展現出來。隱式社交網絡則是通過用戶在社交媒體中的討論交互而建立的。顯式網絡隱式網絡網絡表示節點:用戶ID權重(有權、無權)
在社交網絡中,權重通常用來表示節點之間連接的強度或重要性。例如,在微博上,好友關系可以有不同的權重,表示不同的互動頻率或親密程度。方向(有向、無向)方向屬性表示連接的方向性。無向圖中的邊沒有方向,表示節點之間的關系是對稱的,例如Facebook上的好友關系。有向圖中的邊有方向,表示節點之間的關系是有序的,例如微博上的粉絲和博主之間的關系?。OverlappingCommunitiesDisjointCommunities重疊與非重疊社區社區是指由一群具有共同特征、共同興趣或相似關系的個體組成的群體。在圖結構中,社區代表了一組緊密相連、相互關聯的節點,形成一種內部聯系緊密而與外部聯系稀疏的結構。社區發現(CommunityDetection)即是對社交關系網絡圖進行群組劃分,把特征相似性大并且連接關系緊密的個體節點劃分到同一個群組。例如,在微博的關系網絡中通常會有一些領域相似、關注或互動關系比較緊密的個體,從而形成了多個不同的群組,而群組之間的聯系就弱一些。兩個經典算法:Louvain社區發現算法、標簽傳播算法。也有研究者對Louvain進行了改進,從而可以應用于有向圖。NetworkXNetworkXNetworkX
是一個支持復雜網絡分析的Python包(/),這里的網絡是指一種由節點及其連接組成的圖數據。在社交網絡中,節點是個體,連接表示個體之間的關系。NetworkX支持無向圖、有向圖、含權圖、無權圖的表示和分析。支持的類型有:Graph()類、DiGraph()類、MultiGraph()類和MultiDiGraph()類,分別用來創建無向圖、有向圖、多圖和有向多圖。相關參考代碼見教材。Pajek作為一個網絡分析工具,Pajek還提供了對最短路徑、關鍵路徑、網絡參數計算等的支持。同時,Pajek還有很多功能,包括網絡的剪枝、各種子網的提取、兩個網絡的運算等等。Reingold布局算法的結果展示可以進一步做些社區識別,通過菜單Network|createpartition|communities|Louvain來創建一個社區劃分,它使用了louvain這個社區發現算法,并可以設定算法的resolution值。完成之后,可以通過菜單Draw|Network+FirstPartition來可視化劃分結果。某股票論壇的用戶隱式網絡社區劃分提綱聚類算法主題及其實現技術社交網絡分析時間序列挖掘大數據可視化技術時間序列廣泛存在于互聯網大數據分析任務中,如社交媒體中每天的發帖量、某個話題每天的新聞文本數量、搜索引擎中每天的關鍵詞搜索次數、股票相關交易信息等。#以線性回歸模型為例,可以替換為其他模型my_model=LinearRegression()my_model.fit(trainX,trainY)#預測并進行逆歸一化prediction=my_model.predict(testX)原始序列-訓練測試預測值和真實值的曲線提綱聚類算法主題及其實現技
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中學生標準學術能力診斷2025年生物高二第二學期期末質量跟蹤監視試題含解析
- 重慶市一中2024-2025學年高二物理第二學期期末質量跟蹤監視試題含解析
- 西藏省2025屆物理高二第二學期期末達標檢測試題含解析
- 新疆哈密石油中學2025屆化學高二下期末統考試題含解析
- 出口貿易代理合同模板集
- 餐飲業商鋪租賃及品牌運營管理咨詢合同
- 圖書銷售合同范本一覽(15篇)
- 軍訓心得體會4作文(27篇)
- 新辦公用房租賃合同(18篇)
- 行政組織理論與社會福利政策試題及答案
- JT∕T 784-2022 組合結構橋梁用波形鋼腹板
- 汽車客運有限公司成本費用管理規定
- 緩刑期滿個人總結
- 私教工作表格健康問卷
- 市政道路中線測量內容及計算方法
- 南瓜種植PPT演示課件(PPT 46頁)
- 國外教材精選 課后習題答案量子力學概論 格里菲斯 習題解
- 少先隊員入隊好人好事記錄表
- 土木工程施工課程設計土木工程施工課程設計
- 第三章磁功能玻璃
- 國家開放大學《機械制造基礎》章節測試題參考答案
評論
0/150
提交評論