




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第6章數據可視化之詞云圖篇商務智能與數據可視化分析基礎1本章內容詞云圖與分詞算法詞云圖分詞算法中文分詞的難點Excel實現中文分詞Python實現中文分詞與第三方插件詞云圖與詞云看板的實現
Excel分詞結果展示Python分詞結果展示背景制作與看板美化201詞云圖與分詞算法詞云圖分詞算法中文分詞的難點數據可視化之詞云圖篇詞云就是對文本中出現頻率較高的關鍵詞予以視覺上的突出,形成“關鍵詞云層”或“關鍵詞渲染”,以便讓瀏覽者一眼掃過就可以領略文本的重點。詞云圖又稱文字云,是信息可視化的表現形式之一。1.1詞云圖3
分詞就是將連續的“字序列”按照一定的規范重新組合成語義獨立的“詞序列”的過程?;谠~典分詞算法基于詞典的分詞算法也稱字符串匹配分詞算法,該算法是按照一定的策略將待匹配的字符串和一個已建立好的“充分大的”詞典中的詞進行匹配,如果找到某個詞條,則說明匹配成功,識別了該詞。常見的基于詞典的分詞算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。基于詞典的分詞算法是應用最廣泛、分詞速度最快的。很長一段時間內,研究者都在使用基于字符串匹配的方法進行優化。例如,優化最大長度設定、字符串存儲和查找方式,以及對詞表的組織結構優化,如采用Trie樹、哈希索引等。1.2分詞算法4基于統計的機器學習算法目前常用的算法是HMM、CRF、SVM、深度學習等算法。例如,自然語言處理工具包Stanford、Hanlp就是基于CRF算法來實現的。以CRF為例,其基本思路是對漢字進行標注訓練,基于統計的機器學習算法不僅考慮詞語出現的頻率,還考慮上下文,具備較好的學習能力,因此其對歧義詞和未登錄詞的識別都具有良好的效果。
隨著深度學習的興起,出現了基于神經網絡的分詞器。例如,有人嘗試使用雙向LSTM+CRF實現分詞器功能,其本質是序列標注,所以具有通用性。當命名、實體識別時都可以使用該模型,據報道其分詞器字符的準確率可高達97.5%。1.3分詞算法5目前中文分詞難點主要如下:
(1)分詞標準:比如人名,在哈工大的標準中姓和名是分開的,但在HanLP(HanLanguageProcessing
)中是合在一起的。這需要根據不同的需求制定不同的分詞標準。
(2)歧義:對同一個待切分的字符串存在多個分詞結果。歧義又分為組合型歧義、交集型歧義和真歧義三種類型。
組合型歧義:分詞是有不同的粒度的,某個詞條中的一部分也可以被切分為一個獨立的詞條。例如,“北京大學歷史悠久”,粗粒度的分詞就是“北京大學/歷史/悠久”,細粒度的分詞可能是“北京/大學/歷史/悠久”。
交集型歧義:在“杭州西湖南邊”中,“西湖”是湖名,是一個專有詞,“湖南”也是一個詞,它們共享了“湖”字。真歧義:本身的語法和語義都沒有問題,即使采用人工切分也會產生同樣的歧義,只有通過上下文的語義環境才能給出正確的切分結果。例如,句子“我知道你也認識小王”,既可以切分成“我知道/你也認識小王”,又可以切分成“我知道你/也認識小王”。(3)新詞:即未被詞典收錄的詞,該問題的解決依賴于人們對分詞技術和漢語語言結構的進一步認識。1.4中文分詞的難點6702Excel實現中文分詞下載插件安裝插件插件安裝確認中文分詞數據規整詞頻統計數據可視化之詞云圖篇Excel本身沒有分詞的功能,可以借助插件——“方方格子”工具箱來實現中文分詞的功能。(1)下載插件首先登錄方方格子官網,單擊“方方格子工具箱”按鈕,并選擇下載地址進行安裝包的下載。2.1Excel實現中文分詞8(2)安裝插件將下載的安裝包解壓縮后,在確認關閉Excel的情況下,以管理員權限運行安裝向導,按照提示進行安裝。2.2Excel實現中文分詞9(3)插件安裝確認在完成安裝之后打開Excel,可以在菜單欄中找到“方方格子”選項卡。2.3Excel實現中文分詞10(4)方方格子安裝異常處理如果Excel的菜單欄中未出現“方方格子”選項卡,則選擇“文件”→“選項”命令,在彈出的“Excel選項”對話框中選擇“加載項”選項,并設置啟用“FFCell”加載項。2.4Excel實現中文分詞11中文分詞在分詞之前,首先將配套素材文件中的內容以文本的格式粘貼到A1單元格中。然后在“方方格子”選項卡的“高級文本處理”組中選擇“更多”→“分割更多”→“文本分詞”選項。
2.5Excel實現中文分詞12中文分詞在彈出的“文本分詞”對話框中,設置區域為“A1”,分隔符為“/”,并單擊“確定”按鈕,最后設置將結果存放在“$A$2”區域中。2.6Excel實現中文分詞13數據規整在分詞完成之后,A2單元格中存放著以“/”為分隔符的詞語集合,為之后看板制作的數據做準備,需要將詞語集合轉換為一列。首先選中單元格A2,然后選擇“數據”→“分列”選項,在彈出的對話框中勾選“分隔符號”單選按鈕,并單擊“下一步”按鈕。2.7Excel實現中文分詞14數據規整勾選“分隔符號”區域中的“其他”復選框,在輸入框中輸入“/”,單擊“完成”按鈕。2.8Excel實現中文分詞15數據規整在完成分列后,首先選中分列后的全部詞語所在的A2單元格進行復制(按“Ctrl+C”組合鍵),然后在A3單元格處右擊,在彈出的快捷菜單中選擇“選擇性粘貼”命令,在彈出的“選擇性粘貼”對話框中,勾選“轉置”復選框并單擊“確定”按鈕。2.9Excel實現中文分詞16數據規整最后在“A1”單元格處鍵入“分詞結果”作為列名,并刪除A2行。2.10Excel實現中文分詞17詞頻統計在得到一列分詞結果后,可以在Excel中使用數據透視表進行簡單的詞頻統計,單擊“插入”→“數據透視表”按鈕,在彈出的“來自表格或區域的數據透視表”對話框中,選擇表格區域中的“A”列,在“選擇放置數據透視表的位置”區域中選中“現有工作表”單選按鈕,并設置“位置”為B1單元格。2.11Excel實現中文分詞18詞頻統計在數據透視表字段中,勾選“分詞結果”復選框并分別拖放至“行”框和“值”框,在“值”框中設置默認“計數項”為分詞結果。2.12Excel實現中文分詞192003Python實現中文分詞與第三方插件精確模式全模式搜索引擎模式
文本分詞示例第三方插件數據可視化之詞云圖篇現成的分詞工具有不少,其中Python環境下的分詞工具也很多,包括盤古分詞、Yaha分詞、結巴分詞等,這些分詞工具都是開源軟件,在許可協議下可以免費使用這些分詞工具。其中結巴分詞(jieba庫)是一款優秀的Python第三方中文分詞庫,它支持三種分詞模式:精確模式、全模式和搜索引擎模式:1、精確模式:可以精確地切分語句,不存在冗余數據,適合進行文本分析。jieba.cut(text,cut_all=False)#精確模式2、全模式:將語句中所有可能是詞語的部分都切分出來,切分速度快,但是存在冗余數據。jieba.cut(text,cut_all=True)#全模式3、搜索引擎模式:jieba.cut_for_search(text)#搜索引擎模式3.1Python實現中文分詞21
文本分詞示例:1、分詞庫安裝
全自動安裝:pipinstalljieba(window環境)pip3installjieba(Linux環境)2、導入相關工具庫importjieba,osimportpandasaspd3、導入文本與停用詞表root='D:\\1'#文件夾所在路徑stopwords=[line.strip()forlineinopen(os.path.join(root,'6.stopwords.txt'),encoding='UTF-8').readlines()]df_fcb=pd.DataFrame()
3.2Python實現中文分詞224、分詞過程3.3Python實現中文分詞235、完成分詞結果整理與導出
df_fcb.to_excel('6.6_jieba分詞后.xlsx',index=None)PowerBI本身并沒有詞云的可視化對象,可安裝第三方插件來實現,既可通過“獲取更多視覺對象”,也可通過“從文件導入視覺對象”來安裝。其中通過“獲取更多視覺對象”安裝的步驟如下:
(1)從“可視化效果”窗格中選擇省略號。
(2)點擊“獲取更多視覺對象”,從而加載更多豐富的第三方插件來實現詞云圖。
(3)點擊WordCloud進行加載,此時需要稍等一會,PowerBI會自動下載并安裝該插件。3.4安裝第三方插件24通過“從文件導入視覺對象”安裝第三方插件的步驟如下:(1)在“可視化”窗格中單擊“…”按鈕。(2)在彈出的快捷菜單中選擇“從文件導入視覺對象”命令。(3)在彈出的對話框中,選中待導入的文件,如WordCloud_ImportTest.pbiviz,并單擊“打開”按鈕。(4)視覺對象將在“可視化效果”窗格中顯示為新圖標。3.5加載第三方插件252604詞云圖與詞云看板的實現Excel分詞結果展示背景制作與看板美化數據可視化之詞云圖篇標題提升4.1Excel分詞結果展示27默認詞云圖接著導入詞云的可視化對象,勾選“行標簽”復選框并拖放至“類別”框,勾選“計數項:分詞結果”復選框并拖放至“值”框,并將聚合類型設置為“求和”,即可得到默認詞云圖。4.2Excel分詞結果展示28除了可以在Excel中統計詞頻,還可以使用DAX來建立一個“分詞計數”的度量值,要勾選未統計過的“分詞結果”復選框并拖放至“類別”框,勾選“分詞計數”復選框并拖放至“值”框,即可得到可視化結果。4.3使用度量值繪制詞云29雖然在Excel中通過方方盒子插件實現了“0代碼”中文分詞功能,但分詞過程中無法手動去除如“的”“與”“基于”“研究”“二”“我們”這樣的無意義的助詞、代詞或名詞。依次選擇“主頁”→“輸入數據”選項,輸入需要去除的如“的”“與”“基于”“研究”“二”“我們”這樣的無意義的助詞、代詞或名詞。4.4去除無意義的詞30勾選輸入的“列1”復選框并拖放至“不包含”框,可以發現之前的“的”“基于”等字樣消失了。4.5去除無意義的詞314.6Python分詞結果展示32PowerBI作為微軟產品,默認版面尺寸和PowerPoint(PPT)是一致的,因此可借助PPT來快速完成背景的制作。以“上海大創項目名稱”看板為例,首先在網上收集幾張與主題強相關的圖片,然后將它們插入PPT。4.7背景制作與看板美化33選擇合適的背景,并插入后,依次設置標題為“上海大創項目名稱”,設置目錄切片器,并插入在之前制作的詞云可視化對象4.8背景制作與看板美化34可以看到目錄切片器中的順序較混亂。由于PowerBI是英文的軟件,所以不支持中文升序或降序,目錄順序是按照首字母默認進行排序的。但是在PowerBIDesketop中編輯報表時,可以選擇用一列來定義另一列的方式進行排序。按月份排序的示例如下:4.9背景制作與看板美化35(1)首先選擇要排序的列,在本例中為目錄列。請注意,視覺對象中的目錄按字母順序排序。設置“列工具”選項卡為活動狀態,并單擊“按列排序”按鈕。4.10背景制作與看板美化36(2)然后選中作為排序依據的列。4.11背景制作與看板美化37注意選擇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB36-T1803-2023-棱角山礬培育技術規程-江西省
- DB36-T1734-2022-大球蓋菇-水稻生產技術規程-江西省
- 病理性體質護理
- 全屋定制服務標準流程
- 2025年小學教師資格證教育教學知識模擬考試試卷:教育信息化應用
- 2025年計算機二級MySQL實力提升試題及答案
- 2025年教職工職業發展策略與學校支持系統構建
- 護理敏感指標報告
- 2025年征信行業信用評分體系優化試題庫(行業趨勢)試卷
- 護理人員人際溝通技巧與策略
- 體育行業投標書
- 慢性淋巴增殖性疾病的診斷課件
- 2024年高校教師資格證資格考試題庫含答案(滿分必刷)
- 2024-2029全球及中國電氣電子中的CFD行業市場發展分析及前景趨勢與投資發展研究報告
- 中國法律史-第三次平時作業-國開-參考資料
- 五十六個民族之土族介紹
- JT∕T 794-2019 道路運輸車輛衛星定位系統車載終端技術要求
- 懸挑腳手架及卸料平臺監理旁站記錄表
- 資產處置報廢方案
- 神志病中西醫結合臨床診療指南-精神分裂癥
- QBT 2198-1996手電筒行業標準
評論
0/150
提交評論