文本數據分析海洋大數據分析與應用天津海運職業課件_第1頁
文本數據分析海洋大數據分析與應用天津海運職業課件_第2頁
文本數據分析海洋大數據分析與應用天津海運職業課件_第3頁
文本數據分析海洋大數據分析與應用天津海運職業課件_第4頁
文本數據分析海洋大數據分析與應用天津海運職業課件_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

新知傳授任務實施課堂小結文本數據分析《海洋大數據分析與應用》天津海運職業學院新課導入學習目標課中講授實操演練課堂小結了解熟悉掌握掌握了解NLTK與jieba12掌握文本預處理,文本情感分析掌握文本相似度,文本分類34熟悉NLTK與jieba庫的安裝大國崛起,樹立民族自豪感和社會責任感手機芯片市場份額,華為麒麟芯片的自主研發,將塑造大國信仰、科技獨立自主的傳承等案例融入(思政目標),增強學生對專業的理解和認同,提升專業基礎知識和自主設計學習熱情(教學目標),使學生理解電子科技對國家政治、經濟中的重要性。01文本數據分析工具02文本預處理03文本情感分析新課導入學習目標課中講授實操演練課堂小結自然語言處理(NLP)領域是計算機科學領域與人工智能領域中的一個重要方向,它主要研究實現人與計算機之間用自然語言進行有效通信的各種理論和方法。新知講授課中講授實操演練課堂小結新課導入課中講授通過一張表來列舉NLTK中用于語言處理任務的一些常用模塊。新知講授課中講授實操演練課堂小結新課導入課中講授NLTK中語言處理任務的常用模塊。(續表)新知講授課中講授實操演練課堂小結新課導入課中講授Jieba庫擁有以下一些特點:支持三種分詞模式支持繁體分詞支持自定義詞典新知講授課中講授實操演練課堂小結新課導入課中講授Jieba庫支持以下三種分詞模式:精確模式試圖將句子最精確地切開,適合文本分析。全模式把句子中所有可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義。搜索引擎模式在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。新知講授課中講授實操演練課堂小結新課導入課中講授大家可以參考/fxsjy/jieba網址進行全面學習。后期在使用到jieba庫的某些功能時,會再另行單獨介紹。新知講授課中講授實操演練課堂小結新課導入課中講授02文本預處理預處理的流程文本預處理一般包括分詞、詞形歸一化、刪除停用詞,具體流程如下所示:新知講授課中講授實操演練課堂小結新課導入課中講授根據中文的結構特點,可以把分詞算法分為以下三類:基于規則的分詞方法按照一定的策略將待分析的中文句子與一個“充分大的”機器詞典中的詞條進行匹配。基于統計的分詞方法它的基本思想是常用的詞語是比較穩定的組合。基于理解的分詞方法它的基本思想是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。凡是有度,過猶不及

語法規則強制類型轉換就好比將大瓶水倒入到小瓶中一樣,如果大瓶中的水的容量小于小瓶的大小,那么水是可以完全倒入的;否則多出來的水就會溢出。告知同學們水滿則溢,日滿則虧,人生的巧妙就在于做人有尺、做事有度,情感、情緒、理智處在平衡狀態,不要過猶不及。新知講授課中講授實操演練課堂小結新課導入課中講授要想使用NLTK對英文句子分詞,則可以調用word_tokenize()函數基于空格或標點進行劃分,并返回單詞列表。sentence='Ilikebule.'#將句子切分為單詞words=nltk.word_tokenize(sentence)['I','like','bule','.']新知講授課中講授實操演練課堂小結新課導入課中講授要想使用jieba對中文句子分詞,則可以通過jieba.cut()

函數進行劃分,該函數接收如下三個參數:

需要分詞的字符串。cut_all參數用來控制是否采用全模式。HMM參數用來控制是否使用HMM模型。新知講授課中講授實操演練課堂小結新課導入課中講授如果將cut_all參數設為True,則表示按照全模式進行分詞,示例如下:sentence='傳智專修學院推出顛覆式辦學模式'#全模式劃分中文句子terms_list=jieba.cut(sentence,cut_all=True)print('【全模式】:'+'/'.join(terms_list))【全模式】:傳/智/專修/修學/學院/推出/顛覆/式/辦學/模式新知講授課中講授實操演練課堂小結新課導入課中講授如果將cut_all參數設為False,則表示的是按照精確模式進行分詞,示例如下:sentence='傳智專修學院推出顛覆式辦學模式'#全模式劃分中文句子terms_list=jieba.cut(sentence,cut_all=False)print('【精確模式】:'+'/'.join(terms_list))【精確模式】:傳智/專修/學院/推出/顛覆/式/辦學/模式新知講授課堂小結新課導入課中講授課中講授實操演練案例—商品評價信息分析importpandasaspdfromnltkimportFreqDistimportjiebafile_path=open(r'C:\Users\admin\Desktop\商品評價信息.csv')file_data=pd.read_csv(file_path)file_data新知講授課堂小結新課導入課中講授課中講授實操演練案例—商品評價信息分析#加載停用詞表file_path=open(r'C:\Users\admin\Desktop\停用詞表.txt',encoding='utf-8')stop_words=file_path.read()#刪除停用詞#新建一個空列表,用于存儲刪除停用詞后的數據new_data=[]forwordincut_words:ifwordnotinstop_words:new_data.append(word)new_data新知講授課堂小結新課導入課中講授課中講授實操演練案例—商品評價信息分析#導入所需要使用的包frommatplotlibimportpyplotaspltfromwordcloudimportWordCloud#詞云顯示font=r'C:\Windows\Fonts\STXINGKA.TTF'#華文行楷wc=WordCloud(font_path=font,background_color='white',width=1000,height=800).generate("".join(new_data))plt.imshow(wc)#用plt顯示圖片plt.axis('off')#不顯示坐標軸plt.show()#顯示圖片課堂小結新課導入課中講授課中講授實操演練課堂小結本章主要介紹了文本分析的相關知識,具體包括文本分析工具的安裝及基本使用、文本預處理和文本情感分析,最后結合所學的知識開發了一個商品評價分析的案例。希望大家通過對本章的學習,可以理解文本數據分析的原理,以便后續能基于機器學習更深入地去探索。團

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論