深度學習技術應用課件:古詩文本數據預處理_第1頁
深度學習技術應用課件:古詩文本數據預處理_第2頁
深度學習技術應用課件:古詩文本數據預處理_第3頁
深度學習技術應用課件:古詩文本數據預處理_第4頁
深度學習技術應用課件:古詩文本數據預處理_第5頁
已閱讀5頁,還剩42頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

五言絕句古詩詞生成深度學習應用技術項目引導案例

古詩詞的生成,這是自然語言處理里面最有意思的任務之一——自然語言生成(NLG),是讓計算機具有與人一樣的表達和寫作能力的技術,即可根據一些關鍵信息及其在機器內部的表達形式,經過規劃自動生成一段高質量的自然語言文本。

項目引導案例古詩文本數據預處理01模型搭建與訓練02搜索一下

“小度”、“小冰”、“樂府”、“薇薇”等機器詩人做的詩詞,你能發現與真人作詩的差異嗎?項目引導案例古詩文本數據預處理職業能力目標01任務描述與要求02任務分析與計劃03知識儲備04任務實施05任務檢查與評價06任務小結07任務拓展08

古詩文本數據預處理了解自然語言處理的概念了解自然語言生成的難點和思路了解文本數據預處理、文本過濾的方法能夠正確使用python過濾無效文本內容能夠正確使用python統計文本能夠使用numpy保存文本數據處理后的結果職業能力目標01知識目標技能目標職業能力目標01任務描述與要求02任務分析與計劃03知識儲備04任務實施05任務檢查與評價06任務小結07任務拓展08

古詩文本數據預處理

對古詩文本數據進行數據預處理,過濾不符合要求的數據,提取五言絕句詩句,并建立有效的數據利用體系。任務描述任務要求過濾古詩詞文本數據的無效內容;完成五言絕句詩句主體的處理;使用統計方法分析文本數據;過濾低頻字符,并建立有效的數據利用體系。任務描述與要求02職業能力目標01任務描述與要求02任務分析與計劃03知識儲備04任務實施05任務檢查與評價06任務小結07任務拓展08

古詩文本數據預處理任務分析常見的文本數據處理的方法有哪些?如何統計文字出現的次數?任務分析與計劃03任務計劃表通過上面的思考,你是否對本任務要完成的工作有所了解?讓我們一起來制訂完成本次任務的實施計劃吧!任務分析與計劃03項目名稱五言絕句古詩詞生成任務名稱古詩文本數據預處理計劃方式自主設計計劃要求請用8個計劃步驟來完整描述出如何完成本次任務序號任務計劃1

2

3

4

5

6

7

8職業能力目標01任務描述與要求02任務分析與計劃03知識儲備04任務實施05任務檢查與評價06任務小結07任務拓展08

古詩文本數據預處理自然語言生成的基本思路204知識儲備自然語言介紹1文本數據處理3自然語言處理04

自然語言處理(NaturalLanguageProcessing,NLP)是人工智能和語言學領域的分支學科。此領域以語言為對象,利用計算機技術來分析、理解和處理自然語言,并提供可供人與計算機之間能共同使用的語言描寫。自然語言處理主要應用04語音識別文字識別知識圖譜機器翻譯輿情監測智能回答04NLP、NLU與NLG之間關系自然語言處理(NLP)主要包括自然語言理解(NLU)與自然語言生成(NLU)兩部分。04自然語言理解自然語言理解(NaturalLanguageUnderstanding,NLU)就是希望機器能夠像人一樣,具備正常人的語言理解能力。自然語言的關鍵技能是意圖識別和實體提取。語義的多樣性01詞、短語、句子、段落…不同的組合可以表達出很多的含義。語言的歧義性02聯系環境、上下文,語言會有很大的歧義性。語言的魯棒性03通過語音識別獲得的文本,會存在多字、少字、錯字、噪音等問題。語言的知識依賴04語言是對世界的符號化描述。如“7天”,可以表示時間,也可以表示酒店名。自然語言理解難點自然語言生成(NeuralLanguageGeneration,NLG)是自然語言處理的重要組成部分,主要目的是降低人類和機器之間的溝通鴻溝,根據一些關鍵信息及其在機器內部的表達形式,將非語言格式的數據轉換成人類可以理解的語言格式。04自然語言生成自然語言生成系統須要決定如何把機器表述語言轉化成人類的語言自然語言生成自然語言理解系統須要厘清輸入句的意涵,從而產生機器表述語言自然語言理解04自然語言處理研究的難點單詞的邊界界定01在口語中,詞與詞之間通常是連貫的。在書寫上,漢語也沒有詞與詞之間的邊界。詞義的消歧02許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。有瑕疵的或不規范的輸入04例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字符識別(OCR)的錯誤。語言行為與計劃05句子常常并不只是字面上的意思。例如,“你能把鹽遞過來嗎?”一個好的回答應當是動手把鹽遞過去。句法的模糊性03自然語言的文法通常是模棱兩可的,我們必須要仰賴語義及前后文的信息才能在其中選擇一棵最為適合的剖析樹。自然語言生成的基本思路204知識儲備自然語言介紹1文本數據處理3204自然語言生成的步驟本實驗將注意力集中在文本生成上,根據輸入(比如部分詩句)預測后續的詩句,來實現藏頭詩,古詩自動補全等功能。傳統上,將輸入數據轉換為輸出文本的自然語言生成問題,通過將其分解為多個子問題來解決。04自然語言生成的六個步驟決定在建文本中包含哪些信息內容確定確定將在文本中顯示的信息文本結構決定在單個句子中呈現哪些信息。此部分將會通過神經網絡模型訓練的方式預測詩句的文字組合句子聚合找到正確的單詞和短語來表達信息語法化選擇單詞和短語以識別域對象參考表達式生成將所有單詞和短語組合成格式良好的句子語言實現04完成本實驗的基本思路內容確定文本結構句子聚合語法化參考表達式生成語言實現刪除錯誤符號、生僻字刪除非五言絕句格式統計方法+循環神經網絡自然語言生成的基本思路204知識儲備自然語言介紹1文本數據處理3204文本數據的基本體征提取04停用詞數量01詞匯數量02字符數量05特殊字符數量06數字數量03平均字長04文本數據的基本預處理04去除稀疏詞01去除標點符號02去除停用詞05拼寫校正06分詞03去除頻現詞04文本數據的常用python函數split()解釋:通過指定分隔符對字符串進行切片,如果參數num有指定值,則分隔num+1個子字符串replace()解釋:把字符串中的old(舊字符串)替換成new(新字符串),如果指定第三個參數max,則替換不超過max次。join()解釋:用于將序列中的元素以指定的字符連接生成一個新的字符串。職業能力目標01任務描述與要求02任務分析與計劃03知識儲備04任務實施05任務檢查與評價06任務小結07任務拓展08

古詩文本數據預處理05任務實施21成果保存3詩句主題處理無效內容過濾05本次實驗使用的古詩數據集來源于網絡,搜集了43030條古詩詞數據保存于根目錄下的data文件夾內,內容包含五言絕句、七言絕句、詩歌詞賦等,原始數據包含古詩題目,作者,注釋,詩句本體等內容。1、數據集介紹環境、數據準備05涉及代碼函數介紹2、生成規整的五言絕句圖像數據處理str.split(str,num):通過指定分隔符對字符串進行切片,如果參數num有指定值,則分隔num+1個子字符串,返回分割后的字符串列表。list.append(obj):用于在列表末尾添加新的對象str.replace(old,new[,max]):把字符串中的old(舊字符串)替換成new(新字符串),如果指定第三個參數max,則替換不超過max次。str.find(str,beg=0,end=len(string)):檢測字符串中是否包含子字符串str,如果指定beg(開始)和end(結束)范圍,則檢查是否包含在指定范圍內,如果包含子字符串返回開始的索引值,否則返回-1。053、刪除帶有無法識別符號的無效詩句生僻字被使用符號“”代替。此部分的無效詩句也需要進行過濾。圖像數據處理append()函數:用于在列表末尾添加新的對象。語法:list.append(obj)其中:list:列表對象;obj:添加到列表末尾的對象。注意:append()函數無返回值,但是會修改原本的列表。05任務實施21成果保存3詩句主題處理

無效內容過濾051、統計文字出現次數涉及代碼函數介紹訓練集和測試集劃分list(seq):用于將元組或字符串轉換為列表。sorted(iterable,cmp=None,key=None,reverse=False):對所有可迭代對象進行排序操作。str.join(sequence):此方法用于將序列中的元素以指定的字符連接生成一個新的字符串。052、過濾低頻文字由于低頻文字得不到有效訓練,因此需要過濾低頻文字,并刪除低頻字所在的詩句。訓練集和測試集劃分delname[index]:del是Python中的關鍵字,專門用來執行刪除操作,用來刪除字典、列表的元素。name:表示列表或字典名稱。index:表示元素的索引值。053、建立雙向轉換表涉及代碼函數介紹訓練集和測試集劃分zip([iterable,...]):用于將可迭代的對象作為參數,將對象中對應的元素打包成一個個元組,然后返回由這些元組組成的列表。如果各個迭代器的元素個數不一致,則返回列表長度與最短的對象相同。sorted(iterable,cmp=None,key=None,reverse=False):對所有可迭代的對象進行排序操作。05任務實施21成果保存3詩句主題處理

無效內容過濾051、打印處理結果打印詩的總數量等結果訓練集和測試集劃分word2num文字轉id對應表num2wordid轉文字對應表words文字列表files_content處理后的文字內容集合poems五言絕句古詩列表poems_num五言絕句的古詩數量052、保存成果使用numpy的保存函數,以“.npy”格式將數組保存到二進制文件中。訓練集和測試集劃分np.save(file,arr,allow_pickle=True,fix_imports=True)file要保存的文件名稱,需指定文件保存路徑,如果未設置,保存到默認路徑。其文件拓展名為.npyarr為需要保存的數組,也即把數組arr保存至名稱為file的文件中。職業能力目標01任務描述與要求02任務分析與計劃03知識儲備04任務實施05任務檢查與評價06任務小結07任務拓展08

古詩文本數據預處理任務檢查與評價061、請參照評價標準完成自評和對其他小組的互評。2、各組請代表分析本組任務實施經驗。項目名稱五言絕句古詩詞生成任務名稱古詩文本數據預處理評價方式可采用自評、互評、老師評價等方式說明主要評價學生在項目學習過程中的操作技能、理論知識、學習態度、課堂表現、學習能力等

評價內容與評價標準序號評價內容評價標準分值得分1理論知識(20%)了解自然語言處理基本知識和概念、研究的難點,自然語言生成的基本思路,和古詩詞文本數據的處理方法。(20分)20分

2專業技能(40%)過濾無效內容(15%)正確的探索數據集(5分)15分

正確的規整輸出文本(5分)正確的刪除無效內容(5分)3提取主題內容(15%)正確的統計文字出現次數(5分)15分

正確的過濾低頻文字(5分)正確的建立字符與數字雙向轉換表(5分)4模型數據預處理(10%)正確的檢查預處理后的結果(5分)10分

正確的保存預處理后的結果(5分)5核心素養(20%)具有良好的自主學習能力、分析解決問題的能力、整個任務過程中有指導他人(20分)20分

具有較好的學習能力和分析解決問題的能力,任務過程中無指導他人(15分)能夠主動學習并收集信息,有請教他人進行解決問題的能力(10分)不主動學習(0分)6課堂紀律(20%)設備無損壞、設備擺放整齊、工位區域內保持整潔、無干擾課堂秩序(20分)20分

設備無損壞、無干擾課堂秩序(15分)無干擾課堂秩序(10分)干擾課堂秩序(0分)總得分職業能力目標01任務描述與要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論