




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于LSTM模型的現代文古詩生成技術一 背景介紹讀史書使人明智,讀詩書使人靈秀,詩詞是中國千百年來的文化積淀和民族瑰寶,是語言的精華,是智慧的結晶,是思想的花朵,是人類最純粹的精神家園。但隨著語言的發展,當代人對詩詞的了解越來越少,作詩的能力也遠遠比不上古人。幸運的是,隨著大數據時代的到來,人工智能飛速發展,通過計算機古詩詞的自動轉換成為可能。例如,可以通給出一個目標主題,機器可以自動生成一首符合該主題的古詩。讓機器做詩可以減少人類在寫詩中尋詞、造句上的困難,使詩人關注詩的主題、意境等更有價值的東西;同時,機器做的詩不受人類傳統思維的束縛,創新性極強。這些創新性雖然并不完全合理,但卻給詩人豐富
2、的提示,進而激發詩人更多創作靈感,寫出更具有奇思妙想的創新型作品。我們相信,古詩的自動生成可以極大激人們對古典文學的興趣,對我國傳統藝術的發展與繼承有著重要的作用。然而,當前依主題指定方式為基礎的自動做詩方法具有很大的局限性。一方面,這種方式對主題詞的選擇要求較高,只有主題詞選的合理,生成的古詩才更合理。這對很多普通用戶形成很大障礙,我們希望用戶只用現代漢語描述出要生成古詩要表達的意境和內容,機器將這一描述濃縮成古詩,因而可極大提高古詩生成系統的適用性。另一方面,依當前主題詞指定的方式,詩人只能在大泛圍內給出做詩的內容,卻不能精確控制做詩的流程。事實上,古詩不僅是詞語的合規批湊,更重要的是詩人
3、感情通過寫景、敘事過程的遞進式升華。當前以主題限定方式生成的古詩,不具有思維的連慣性和活躍性,無法形成合理的表義邏輯,無法形成完整遞進的主題表達,因而生成的詩很多只是詞語的堆砌,缺乏情感和邏輯性,應用有限。本發明提出一種新穎的古詩生成方式和相關算法,可以將一段現代漢語濃縮轉寫為古詩詞;同時,允許現代文按句指定每句古詩的內容,這樣現代文中表現出的起承轉合的邏輯流程可以反映在生成的古詩中,為古詩生成帶來靈魂。問題描述與傳統主題詞指定的做詩方法相比,現代文古詩生成要困難的多。一個顯著的困難是,現代文的長度一般遠大于古詩長度,如果要將現代文轉化為古詩,需要提取出其中最有價值的語義信息,并將這些信息用精
4、練的古代漢語表達出來。比如:“現在正是早春二月,春風吹拂,春草萌生,過不了多久,就會綠透江南岸邊”可以對應詩詞“春風又綠江南岸”,白話文中的“現在正是”,“過不了多久”,“就會”這些詞都對表義沒有太多幫助。我們需要提取出如“綠”,“江南”,“岸邊”等表意比較明確的字,形成句子的意義。如何提取出句義,對合理的古詩生成具有重要意義。另一方面,一句現代漢語可能有多種轉寫形式, 如何自然地生成多種表達方式的古詩,也是需要解決的問題。本發明提出了一種現代文詩詞生成系統。該系統將神經網絡與規則相結合,通過神經網絡對現代漢語進行語義理解,再依規則系統生成符合語義的古詩。為保證生成古詩的多樣性,我們采用兩種引
5、入隨機性的辦法,一是在對輸入的現代文進行一些隨機擾動,二是對文體規則進行更改。前者引入表達多樣性,后者引入文體多樣性(如五言詩、七言詩、多種韻律格式等)。這一發明的優勢是:通過計算機自動將現代文轉化成古詩,更符合大眾使用習慣通過將現代文中的邏輯性表達成古詩表達上的邏輯性,擺脫詞語堆砌,形成合規且具有表義能力的古詩。通過加入隨機性可以寫出具有多種表達、多種文體的豐富多彩的古詩。三 發明要點3.1 通過神經網絡的古詩生成模型本發明基于LSTM的編碼-解碼網絡構造現代漢語-古詩轉換模型,如圖一所示。首先,圖一的下半部分,系統將用戶的現代文輸入句子經過一個雙向LSTM網絡編碼成語義向量,其中每個句子表
6、達成一個語義向量,形成一個語義向量組。這些語義向量作為用戶意圖的編碼。在生成過程中(圖一的上部),一個LSTM網絡不斷循環運行,生成文本的中的每一個字。在生成每一個字的時候,需要將該句所對應的語義向量作為參考輸入,使得該句生成與用戶要求的表義內容相符合。注意,在生成過程中,我們加入斷句、押韻、平仄等文體規則,保證了生成的“字串”既能最大程度地符合用戶意圖的同時,遵循強制的詩詞規則。h1月x1x1h1h2光x2x2h2h3灑x3x3h3h4在x4x4h4h5床x5x5h5h6前x6x6h6at,1at,2at,3at,4at,5at,6st-1styt-1yt明月文體規則 圖一 基于RNN和LS
7、TM的生成模型3.2 一致性保證在上面的生成過程中,每句現代文生成一個語義向量,用以生成一句古詩,因此這句詩都會圍繞這句的主題;同時,后一句的生成結果依賴前一句生成的詞,因此保證整首詩的連慣性。這意味著我們的生成方法有能力生成一首前后連慣,同時又符合現代文邏輯線索的古詩,保證一致性。3.3 多格式詩詞生成3.1中的模型會依賴一個文體規則約束,生成的古詩必須符合該文本要求。通過更改這一文體規則,可以生成多種格式的古詩詞。比如,在七言律師中,這一文體規則要求每生成七個字后,必須生成一個結束符;同時,每句第七個字必須符合統一的韻律,每一句中的每個字需要符合一定的平仄要求。變換這一文體規則,可以得到不同韻律,不同體裁的古詩,基至可根據不同詞牌(如虞美人、浪淘沙)設計文體規則,生成各種詞牌的宋詞。3.4 詩詞多樣性生成我們可以通過引入隨機性,生成多種表達的不同古詩。比如,我們可以在輸入的白話文中隨機加入一些相近詞,使生成的古詩具有多樣性。這些隨機性可通過“增加”、“刪除”、“修改”等操作來實現。如“問題描述”中提到的例子:“現在正是早春二月,春風吹拂,春草萌生,過不了多久,就會綠透江南岸邊”,可以通過刪除“江南岸邊”或者加上“鳥兒”,得到“草長鶯飛二月天”。加入少量的隨機化信息可以增加生成的詩詞的多樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 稀土金屬壓延加工中的質量改進方法選擇與實施考核試卷
- 游樂設施施工中的安全文化建設考核試卷
- 木片在紙漿生產中的優化研究考核試卷
- 搪瓷制品的環保生產與廢棄物處理考核試卷
- 生態保護宣傳教育策略考核試卷
- 青浦區高三語文二模2021作文
- 電飯煲煮飯不熟應對考核試卷
- 浙江省J12共同體聯盟校初三語文中考模擬考試試卷(含答案)
- 家用電器具的材料腐蝕與防護考核試卷
- 管道工程行業熱點問題研究動向與趨勢預測考核試卷
- 面粉代理合同協議
- 2024年5月26日河南省事業單位聯考《職業能力測試》真題及答案
- 基金從業人員資格歷年真題答案2024
- 2025年江蘇揚州水利建筑工程有限責任公司招聘筆試參考題庫含答案解析
- 上海市松江區2022-2023學年四年級下學期期中數學試卷(帶答案)
- 2025年中考英語考點單選題100道及答案
- 2025年貴州國企:貴州茅臺酒股份有限公司招聘筆試參考題庫含答案解析
- 樁基行業企業宣傳
- 2025屆名校學術聯盟高三下學期模擬沖刺政治試題及答案
- 心肺復蘇操作2025版
- 第二單元閱讀綜合實踐 教學設計-2024-2025學年統編版語文七年級下冊
評論
0/150
提交評論