1006大設(shè)計翻譯版_第1頁
1006大設(shè)計翻譯版_第2頁
1006大設(shè)計翻譯版_第3頁
1006大設(shè)計翻譯版_第4頁
1006大設(shè)計翻譯版_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

GeneratingChineseriddleAuthor:TanChuanqiTutor:LvRiddleisregardedasoneofthemostuniqueandvitalelementsintraditionalChineseculture.Byusingcomputertechnologytogeneratetheriddleautomatically,ithelpstheindividualswithoutspecializedriddleknowledgetocreateriddles,thustogetmorepeopleinvolvedinriddlerelatedactivities,leadingtowiderpromotionoftraditionalChineseculture.ThisthesistakestheriddlesrelatedtothedeconstructionofChinesecharactersasthemajorresearcharea,whichemphasizesthecombinationofthewrittenformandthematchofcomponentsoftheChinesecharacter,byevaluatinganddescribingthevariouscomponentsfromtheshape,functionandmeaning.Thus,thisthesiswillfocusonthreemainpointsasByfirstlythisarticlepresentstheysisoftherelevantknowledgeoftheChineseriddle,fromthewayofriddles’constitutionaswellasthecommondescriptionoftheseparationofthecomponents.Thispaperfiguresoutthattheriddlegenerationistheprocessofseparating,explaining,andre-constructing.Thenextstepistosetuptherelevantcorpus.Bycrawlingriddlecorpus,andcombiningthemethodsofStatisticalNaturalLanguageProcessingandmanualannotation,thisthesispointsoutthemethodofextractingalignmentsandrulesiteratively,successfullyestablishedthecorpusofalignmentsandrules.Furthermore,thisthesisemploysthetemplate-basedmethodandreplacement-basedmethodforriddlegeneration.Theapproachconsistingofthecollaborationof“rankingaftergeneration”and“case-basedreasoning”isputforwardtogeneratingtheChineseriddles.Specifically,TheRankingSupportVectorMachineandlanguagemodelisusedtotraintherankingfunction,andcontributestojudgingthegeneratedriddles.TheexperimentalresultsillustratetheeffectivenessoftheproposedmethodforgeneratingChinesecharacterriddles.Inaddition,thisthesismakesconsiderablycontributestotheresearchinNaturalLanguageProcessingforChinesetraditional:riddlegeneration,template-basedgeneration,replacement-basedgeneration,riddleranking,rankingsupportvectormachine緒 研究背 國內(nèi)外研究現(xiàn) 研究目標與內(nèi) 理解字謎構(gòu) 建立語料數(shù) 自動生成字 課題來 的組織結(jié) 相關(guān)技術(shù)現(xiàn) 語料庫建 自然語言生成相關(guān)技 自然語言生成的體系結(jié) 自然語言生成的相關(guān)算 排序支持向量機算 統(tǒng)計語言模 本章小 字謎生成系統(tǒng)設(shè) 研究任務(wù)流程分 系統(tǒng)頂層流程分 數(shù)據(jù)資源分 字謎生成系統(tǒng)模塊設(shè) 本章小 語料庫建 謎語語 原始謎語數(shù) 預(yù)處理謎語數(shù) 謎語語料規(guī) 拆字 原始拆字表數(shù) 擴展拆字表數(shù) 拆字表語料規(guī) 對齊關(guān)系與規(guī) 提取方案概要介 提取對齊關(guān)系與規(guī)則語 對齊關(guān)系語料數(shù) 對齊關(guān)系與規(guī)則規(guī) 本章小 字謎生成系 候選答案生成模 候選答案測試模 提取字謎特 訓練語言模 基于排序支持向量機的排序算 系統(tǒng)實 本章小 實驗結(jié)果評測與分 實驗方 實驗步 實驗結(jié) 實驗結(jié)果分析與總 本章小 總結(jié)與展 工作總 未來展 致 參考文 緒論2014年春節(jié)期間,連續(xù)三天《中國謎語大會》,目的就是為了弘揚中華傳統(tǒng)文化、豐富群眾文化生活。中出現(xiàn)的謎語,有從古代一直傳到現(xiàn)在的經(jīng)典謎語,也有跟社會緊密相關(guān)的新謎語。雖說謎語也一直在隨著時代的進于并未系統(tǒng)學習過相關(guān)知識的普通謎語者來說,學習和創(chuàng)作謎語有著一定的難度。而普通人也難以自主創(chuàng)作謎語,的則是參與猜謎語等相關(guān)活動。好的參與有關(guān)謎語的活動,融入謎語這一傳統(tǒng)語言文化,這也將對傳統(tǒng)語言文化的 自然語言生成(NturlngugeGnrtion)作為自然語言處理(NturlngugeProing)中的一項重要任務(wù),旨在將計算機數(shù)據(jù)轉(zhuǎn)化為自然語言。語言生成的研究報、文獻和信息查詢等等;其二,作為檢驗特定語言理論的一種技術(shù)[1],如FwttGnSysStirlingNigl多語種生成系統(tǒng)(包括英語、德語、日語、法語、荷蘭語、西班牙語、交通大學的多語言天氣預(yù)報發(fā)布系統(tǒng)、交通大學和的導(dǎo)游系統(tǒng)以及中國科技大學的機器人足球現(xiàn)場解說系統(tǒng)重慶大學的、易勇等人研究了中文詩詞的風格判定,其主要討論了如何計算語言學自1998年至1999年建造了“中國古代詩詞計算機輔助640多萬字的語料。以這個語料庫為實驗材料,其還進行了詞匯的自動提取、自動分析部分名家詩(160萬字)的語料完成切分及詞性標注的基礎(chǔ)上,系統(tǒng)又對唐宋詩的詞匯使用情況進行了統(tǒng)計分析,提取了詞匯共現(xiàn)信息、詞匯對仗信息、作者詞匯特息以圖1.1微軟亞洲對聯(lián)系微軟亞洲的自然語言計算組則針對格律詩與對聯(lián)進行了相關(guān)研究,其研發(fā)了的約束。拆字字謎便是這一修辭手法特征的。舉例來說,在《中國謎語大會》1.2(1.21.3.1學的特定解釋,而對齊關(guān)系與規(guī)則,就是輔助這一解釋過程的語料資源。第一章緒論料庫抽取出一套對應(yīng)語言知識以及語則已經(jīng)有了不少的研究工作。2080年代以來,隨著計算機性能的飛速提高,語料庫的容量急劇增大,針對人類日常生活中使用的語言統(tǒng)稱為自然語言,自然語言處理(NaturalLanguage自然語言生成(NaturalLanguageGeneration,NLG)是以計算語言學和人工智能為基言知識的學習,進而生成能夠使人理解的文本或語音序列。生成過程中NLG系統(tǒng)依照..23漸成為人們關(guān)注的焦點, 選 合合詞合詞2.1圖2.3NLG體系結(jié) 圖2.2管道模模板模板生成技術(shù)(Template-basedGeneration)是自然語言生成研究者們最開始使用的模式短語/規(guī)則擴展技短語/規(guī)則擴展技術(shù)(Phrase/PlanExpansion)基于Mann和Thompson修辭結(jié)構(gòu)理論,其思想是通過描述文本結(jié)構(gòu)的來生成文本,又稱為RST(RhetoricalStructureTheory)技術(shù)。此技術(shù)認為文章是由句子、段落甚至更大的組成單位共同組成,排序支持向量機算法(RankingSupportVectorMachine,RSVM)是基于支持向量機算法(SupportVectorMachine,SVM)的擴展應(yīng)用。支持向量機是在統(tǒng)計學習理論的Guyon和Vapnik等人提出了最優(yōu)邊界分類器算法[11]這是支持向量機算法的最初模型。1995年,Vapnik完整地提出了基于統(tǒng)計學習理論的支持向量機學習算法[12]。 ,,

2.4H為分類超平面,H1、H2分別為過各類中離分類超平面最近的樣本且平2.4排序支持向量機算法(RSVM)的思想如下:在支持向量機算法(SVM)中,訓練為樣本,,,,,,,而在排序?qū)W習的訓練中,原始樣本為,,,,,若可認為的排序應(yīng)比更高時,即可生成訓練樣本,SVMSVM算法 ,則樣本的排序應(yīng)于高,反之亦然字符識別系統(tǒng)以及機器自動翻譯系統(tǒng)等。本文將介紹應(yīng)用很廣的n-gram模型。n-gram1980年提出來,是一種應(yīng)用很廣的統(tǒng)計語言模型。它采用了馬爾科夫假設(shè),即認為每個預(yù)測變量只與長度為n-1的上下文有關(guān),即:n稱為模型的階數(shù),其取值決定了模型的精度和復(fù)雜性。試驗表明,n值n=1、2,3Unigram、BigramTrigram模型[15]。Bigram下,以句子“<sIwantenglishfoods>

那么,我們在實際問題時,更大的n意味著對下一個詞出現(xiàn)的約束信息,具有更大的辨別力,更小的n意味著在訓練語料庫中出現(xiàn)的次數(shù),具有更可靠的統(tǒng)計信原則上,能用Bigram解決,絕不使用Trigram。本章主要介紹了本課題在研究過程中所可能用到的相關(guān)技術(shù)和理論基礎(chǔ)。2.1節(jié)介紹了語料庫建設(shè)的意義與方法。2.2節(jié)介紹了自然語言生成的體系結(jié)構(gòu),并介紹了三種3.3節(jié)具體分析本文要使用的數(shù)3.13.1中的中文字謎生成系統(tǒng),以上各研究任務(wù),建立語料數(shù)據(jù)、建立模型等等,均是為了實現(xiàn)中文字謎自動生成的功能。3.1節(jié)從課題研究候選字輸入漢輸出候選字輸入漢輸出字3.2部分部分部分選取應(yīng)描 選取應(yīng)描 選取應(yīng)描描述描述描述述3.3法通過“千里”對應(yīng)“馬”擴展出“百里”或“”能對應(yīng)什么,我們可以將這種對應(yīng)類似的比喻成專有名詞。而規(guī)則可以覆蓋、更廣范圍的對應(yīng)關(guān)系,一個對齊關(guān)系本文將其視為一種規(guī)則。通過這種規(guī)則,我們可以得到一類語料,比如“沒心情”對應(yīng)案,作為優(yōu)秀字謎輸出,此模塊則會涉及到語言模型(LanguageModel)、支持向量機3.4本章著重介紹了中文字謎自動生成的研究任務(wù)、系統(tǒng)需求并給出了設(shè)計方案。3.1節(jié)從課題研究任務(wù)的角度分析了課題研究的流程。3.2節(jié)從系統(tǒng)實現(xiàn)的角度分析了中文字謎生成系統(tǒng)的系統(tǒng)流程。3.3節(jié)通過對字謎生成過程進行微觀分析,介紹了本課題需要用到的數(shù)據(jù)資源。3.4節(jié)介紹了字謎生成系統(tǒng)的模塊設(shè)計方案。本章將首先介紹本課題利用的初始數(shù)據(jù)資源,然后將結(jié)合基于規(guī)則的方法與25條規(guī)則,最終建立起有關(guān)字謎生成的語料庫。本課題研究涉及到的三大語料資字謎,即謎底為一個字符的謎語作為本課題研究的原始數(shù)據(jù)集合,共計17210個謎4.1表4.1序謎謎1鄺2崽3哥4始5夢6Z7埔8開9盂員,表4.2序謎謎1二2蘭3晴4榛5舂6奏7舂8日9秦楮謎語語料規(guī) 春日偶成榛67624.3所示。表4.3序漢部分部分部分1吖口丫2阿阝可3啊口阿4錒钅阿5嗄口夏6哎口艾7哀口衣8埃土矣9唉口矣愛爫冖友表4.4序漢部分部分部分3啊口阿表4.5序漢部分部分部分3啊口阝可4.1序漢部分部分部分1吖口丫2阿阝可3阝口丁4啊口阿5口阝可6錒钅阿7序漢部分部分部分1吖口丫2阿阝可3阝口丁4啊口阿5口阝可6錒钅阿7钅阝可8嗄口夏9哎口艾口乂吖口丫阿阝可阝口丁啊口阿口阝可以參文分詞的常見方法。規(guī)則與統(tǒng)計相結(jié)合的方法:規(guī)則處理的優(yōu)勢在于能充分利用現(xiàn)有的語言學研究成果,而統(tǒng)計處理的優(yōu)勢則在于它的全部知識是通過對大規(guī)模語料庫的參數(shù)訓練自動得到的,因此可以獲得很好的一致性和很高的覆蓋率,并且可以將一些以充分發(fā)揮兩者的優(yōu)勢[17]。有的獨特文學,其語言表達方式不同于我們?nèi)粘=佑|的口語或語。謎語中的對4.1描規(guī)則找到的對應(yīng)關(guān)系。則提取謎語4.1考慮到漢語詞組一般不超過,而在謎語中出現(xiàn)頻率高的單個漢字,往往起到其詞頻。其部分高頻結(jié)果如表4.6所示。表4.6二元詞組詞三元詞組詞四元詞組詞同心心ForeachinForeachin謎語語Foreach二元詞組/三元詞組/四元詞組in謎Foreachin謎底漢字的拆字表數(shù)Count[詞組,拆分Count[詞組,拆分4.7二元詞組對詞三元詞組對詞四元詞組對詞氵木山山木口宀日日木人馬宀9通過以上算法,本文得到了聯(lián)合謎底的詞頻統(tǒng)計結(jié)果。表4.7為按上述算法得到的提取規(guī)則獲得對齊關(guān)二元組,部分數(shù)據(jù)見表4.8。表4.8“西”組數(shù)二元詞組詞Foreach子Foreach子序in高頻詞集Count[子序列Count[子序列利用這些規(guī)則,系統(tǒng)即可結(jié)合拆字表得到這些高頻的對應(yīng)關(guān)系,再利用這些規(guī)4.9為表4.9規(guī)表示方式含A-去掉字A中的部分A-去掉字A中的部分A-去掉字A中的部分A-去掉字A中的部分4381140904.10為部分語料表4.10對應(yīng)個數(shù)對應(yīng)漢字對應(yīng)對應(yīng)對應(yīng)對應(yīng)對應(yīng)木春松林口嘴氵水—日1勒1勛1劃1凼對齊關(guān)系與規(guī)則規(guī)系統(tǒng)將對齊關(guān)系按“漢字+對應(yīng)1+對應(yīng)2+??+對應(yīng)N”的形式,其部分數(shù)據(jù) 二再一又北勒劃出](.)$A-B1出](.)$A-B1進一步擴展。4.3節(jié)介紹了對齊關(guān)系及規(guī)則語料的抽取。以上內(nèi)容共同構(gòu)成了本課題的字謎生成系統(tǒng)本課題并不希望涉及太多語言學知識,即以生成可接受的字謎為目的,而不過分要5.1模板生ForeachForeachin謎底漢字的拆字表數(shù)Foreachin模板集替換生以字謎“雨落橫山”為例,本文將此謎面分析為“[]落[]”,針對漢字“雷”。若依然ForeachForeachin常用漢字集If漢字與謎底至多有一個拆分不同ThenForeach漢字的謎語語料in謎語語料庫通過分析字謎結(jié)構(gòu),分析謎面構(gòu)成方式,以我們掌握到的字謎語料為基礎(chǔ),擴展出謎面的長度:分析已有數(shù)據(jù)可發(fā)現(xiàn),絕大多數(shù)字謎的謎面是不超過10個字的對應(yīng)關(guān)系表示的過程。在分解漢字結(jié)構(gòu)時,系統(tǒng)也有多種分解方式。以“湖”據(jù),并結(jié)合大多數(shù)人的習慣,一般漢字被拆分為2或3個部分為佳;5.1表5.1特征名稱特征含義其值abs(Length-5),通過調(diào)研與統(tǒng)計整個文本的n-gram一方面,一般語言模型使用的訓練語料數(shù)據(jù)多來源于、小說等文章,其語言風表5.2輸入序列語言模型得分--5.19評分,其分數(shù)意義見表5.3。表5.3評意123至右依次表示評分、標注編號、LM_sentence、LM_sentenceDivideLength、表5.431:-2:-3:-4:-春到柳31:-2:-3:-4:-枝上柳31:-2:-3:-4:-梧桐31:-2:-3:-4:-疏林不31:-2:-3:-4:-樓前流31:-2:-3:-4:-斷橋流31:-2:-3:-4:-大樹迎31:-2:-3:-4:-斷橋31:-2:-3:-4:-橋邊21:-2:-3:-4:-處處春21:-2:-3:-4:-楊11:-2:-3:-4:-三十六11:-2:-3:-4:-斷橋11:-2:-3:-4:-春光迎11:-2:-3:-4:-柳梢頭11:-2:-3:-4:-春光11:-2:-3:-4:-相思表5.531:-2:-3:-4:-天下31:-2:-3:-4:-江水31:-2:-3:-4:-清江31:-2:-3:-4:-江水31:-2:-3:-4:-江上31:-2:-3:-4:-江31:-2:-3:-4:-江北31:-2:-3:-4:-江31:-2:-3:-4:-天31:-2:-3:-4:-一半31:-2:-3:-4:-江11:-2:-3:-4:-空上不11:-2:-3:-4:-不要功11:-2:-3:-4:-江頭不11:-2:-3:-4:-不要功11:-2:-3:-4:-不要江11:-2:-3:-4:-一橋飛架南11:-2:-3:-4:-江北不11:-2:-3:-4:-江左不11:-2:-3:-4:-掩蓋半天表5.631:-2:-3:-4:-窗外是31:-2:-3:-4:-回首31:-2:-3:-4:-回首是31:-2:-3:-4:-一口惹31:-2:-3:-4:-北國31:-2:-3:-4:-飛鳥鳴壟上行21:-2:-3:-4:-北國21:-2:-3:-4:-回頭不來此地21:-2:-3:-4:-四面壁11:-2:-3:-4:-回首11:-2:-3:-4:-鳥飛鳴11:-2:-3:-4:-窗外11:-2:-3:-4:-叩之前是非多11:-2:-3:-4:-飛鳥鳴11:-2:-3:-4:-亭中是11:-2:-3:-4:-南回11:-2:-3:-4:-西園惹11:-2:-3:-4:-結(jié)同心惹是非11:-2:-3:-4:-四圍11:-2:-3:-4:-明月一11:-2:-3:-4:-不要回11:-2:-3:-4:-日間不到權(quán)值向量,各特征的權(quán)值如表5.7所示。表5.7特征名稱權(quán)值向量----按以上排序函數(shù),測試系統(tǒng)即可對候選字謎進行排序,從中選取較高的候選答表5.8二杜思湘秦春雨下按5.1及5.2小節(jié)的分析,以及第三章對系統(tǒng)設(shè)計及流程的分析,語料庫的建設(shè)、語言模型的訓練、排序函數(shù)的訓練工作均與最終生成系統(tǒng)的工作相,以上工作會先于生生成模表5.9屬類描Dictionary<string,表5.10方描模板生成方式主,question為用戶輸入AnswerPart(stringcharacter,模板生成方式中,為各部分找到描述方式,candidate,List<List<Beam>>bination,intlevel,List<Beam>list)Replace(stringcharacter)candidate,stringanswer,stringfrom,stringto)

最終結(jié)果存于candidate中替換生成方式主,question為用戶輸入的特征

5.11屬類描征其值為abs(Length-表5.12方描語言模

表5.13方描系統(tǒng)的候選答案生成模塊與候選答案測試模塊。5.3節(jié)介紹了中文字謎生成系統(tǒng)的詳細字,普通個人計算機可在1秒內(nèi)給出結(jié)果;對于拆分數(shù)為3的漢字,一般可在2秒左右應(yīng)應(yīng) 810121416182022242628303234作為謎底的出現(xiàn)次數(shù)6.1按作為謎底出現(xiàn)的次數(shù)來劃分,將中文漢字分為作為謎底出現(xiàn)5次以下、6-2個謎語(2個則全部使用)作為測試將生成的標注序列交由人工按表6.1的評分標準進行標注表6.1分評分標準12345表6.2謎語(思標注標注謎語(夢標注標注5555442343235455555554545555545555354335謎語(杜標注標注謎語(畫標注標注3355424455山田接云55345455435555555555山中,果木凋555543555552.5%1表6.3系統(tǒng)整體統(tǒng)計謎語來源評模板生成替換生成謎語語料表6.4單個漢字統(tǒng)計全思夢春亞標注標注標注標注標注標注標注標注標注標注模板生成4334替換生成5謎語語料4543554因畫木羊奮標注標注標注標注標注標注標注標注標注標注模板生成534替換生成4謎語語料44455皓杜嗦朱調(diào)標注標注標注標注標注標注標注標注標注標注模板生成3替換生成謎語語料554555抨單溈袒謂標注標注標注標注標注標注標注標注標注標注模板生成替換生成444謎語語料54445455分析實驗結(jié)果,從統(tǒng)計中我們可以發(fā)現(xiàn),使用模板生成的字謎得分最低,本章介紹了中文字謎生成系統(tǒng)的測試方案、測試過程和。6.1節(jié)介紹了實驗的測試方案。6.2介紹了系統(tǒng)的測試過程與。6.3節(jié)則對實驗結(jié)果進行了分析建立中文謎語這一特定語言的語料庫,收集16472條中文字謎數(shù)據(jù)。使用14090個對齊關(guān)系。以上語料數(shù)據(jù)的建立,為自動生成中文字謎奠定了會更好一些。若能提出更合適的方式,更方便的提取謎語相關(guān)的語料數(shù)據(jù),或利用致謝四以及畢業(yè)設(shè)計中所有給過我?guī)椭⒅笇?dǎo)和關(guān)心的各位老師、師兄師姐、同學和家算組(MSRA-NLC組)提供給我完成畢業(yè)設(shè)計的各類資源與幫助。得到了很大的提升,也讓我有了更加真實的項目經(jīng)歷。除了學習,老師在生活上也感謝答辯組的各位老師,老師、老師、老師、老師,感謝各最后,要感謝我的家人,特別是我的父親和母親。用辛苦付出給了我接受高等教育的機會,并在次遇到或?qū)η巴靖械矫糟臅r候,都會用支持和理解給繼續(xù)努力向前,不辜負的培養(yǎng)和期望。楊國文.自然語言生成研究的動態(tài)與方向[J].當代語言學,1998,2:11-黃友能,.基于特定任務(wù)域的自然語言生成系統(tǒng)實現(xiàn)方法[J].鐵路計算機應(yīng)用羅鳳珠,.中國古代詩詞格律自動檢索與教學系統(tǒng)[J].中文信息學報,1999,13(1):35-42.2005,32(7):156-158.,胡俊峰.唐宋詩之詞匯自動分析及應(yīng)用[J].語言暨語言學,.JiangL,Z

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論