




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
漢語語料庫多級加工目的語料庫的多級加工技術是語料庫語言學研究的前沿課題。它的處理目標是對生語料文本進行多級加工(分詞、詞性標注、句法分析)形成樹庫(treebank)語料。目的:大規模的語料庫中提取應用所需要的各個語言單位上的語言學知識。計算機語料庫的功能的決定性因素
語料庫的規模語料庫容量的大小直接影響到統計結果的可靠性語料的分布語料分布的考慮則關系到統計結果的適用范圍語料的加工深度加工深度則決定了該語料庫能為自然語言處理提供什么樣的知識
語料的加工順序經過不同階段的處理,語料庫包含的各類信息也不斷增加,最終將成為一個名副其實的語言知識庫。這樣的知識庫可以為漢語統計分析、漢語理解和機器翻譯等資源提供重要的資源和有力的支持自動分詞規范北大計算語言學研究所1994年制訂了《現代漢語文本切分與詞性標注規范V1.0》。北大計算語言學研究所于1998年10月制訂了《現代漢語文本切分與詞性標注規范V2.0》后改名為《現代漢語語料庫加工規范》。分詞的主要難點切分歧義交集型覆蓋型未登錄詞就是在詞典中沒有登錄過的人名,地名,機構名,新詞語等.當采用匹配的方法來切詞時,由于詞典中沒有登錄這些詞,會引起自動切詞的困難。歧義切分字段在漢語書面文本中所占的比例并不很大,在實際的書面文本中,特別是在新聞類文本中,未登錄詞的處理是書面文本自動切分的一個十分突出的問題。這是漢語書面語自動切分的另一個難點。中國人名識別(1)根據統計,漢語姓氏大約有1000多個,姓氏中使用頻度最高的是“王”姓,“王,陳,李,張,劉”等5個大姓覆蓋率達32%,姓氏頻度表中的前14個高頻度的姓氏覆蓋率為50%,前400個姓氏覆蓋率達99%。人名的用字也比較集中。頻度最高的前6個字覆蓋率達10.35%,前10個字的覆蓋率達14.936%,前15個字的覆蓋率達19.695%,前400個字的覆蓋率達90%。第一次出現的人名叫做“定義性出現”,爾后出現的人名叫做“使用性出現”。為此,在切分時可根據人名在定義性出現時的限制性成分首先建立人名表。中國人名識別(2)人名的限制性成分主要有身份詞:表示人的職務,職位,頭銜的詞語和親屬稱謂的詞語.有的出現在人名之前,如“工人,教師,丈夫,妻子,犯人”,有的出現在人名之后,如“先生,女士”,有的可以出現在人名的前面和后面,如“教授,總理”。許多身份詞帶有后綴字,如“在逃犯,理發員,面包師,目擊者”中的“犯,員,師,者”等。地名和單位名:如“浙江紹興周樹人,國家語委馮志偉”。
復雜的定語:如“德高望重的呂叔湘先生”。根據這些限制性成分,可以有效地識別人名中國人名識別(3)中國姓氏用字中有的是專用作姓氏的,如“趙,鄧,潘,馮”等,有的則兼作其他詞語使用,如“顧,黃,周”等,對于兼作其他詞語的姓氏,需要建立規則來判斷。“顧”兼作動詞記者顧小東只顧短期的經濟利益規則:如果“顧”前有副詞(只),則“顧”不為姓氏。“黃”兼作形容詞黃曾陽研究概念層次網絡彩色的光帶射到黃玻璃上規則:如果“黃”后有物質名詞,則“黃”不為姓氏。“周”兼作量詞由周恩來任國務院總理地球自轉一周規則:如果“周”前有數詞,則“周”不為姓氏。外國人名識別(1)《英語姓名譯名手冊》中共收英語姓氏,教名約4萬個,經計算機統計得出英語姓名譯名用字表共476個:“啊阿埃艾愛昂奧巴白柏拜班邦包保堡鮑北貝倍本比彼邊別濱賓玻波博勃伯卜布采蔡藏策查察昌徹陳楚垂茨慈次聰存措達大戴代丹當道德得登鄧迪底地蒂第帝丁東杜敦頓多厄恩耳爾法凡范方菲費芬豐馮佛夫福弗輔富蓋甘岡高哥戈葛格各根貢古顧瓜圭郭果哈海罕翰漢杭豪赫黑亨洪侯胡華懷惠霍基吉季計嘉佳加賈簡姜焦杰捷金津京久居喀卡開凱坎康考柯科可克肯孔扣寇庫夸匡奎魁坤昆闊拉臘萊來賴蘭朗勞勒樂雷黎理李里禮荔麗歷利立蓮連廉良列琳林霖齡留劉流柳龍隆盧魯露路呂略倫蘿羅洛瑪馬麥邁滿曼芒茅梅門蒙孟米密敏明名摩莫墨默姆木穆拿娜納乃奈南內嫩能妮尼年涅寧牛紐農努女諾歐帕派潘龐培佩彭蓬皮匹平潑樸普漆奇齊契恰錢強喬切欽琴青瓊丘邱屈讓熱仁日榮茹儒瑞若撒薩塞賽三繕桑瑟森莎沙珊山尚紹舍申生盛圣施詩石什史士壽舒朔斯思絲松孫索所塔泰坦湯唐陶特藤提惕田鐵汀廷亭通透圖托脫娃瓦萬旺威韋為維偉魏衛溫文翁沃烏武伍西錫希悉席霞夏顯香向曉肖歇謝欣辛興幸姓雄休修雪遜雅亞延揚陽堯耀耶葉依易意因英永尤雨約宰贊早澤曾扎詹湛章張哲者珍真芝知智治朱卓茲子宗祖佐丕謨葆薇岑弼婭繆珀瑙賚滕斐熙鳩竇艮麟黛”。
利用這個譯名表,可初步確定外國人名在句子中的位置和邊界。設任一連續漢字串C1...Ci...Cn(n1),如果對所有的Ci(i=1,...,n),都有Ci屬于譯名表,則初步可認為該漢字串為外國人名。外國人名識別(2)初步確定外國人名之后,再根據人名前后的限制性成分,進一步確定外國人名的界限。政府總理盧卡諾夫參加了慶祝活動英國首相撒切爾夫人訪問美國根據譯名表切分時會認為“理盧卡諾夫,撒切爾夫”是外國人名,得出錯誤的切分。這時,還要利用限制性成分“總理”和“夫人”,使譯名表中的漢字不能作用于限制性成分“總理”和“夫人”之上,便可以得到正確的切分:“總理/盧卡諾夫”,“撒切爾/夫人”。我們也可以利用只能出現在外國人名首和外國人名末的漢字作為特征字來判定外國人名的邊界。這需要分別建立相應的字表來作為判定外國人名左右邊界的依據。外國人名識別(3)還可以利用簡單的上下文來進一步判定外國人名的邊界標點符號,數字,空格,西文字母,譯名連接符號常常是人名的邊界。人名經常出現在一些表示行為的動詞之前,如“率,說,抵,離,報道,率領,會見,表示,接受,指出,認為,發現,主持,呼吁,出席”等。地名識別(1)地名用字的分布比人名用字分散,處理起來困難更大。中國地名委員會編寫了《中華人民共和國地名錄》,收集了全國鄉鎮以上(含鄉鎮)各級行政區域的名稱,以鄉鎮人民政府所在地為主的居民聚落名稱,山、河、湖、海、島、高原、盆地、沙溪等自然地理實體名稱,名勝古跡、紀念地、古遺址、水庫、橋梁、電站等名稱。共收錄地名10萬多條。這個地名錄中使用的漢字共2662個,頻度最高的前65個漢字占總頻度的50.22%,前622個漢字占總頻度的90.01%,前1872個漢字占總頻度的99%。與人名的用字情況相比較,地名用字分散得多。地名識別(2)中國地名的自動識別主要利用地名用字的頻度信息以及關聯信息對侯選的地名用詞進行篩選,再利用出現在地名后部的特征字“省、是、縣、鄉、鎮、山、湖、河、海”等進行判定。還可以利用地名的上下文信息進一步判定某些動詞和介詞(如“到、在、位于”等)的后面常常出現地名:例如,“到北京,在上海,位于八達嶺”。某些方位詞(如“附近、內外”等)的前面常常出現地名:例如,“海淀附近,長城內外”。某些機構名(如“郵電局、派出所”等)前面常常出現地名:例如,“東四郵電局,朝陽門派出所”。機構名識別主要是機關、團體和企業事業單位的名稱。機構名數目龐大,并且隨著社會的發展而不斷變化。機構名一般都比較長,處理時首先應該弄清它的內部結構。機構名在語法上屬于定中結構,在中心語前面加上一個或幾個修飾語,這些修飾語可以是地名、人名、學科名、行業名。例如,“北京(地名)大學”、“白求恩(人名)醫科(學科名)大學”、“汽車制造(行業名)廠”。識別機構名時,首先應找到作為中心語的機構稱呼詞,然后由后往前逐個識別其修飾語,判定修飾語是否合法,在處理過程中,還需要進行淺層的句法語義分析。自動詞性標注自動詞性標注就是用計算機來自動地給文本中的詞標注詞類。在英語、漢語等自然語言中,都存在著大量的詞的兼類現象,這給文本的自動詞性標注帶來了很大的困難。因此,如何排除詞類歧義,是文本自動詞性標注研究的關鍵問題。漢語中的兼類詞漢語中的兼類詞只占漢語詞匯的一小部分。《中學生詞典》收詞1.4萬,兼類詞有820個,占5.86%。兼類詞數量雖小,但大多是常用詞。往往越是常用的詞,不同的用法就越多,兼類現象也就越多,兼類詞主要集中在名詞、動詞、形容詞、副詞等類詞上。《中學生詞典》中,“動-名”(例如“計劃、報告”)、“動-形”(例如“繁榮、普及”)、“名-形”(例如“科學、秘密”)、“形-副”(例如“直、白”)、“動-副”(例如“斷、還”)、“名-副”(例如“極端”)、“名-動-形”(例如“嚴肅、鞏固”)等7種兼類現象,就占了820個兼類詞的95.5%。如果我們把力量放在主要兼類現象的處理上,就可以收到事半功倍的效果。
漢語中的兼類詞在漢語中,兼類詞主要集中在動詞、名詞、形容詞等常用詞上。各種兼類現象的比例如下:動詞-名詞兼類:37.6%動詞-形容詞兼類:24.3%名詞-形容詞兼類:10.4%形容詞-副詞兼類:4.55%動詞-介詞兼類:4.04%動詞-副詞兼類:2.27%名詞-動詞-形容詞兼類:2.27%名詞-副詞兼類:2.02%其他兼類現象:12.55%基于規則的方法主要根據句法、語義、上下文等語言學規則來消解兼類歧義。語料庫中漢語書面文本的詞性標注基于規則的詞性標注主要依靠上下文來判定兼類詞。這是一張白紙(“白‘出現在名詞”紙’之前,判定為形容詞)他白跑了一趟(“白”出現在動詞“跑”之前,判定為副詞)詞性連坐:在并列的聯合結構中,聯合的兩個成分的詞類應該相同,如果其中一個為非兼類詞,另一個為兼類詞,則可把非兼類詞的詞性判定為兼類詞的詞性。我讀了幾篇文章和報告“文章”為名詞,是非兼類詞,“報告”為動-名兼類詞,由于處于聯合結構中,故可判定“報告”為名詞。語料庫中漢語書面文本的詞性標注基于隱馬爾可夫模型(HMM)的詞性標注器從語料庫中選出一定數量的文本,作為訓練集(trainingset),手工分析這個訓練集,采用二元語法(bi-gramgrammar),從中歸納出統計數據。根據對訓練集的語料分析得出的統計數據,構造統計模型;根據統計模型去標注語料庫中新的文本。基于轉移的詞性標注器基于轉移與隱馬爾可夫模型相結合的詞性標注器舉例:詞性(詞類)標注`結果邁向/v充滿/v希望/n的/u新/a世紀/n——/w一九九八年/t新年/t講話/n語料庫中漢語書面文本的自動短語定界和句法標注句法分析的總體結構語料庫中漢語書面文本的自動短語定界和句法標注根據單詞的信息、詞類類別和句法特征,確定那一個單詞是短語的左邊界,那一個單詞是短語的右邊界,那些單詞是短語的中間部分。短語定界的格式如下:
[ww…ww]
其中,[w是開括號,它是短語的頭,w]是閉括號,它是短語的尾。自動短語定界的步驟是:根據上下文信息,把開括號與其相應的閉括號對應起來。根據歧義消解規則和統計信息,消解短語定界的歧義。生成表示句子結構的成分結構樹。舉例1[zj紗籠/n。/w]2[zj[fj[dj紗籠/n[vp是/v[np[np馬來/n民族/n]的/u[np傳統/n服裝/n]]]],/w[vp[vbar富/a有/v][np濃厚/a的/u[np熱帶/n情調/n]]]]。/w]zj:整句fj:復合句型dj:單句句型vp:動詞性短語np:名詞性短語vbar:形容詞性準短語自動語義標注計算機對出現在一定上下文中的詞語的語義進行判定,確定其正確的語義并加以標注。確定詞匯與其他詞匯的關系語義的自動判定一詞多類,形成了詞的兼類現象,自動詞性標注主要是詞的兼類問題。一詞多義,形成了詞的多義現象,自動語義標注主要是解決詞的多義問題。一詞多義也是自然語言中的普遍現象,但是,在一定的上下文中,一個詞一般只能解釋為一種語義。所謂自動語義標注,就是計算機對出現在一定上下文中的詞語的語義進行判定,確定其正確的語義并加以標注。語義的自動判定的方法以字義定詞義:漢語中的絕大多數復合詞,其字義與詞義之間都有密切的聯系,字義在詞義中的作用十分明顯,詞義幾乎等于它所包含的字義的相加,以少量的漢字來推知大量的詞義,可以達到以簡馭繁的效果。“打”在現代漢語中是一個多義詞,在《現代漢語詞典》中,其義項達24項之多。我們可以使用以字義定詞義的方法來確定文本中“打”的詞義。例如,“打鼓”中的“打”的字義是“用手或器具撞擊物體”,“鼓”的字義是“打擊樂器”,由此可以推知“打鑼鼓”中“打”的詞義。其推理過程是:因為“打鑼鼓”中的“鑼鼓”與“打鼓”中的“鼓”在《同義詞詞林》中的語義分類相同,其代碼都是BP13,“鑼鼓”也是一種“打擊樂器”,所以,可以推知“打鑼鼓”中的“打”的詞義是“用手或器具撞擊物體”。
以單義詞的詞義定多義詞的詞義:如果某一單義詞的義項包含在某個多義詞的義項中,則可以根據單義詞的搭配信息來確定在文本中多義詞的義項。“織毛衣”中的“織”是一個單義詞,其義項是“用針使紗或線互相套住”,由此可以推知在“打毛衣”中的“打”的義項也是“用針使紗或線互相套住”,也就是“編織”。
語義的自動判定的方法利用詞典條目的定義判斷詞義的親和程度,從而確定多義詞的詞義萊斯克(M.Lesk)提出利用既存的知識源來對多義詞的義項進行優選。機器可讀詞典中詞典條目的定義是一種既存的知識源,如果在兩個單詞的定義中都出現共同的詞語,便可推斷它們之間的親和程度較大,從而據此優選出多義詞的義項。在英語中,pen是一個多義詞,可以理解為“筆”,也可以理解為“動物的圍欄”,如果在一個句子中既有pen,又有sheep,而在機器可讀詞典的pen的定義中有“anenclosureinwhichdomesticanimalsarekept”,在sheep的定義中有“Therearemanybreedsofdomesticsheep”,在這兩個定義中都存在共同出現的單詞domestic,從而可以判斷,在這個句子中,pen的含義應該是“動物的圍欄”,而不是“筆”,從而正確地確定了多義詞pen的義項。詹森(K.Jensen)和比諾特(J-L.Binot)利用聯機詞典中的單詞的定義來選擇英語中多義介詞的功能意義。英語的with這個介詞,其功能可以表示INSTRUMENT(工具),又可以表示PART-OF(部分-全體)關系,這就出現了功能上的歧義,這也是一種多義現象。在英語句子“Iateafishwithafork”中,fork(叉子)的定義為“aninstrumentforeatingfood”,其中的instrument與with的功能INSTRUMENT(工具)相同,故可判斷with在這個句子中的功能應該是INSTRUMENT(工具),故此句的含義應該為“我用叉子吃魚”。在英語句子“Iateafishwithbones”中,bone在機器可讀詞典中的定義是“apartofanimal”,在fish的定義中,有“akindofanimal”,這與with的功能PART-OF(部分-全體)關系相同,故可判斷with在這個句子中的功能是PART-OF(部分-全體)關系,這樣,這個句子的含義應該是“我吃帶骨的魚”。語義的自動判定的方法利用上下文搭配關系來確定多義詞的義項:多義動詞與名詞搭配有明確的選擇關系,利用所選擇名詞語義類別的不同,可以判斷多義動詞的詞義。英語attend是一個多義動詞,其意義或者為“出席”,或者為“護理”,當它后面的名詞的語義為“會議、宴會”,其義項取“出席”,當它后面的名詞的語義為“人”時,其義項取“護理”。在句子“Iattendaceremony”中,名詞
ceremony的語義為“會議、宴會”,所以,應翻譯為“我參加典禮”;在句子“Whichdoctorisattendingthispatient?”中,名詞
patient的語義為“人”,所以,應翻譯為“哪位醫生護理這個病人?”為了采用這種上下文搭配關系的方法,需要認真研究動詞和名詞的搭配關系,并且還要結合這樣的搭配關系建立名詞的語義分類系統,使名詞的語義分類系統與動詞名詞的搭配關系有機地結合起來,而不是貌合神離,或者各行其道。
詞匯間語義關系的確定關系是詞匯語義的靈魂詞匯間的關系Hownet()董振東等上下位關系(XisakindofY)整體-部分關系(XisapartofY)同義關系(XisaY)反義關系(舉例:美丑(多為a))對義關系(舉例:得到失去(多為v))等等語義標注舉例他在書店里看書。semantictree:[(word_no=7,SENTENCE,,,)[SEN(word_no=4,看,v,vv2,2241101)[LOC(word_no=2,書店,n,sss,1132041)OBJ(word_no=5,書,n,nn1,1121)AGT(word_no=0,他,r,rr1,11111041)]]]漢語語料庫多級加工系統(ChineseCorpusMultilevelProcessing,CCMP)自動切詞和詞性標注子系統自動短語定界和句法標注子系統自動語義標注子系統輔助工具,如:查詢工具、樣本采取工具、統計工具、語料庫管理界面。人機互助的語料加工模型語料加工過程人機互助的語料加工模型此模型具有以下幾個特點:普遍性知識和特殊性知識相結合當正確標注的語料達到一定規模以后,從中統計得到的分布數據近似地反映了語言中的一些普遍規律,將這些數據運用于自動標注處理,可以期望獲得較高的處理正確率。但語言是千變萬化的,具有許多特例。因此系統配備了一個由錯誤驅動的規則學習程序,通過將自動處理結果和人工校對結果相比較,發現錯誤所在,從中可以總結歸納出若干特殊情況的處理規則。這樣,將統計得到的普遍性知識和學習得到的特殊性知識相結合,可以大大提高自動標注處理的性能。人機處理相結合機器處理的優勢在于它有強大的計算能力,可以大規模地處理語料。而人工標注的優勢則在于它的精確性,因為人能利用上下文信息和知識來排歧。這兩方面的優勢在圖1所示的模型中都得到了充分的發揮:一是利用統計數據,構造適當的統計模型進行自動標注處理;二是通過人工校對,保證最終處理語料的正確性。而對于錯誤校正規則的學習,則要經歷一個由手工到半自動再到全自動的發展過程。最初是人工總結,隨著研究的深入,可以逐步利用一些統計工具降低人工處理的工作量,當技術成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030鉸接臂機器行業市場現狀供需分析及重點企業投資評估規劃分析研究報告
- 2024-2025安全培訓考試試題答案參考
- 會議承辦保證金合同
- 2025至2030年亞克力澆鑄管項目投資價值分析報告
- 2025至2030年二乙烯三胺基甲基二乙氧基硅烷項目投資價值分析報告
- 2025至2030年三孔皂液器項目投資價值分析報告
- 非營利組織年度會議紀要
- 【正版授權】 ISO 16187:2025 EN Footwear and footwear components - Test method to assess antibacterial activity
- 【正版授權】 IEC 60923:2005+AMD1:2006 CSV FR-D Auxiliaries for lamps - Ballasts for discharge lamps (excluding tubular fluorescent lamps) - Performance requirements
- 【正版授權】 IEC 60669-1:1998+AMD1:1999 CSV FR-D Switches for household and similar fixed-electrical installations - Part 1: General requirements
- 《傳染病監測》課件
- 2024年中國混凝土機械行業市場運行動態及投資發展潛力分析報告
- 2025年云南昆明市五華區科技產業園開發投資有限公司招聘筆試參考題庫附帶答案詳解
- 公司組織的架構圖(原版)
- 遼寧沈陽地鐵有限公司所屬公司招聘筆試沖刺題2025
- 物業裝修現場巡查培訓
- 福建省普通高中2023年學業水平合格性考試數學試題(原卷版)
- 測試部門整體規劃
- 法規解讀丨2024新版《突發事件應對法》及其應用案例
- GB 5908-2024阻火器
- 2025屆上海市浦東新區高考英語二模試卷含解析
評論
0/150
提交評論