中文信息處理概述課件_第1頁
中文信息處理概述課件_第2頁
中文信息處理概述課件_第3頁
中文信息處理概述課件_第4頁
中文信息處理概述課件_第5頁
已閱讀5頁,還剩40頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、中文信息處理概述For 對外漢語方向本科生本章內容釋名漢語的特點-中文信息處理的難點 中文信息處理的研究內容 漢語信息處理的主攻方向 中文信息處理的發展階段 中文信息處理的現狀 對當前中文信息處理現狀的哲學反思 目前國內中文信息處理的主要力量和代表人物 對外經貿大學中文學院.對外漢語釋名中文信息處理(Chinese Information Processing) 中文信息處理分為漢字信息處理與漢語信息處理兩部分,是用計算機對漢語的音、形、義等語言文字信息進行的加工和操作,包括對字、詞、短語、句、篇章的輸入、輸出、識別、轉換、壓縮、存儲、檢索、分析、理解和生成等各方面的處理技術。 中文信息處理是

2、一門與語言學、計算機科學、心理學、數學、控制論、信息論、聲學、自動化技術等多種學科相聯系的邊緣交叉性學科,是自然語言信息處理的一個分支。 漢字信息處理(Chinese Character Information Processing) 用計算機對漢字所表示的信息進行的操作和加工。漢語信息處理既立足于漢字信息處理,又區別于漢字信息處理。處理對象不再是單個的漢字或字符串,而是語言學的單位:詞、短語、句子乃至篇章、文檔集合。兩者之間也有聯系:拼音漢字轉換、簡繁轉換、OCR 后處理、文獻檢索、語音識別與合成等等。對外經貿大學中文學院.對外漢語釋名Chinese Information Processi

3、ng(CIP) 中文信息處理Chinese character Information Processing漢字信息處理CIP Chinese character (IT) = Chinese ideograph (Sinology)Chinese language Information Processing漢語信息處理Language Information Processing 語言信息處理(1) NLP/ CIP(2) Chinese-centered Multi-lingual Information Processing以漢語為核心的多語言信息處理對外經貿大學中文學院.對外漢語漢語

4、的特點-中文信息處理的難點 漢語文字文本的語言單位邊界糢糊。詞間無間隔人名、地名不大寫句子之間界限不清晰漢字完全使用由象形文字演化而來的方塊漢字;字是漢語表義的基本單位。一個漢字既可以只能作為構詞成分,也可以獨立成詞,甚至可以獨立成句對外經貿大學中文學院.對外漢語漢語的特點-中文信息處理的難點詞語“詞”無嚴格的形式定義,詞本身也沒有明顯的形態標志詞沒有形態變化;詞性兼類現象嚴重虛詞常常省略,與實詞形式上無區別詞性與句子成分之間無一一對應關系,中心謂語動詞難以確定多動詞連用現象突出對外經貿大學中文學院.對外漢語漢語的特點-中文信息處理的難點句子結構松散我上街買菜,看見一個人,穿著一件軍大衣,打了

5、賣菜的一巴掌,臉都腫了。語法靈活,即缺乏狹義的形態,漢語句子中各個成分之間的關系一靠詞序,二靠“意合”,三靠虛詞句子語序靈活,語句格式豐富語義靈活一方面語法的靈活主要來源于語義的靈活;另一方面同一結構可以表達不同的意思,同一意思可以用不同結構表達。對外經貿大學中文學院.對外漢語現代漢語研究現狀-之于中文信息處理現代漢語研究和計算機使用的脫節,現代漢語研究已經大大滯后于中文信息處理的現實需求 一是過去的語言學知識主要是為人與人之間的交際服務的,不能完全適應人與機器的交流。二是過去對現代漢語的研究,基本上都是在研究印歐語的理論和方法的框架內進行,漢語有很多現象是這些理論和方法解決不了的。 漢語的計

6、算機理解比西方語言的理解困難得多? 對外經貿大學中文學院.對外漢語中文信息處理的研究內容 研究對象:文字和語音 語言單位和層面:字-詞-句-篇 基礎研究基礎理論:語言學基礎方法 人工智能:知識工程,機器學習,模式識別,神經計算 數學: 模型理論,形式化理論,數理統計基礎技術基礎資源基礎系統/平臺應用研究應用技術應用資源應用系統/平臺對外經貿大學中文學院.對外漢語研究對象文字漢字鍵盤輸入技術漢字輸入技術軟件漢化技術漢字字形識別技術激光照排技術文本分類信息檢索語音漢語語音識別技術漢語語音合成技術對外經貿大學中文學院.對外漢語語言單位和層面字漢字編碼技術漢字輸入技術漢字字形和字形庫管理技術漢字輸出技

7、術詞漢語分詞句篇中文信息檢索中文信息抽取中文文本分類技術對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向兩個實例 兩個實例實例一關于自動升降晾衣架的對話妻子:“嘿,過了一年才壞。”丈夫:“什么呀,才一年就壞了。”丈夫理解了妻子的意思嗎?虛詞詞義:才(數量詞前后,意義不同)背景知識:保修期知識激活機制?對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向兩個實例 實例二關于“沙漠化”的文章“幾年前由于種植籽瓜有利可圖,使大批的種植者就到過渡帶來開墾,。在這樣的綠洲和沙漠過渡帶開墾,極易造成風蝕。”2019年9月號就/ 到/ 就到/ 到/ 到過/ 過/ 過渡/ 帶/ 來/ 帶來/未登錄詞的識別

8、知識背景認知機制對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向歧義消解詞的切分白天鵝計算機程序可以按某種算法實現這種切分,給出一種或多種結果。對否?白天鵝飛過來了白/ 天鵝/ 飛/ 過來/ 了白天鵝可以看家白天/ 鵝/ 可以/ 看/ 家/白天鵝在湖里游泳白/ 天鵝/ ?白天/ 鵝/ ?白天鵝/-白/ 天鵝/-白天/ 鵝/-白/ 天/ 鵝/對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向同形詞辨析只這只會測水溫的鴨子這/r 只/q 會/v 測/v 水溫/n 的/u 鴨子/n , 挺有用的這/r 只/d 會/v 測/v 水溫/n 的/u 鴨子/n ,沒什么用這/ 只/ 會/ 測/ 水溫/

9、 的/ 鴨子/ (切分無歧義)量詞q zhi1 ?副詞d zhi3?對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向詞性歧義讀音相同的“連”也有不同的詞性(意義):一個連有三個排“連”是名詞n我們兄弟心連心“連”是動詞v蘋果可以連皮吃“連”是介詞p對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向詞義辨析講真話講衛生中國隊大勝/敗美國隊。對外經貿大學兩個燈只亮一個,不過就是亮兩個也不亮。對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向短語結構歧義m + q + n + “的” + n三個大學的老師三/m 個/q 大學/n 的/u 老師/n 三/m 個/q 大學/n 的/u 老師/n

10、三/m 個/q 大學/n 的/u 老師/n 三所大學的老師 三/m 所/q 大學/n 的/u 老師/n 三位大學的老師 三/m 位/q 大學/n 的/u 老師/n 小王和小李的妹妹李娜和鄭潔的老公都是教練。對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向句法結構歧義例1 會員選舉他當主席例2 學生認為他是校長n+v+r+v+n 對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向語義歧義以及依賴語境的歧義消解漢語語義分析(切分、標注、句法分析都無歧義)熊貓/n 吃/v 竹筍/n學生/n 吃/v 食堂/n民工/n 吃/v 大碗/n老師/n 寫/v 毛筆/n漢語語義指向分析寫/v 好/a 了/

11、u (文章)寫/v 累/a 了/u (老師)寫/v 禿/a 了/u (毛筆)漢語語境分析小張/n 打針/v 去/v 了/u北京的春天來了對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向長句與句號、逗號 中文中常有長句子,一逗到底。例:“新一屆測繪學名詞審定委員會的主要特點是年青化,吸收了一些工作在教學、科研前沿的青年專家學者,充分發揮他們接觸新知識多,對工作熱情高、活力大的特長,同中老年專家共同做好新一屆委員會的名詞審定工作。”形式上的一句話包含100多個漢字。除第一個分句外,后面的分句都沒有主語。1. 你得藏在一個你看得見他,可是他看不見你的地方。2. 車臣武裝分子和世界其他地區的恐怖分

12、子是一丘之貉,應該合力打擊他們。對外經貿大學中文學院.對外漢語漢語信息處理的主攻方向指代與省略小明要求他爸爸給他弟弟買一件他喜歡的衣服,他同意了。重慶隊得88分,客場負于臺灣隊2分。時態、語態、語氣 我在家里。(be)我在家里看書。(in)我在看書。(-ing)你在干什么?看書。你喜歡干什么?看書。如果我是你,我就去了。如果我有時間,我就去。對外經貿大學中文學院.對外漢語中文信息處理的發展階段字處理詞處理句處理篇章處理漢字編碼漢字輸入漢字顯示字頻統計 句模研究句型研究句義理解 語境萃取輿情監控熱點分析 分詞規范詞的切分詞頻統計詞性標注詞義標注短語捆綁專名識別新詞發現對外經貿大學中文學院.對外漢

13、語中文信息處理的發展階段學習和理論探索的萌芽階段漢字信息處理為主的早期階段字、詞等表層處理為特征的初級階段句法和語義等深層處理為代表的中期階段語料庫統計方法興起的近期階段以Internet為主要應用對象,大規模真實文本,智能信息訪問的現階段對外經貿大學中文學院.對外漢語學習和理論探索的萌芽階段 這一階段以介紹國外計算語言學領域的理論方法為主。對國外相關領域的介紹,理論內容相對較少,主要偏重在各種上機實現的系統方面。范繼淹、徐志敏、李家治、陳永明、馮志偉等人的介紹及其所研制的實驗系統報告,是這方面的代表。早期將國外的理論方法進行全面系統漢化的主要刊物有:86年底創刊的中文信息學報,語言學界的國外

14、語言學和語言文字應用。學者們在介紹國外先進的理論和方法同時,也有不少人結合漢語自身的特點,對這些理論和方法做了深入一步的探索,極少數人對自然語言理解做了深層次的帶有哲學色彩的思考,如:80年代中期寧春巖發表的自然語言理解中的幾個根本問題,以及他譯介的美國哲學家休伯特.德雷福斯(Hubert L.Dreyfus)的專著計算機不能做什么人工智能的極限,語言學界袁毓林1993年發表了自然語言理解的語言學假設。這些早期的的研究和探索對確立中文信息處理的宏觀格局起到了決定性的作用、奠定了中文信息處理后期的理論基礎。對外經貿大學中文學院.對外漢語漢字信息處理為主的早期階段 1974年周恩來總理親自批準了“

15、七四八”工程,它標志著計算機中文信息處理技術受到了國家高度重視并且進入了他的第一個發展階段漢字信息處理時代。涌現出多種漢字輸入編碼方案,能滿足多種現實需要。王選教授等發明的漢字字庫的信息壓縮技術使漢字文獻的印刷出版告別鉛與火,進入電子時代。對外經貿大學中文學院.對外漢語“七四八”工程是國家重要工程項目“計算機漢字信息處理系統工程”的簡稱,因為該項目是1974年8月由新華社、四機部等五部委共同申請而立項的,所以簡稱“七四八”工程。1975年北京大學王選教授的漢字信息處理思想得到國家確認,在北大成立“七四八”工程會戰組,由王選教授負責進行“計算機-漢字激光照排系統”的研制,使“七四八”工程進入實質

16、性實施階段。“七四八”工程標志著計算機中文信息處理技術受到了國家高度重視并且進入了它的第一個發展階段漢字信息處理時代,從而劃時代地使漢字文獻的印刷出版告別鉛與火,進入電子時代。對外經貿大學中文學院.對外漢語字、詞等表層處理為特征的初級階段 北京大學開發的華光排版系統被評為1985年中國十大科技成就之一,并榮獲中國發明協會發明獎。“六五”期間(1981-1985),北京航空學院主持,中國人民大學等十幾個院校,研究機構參加的“現代漢語詞頻統計”工程是這一階段代表性的重大科研成果,這是國內首次使用計算機進行大規模語料(2000萬字)的詞頻統計研究的大型語言工程。第一個漢語自動分詞系統CDWS,建立了

17、一個有13萬余詞條的計算機詞典,研制了一個有52個屬性的漢字信息庫。“七五”期間(1986-1990),建立了功能完備、實用有效的“漢字屬性系統”,編篆并出版了漢字屬性字典。1988年初,北京航空航天大學在承擔國家“七五”科技攻關項目信息處理用規范現代漢語詞庫的同時,提出并經過了三年的努力,汲取了語言界和計算機界數百名專家的寶貴建議和意見,最終制定了信息處理用規范現代漢語分詞規范,從計算機工程應用的需求出發,解決了語言學界爭論了幾十年而未解決的漢語的詞的定義問題。為我國從漢字處理進入詞語、語句處理打下了基礎。對外經貿大學中文學院.對外漢語句法和語義等深層處理為代表的中期階段 電子部計算機與微電

18、子發展研究中心(CCID)聯合國內從事中文信息處理的主要單位,從信息處理用漢語語法、語義體系的應用研究著手,以中文信息處理產品的智能化為目標,組織實施了并形成了一個完整的中文信息處理應用平臺工程。從80 年代開始,在借鑒國外的自然語言語義理論的基礎之上,先后提出了一系列符合漢語特點的語義分析方法和語義表示理論。 對外經貿大學中文學院.對外漢語語料庫統計方法興起的近期階段 語言學的研究必須以語言事實作為根據,必須詳盡地、大量地占有材料,才有可能在理論上得出比較可靠的結論。在這種工作中逐漸創造了一整套完整的理論和方法,形成了一門新的學科 - 語料庫語言學(corpus linguistics),并

19、成為了自然語言處理的一個分支學科。 國內涌現出一大批語料庫,包括中文生語料庫、詞語語料庫、句法語料庫 ;也包括口語料庫、對比語料庫、少數民族語料庫等。對外經貿大學中文學院.對外漢語以Internet為主要應用對象,大規模真實文本,智能信息訪問的現階段 人們在享用Internet帶來的各種便利的同時,卻又被如何從浩如煙海的網上資源中,如何快速、高效的查找自己的信息所困擾,典型的主要需求有信息分類、信息提取、自動問答、基于內容的快速信息檢索、基于個性的信息推送,數字化圖書館和信息網格等。中文信息處理技術必須解決網絡環境下的、大規模的、信息(文本或語音)智能訪問、加工處理、自動分析理解。 對外經貿大

20、學中文學院.對外漢語中文信息處理的現狀三個流派 中文信息處理的流派和策略當前的中文信息處理領域的科技攻關項目都是以解決計算機對自然語言進行理解的問題,也就是以開發智能型的漢語分析系統為奮斗目標的。當前的中文信息處理需要以詞義為基礎,與句法分析相結合,以句為處理對象,尋找突破。根據指導理論和研究方法的不同,目前國內中文信息處理領域可以分為三個流派。傳統計算語言學以傳統計算語言學為基本理論的,主要從詞素分析入手,遵循詞短語(詞組)語段句子的基本研究思路。這一流派的種種理論和方法都是以經驗主義的研究方法,也就是以語料統計為基礎的。在這個基礎上又結合了一些語言規則。對外經貿大學中文學院.對外漢語中文信

21、息處理的現狀三個流派HNC理論中科院聲學所黃曾陽創立的概念層次網絡理論,即HNC理論。這一理論的的新意在于直接從語言深層入手,以語義表達為基礎,把自然語言所表述的知識劃分為概念、語言和常識三個獨立的層面,建立具有語義完備性的詞匯層面的表述模式和句子層面的表述模式。 HNC理論認為,自然語言理解的過程就是概念聯想脈絡激活、擴展、濃縮、轉換與存儲的過程。因此,HNC設計了局部聯想脈絡來解決詞匯層面的問題,設計了全局聯想脈絡來解決句類和語義塊的問題。 傳統-語義取自詞典,HNC-語義取自訓詁 對外經貿大學中文學院.對外漢語中文信息處理的現狀三個流派基于內涵模型論的語義分析 謀求在一個邏輯語義框架內來

22、分析詞匯及其分類,只要能明白句義,不必過于精細,也就是用邏輯框架來處理詞匯理論。代表人物是上海交大陸汝占教授。對外經貿大學中文學院.對外漢語中文信息處理的現狀統計方法的不足對統計研究方法的認識 統計和語料庫的思想促使語言研究者從對有限語言現象的內省式研究轉到對大規模真實語言現象的研究,無疑對詞頻統計、詞語搭配、信息檢索與信息抽取等方面的研究有重大意義,因而有學者稱其為中文信息處理領域的主流技術。 統計方法適用于對隨機性過程的描述,而語言作為符號序列是隨機性和確定性并存的過程,對此種過程中的跳變現象統計方法無能為力 統計NLP的理論本質行為主義,早已被心理學研究所否定,兒童并非純粹依靠模仿習得所

23、有語句 統計方法無法應對小概率事件,統計過程中平滑手段的注入無法從根本上解決數據稀疏問題 統計方法強依賴于語料庫,統計NLP的效果與語料庫的性質和質量密切相關,而語料庫的規模、平衡性、加工深度等諸多問題并沒有一個客觀統一的評測標準 對外經貿大學中文學院.對外漢語中文信息處理的現狀當前中文信息處理的特征 統計與規則結合以實用的智能化系統為目標,以大規模語料測試為評價目標 基礎理論研究與實用系統并重面向Internet的大規模真實文本的智能信息訪問 基于內容的搜索引擎 代表性的系統有北京大學天網,計算所的“天羅”,百度,慧聰等公司的搜索引擎信息自動分類,自動摘要,信息過濾等文本級應用如上海交通大學

24、納訊公司的自動摘要,復旦大學的文本分類,計算所基于聚類粒度原理VSM的智多星中文文本分類器 信息自動抽取,即將Internet上大量的非結構化的信息,抽取出格式化的數據,以備進一步的搜索應用 自動問答,機器翻譯等需要更多自然語言處理和理解的應用 對外經貿大學中文學院.對外漢語中文信息處理的現狀-中文信息處理技術發展的問題與應對 漢語言學家沒有為中文信息處理作好語言分析的準備,長期以來,對漢語的研究方法基本上是例舉性的,而非窮盡的;材料和對象基本上是書面的,而非口語的。中文信息處理研究力量分散而且存在著低層次重復、缺乏統一規范和標準的問題。現代漢語研究領域和計算機領域的隔絕狀態沒有出現根本性的改

25、變。對外經貿大學中文學院.對外漢語對當前中文信息處理現狀的哲學反思理性主義與學科理性主義與語言學理性主義與中文信息處理以有限駕馭無限對外經貿大學中文學院.對外漢語“漢語信息處理” 在研究什么?實用系統:(1)人工系統的自然語言界面(問答系統)(2)機器翻譯與機器輔助翻譯(3)信息檢索、信息提取與搜索引擎(4)文本管理(文本分類與聚類、文獻摘要與述評、OCR后處理)(5)詞典計算機輔助編纂(6)領域知識工程(術語提取、知識元數據庫、百科全書編撰)(7)語音接口技術(語音識別的后處理、語音合成的預處理)(8)自然語言處理系統評測技術(9)面向語言本體研究與語言教學的應用對外經貿大學中文學院.對外漢

26、語目前國內中文信息處理的主要力量和代表人物 北大:計算語言學研究所:俞士汶、常寶寶、段慧明中文系:陸儉明、詹衛東、袁毓林清華:智能技術與系統國家重點實驗室:孫茂松、周強、陳群秀、張敏中文系:黃河燕北語:應用語言學研究所:張普、徐娟、楊爾弘語言信息處理研究所:宋柔對外漢語研究中心:邢紅兵、鄭艷群中科院聲學所:黃曾陽、張全、晉耀紅北師大:中文信息處理研究所:苗傳江中科院計算所:白碩、孫樂、劉群對外經貿大學中文學院.對外漢語目前國內中文信息處理的主要力量和代表人物中科院自動化所:模式識別中文信息學會:曹右琦、陳群秀國家語委:馮志偉、靳光瑾、肖航上海交大:陸汝占哈工大:李生、劉挺山西大學計算機系:劉開瑛南師大:陳小荷對外經貿大學中文學院.對外漢語目前國內中文信息處理的主要力量和代表人物武漢大學:語言與信息研究中心蕭國政魯東大學:亢世勇人民大學:張衛國微軟研究院:自然語言處理小組:黃昌

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論