漢語分詞研究_第1頁
漢語分詞研究_第2頁
漢語分詞研究_第3頁
漢語分詞研究_第4頁
漢語分詞研究_第5頁
已閱讀5頁,還剩45頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

漢語分詞研究

一、漢語分詞概述二、漢語分詞算法二、中文分詞工具測評

漢語分詞概述1

漢語分詞定義2

漢語分詞原因3

漢語分詞難點4

漢語分詞研究現狀

漢語分詞概述·1.什么是漢語分詞?漢語以字為基本書寫單位,詞語之間沒有明顯的

區分標記。漢語分詞,指的是將

個漢字序列切分成

個個

單獨的詞。通俗地講,就是要由機器在中文文本中詞與詞之

間加上標記。輸

:我是學生。輸

:我/是/學生/。

漢語分詞概述

·2.為什么要分詞?1

研究背景2

分詞作用

研究背景·

計算機發展①滲透到計算機應用的各個領域(計算機網絡、數據庫技術、軟件工程等}②得到國家重視,解決中文信息的處理技術成為我國信息化進

程中的“必決之役,必勝之戰”。基礎性關鍵工作漢語自動分詞·

中文信息處理技術重要性知識處理、語言文字

信息處理數據、信息處理

分詞作用·

英文Knowledgeispower單詞之間有空格,很容易進行詞語匹配·

中文的語義與字詞的搭配關系南京市/長江大橋南京市長/江大橋詞的正確切分是進行中文文本處理的必要條件

分詞作用·分

用互聯網絕大多數應用都需要分詞,典型應用實例如下:>

漢字處理:

拼音輸入法、手寫識別、簡繁轉換

>信息檢索:Google、Baidu

…>內容分析:機器翻譯、廣告推薦、內容監控….

>語音處理:

語音識別、語音合成.….>...

漢語分詞概述●

分詞難點◆歧義無處不在>

交集歧義(多種切分交織在一起)對于漢字串ABC,AB、BC

同時成詞例:結合/成,結/合成;內塔尼亞胡說的確實在理>

組合歧義對于漢字串AB,A、B、AB

同時成詞例:這個人/手上有痣公司缺人手>

混合型歧義同時包含交叉型歧義和組合型歧義例:這樣的/人/才能/經受住考驗這樣的/人才/能/經受住考驗這樣的/人/才/能/經受住考驗據統計交集型歧義字段約占全部歧義字段的85%-90%

漢語分詞概述●

分詞難點◆歧義無處不在>

真歧義歧義字段在不同的語境中確實有多種切分形式例:這塊/地/面積/還真不小地面/積/了厚厚的雪>

偽歧義歧義字段單獨拿出來看有歧義,但在所有真實語境中,僅有一種切分

形式可接受例:挨/批評

(V)挨批/評(×)對于交集型歧義字段,真實文本中偽歧義現象遠多于真歧義現象

漢語分詞概述●分詞難點◆新詞(未登錄詞)層出不窮>

實體名詞和專有名詞中國人名:李明、張三、老王等中國地名:三義廟、中關村、白溝等翻譯人名:奧巴馬、布什、科比、梅西翻譯地名:阿爾卑斯山、新奧爾良、洛杉磯

機構名:

聯想集團、國際衛生組織華為商標字號:非常可樂同仁堂>專業術語和新詞語專業術語:萬維網、主機板、模態、邏輯、貝葉斯算法

縮略詞:三個代表、打假、計生辦新詞語:卡拉OK

漢語分詞概述●

分詞難點◆未登錄詞識別>

未登錄詞識別困難(1)

未登錄詞沒有明確邊界,缺少英語中的分隔符、大小寫、詞的

形態、冠詞等語法信息例:張掖市民樂縣(2)

許多未登錄詞的構成單元本身可以獨立成詞

例:張建國(3)

呈現一定的句法結構例:好又多、我愛我家房地產經紀公司>

通常每一類未登錄詞都要構造專門的識別算法>

識別依據內容構成規律(用字規律)外部環境(上下文)

漢語分詞概述●

分詞難點◆未登錄詞識別現狀>

較成熟中國人名、譯名、中國地名>

較困難商標字號、機構名>

很困難專業術語、縮略詞、新詞語

漢語分詞概述●

點普通詞與未登錄詞互用>

高明表演真好

(演員)/他的表演很高明

>

汪洋到洞庭湖看到一片汪洋◆普通詞與未登錄詞交織在一起>

克林頓對內塔尼亞胡說>胡錦濤聽取龔學平等同志的匯報

漢語分詞概述●漢語分詞研究現狀研究隊伍>目前研究中文分詞的大多是科研院校,清華、北大、中科院、北京

語言學院、東北大學、IBM研究院、微軟中國研究院等都有自己的研

究隊伍,而真正專業研究中文分詞的商業公司除了海量科技以外,幾乎沒有了。分詞準確率超過◆搜索引擎中的漢語分詞99%,業界最好>

Google的中文分詞技術采用的是美國一家名叫

Basis

Technology的公司提供的中文分詞技術,百度使用的是自己公司開發的分詞技

術,中搜使用的是國內海量科技提供的分詞技術。

漢語分詞概述●漢語分詞研究現狀常見項目>

SCWSHightman開發的一套基于詞頻詞典的機械中文分詞引擎,它能將一

整段的漢字基本正確的切分成詞。采用的是采集的詞頻詞典,并輔以一

定的專有名稱,人名,地名,數字年代等規則識別來達到基本分詞,經

小范圍測試大概準確率在90%~95%之間,已能基本滿足一些小型搜索

引擎、關鍵字提取等場合運用。>

ICTCLAS最早的中文開源分詞項目之一,ICTCLAS在國內973專家組組織的評

測中活動獲得了第一名,在第一屆國際中文處理研究機構SigHan組織

的評測中都獲得了多項第一名。ICTCLAS3.0分詞速度單機996

KB/s,分

詞精度98.45%。

漢語分詞概述●漢語分詞研究現狀◆漢語分詞算法分類>

基于詞典的分詞方法優點:分詞速度快、效率高,相對容易實現。缺點:有局限性,詞典不可能囊括所有詞語;不能對歧義問題進行

。>

基于統計的分詞方法相鄰的字同時出現的次數越多,就越有可能構成一個詞。優點:具有較好的歧義識別能力,可用于系統自動識別新詞缺點:對常用詞的識別精度差,時空開銷大,并且會識別出非詞語

但出現頻率較高的字符串。例如:

“這一”、“之一”、“有的”等>

基于理解的分詞方法其基本思想就是在分詞的同時進行句法、語義分析,利用句法信

息和語義信息來處理歧義現象。

漢語分詞算法1

基于機械匹配的算法2

基于統計模型的算法3

基于隱馬模型的算法4

基于神經網絡的算法

漢語分詞算法●基于機械匹配的算法機械匹配是自動分詞中最基礎的算法,其基

本思想是:(1)事先建立一個詞庫,其中包含所有可

能出現的詞(2)對給定的待分詞漢字串S=C?C?…Cn,按照某種確定的原則切取子串,若該子串與

詞庫中的某詞條相匹配,則該子串是詞,繼

續分割剩余的部分直到剩余部分為空(3)否則,該子串不是詞,轉到(2)重新

切取S的子串進行匹配

漢語分詞算法●基于機械匹配的算法逆向

最大

匹配

法正向

最大

匹配

法雙向

掃描

法N-最

短路

徑法

漢語分詞算法●基于機械匹配的算法正向最大匹配法(1)令i=0,當前指針pi指向輸入字串的初始位置,執行下面的操作:(2)計算當前指針pi到字串末端的字數(即未被切分字串的長度)n,如

n=1,

轉(4),結束算法。否則,令m=詞典中最長單詞的字數,如果n<m,令m=n;(3)從當前pi起

取m

個漢字作為詞wi,判斷:(a)如果wi確實是詞典中的詞,則在wi后添加一個切分標志,轉(c);

(b)如

果wi不是詞典中的詞且wi的長度大于1,將wi

從右端去掉

一個

字,轉(a)步;否則(wi的長度等于1),則在wi后添加一個切分標志,將wi作為單字詞添加到詞典中,執行(c)步;(c)根

據wi的長度修改指針pi的位置,如果pi指向字串末端,轉(4),否

,i=i+1,返回(2);(4)輸出切分結果,結束分詞程序。●基于機械匹配的算法|正向最大匹配法

(Forward

MM,FMM)例:假設詞典中最長單詞的字數為3

輸入字串:南京市長江大橋切分過程:南京市/長江大橋南京市/長江/大橋

南京市/長江/大橋/

漢語分詞算法南京南京市長江江大橋市長Max_len=3詞典●基于機械匹配的算法逆向最大匹配法(BackwardMM,BMM)例:假設詞典中最長單詞的字數為3

輸入字串:南京市長江大橋切分過程:南京市長江/大橋

南京市/長江/大橋

/南京市/長江/大橋

漢語分詞算法南京南京市長江江大橋市長Max_len

=3詞典雙向掃描法(Bi-directional

MM,DMM)例:假設詞典中最長單詞的字數為3

輸入字串:他是研究生物化學的FMM切分結果:他/是/研究生/物/化學/的/BMM切分結果:他/是/研究/生物/化學/的/

漢語分詞算法●基于機械匹配的算法詞典研究生生物化學他

的Max_len=3(1)相鄰節點Vk-1,vk之間建立有向邊<vk-1,Vk>,邊對應的詞默認

ck(i=1,2,…,n)。(2)如果w=CiCi+1…C;0<i<j<=n)

是一個詞,則節點vi-1,Vi

之間建立有向邊<Vi-1,Vi>,邊對應的詞為w(3)重復步驟(2),直到沒有新路徑(詞序列)產生。(4)從產生的所有路徑中,選擇路徑短的(詞數少的)作為終分詞結果。

漢語分詞算法●基于機械匹配的算法設待切分字串S=C?C?…Cn,其

中ci(i=1,2,….,n)為單個的字,n為串的長度,n>=1。

建立一個節點數為n+1的切分有向無環圖G,各節點編號依次為vo,V?,V?,…,Vn。N-最短路徑法

漢語分詞算法●基于機械匹配的算法N-最短路徑法例:今天下午休息設所有邊長為1,且每個相鄰的雙字之間都是在詞典中的詞,“今天”,

“天下”,

“下午”等。則可以

構建如下有向圖今

息然后根據Dijkstra算法計算路徑長度,可以得到結果N-最短路徑法序號分詞結果路徑長度1今天/下/午/休息/42今/天/下午/休息/43今/天/下/午/休息/54今/天/下/午休/息/55今/天/下午/休/息/56今/天下/午休/息/47今天/下午/休息/3

漢語分詞算法●基于機械匹配的算法

漢語分詞算法●基于機械匹配的算法優

:僅需要很少的語言資

源(詞表),不需要任何

詞法、句法、語義資

源,因此,分解效率高。歧義消解的能力差:

鏈接為奇數的交集型歧義,無法發現組合型

;程序簡單易行,開發周

;切分正確率不高,一般

在95%左右。

漢語分詞算法●

基于統計模型的算法基于統計的分詞方法摒棄了詞典,其基本步驟如下

:(1)加載大規模中文語料集(2)訓練語言模型(3)進行中文分詞其中的大規模語料集指的是包含大規模(一

般最低在十萬數量級以上)的中文句子的文

檔。

漢語分詞算法●基于統計模型的算法N元語言模型互信息模型最大熵模型在N元語言模型中,對于一個中文字符串S=C?C?…Cn,

可以將其看成

一個連續的字符串序列,對于字符串的某一種切分方式:

w?W?…Wn,N元語言模型計算的是該切分方式的概率有多大,記為P(S)。而對于句子中每個詞語wi,其出現的概率是與前面i-1

個詞相關的,

可以通過條件概率公式計算。因此,在推導演變之下,可以得到一個

計算P(S)的最終公式:

漢語分詞算法●基于統計模型的算法由公式可以看出,一個字wi出現的概率是由前n-1

個詞語所決定的,

即由已知推未知,是N語言模型的核心思想。N元語言模型

漢語分詞算法●基于統計模型的算法N元語言模型例如之前給的一個句子:他是研究生物的。有如下兩種分詞方式,哪種方式是正確的呢?(1)他|是|研究生|物|的(2)他|是|研究|生物|的若我們采用二元文法,則需要計算下面兩個式子,對比結果

1:p(Seg1)=p(他|<BOS>)×p(是|他)×p(研究生|是)×

p(物|研究生)×p(的|物)×p

(的|<EOS>)2:p(Seg2)=p

(他|<BOS>)×p

(是|他)×p(研究|是)×

p(生物|研究)×p(的|生物)×p(的|<EOS>)●基于統計模型的算法N元語言模型優點

:減少了很多手工

標注的工作;在訓練語料規模足

夠大和覆蓋領域足

夠多時,可以獲得

較高的切分正確率。

漢語分詞算法缺

點:訓練語料的規模和覆蓋領域不好把

;計算量較大。

漢語分詞算法●基于統計模型的算法互信息模型N元語言模型中用到了大規模語料庫,那么有一個必

須要解決的問題就是如何用語料庫訓練出來一個詞

典。互信息解決的就是這樣一個問題。它根據語料庫中

字與字的“緊密”程度來判斷其組合是否為詞語:

如果兩個字總是緊挨著出現,那么這兩個字在很大

程度上就可以判定為是一個中文詞語,如果兩個字

沒有相鄰出現過或者只是偶爾相鄰出現了一次或者

幾次,那么基本就可以判定這兩個字不能組成一個

漢語分詞算法●基于統計模型的算法最大熵模型在最大熵模型中,目標是構造一個能生成訓練樣本分布p(x,y)的統計模型,建立特征方程。該特征必須

能較完整地表達訓練樣本中數據的特性。我們以英漢翻譯為例:對于英語中的

“take”,

它對應漢語的翻譯有:

(t1)“抓住”:

The

mother

takes

her

child

by

the

hand.母親抓住孩子的

手。(t2)“拿走”:

Take

the

book

home.把

書拿回家。(t3)“乘坐”:totakeabustowork.

乘坐公共汽車上班。(t4)“量”:

Take

your

temperature.

量一量你的體溫。(t5)“裝”:

Thesuitcasewouldn'ttakeanotherthing.這個衣箱不能裝別

的東西了。(t6)“花費”:

It

takes

a

lot

of

money

to

buy

a

house.

一所房子要花

一大筆錢。(t7)“理解、領會”:How

do

you

take

this

package?

你怎么理解這段話?

漢語分詞算法●基于統計模型的算法最大熵模型

漢語分詞算法●基于統計模型的算法最大熵模型假設對于所有的英文"

take",只有這七種翻譯。則存在著如下限制:

p(t1|x)+p(t2|x)+p(t3|x)+…+p(t7|x)=1

(1)

p(ti|x)(1≤i≤7)表示在一個含有單詞

take

的英文句子中,

take

譯成ti

的概率。在這個限制下,對每種翻譯賦予均等一致的幾率為:

p(t1|x)=p(t2|x)=…=p(t7|x)=1/7但是對于“take”,我們通過統計發現它的前兩種翻譯(t1)和(t2)是常

見的,假設滿足如下條件p(t1|x)+p(t2|x)=2/5

(2)在(1)和(2)共同限制下,分配給每個翻譯的概率分布形式有很多。但

是最一致的分布為:p(t1|x)=p(t2|x)=1/5p(t3|x)=p(t4|x)=p(t5|x)=p(t6|x)=p(t7|x)=3/25x表示上下文環境,這里看以看作是含有單詞take

的一個英文短語,而y

代表輸出,對應著“take”的中文翻譯。^next(x)看作是上下文環境x

的一個函數,表示

x

中跟在單詞take

后的一個單詞為

“bus”。

這樣一個函數我們稱作一個特征函數,或者簡稱一個特征。引入諸如公式(3)中的特征,它們對概率分布模型加以限制,求在限制條件

下具有最一致分布的模型,該模型熵值最大。可以驗證,最一致的分布具有最大的熵值。但是上面的限制,都沒有考慮上下文的環境,翻譯效果不好。因此我們引入特征。例如,英文“take”翻譯為“乘坐”的概率很小,但

是當

“take"

后面跟一個交通工具的名詞

“bus"時,它翻譯成“乘

坐”的概率就變得非常大。為了表示take

跟有

“bus“”

時翻譯成“乘

坐”的事件,我們引入二值函數:

漢語分詞算法●基于統計模型的算法最大熵模型(3)

漢語分詞算法●

基于隱馬模型的算法隱馬模型(

Hidden

Markov

Model;HMM)

是經典的描述隨機過程的統計方法,在自然語言處理中得到

了廣泛的應用。舉一個經典的例子:

一個東京的朋友每天根據天氣

{下雨,天晴}決定當天的活動{公園散步,購物,清理房

間}中的一種,我每天只能在twitter

上看到她發的推

“啊,我前天公園散步、昨天購物、今天清理房間

了!”,那么我可以根據她發的推特推斷東京這三

天的天氣。在這個例子里,顯狀態是活動,隱狀態

是天氣。

漢語分詞算法●基于隱馬模型的算法HMM

其形式主要是一個五元組:M=<Q,V,A,B,π,>其

,Q是有限狀態集合(隱狀態),

V是觀測結果

有限集(觀測序列),

A是狀態轉移矩陣(轉移概

)

,

B是狀態到觀測值的概率矩陣(發射概率),

π是初始狀態分布(初始概率)。如何求解Q

是在漢語分詞中HMM

的主要應用。即給

定一個字的序列,找出最可能的標簽序列(斷句符

號:[詞尾]或[非詞尾]構成的序列)。結巴分詞目前

就是利用BMES標簽來分詞的,B

(

)

,M

(中間),E(結尾),S(獨立成詞)

漢語分詞算法●基于深度學習的漢語分詞算法◆特點>

向量化原子特征作為輸入>學習原子特征和上下文的表示>更有效的刻畫長距離句子信息

漢語分詞算法·RNNAAx

×

×·LSTM

漢語分詞算法

漢語分詞算法·

字嵌入+Bi-LSTM+CRF(s-LOC)C4r414MarsBi-LSTMencoder{C1r?I?MarkCRF

Layer

B-PER

E-PER

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論