漢語分詞與標注_第1頁
漢語分詞與標注_第2頁
漢語分詞與標注_第3頁
漢語分詞與標注_第4頁
漢語分詞與標注_第5頁
已閱讀5頁,還剩77頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

漢語分詞與標注目

錄CONTENTS1

經典綜述2

分詞與標注聯合模型3

領域前沿4

技術平臺及應用場景5

Demo展示經典綜述主講人:

1.1

漢語分詞

“漢語分詞中文分詞指的是中文在基本文法上有其特殊性而存在的分詞

簡而言之

就是將一句話切分成一個個單詞的過程

。4我是北京理工大學學生我

|是

|北京理工大學

|學生不同的分詞算法可能會得到不同的分詞結果

1.1

漢語分詞

I

為什么要漢語分詞

英文以空格作為天然的分隔符

而中文詞語之間沒有分隔。I

major

in

English.我的專業是英語。

在中文里

“詞”和

“詞組”邊界模糊。對隨地

吐痰

者給

罰。

后續工作

:漢字處理、

信息檢索、

內容分析、

語音處理等。雅虎中國網頁搜索部總監張勤認為

中文分詞是搜索技術的基礎

,只有做好了分詞

,才能有好

的搜索。5

1.1

漢語分詞

I

漢語分詞難點——切分歧義

交集型切分歧義OAS(交叉歧義)

——對于漢字串AJB

,AJ、

JB同時成詞“人民生活幸福”

①人民

|生活

|幸福②人

|

民生

|活

|幸福

組合型切分歧義CAS(覆蓋歧義)

——對于漢字串AB

,A、

B、AB同時成詞“校友會”

|在

|校友會

|工作②

|的

|

校友

|

|

真歧義——本身的語法和語義都沒有問題

即便人工進行切分也會產生歧義“乒乓球拍賣完”①乒乓

|球拍

|

賣完②乒乓球

|拍賣

|完6

1.1

漢語分詞

I

漢語分詞難點——未登錄詞識別未登錄詞有兩種

,一種指已有的詞表中沒有收錄的詞

,另一種指訓練語料中未曾出現過

的詞

而后一種也可被稱作集外詞(

Out

of

Vocabulary

OOV)

即訓練集以外的詞。未登錄詞通常包含以下幾種類型:

新出現的普通詞匯。

如網絡用語中層出不窮的新詞等。

專有名詞。

如人名、

地名以及組織機構名稱等。

專業名詞和研究領域名稱。

將分詞運用到某些特定領域或專業

需要特定的領域詞典。

其它專用名詞。

如新產生的產品名、

電影名稱、

書籍名稱等。7

1.1

漢語分詞

I

漢語分詞發展歷程8Collo

bert等首次

將深度學習算法引

入自然語言任務中。

該方法可以通過最

終的分詞標注訓練

,有效學習原始

特征和上下文表示。隨后CNN、

GRN、LSTM、

BiLSTM等

深度學習模型都被

引入到中文分詞任

務中

并結合中文

分詞進行多種改進。俄漢翻譯機的研制

時期

,蘇聯研究漢

俄機器翻譯的學者

首先提出的、

后來

被稱為6-5-4-3-2-

1查詞法。Sproat等首次基于統計學習方

法實現中文分詞。

根據處理的粒度,

分為基于詞和基

于字兩類標注。上世紀50年代后期1990年2011年

1.1

漢語分詞

I

漢語分詞算法分類9基于詞典的分詞算法統計機器學習的算法

基于神經網絡的算法按照掃描方向的不同

串匹配分詞方法可以分為正向匹配和逆向匹配。按照不同長度優先匹配的情況

可以分為最大(最長)匹配和最小(最短)匹配。

常用的幾種機械分詞方法如下:

正向最大匹配算法FMM

逆向最大匹配算法RMM

雙向最大匹配算法BM

1.1

漢語分詞

基于詞典的分詞算法(也稱機械分詞)10機器詞典識別出

一個詞待分析

漢字串匹配成功匹配詞條

永和服裝有限公司統計結果表明

單純使用正向最大匹配的錯誤率為1/169

單純使用逆向最大匹配的錯

誤率為1/245

顯然RMM法在切分的準確率上比FMM法有很大提高。

但這種精度還遠

遠不能滿足實際的需要。

實際使用的分詞系統

,都是把機械分詞作為一種初分手段

,還

需通過利用各種其它的語言信息來進一步提高切分的準確率。

1.1

漢語分詞

基于詞典的分詞算法(也稱機械分詞)11

正向最大匹配算法FMM(從左到右的方向)

永和服裝有限公司

逆向最大匹配算法RMM(從右到左的方向)詞典:

服裝有限公司公司和服待分詞序列

:永和服裝有限公司

1.1

漢語分詞

基于詞典的分詞算法(也稱機械分詞)

雙向最大匹配算法BM?比較FMM和RMM得到的分詞結果

,如果兩種結果相同

,則認為分詞正確

否則

,按最小集處理。?在實用中文信息處理系統中得以廣泛使用的原因12

1.1

漢語分詞

基于詞典的分詞算法(也稱機械分詞)詞典分詞方法包含兩個核心內容

:分詞算法與詞典結構。

算法設計可從以下幾方面展開?

字典結構改進?

改進掃描方式?將詞典中的詞按由長到短遞減順序逐字搜索整個待處理材料

直到分出全部詞為止

影響詞典性能的三個因素?

詞查詢速度?

詞典空間利用率?詞典維護性能(

e.g.設計Hash表)13

1.1

漢語分詞

基于詞典的分詞算法(也稱機械分詞)

優點:?

易于實現?可以精確地切分出所有在詞典中存在的詞

缺點:?

匹配速度慢?存在交集型和組合型歧義切分問題?詞本身沒有一個標準的定義

,沒有統一標準的詞集?不同詞典產生的歧義也不同14

1.1

漢語分詞

I

統計機器學習的算法

主要思想把每個詞看作字組成

,相鄰的字在語料庫中出現的次數越多

就越可能是一個詞。

主要模型?

N-gram模型?

最大熵模型ME?

隱馬爾可夫模型HMM15

1.1

漢語分詞

N-gram模型

主要思想第n個詞的出現只與前面n-1個詞相關

,與其他詞都不相關

,整個語句的概率就是各

個詞出現概率的乘積。

算法推論假設一個字符串s由m個詞組成

因此我們需要計算出P(w1,w2,?

,wm)的概率

,根

據概率論中的鏈式法則得到如下:P(w1,w2,…,wm)

=

P(w1)*P(w2|w1)*P(w3|w1,w2|)

P(wm|w1,w2

…wm-1)根據馬爾科夫假設

當前詞僅與前面幾個詞相關

,所以不必追溯到最開始的那個詞

P(wi|w1,w2

…wi-1)

=

P(wi|wi-n+1,wi-1),P(s)

=

P(w1,w2,…,wm)

=

P(w1)*P(w2|w1)*P(w3|w1,w2|)

P(wm|w1,w2

…wm-1)

P(w1)*P(w2|w1)*P(w3|w2)

P(wm|wm-1)16

1.1

漢語分詞

I

最大熵模型ME

最大熵原理對一個隨機事件的概率分布進行預測時

預測應當滿足全部已知的約束

而對未知

的情況不要做任何主觀假設。

在這種情況下

,概率分布最均勻

預測的風險最小

因此得到的概率分布的熵是最大。一個樸素的說法

:不要把所有的雞蛋放在一個籃子里。

主要思想在學習概率模型時

,所有可能的模型中熵最大的模型是最好的模型;

若概率模型需

要滿足一些約束

,則最大熵原理就是在滿足已知約束的條件集合中選擇熵最大模型。17

1.1

漢語分詞

I

最大熵模型ME

優點?最大熵統計模型獲得的是所有滿足約束條件的模型中信息熵極大的模型

,作為經

典的分類模型時準確率較高。?可以靈活地設置約束條件

,通過約束條件的多少可以調節模型對未知數據的適應

度和對已知數據的擬合程度。

缺點?由于約束函數數量和樣本數目有關系

,導致迭代過程計算量巨大

實際應用起來

比較難。18

1.1

漢語分詞

I隱馬爾可夫模型HMM

隱馬爾可夫模型是關于時序的概率模型。

描述由一個隱藏的馬爾可夫鏈隨機生成的

不可觀測的狀態序列

再由各個狀態生成一個觀測從而產生觀測序列的過程。狀態序列

,如

I

={學習

,逛街

學習

,游戲

吃火鍋}觀測序列

,如O

={難頂

開心

,很煩

,心累

,幸福}狀態轉移概率矩陣

,表示從t時刻狀態qi

t+1變成qj的概率,如前一天逛街變換到今天學習的概率觀測轉移概率矩陣

,表示從t時刻狀態qj

,產生觀測結果v

k的概率,如今天逛街然后今天是開心的概率初始狀態概率分布

,表示在t

=1時刻處于狀態qi的概率,如第一天是逛街的概率19

五元組?

I

:?

O:

?

A:?

B:?

π

:入=(A,B,T)?齊次馬爾可夫鏈假設

:任一時刻的狀態只與上一時刻的狀態有關

,與其他時刻的狀態、觀測無關。公式描述:P(ir

x1lia,i

a…iz;o1,02…01)=p(ir

x1li)。【明天所做的事情只與今天所做的有關

比如今天逛街(狀態

,這是你看不到的)

那么明

天很有可能就是學習(因為昨天浪了一天)

,但是與昨天學習無關

,與每天的心情(觀測,

這是你在朋友圈看到的)

也無關。

】?觀測獨立性假設

:任一時刻的觀測只與當前時刻的狀態有關。公式描述:P(or

lia,i..

in;o,

oy…or-1,

on..

on)=p(oli)

。【今天的心情(觀測)

只與今天所做的事有關(狀態)

。如我們今天感覺倒霉(觀測)

為今天晉級賽跪了。

而與昨天辛苦工作(狀態)

明天還要辛苦工作無關。

】20I隱馬爾可夫模型HMM

兩個假設1.1漢語分詞

1.1

漢語分詞

I隱馬爾可夫模型HMM

三個問題?概率計算問題

:給定模型λ

=(A,B,π)和觀測序列O

,計算在模型λ下觀測序列出現

的最大概率P(O|λ)。

(Forward-backward算法)?學習問題

:給定觀測序列O

,計算模型的參數λ

,使得在該參數下觀測序列出現的

概率最大

即P(O|λ)最大。(

Baum-Welch算法)?預測問題

:我們已經獲取了模型λ

=(A,B,π)和觀測序列O

,計算最有可能的狀態序

列I。(Viterbi算法)21

1.1

漢語分詞

I

統計機器學習的算法

優點

:較好地識別未登錄詞和消除歧義

缺點

:統計模型復雜度高

,運行周期長

,依賴人工特征提取

隨著計算機運行速度加快

,神經網絡逐漸進入分詞領域22

1.1

漢語分詞

I

基于神經網絡的算法

該方法是模擬人腦并行

,分布處理和建立數值計算模型工作的。

它將分詞知識所分

散隱式的方法存入神經網絡內部

,通過自學習和訓練修改內部權值

以達到正確的

分詞結果

,最后給出神經網絡自動分詞結果。

自序列標注方法在

bakeoff測試中取得優異成績后

,將神經網絡與序列標注相結合

成為中文分詞領域的通用框架。

主要模型?

循環神經網絡RNN?長短期記憶人工神經網絡LSTM?

門控循環單元GRU23詞性標注為每一個詞的詞性加上標注

也就是確定該詞屬于名詞

動詞

形容詞還是其他詞性的過程

。對于幾乎所有的語言處理任務來說

詞性標注都是很重要的前

置處理任務

。他/r做/了/u—/m個/q報告/n

1.2

詞性標注

“24

1.2

詞性標注

I

在分詞中的應用25未登錄詞

(主

)歧義在整體質量較高的情況下

,基于字標注的

分詞系統有著明顯的未登錄詞識別優勢影響分詞效果的主要問題Bakeoff-2003的評測

1.2

詞性標注

I

分類26利用現有的語言學成果,

總結出有用

的規則

在基本標

注的情況下,

結合

上下文和規則庫消

除歧義,

保留唯一

合適的詞性。對于給定的輸入詞串,

先確定所有可

能的詞性串,

選出

得分最高的作為最

佳輸出。依靠神經網絡強大的特征提取和表征

能力來進行文本數

據的處理。基于深度學習基于規則基于統計

1.2

詞性標注

I

基于規則的詞性標注由詞性標注的規則組成的規則庫27”ADJ”

+”

NUM””V”

+”ADJ””V”

+”

PRON”形容詞+數詞動詞+形容詞

動詞+代詞

1.2

詞性標注

I

基于規則的詞性標注早期

詞性標注的規則庫需要人工構造

艱難耗時

基于轉換的錯誤驅動的方

法首次克服了手工制定規則的問題

0102

0

30

4281971

年,TAG

G

IT系統被

于B

r

o

w

n語料庫

的輔

標注工作

。20

0

0

年,李曉

黎等人提出用數據采掘的方法獲取漢語

詞性標注規則

。19

9

5

E

r

i

c

B

r

i

l

l

換的

錯誤

動的方法

。20

0

8

年,王

廣正等人提出了基

于規則優先級的

詞性標注方法

1.2

詞性標注

I

基于統計的詞性標注n

隱馬爾可夫模型(

HMM)n

最大熵模型n

條件隨機場(

CRF)29

1.2

詞性標注

條件隨機場(

CRF)特征函數30對于句子s

,標注l對第i位的標注為li的情況下

,滿足li-1函數值為1

,否則為0。若f為1表示特征合理

,λ為正

,否則為負特征函數集

1.2

詞性標注

I

基于深度學習的詞性標注詞嵌入n

獨熱編碼(

One-hot){1

0

0

0}

{0

1

0

0}

{0

0

1

0}

{0

0

0

1}n

Word2Vec模型利用局部上下文。

低維

,稠密n

GloVe(GlobalVectorsforWord

Representation)增加了對全局特征的利用。31

1.2

詞性標注

循環神經網絡(

RNN)32針對序列信息進行特征抽取

1.2

詞性標注

長短期記憶人工神經網絡(

LSTM)33or=o(w,[hr-1,a

e)+bo)

hr=o:xt

an

h(c3)遺忘門輸入門

輸入值輸出門記住需要長時間記憶的

,忘記不重要的信息C-1

1.2

詞性標注

門控循環單元(

GRU)34相較于LSTM

減少了一個

“閥門”,

單元結構更加簡單

,性能更強更新門重置門候選狀態分詞與標注聯合模型主講人:

2

2

分詞與標注聯合模型

流水線模型:

先分詞

再標注聯合模型:

分詞與標注同時進行優勢流水線模型會導致錯誤的傳播

并且分詞的結果對標注的效果影響很大

同時標注也能為分詞分詞任務

提供重要信息

因此使用聯合模型。實現思路。序列標注模型o

Transition-based系統36

2

分詞與標注聯合模型

I

序列標注模型將分詞任務拓展為分詞標注任務

:將邊界標簽拓展到加入詞性標簽:狗/S蹲/S在/S墻/B角/E狗/S_NR

蹲/S_VP

在/S_P墻/B_NR

角/E_NR37傳統統計學習的方法:

需要大量的特征1.模型過大難以存儲和計算;2.參數過多而造成過擬合;3.耗費計算時間;

4.難以解碼深度學習的方法:使用神經網絡來直接獲取單詞之間的更高層的特征表示38初始化特征向量

經過神經網絡獲得一個句

子中每個位置上的單詞分別對應標簽集中每

個標注的得分。通過維比特算法

找到該句子的最優的標簽

序列。2

分詞與標注聯合模型序列標注模型

2

分詞與標注聯合模型

I

序列標注模型雙向的RNN來獲取雙向的特征表示并對標簽進行預測

,最后經過CRF來選擇出合適的標簽序列。39獲得字的偏旁:

”:銀、鋁、鐵OrthographicalFeatureRadicalsFeaturesPre-trainedCharacterEmbeddings利用Wikipedia和SogouCS語料訓練字符

的GloVe向量2

分詞與標注聯合模型序列標注模型ConcatenatedN-gram40transition-based系統

2

分詞與標注聯合模型

SEP(t):一個新詞的開始

并且標注好這個詞的詞性APP:緊接著上一個漢字

,與前面的多個漢字組成一個詞例:

奧運會正式開幕”解碼結果:

奧運會|NR

正式|AD

開幕|VV”動作序列:

“SEP(NR)

APP

APP

SEP(AD)

APP

SEP(VV)

APP”41

2

分詞與標注聯合模型

transition-based系統單字和雙字的雙向編碼,為動態編碼采用外部預訓練詞向量,為靜態編碼

BasicEmbeddingsoWord-ContextEmbeddings42

2

分詞與標注聯合模型

transition-based系統43解碼端詞的表示(Word

Representation)結合解碼端LSTM的隱層輸出和編碼

端向量表示進行預測

2

分詞與標注聯合模型

transition-based系統典型的Seq2Seq模型需要采

用Attention機制

而本文提

用Attention機制

采用編碼端

的向量表示。在分詞和詞性標注的任務中

級別的特征異常重要

解碼端LSTM是構建在輸出的詞之上

而不是構建在屬于字符級的預測

動作序列之上。44

2

分詞與標注聯合模型

[1]XiaoqingZheng,

HanyangChen,TianyuXu,“

Deep

Learningfor

ChineseWord

Segmentationand

POS

Tagging”,EMNLP

2013:

647-657.[2]Y.Shao,C.

Hard

meier,J.Tie

demann,

and

J.

Nivre,

“Character-based

joint

segmentation

andpos

tagging

for

chinese

using

bidirectional

rnn-crf,”arXiv

preprint

arXiv:1704.01314,2017.[3]

Meish

an

Zhang,

Nan

Y

u,and

Guohong

Fu,“A

Simple

and

Effective

Neural

Model

for

JointWord

Segmentation

and

POS

Tagging”,IEEE

ACM

Trans.

Audio

Speech

Lang.

Process.

26(9):1528-1538

(2018)45領域前沿主講人:

3

領域前沿

SOTA模型——WMSEG與TwASP2021最新成果(簡介)——Meta-Seg與GCA-FL4703新的瓶頸與發展現狀當前研究數據010204

3

領域前沿

I當前研究數據根據近20年文獻資料,中文分詞研究自2010年達到小高峰后,熱度再次緩步增長。48中國知網(上)和Web

of

Science(下)分詞文獻數量統計[1]王佳楠,梁永全.中文分詞研究綜述[J].軟件導刊,2021,20(04):247-252.經網絡和

學習方法

關關鍵字

3

領域前沿

I當前研究數據所基于的技術變化,統計僅選擇總詞頻高于20的主要技術性關鍵詞的詞頻分布。?機械分詞算法自1984年至今持續出現在文獻中。?機器學習算法2004年后被廣泛應用,并持續保持

較高的關注度。?深度學習算法2015年之后相關文獻逐漸增多。但出現的新算法并未替代之前的分詞算法。

49“中文分詞文獻

”部分關鍵詞分布(篇)[2]唐琳,郭崇慧,陳靜鋒.中文分詞技術研究綜述[J].數據分析與知識發現,2020,4(Z1):1-17.

3

領域前沿

I

SOTA模型目前中文分詞的SOTA(Stateoftheart,最先進)模型,來自創作于我國廣州

的高科技企業創新工場大灣區人工智能研究院的文章,發表于2020年7月上旬線上舉行的第58屆自然語言處理領域(NLP)頂級學術會議ACL2020,

目前已開源。50TwASP:基于雙通道注意力機制的分詞及詞性標注模型兩模型分別就中文分詞和詞性標注作出探索,將外部知識(信息)創造性融入分詞及詞性標注模型,有效剔除分詞

“噪音

”誤導,大幅提升處理效果。WMSEG:鍵-值記憶神經網絡的中文分詞模型在所有數據集上的表現均超過前人的工作,“把中文分

詞領域廣泛使用的標準數據集上的性能全部刷到了新高。

”執行院長宋彥(作者之一)

3

領域前沿

I

SOTA模型——WMSEG

:鍵-值記憶神經網絡的中文分詞模型解決OOV(outofvocabulary,未登錄詞)和歧義兩大難題,主要思想是采用鍵-值記憶神經網絡,計算能得出具備更完整語義分詞結果的漢字劃分方式。特定語境中:構建詞表與分配權重:①據構詞能力,找到所有成詞組合。如“

”字可能單字成詞作為

居民

”的

詞尾、作為“

民生

”的詞首,或是在“居民生活

”的詞中成分。③經神經網絡,學習各詞對完整表達句意的幫助,從而分配不同權重。最終“部分

”、“居民

”、“生活

”、“水平

”被突出,而“分居

”、“

民生

”則被降權。51②·利將用個的漢全字元合組加提入供

模型,進行編·碼用。非監督方法構建詞表,有效利用

字的構詞能力,通過加/降權重實現。特定的未標注文本,來提升識別能力。[3]YuanheTian,YanSong,FeiXia,TongZhang,YonggangWang:

ImprovingChineseWordSegmentationwithWordhoodMemoryNetworks.ACL2020:8274-8285歧義消解

部分居民生活水平

未登錄詞處理

3

領域前沿

I

SOTA模型——WMSEG

:鍵-值記憶神經網絡的中文分詞模型52模型整體:τ

:句子所有分詞結

果的標簽集合;L:句子長度;y^:模型的最好結果;N:構建的Lexicon;X:輸入的句子;M:本文模型。核心思想:傳統NER模型的Encoder和Decoder之間加入MemoryNetworks。鍵定位

值讀取得概率分布即相關程構建詞表B

I

E

S標記法

B:begin

I:inside,E:end

S:single

soft

max

/

CRF

BERT

/

L

STM

3

領域前沿

I

SOTA模型——WMSEG

:鍵-值記憶神經網絡的中文分詞模型值讀取舉例:他從小學電腦技術模型對歧義部分“從小學

”(有“從/小學

”和“從小/學

”兩種分法)各分法

中的n元組“從小

”和“學

”能夠分配更高的權重。53

3

領域前沿

I

SOTA模型——WMSEG

:鍵-值記憶神經網絡的中文分詞模型在主流公開分詞模型中加入WM網絡進行對比、和前人工作的比較:優化均明顯。54[4]YuanheTian,YanSong,XiangAo,FeiXia,XiaojunQuan,TongZhang,YonggangWang:Joint

ChineseWord

Segmentation

and不同者在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下各自的貢獻。不準確的、對模型

預測貢獻小的上下文特征和句法知識可被識別

重,從而避免模型被這些有噪

音的信息誤導

3

領域前沿

I

SOTA模型——TwASP:

基于雙通道注意力機制的分詞及詞性標注模型將中文分詞和詞性標注視作聯合任務從而一體化完成。對自動獲取的上下文特征和句法知識,分別加權,預測每個字的分詞和詞性標簽,55Part-of-speechTaggingviaTwo-wayAttentionsofAuto-analyzedKnowledge.ACL2020:8286-8296

3

領域前沿

I

SOTA模型——TwASP:

基于雙通道注意力機制的分詞及詞性標注模型實驗驗證:1)模型在所用數據集上均超過了之前的工作:2)一般領域中,在5個數據集(CTB5,CTB6,CTB7,CTB9,UniversalDependencies)的表現(F值)均超過前人的工作,也大幅度超過斯坦福大學的

CoreNLP工具和伯克利大學的句法分析器。3)跨領域中,模型特別地相對于斯坦福大學的CoreNLP工具有近10個百分點提升。56典型測試表現

一般領域的先進性(最常見的CTB5上的結果)

跨領域的先進性谷歌學術Chinese

iDBLP

W

dg近5年來本領域的相關學術論文在數量上不斷遞增谷歌學術

dgChinese

iB

搜LP數據的研究和應用例如學術搜索作者協助關系挖掘等谷DBLP

2021機械方法1W-coreTransformer

ModelforChineseWordSegmentation變換器(Transformer)模型、窗核(W-core)2CorpusAnnotationSystem

Basedon

HanLPChineseWordSegmentation彈性搜索3MorethanText:

Multi-modalChineseWordSegmentation多模態、變換器(Transformer)模型4Span

LabelingApproachforVietnameseandChineseWordSegmentation跨度標記方法深度學習Pre-trainingwith

Meta

LearningforChineseWordSegmentation元學習FederatedChineseWordSegmentationwithGlobalCharacterAssociations聯邦學習、深度學習3Bidirectional

LSTM-CRFAttention-based

ModelforChineseWordSegmentation注意機制、雙向長短期記憶+條件隨機場(

Bi-LSTM-CRF)4ResearchonChineseWordSegmentation

Basedon

Conditional

Random

Fields條件隨機場(

CRF)、域自適應、域分割、逆向最大匹配5ExploringWordSegmentationand

MedicalConcept

Recognitionfor

Chinese

MedicalTexts長短期記憶(

BiLSTM)、變換器雙向編碼表示(

BERT)、中文預訓練語言模型ZEN6EnhancingChineseWordSegmentationvia

Pseudo

Labelsfor

Practicability半監督、偽標簽、神經網絡7Hybrid

Feature

Fusion

LearningTowardsChineseChemical

LiteratureWordSegmentation混合特征融合、知識提取

3

領域前沿

57ACL

20212篇2021最新成果

截至2021年10月12日

3

領域前沿

58[5]ZhenKe,LiangShi,SongtaoSun,Er

liMeng,BinWang,XipengQiu:

Pre-training

with

Meta

Learning

for

Chinese

WordSegmentation.NAACL-HLT2021:5514-55232021最新成果——Meta-Seg:

基于元學習的中文分詞預訓練模型I2021最新成果——GCA-FL:

基于全局字符關聯機制聯邦學習的中文分詞中文模

存據能于隔。服離務的器場端景下提升模型在

-

計注

,數據:存于節點,節點間孤立不可見。征分特制碼位編的征am特gr文n下在上其作詞+

3

領域前沿

learning,FL)進行分布式學習,在保證隱私安全與合法的前提下,解決數據孤立的問題,實現共同建模。②使用一種全局字符關聯機制GCA)的方法,增強模型對數據孤立情景的中文分詞任務處理高性能。59[6]YuanheTian,GuiminChen,HanQin,YanSong:FederatedChineseWordSegmentationwithGlobal

CharacterAssociations.

ACL/IJCNLP

(Findings)2021:4306-4313(GlobalCharacterAssociations,

損失反向傳播計算梯度并更新參數。①采用聯邦學習(federated模型和各節點通信過程:②服務器端模型據此前向計算,并傳③節點據此計算損失,最后模型根據①節點——加密數據—→服務器。輸解碼后的分詞標簽給節點。GCA輸出預測各

詞標簽聯邦學習的訓練過程服務器端模型結構

3

領域前沿

I2021最新成果——GCA-FL:

基于全局字符關聯機制聯邦學習的中文分詞1)實驗結果表明了該方法的高效,優于大部分不同的基礎模型,其中包括一些設計

良好的聯邦學習框架。下表是五個基準數據集上的模型性能。2)此外,下圖表現了模型在五個基準數據集上未登錄詞的召回率,通過分析模型在OOV的問題解決表現驗證了聯邦學習和全局字關聯機制的有效性。60實驗結果:

3

領域前沿

I

新的瓶頸與發展現狀?中文分詞新的瓶頸?

現狀與展望

日趨成熟?

基于詞典分詞的機械分詞方法:簡捷,存在領域局限與歧義,局外詞匯識別差。?基于統計分詞的監督學習算法:轉換分詞為序列標注,改進歧義等問題,CRF和

HMM模型成為統計分詞的主要方法。?近年,神經網絡的出現使分詞準確度有了極大提高,但在Bi-LSTM+CRF算法應用于分詞領域后,準確度的提升空間逐步變小。61專有名詞

限制新詞網絡結構

復雜性?速度分詞標準不統一準確度?增加領域詞典外部輔助方法(外加

字典、

預處理……)卷積神經網絡解碼方式技術平臺及應用場景主講人:

4

4.1

技術平臺

pkuseg.

多領域分詞

高分詞準確率

支持用戶自訓練模型

支持詞性標注63

4.1

技術平臺

pkuseg細領域分詞

詞性標注64自訓練模型pku

seg.train(train

file,test

File,save

dir,train_it

er=20,in

it_model=None)

4.1

技術平臺

65 NLPIR

4.1

技術平臺

66 NLPIR

4.1

技術平臺

67I阿里云NLP

4.1

技術平臺

I阿里云NLP68

4.1

技術平臺

I阿里云NLP69

4.2

應用場景

70I常見應用場景714.2

應用場景I

翻譯技術

4.2

應用場景

I

語音助手72

4.3

總結

I

漢語分詞與標注.

提高生產力.

技術成熟

復雜性73

4.3

總結

I

未來展望74Demo展示——基于中文分詞對比分析網絡新聞標題主講人:

5

基于中文分詞對比分析網絡新聞標題

I

數據集、

分詞工具[{"title":"岸田文雄當選自民黨新任總裁

,并將出任第100任日本首相,

中方回應

","cate":

"china","date":"2021-09-29

15:32:12","keywords":

"岸田文雄

","brief":"29日,

日本前外務大臣、

自民黨前政調會長岸田文雄當選自民黨新任總裁。新總裁任期為3年

,至2024年9月。10

月4日

,岸田文雄將在臨時國會上正式出任第100任日本首相

,并組建新內閣。

","url":"/2021/09/29/ARTIbOJTjuLH6XxPtOxCcWGi210929.shtml"},...]央視網(國內、

國際)1500網易新聞(社會

國際)347頭條新聞(熱點)167476/lancopku/pkuseg-python中國在人美國被將國家已例病例新增和不為確診北京美新冠助詞

數詞

地名

介詞

名詞

地名

介詞

副詞

名詞

副詞

量詞

名詞

動詞

連詞

副詞

動詞

動詞

地名

簡稱

名詞179120114103898883727272726563575757575252510.11930.08000.07600.06870.05930.05870.05530.04800.04800.04800.04800.04330.04200.03800.03800.03800.03800.03470.03470.0340的助詞800.231的助詞8080.483中國地名730.210個量詞2390.143美簡稱410.118是動詞2370.142美國地名360.104不副詞2140.128被介詞310.089了助詞1990.119不副詞290.084有動詞1950.116一數詞280.081一數詞1900.114是動詞280.081歲量詞1760.105在介詞250.072被介詞1730.103臺灣地名250.072了語氣詞1690.101了語氣詞240.069后方位詞1580.094回應動詞230.066人名詞1530.091有動詞220.063為何代詞1440.086阿富汗地名210.061你代詞1280.076了助詞210.061他代詞1080.065大陸名詞180.052在介詞1080.065人名詞160.046主席名詞1030.062拜登動詞160.046什么代詞990.059名量詞150.043年量詞980.059臺簡稱150.043毛人名930.05677I

分詞結果統計分析點出關鍵信息:名詞、

動詞、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論