


版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、自動文摘中的冗余句消除方法摘 要 :針對自動文摘的信息冗余問題,提出了一種冗 余語句消除的方法。利用同義詞詞林來定義詞語語義距 離計算公式,根據詞語的相似度,建立主題詞和主題句之間 的一一對應關系,借用編碼理論中海明距離的理論,得到了 文摘中主題句的相似度,設置閾值過濾掉相似度較高的主題 句,從而實現了主題句的約簡。實驗結果證明,該方法提高 了文摘的精度。?丶 ?詞:自動文摘;信息冗余;語義距離;海明距離?才型擠擲嗪?:TP391.1文獻標志碼:AAbstract: To solve the problem of information redundancy in automatic abst
2、raction, this paper proposed a method for eliminating redundant sentences in automatic abstraction. Firstly, similarity of words was defined based on ?TongYiCi CiLin.? And then, correspondence between topic words and subject sentence was established based on the similarity of words, the similarity o
3、f subject sentence was got based on the theory of Hamming distance in encoding theory, and high similarity sentences were reduced by threshold. The experimental results show that the method greatly improves the accuracy of abstraction.Key words: automatic abstraction; information redundancy; semanti
4、c distance; Hamming distance?0 引言 ? 自動文摘應該以盡可能少的文字,最大限度地體現原文 所表達的意思。通過自動文摘系統生成的主題句,并不能完 全作為文摘提交給用戶。因為經過系統初步篩選出的主題句, 往往具有較多的冗余信息。 ?目前,對自動文摘中信息冗余的研究,主要集中在基于 詞語共現的信息冗余 ? 1-3?,有些文獻雖然提到了語 義信息冗余 ? 4?,但并沒有給出具體的解決方案。本 文針對自動文摘中主題句的冗余現象,比較詳盡地描述了自 動文摘中消除語義冗余的方法。 ?1 基于同義詞詞林的詞語相似度計算 ? 主題句的相似度主要取決于句中詞語語義的相似度。目 前基
5、于詞語語義相似度的計算,主要采用的是劉群等 人?5?提到的方法,該文中詞語語義相似性計算公式是 基于知網 ?6?的,并將實體概念語義分為 4 個部 分,分別計算 4 個部分的相似度,實體的整體概念相似度計算公式為: ?Sim(S?1,S?2)迅 4i=1 B ?n ij=1Sim?j(S?1,S?2)? 才?可以看出在該公式中,有 4 個參數需要設置,人為因素 較多,穩定性較差,而且計算量偏大。考慮到穩定性和計算 量的問題,本文采用了同義詞詞林 來計算詞語的相似度, 排除了人為選擇參數,而且計算量偏小。 同義詞詞林是 梅家駒等人于 1983 年編纂而成,不僅包括了一個詞語的同 義詞,也包含了一
6、定數量的同類詞,即廣義的相關詞 ? 7?。從同義詞詞林的構造結構來看,很容易想到用 樹結構來表示,如圖 1 示。 ?第一層是虛擬的根節點,第二層有 12 個節點,表示的 是大類別, 分別有“人”、“物”、“時間與空間” 、“抽象事物” 、 “特征”、“動作”、“心理活動”、“活動”、“現象與狀態” 、“關 聯”、“助語”、“敬語” 12個類別,第三層表示每一大類下面 的中類別,共有 94 個中類。第四層節點表示的是中類別下 的小類別,共有1?B428個小類別。第五層共有 3?B925個節 點表示小類別下的詞群。葉子節點表示的是標題詞。為了便 于后文的討論,依據語義樹形圖給出如下幾個定義: ?定
7、義1 ?b ?對高度(Height(P?i),?e傅氖墻詰愕礁?節點 的路徑長度。比如:?Height( “動物”)=3。?才?定義2 ?密度(Density(P?i), ? e傅氖墻詰愕男值芙詰閌 ?與同一層中所有節點數的比值,??文中用Density(P?i)表示, 計算公式如下:?才??Density(P?i)=sum(brother?i)sum(layer?i)? ?定義 3 重合度。兩個節點第一次到達同一個父節點所經過的最長路徑長度,文中用??Length(P?i,P?j)?n硎盡1熱紓 邯?Length?( “柳樹”,“猴子”)=4。?從圖 1 的語義樹形圖中,可以得出如下結論:
8、?1) 對于重合度相同的節點對,處于語義樹較高層的,其語義距離較大。比如說: “動物”和“植物” 、“柳樹”和“銀 杏”,這兩對詞語間的重合長度都是1,但前一對詞 (“動物”、“植物” )絕對高度為 2,后一對詞 (“柳樹”,“銀杏” )絕對 高度為 5。 ?2) 對于絕對高度相同的節點對,如果位于語義樹中高密度區域,其語義距離應大于低密度區域。這是因為同義詞 詞林在分類上粗疏不均所致,有些類別分得比較細,有些 類別相對于分得較粗。 ?Lin 等人 ?8?認為任何兩個事物的相似度取決于它 們的共性 (commonality) 和個性 (difference) ,并從信息理論的 角度給出任意兩個
9、事物相似度的通用公式: ?Sim(x,y)=p(common(x,y)p(description(x,y)? H ?其中:common(x,y)描述x,y共性所需要的信息量的大小,description(x,y)描述出x,y所需信息量大小。?才?在語義樹形圖中,節點共性主要體現在兩個節點的父節 點的高度,個性主要體現在同一層次節點所在分支的密度和 節點之間重合度。綜合考慮節點的共性信息和個性信息,本 文給出如下的詞語語義距離計算公式: ?Dist(W?i,W?j)=?Length(W?i,W?j)+Density(W?i)+Density(W?j)Length(W?i,W?j)+Height(
10、pnod e)? H ?其中?Height(pnode)? n 硎驚?W?i,W?j?q 餐?父節點的 絕對高度。 ?2 主題句消冗的關鍵技術 ?為了消除掉自動文摘中的冗余的主題句,需要計算所有 主題句之間的相似度,并對相似度過大的主題句進行刪減。 其中需要涉及到的關鍵技術包含詞語相似度的計算、語義距 離表的構建、主題句相似度計算等幾個方面,下面一一進行 介紹。 ?2.1 語義距離表的構建 ?依據詞語之間的語義相似度,本文構造了一個詞義距離 表,結構如表 1 所示。 ?表1由詞??W?1,W?2,W?i,W?n?q鉤殺淼畝?維的坐標元素。??w?i?n硎疚牡稻?過分詞后所得到的所有 詞條,其中
11、不包括停止詞。?n淼牡?i行j列元素Dist(w?i,w?j) 表示w?i與w?j的詞義距離。OW Dist(w?i,w?j) < 1。如果 Dist(w?i,w?j)=1 ,說明這兩個詞語意完全相反;如果 Dist(w?i,w?j)=O, ?說明這兩個詞語意完全一致,詞語和其 本身的語義距離也為 O。 ?文檔中經過分詞后,往往形成成千上萬個詞語。如 果直接進行字符串的匹配非常耗時間。為了方便、快捷地在 語義詞典查找兩個詞的語義距離,二維數組的下標可以通過 詞語首字的 Hash 碼來計算: ?i=(c?1 -176)X 94+(c?2-161)?其中c?1和c?2是詞首字的區碼和位碼,對
12、于首字相同的詞語,則按順序存放。?才?2.2 句子相似度的計算 ? 海明距離是信息論中一個基本概念,能夠反映兩碼字之 間的差異,進而提供碼字之間的相似程度的客觀依據 ? 9?。海明碼距離計算公式如下。?令?x=x?1,x?2,x?i,x?n; y=y?1,y?2,,y?i,y?n,x?i 0,1: ,y?i: 0,1:,它們之間的海明距 離(即相異度 )可以表示為: ?才?Dist(x,y)=?(?E ni=1x?i?y?i?)/?n?H ?其中?表示異或加運算。?才?匕偕櫨幸歡遠月胱 ?X=0010 1001,丫=1001 0011它們 的距離計算過程如下: ?X 異或 丫 =1011 10
13、10?X?Y=5?Dist(x?1?,y?1?)=0.625才?對于文摘中的主題句,可以將原始文檔中的主題詞作為 碼字,然后由上述的方法獲得主題詞與主題句中,每個詞的 語義距離。 ?設文檔主題詞系列TS?1, TS?2 TS?3,TS?i, TS?n,文摘中待比較的句子 A,經過分詞并去掉停止詞后 詞序列為A?1,A?2,A?3; A?i,,A?m,文摘中待比 較的句子B,經過分詞并去掉停止詞后詞序列為 B?1;B?2;B?3;,B?i,,B?k。由于海明碼的取值只 能是1或者0;這里設置一個閾值B (p >0)。如 果?min?(Dist(TS?i;A?j) < p,那么句子 A
14、 第 i 個碼值為 1; 反之第 i 個碼值取為 0。 ?才?下面以一個具體例子,來做進一步的說明。 ?設文檔中的主題詞為 TS:?TS=水果,維生素,豐富,營養,健康,抵抗力?待比較的句子: ?S?1= “蘋果富含大量有益健康的維他命”?S?2= “梨子含有很多提高抵抗力的維生素”?S?3= “動物的脂肪里包含有大量的脂肪酸”?經過分詞,并去掉無意義的停止詞后: ?W?S?1?=蘋果,富有,大量,有益健康,維他 命:?W?S?2?=梨子,含有,提高,抵抗力,維生素?W?S?3?=動物,脂肪,包含,大量,脂肪酸?主題詞與S?1、S?2中各詞語語義距離分別如表24所示。?才?? B捎錚C骶嗬氳募
15、撲悖?要求碼字的各位取值要么為0,要么為1。所以,這里設置閾值B =0.1,語義距離大于0.1的 碼值取為0 ;反之取為1。因此S?1、S?2、S?3的碼值分 別為: ?S?1=111010?S?2=111001?S?3=010000?它們之間的語義距離經過計算分別為: ?Dist(S?1,S?2)= S?1?S?2=0.33?Dist(S?1,S?3)= S?1?S?3=0.5?Dist(S?2,S?3)= S?2?S?3=0.5?經過計算發現發現 S?1和S?2語義距離要小于 S?1和S?3,計算結果比較符合直觀語義。?才?2.3 消除冗余主題句的過程描述 ?在上文論述的基礎上,文摘中主題
16、句冗余信息的消除步 驟如下: ?1 )把文中的所有主題詞作為碼字。?2)對文摘中所有的主題句進行分詞, 并過濾掉停止詞。3)依據詞義距離表,得到主題句中每個詞條與碼字的語意距離值,形成主題句的碼字系列。??w=x?1,x?2,,x?i,,x?n。?才?4)根據所設置的閾值,來決定碼值取1 還是取 0。 ?5)根據公式計算相似度,得到主題句之間的相語義距離?Dist(S?i,S?j)計算公式為?才??Dist(x,y)=X ni=1x?i?y?i?才?6)設置一個閾值,將相似度小于閾值的主題句進行約減。 ?7)按照主題句在原文中的順序進行輸出,最終產生較為理想的文摘。 ?3 實驗及評價 ?對自動
17、文摘冗余信息的評價,目前還沒有一種很好的方 法。文摘中冗余信息消除的主要工作集中在對句子的相似度 的比較上,為了比較全面地評估本文算法,本文中提出冗余 率指標來衡量文摘的精度,它的公式定義如下: ?冗余率=文摘中相似句子的總數文摘中句子的總數X100%(11)?才?本文采用通過多個人工專家分別打分,這里假設人工專 家冗余率為 0%。本文采集了新浪網上 2010 年的 12?B000 多 個主題頁面,其中包括體育、財經、環保、教育、房產、汽 車七個主題,采用機械文摘的方法,形成原始文摘。分別以 本文方法與傳統的詞語共現的方法進行比較。比較結果如表 5 所示。 ?從表 5 中的實驗數據可以看出,本
18、文方法在很大程度上 降低了文摘的冗余率,從而提高了文摘的精度,因而本文中 的方法具備有一定的實用性。 ?4 結語 ?如何以最簡練的句子的從文檔中提取“主題思想” ,已 經成為了自動文摘需要迫切解決的一個關鍵技術。本文利用 主題詞作為碼字,通過構造詞的語義距離來計算主題句之間 的語義距離,從而得出主題句之間相似度;過濾掉相似度較 高的主題句,得到較為精煉的文摘。但是,本文在計算詞義 距離時,并沒有考慮到同義詞詞林中的未登錄詞,這將 在一定程度上影響詞語相似度計算的準確性,在下一步的工作中,將對未登錄詞的語義相似性做進一步的研究。?廳慰嘉南?:?1 張奇,黃萱菁 ,吳立德 .一種新的句子相似度度量及其 在文本自動摘要中的應用J.中文信息學報,2005,19(2): 93-96.?2 張其文,李明 .文本主題的自動提取方法研究與實 現 J .計算機工程與設計 ,2006,27(15):2743-2766.?3 傅間蓮 , 陳群秀 . 基于規則和統計的中文自動文摘 系統J.中文信息學報,2006, 20(5): 10-16.?4 基于文本聚類的自動文摘系統的研究與實現J.計算機工程 , 2006, 32(4): 30
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合作產品加工合同范本
- 2025成都租房合同樣本
- 模具設計師資格考試關鍵試題及答案
- 農業植保員的行業規范與職業道德試題及答案
- 2024年體育經紀人考試動態變化分析試題及答案
- 2024年種子繁育員的職業風險試題及答案
- 幼兒園消防教育班會
- 2024年籃球裁判員職業技能考題試題及答案
- 模具設計師資格認證考試誤區與正確理解試題及答案
- 結合實踐案例復習2025年注冊會計師考試內容試題及答案
- 員工食堂就餐協議書
- 創傷緊急救護知識課件
- 醫院單位單位內部控制自我評價報告
- 湖北省第十屆湖北省高三(4月)調研模擬考試數學試題及答案
- 定額〔2025〕20號 定額管理總站關于發布2024年電力建設工程裝置性材料綜合信息價的通知
- 消除“艾梅乙”醫療歧視-從我做起
- 管理學原理 王光健版
- 健康體檢重要異常結果管理專家共識(表格版)
- GB/T 25149-2010工業設備化學清洗中碳鋼鈍化膜質量的測試方法紅點法
- if四種條件句(課堂PPT)
- 造價公司提成發放管理辦法
評論
0/150
提交評論