


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
為獲得中文自然地點描繪語句中的地點信息,提出一種不依靠于字典的中文地點分詞方法。第一依據地點語料庫中字串共現的統計規律統計詞頻,而后對地名地點串進行正則表達式預辦理,再對地點串進行全切分辦理。經過互信息和信息熵獲得最優粗分結果,經過置信度對粗分結果進行過濾獲得最優分詞結果。實驗結果表示,該方法在不依靠字典的狀況下能有效實現對地名地點串的拆分,正確率和召回率分別達到了80.03%和89.28%。重點詞:中文分詞,地名地點分詞,中文地點地點互聯網是信息流傳溝通的重要平臺。網絡空間中存在海量的中文地點數據,包含著豐富的空間信息。可是與傳統的地理信息或數據對比,文本中的地理信息是非結構化的,只有在形式化辦理后才能進行剖析和發掘。文本中的空間信息形式包含中文地點分詞、空間關系提取、事件提取等。地名地點分詞作為空間信息形式化最基礎的工作,其正確性將直接影響到后續工作的有效性和正確性。地名地點分詞是中文分詞在地名地點中的應用,它將地名地點串拆分紅若干地理因素[1]。中文分詞算法大概分為3類:鑒于詞庫的分詞算法、鑒于統計的分詞算法、鑒于理解的分詞算法[2]。鑒于詞庫的方法將待剖析的漢字串與一個“充分大的”機器字典中的詞條進行般配,若在字典中找到某個字符串則般配成功。這種方法簡單、分詞效率較高。但漢語語言現象復雜豐富,字典的齊備性、規則的一致性等問題使其難以適應開放的大規模文安分詞辦理。鑒于統計的方法將相鄰字間的信息、詞頻及相應的共現信息等應用于分詞。因為這些信息是經過真切語料獲得的,因此鑒于統計的分詞方法擁有較好的適用性。鑒于理解的方法是試圖經過計算機模擬人對文字的理解過程來進行分詞,但當前尚不可熟,實質應用中沒法直接使用該算法。中文地點分析方面,文件[3]第一創立一個切合地點分級模型的地名庫,并在此基礎上經過地點串的拆分和般配達成地點標準化編碼工作,這種方法的困難在于需要人工保護基礎地點庫。文件[4]在中文地點編碼研究中采納分段、組合、優先規則,對中文地點進行分段般配。這些規則在必定程度上減少了地點因素的般配次數,但因為采納數據庫查問方式,使算法整體般配速率不好。文件[5]應用自然語言辦理中的中文分詞和語義推理原理(HMM模型)對非結構化中文地點進行辦理,該方法弊端是依靠于訓練語料,先期需要進行大批的地點訓練操作。因為我國地點名稱多而凌亂,并且地點名稱不停在更新,人工建立一個標準的涵蓋各級地點的工作量特別大。所以,本文針對地名地點串,提出一種鑒于統計的中文地點分詞方法:第一統計語料庫詞頻,而后對地名地點串進行正則表達式預辦理,再對地點串進行全切分處理,經過互信息和信息熵獲得最優粗分結果,最后經過置信度對粗分結果進行過濾,獲得最優結果。該方法地點辨別率高,對原始地點結構和部分地點元素缺失不敏感,不需要人工構建一個海量地點庫。鑒于統計的中文地點分析方法本文提出了鑒于無字典的中文地點分詞方法。第一對互聯網上爬取的30萬條地點數據組成的語料庫詞頻、相鄰詞語之間的互信息、詞語的信息熵進行統計,而后對地名地點串進行正則表達式預辦理,提拿出“數字+號”這種描繪方式以及一些標點符號;再對剩下的地點串進行全切分辦理,獲得全部的分詞方案,而后經過互信息和信息熵計算選擇弧度花銷最小的分詞方案;最后經過置信度對該分詞方案進行過濾獲得最優結果。1.1統計詞頻詞是最小的能夠獨立活動的存心義的語言成分[6],是相鄰的字與字組成的穩固組合。在語料庫中,相鄰的字同時出現的頻次越高,就越有可能組成一個詞。所以字與字相鄰共現的頻次或概率能夠較好地反應成詞的可信度。本文對互聯網上爬取的30多萬條地點文本進行統計辦理。在沒有地名字典的狀況下,隨意長度的字串都有可能組成一個地理因素。一個最長的地理因素長度為8(如新疆維吾爾自治區),所以將字符串的最大長度設為8,統計語料庫中隨意長度(最大為8)字符串的詞頻。在地名地點串比方“武漢市洪山區珞瑜路312號”中,312在計算機中是3個字符,而在人們認知的地點數據中312是一個整體,所以在預辦理時將連續的數字認定為一個字符。哈希查找方法是效率較高的查問算法,所以將統計好的詞頻采納哈希結構儲存。1.2結構切分詞圖給定一此中文地點字符串S,對S進行全切分辦理,那么就有2l-1種切分方法。此中,l是地點字符串S的長度,S的全切分會合為W={Wi},1≤i≤2l-1,Wi代表一種切分方法。把切分的字符串看作節點,把字符串的切分地點看作弧段,就能夠將地點語句的全切分會合表示為圖,稱為地點語句的切分詞圖。1.3設定弧段花銷中文信息辦理中,統計方法主要應用于自動抽詞或未登錄詞辨別,比方串頻、互信息、信息熵、查驗值、有關度等統計量可用于定量判斷候選詞的界限[7],此中最常用的是互信息和信息熵。互信息胸懷兩個對象之間的互相性。互信息往常用來權衡兩個信號的互相依靠程度,并可用來權衡詞語的內部聯合密切程度。互信息越大,說明詞語的內部聯合密切度越大,它們組成詞語的可能性越大。互信息越小,組成詞語的可能性越小。其計算公式為:MI(x,y)=log2p(x,y)p(x)p(y)(1)此中:p(xy)是字符串xy在語料庫中毗鄰出現的概率,p(x)是x在語料庫出現的概率;p(y)是y在語料庫中出現的概率。當MI(x,y)大于必定閾值時,表示字符串xy是一個詞;當MI(x,y)小于必定閾值時,字符串xy不會聯合成詞。信息熵是用來權衡一個隨機變量出現的希望值,一個變量的信息熵越大,它出現的各樣狀況就越多,不確立性就越大,正確預計其值的可能性也越小。字符串左右搭配越豐富,選擇越多。在自然語言辦理中,分別利用左信息熵和右信息熵來判斷字符串的界限。一個字符串的左信息熵指該字符串與它相鄰的左毗鄰字串會合的信息熵之和,用來表示該字符串的左毗鄰字的不確立性。左信息熵越大,說明該字符串的左毗鄰字越不確立,該字符串成為某一個詞語左界限的可能性越大。相反,左信息熵越小,該字符串的左毗鄰字越確立,它成為某一個詞語左界限的可能性就越小。同理,右信息熵能夠確立詞語的右界限。上式中,w表示該字符串,aw表示該字符串和左毗鄰字的組合形式,wb表示該字符串和右毗鄰字的組合形式。本文依據互信息和信息熵原理將其轉變為切分詞圖中弧段的開支。一條弧段相鄰字符串之間的互信息越大,越不合適作為詞的界限,弧段開支越大;其連結左右字串的信息熵越大,越合適作為詞的界限,該弧段開支越小。所以,能夠定義以下弧段花銷計算公式:c(A,B)=MI(a,b)ER(A)EL(B)(4)A、B表示弧段連結的左右字串,
a、b表示左字串最右邊的字和右字串最左邊的字。1.4置信度過濾在地點語句中,因為地理因素存在層級關系,上述計算方式簡單產生數據稀少問題,不能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 今年福建省高三省質檢語文作文
- 住院患者護理健康宣教
- 氧氣吸入療法操作指南
- 二年級數學100以內口算1000題
- 小學一年級數學20以內加減法口算訓練300題
- 貴州省遵義市紅花崗區2025年中考語文一模試卷(含答案)
- 武漢鐵路職業技術學院《大數據與生物信息學(含操作)》2023-2024學年第二學期期末試卷
- 奎屯市2025屆四年級數學第二學期期末考試試題含解析
- 興安市重點中學2025年高三第一期中調研測試化學試題含解析
- 四川省遂寧城區五校聯考2025屆初三第一次診斷性測試數學試題理試題含解析
- 圖書館建筑設計規范講解課件
- 四川省教師資格認定體檢表
- 婚喪嫁娶事宜備案表
- 培養中班幼兒正確使用筷子的研究的結題報告
- 湘教版七年級上冊等高線地形圖
- 車間改造合同范文
- 風生水起博主的投資周記
- 賽艇賽事活動推廣方案
- (通用)中考數學總復習 第三章 函數 第4節 反比例函數課件 新人教
- 屋面開洞施工方案,好(全面完整版)
- 涂層厚度檢測記錄(共10頁)
評論
0/150
提交評論