電子商務(wù)搜索引擎論文:電子商務(wù)搜索引擎中文分詞算法分析_第1頁
電子商務(wù)搜索引擎論文:電子商務(wù)搜索引擎中文分詞算法分析_第2頁
電子商務(wù)搜索引擎論文:電子商務(wù)搜索引擎中文分詞算法分析_第3頁
電子商務(wù)搜索引擎論文:電子商務(wù)搜索引擎中文分詞算法分析_第4頁
電子商務(wù)搜索引擎論文:電子商務(wù)搜索引擎中文分詞算法分析_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 電子商務(wù)搜索引擎論文:電子商務(wù)搜索引擎中文分詞算法分析摘要:本文提出了電子商務(wù)行業(yè)搜索引擎的概念,通過對(duì)通用搜索引擎技術(shù)進(jìn)行分析,結(jié)合電子商務(wù)行業(yè)對(duì)搜索引擎的需求提出需要改進(jìn)的部分,并設(shè)計(jì)出一個(gè)電子商務(wù)行業(yè)搜索引擎整體結(jié)構(gòu);此外,討論了幾種搜索引擎的中文分詞算法,結(jié)合電子商務(wù)行業(yè)的特點(diǎn)對(duì)分詞算法進(jìn)行了改進(jìn),提出一種適用于電子商務(wù)行業(yè)搜索應(yīng)用的全新分詞系統(tǒng)。最后,結(jié)合整體結(jié)構(gòu)與分詞系統(tǒng)并利用已有的網(wǎng)絡(luò)開源項(xiàng)目,實(shí)現(xiàn)了一個(gè)電子商務(wù)行業(yè)搜索引擎。關(guān)鍵詞:搜索引擎;中文分詞;電子商務(wù)0引言隨著互聯(lián)網(wǎng)的迅速發(fā)展,電子商務(wù)讓消費(fèi)方式變得更為快捷,更多的人涌向網(wǎng)上商店,網(wǎng)絡(luò)市場(chǎng)前景巨大,擁有更為廣闊的發(fā)展

2、空間。面對(duì)海量的網(wǎng)絡(luò)信息資源,人們可以通過傳統(tǒng)的搜索引擎,如google、百度、中搜等,方便快捷地獲取所需商業(yè)信息。盡管通用搜索引擎的功能非常強(qiáng)大,但是對(duì)于檢索某一特定行業(yè)的信息時(shí),通用型搜索引擎對(duì)信息的挖掘深度不夠。查詢一個(gè)行業(yè)的網(wǎng)絡(luò)信息如果沒有優(yōu)秀的專業(yè)檢索工具,沒有體現(xiàn)行業(yè)獨(dú)特的詞匯和用語以及相應(yīng)的標(biāo)引和檢索語言,檢索結(jié)果就不可能理想。因此,建立面向特定行業(yè)領(lǐng)域的專業(yè)性搜索引擎已經(jīng)成為搜索引擎新的發(fā)展趨勢(shì)。本文就是在深入研究通用搜索引擎的基礎(chǔ)上,設(shè)計(jì)開發(fā)出適合電子商務(wù)行業(yè)的搜索引擎。1技術(shù)挑戰(zhàn)中文自動(dòng)分詞是中文信息處理的一項(xiàng)重要的基礎(chǔ)性工作,以中文作為信息的載體的語言文字信息處理已經(jīng)成為

3、我國(guó)信息化建設(shè)的“瓶頸”。許多中文信息處理項(xiàng)目中都涉及到分詞問題,如機(jī)器翻譯、自動(dòng)文摘、自動(dòng)分類、中文文獻(xiàn)庫全文檢索、搜索引擎等。由于中文文本是按句連寫的,詞之間沒有空格,因而在中文文本處理中,首先遇到的問題是分詞的問題。詞的正確切分是進(jìn)行中文文本處理的必要條件。在電子商務(wù)需求的強(qiáng)大動(dòng)力推動(dòng)下,自動(dòng)分詞已經(jīng)成為中文信息處理的一個(gè)前沿課題。中文分詞技術(shù)的優(yōu)劣直接關(guān)系到搜索引擎的效率,建立電子商務(wù)行業(yè)搜索引擎需要解決好其中的中文分詞模塊,選擇適合行業(yè)特點(diǎn)的中文分詞技術(shù)來構(gòu)建中文分詞模塊是一項(xiàng)極其重要的基礎(chǔ)性工作。如何面向大規(guī)模開發(fā)應(yīng)用是中文分詞研究亟待解決的主要問題。目前看來,在處理大規(guī)模開發(fā)文本

4、時(shí),中文分詞系統(tǒng)還將面臨以下困難:1)如何識(shí)別未登錄詞。由于不存在絕對(duì)完備的詞典,盡管一般的詞典都能覆蓋大多數(shù)的詞語,但是有相當(dāng)一部份的詞語不可能窮盡地收錄到系統(tǒng)詞典中,這些詞語稱為未登錄詞或新詞;2)如何廉價(jià)高效地獲取分詞規(guī)則是中文分詞系統(tǒng)設(shè)計(jì)中不可忽視的問題之一;3)詞語邊界歧義。對(duì)于一個(gè)指定的中文句子或漢字串,有多種詞語邊界劃分形式。2分詞系統(tǒng)的原理及設(shè)計(jì)迫于中文信息處理的重要性,來自語言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的專家學(xué)者們,在漢語自動(dòng)分詞與自動(dòng)標(biāo)引的研究與實(shí)踐上進(jìn)行了大量的研究,找到了許多解決漢語分詞的方法。現(xiàn)有的分詞算法可分為三大類1:1)基于字符串匹配的分詞方法;2)基于理解

5、的分詞方法;3)基于統(tǒng)計(jì)的分詞方法。目前國(guó)內(nèi)一些大學(xué)及科研組織已經(jīng)開發(fā)的每一個(gè)分詞系統(tǒng)都有各自的分詞詞表,詞表之間的差別也是較大的。對(duì)于分詞的歧義處理,已經(jīng)進(jìn)行了比較深入的研究,人們通過統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,使得歧義字段的正確切分達(dá)到了較高的水平,同時(shí)也認(rèn)識(shí)到歧義的解決需要細(xì)致的、個(gè)性化的知識(shí)積累;另一方面,無論詞表規(guī)模多么大,未登錄詞語的存在是必然的。因此,與分詞的歧義處理相比較,未登錄詞語的處理成為影響分詞正確率的最主要、最直接的因素,這也是當(dāng)前的一個(gè)研究熱點(diǎn)。53的任務(wù)是找出輸入字串中所有在詞典中出現(xiàn)的詞并把每個(gè)詞添加到切分詞圖中。接下來是時(shí)間數(shù)詞識(shí)別,它的輸入是原子序列,利用自動(dòng)機(jī)的

6、方法找出輸入字串中出現(xiàn)的數(shù)詞和時(shí)間詞并添加到切分詞圖中。然后根據(jù)以上幾個(gè)階段建立的切分詞圖生成n條最優(yōu)的分詞序列,以此作為接下來的人名識(shí)別和地名識(shí)別的輸入。人名識(shí)別和地名識(shí)別對(duì)每一條分詞序列進(jìn)行角色標(biāo)注,從角色標(biāo)注結(jié)果序列中找出所有可能的人名和地名并添加到切分詞圖中。至此,整個(gè)切分詞圖建立完畢,根據(jù)這個(gè)切分詞圖,尋找出一條最優(yōu)的路徑作為最后的分詞結(jié)果序列。最后,將分詞結(jié)果作為最后的分詞系統(tǒng)的輸出結(jié)果4。下面給出zs算法的偽代碼:zsegment(a1.n)1 word lattice segment(a1.n)/調(diào)用詞網(wǎng)格分詞2 add all every atom to segmentgra

7、ph1/添加原子到切分詞圖3 complete segment(atom1.atomm)/調(diào)用全切分函數(shù)4 for i=1 to m5 if find(dictionary,atomi)=true6 then add atomi into segmentgraph27/時(shí)間數(shù)詞識(shí)別8 automata(atom1.atomm)9 find time and number words in atomi10 add them into segmentgraph311/綜合12 compare segmentgraphi(i=1,2,3)13 return n-best paths14/人名地名識(shí)別

8、15 namerecognition(n-best paths)16 return all names17 add all names into segmentgraph18 find the best paths among segmentgraph19 output(best path)下文僅選擇前面兩種方法介紹,在對(duì)中文分詞算法進(jìn)行較深入研究后,我們將設(shè)計(jì)出適合電子商務(wù)行業(yè)搜索引擎的中文分詞系統(tǒng)。3.1基于字符串匹配的分詞方法這種方法又分為正向最大匹配(fmm),逆向最大匹配(bmm),以及兩種方式的結(jié)合等。這種方法實(shí)現(xiàn)簡(jiǎn)單,但同時(shí)性能也受到限制,而且不具備對(duì)未登錄詞的識(shí)別功能。這種方法

9、一般都結(jié)合一些規(guī)則或者統(tǒng)計(jì)信息來修正前面的分詞結(jié)果或進(jìn)行未登錄詞的識(shí)別。在對(duì)分詞性能要求不高的情況下,這種方法是一個(gè)不錯(cuò)的選擇。1)正向最大匹配分詞正向最大匹配法(forward maximum matching method,fmm)的基本思想是字符串拼配算法的延伸,根據(jù)梁南元的統(tǒng)計(jì),fmm方法的錯(cuò)誤切分率為1/1692。用這種方法進(jìn)行分詞的時(shí)候,不會(huì)對(duì)歧義處理帶來任何好處。因此,目前fmm方法一般不單獨(dú)使用,而是與其他方法配合使用。2)反向最大匹配分詞與fmm對(duì)應(yīng)的是反向最大匹配分詞(backward maximummatching method,bmm)。它的分詞過程與fmm方法相同,不

10、過是從句子(或文章)的末尾開始處理,每次匹配不成功時(shí)去掉最前面的一個(gè)漢字。bmm精度要比fmm稍高,錯(cuò)誤切分率為1/245。在bmm中仍然不可以避免歧義的情況發(fā)生,于是將正向最大匹配分詞和反向匹配分詞結(jié)合起來,可以識(shí)別分詞中的交叉歧義,但是組合歧義卻不可切分出來。3.2基于統(tǒng)計(jì)的分詞方法基于字符串匹配的方法是分詞的經(jīng)典方法,至今仍是分詞的主流方法。它實(shí)現(xiàn)相對(duì)簡(jiǎn)單,分詞效果好,不需要復(fù)雜的訓(xùn)練過程,而且運(yùn)行速度也比較快,比較容易實(shí)用化,但需要有一個(gè)帶有統(tǒng)計(jì)信息的詞典,本身不具備未登錄詞識(shí)別的功能,未登錄詞的識(shí)別一般需要用一些其它的機(jī)器學(xué)習(xí)算法來實(shí)現(xiàn),如基于隱馬模型的角色標(biāo)注方法。所以,提出了基于

11、統(tǒng)計(jì)的分詞方法,如詞網(wǎng)格(word lattice)分詞法,它具有比較高的分詞正確率和較好的可擴(kuò)充性。可以加入相應(yīng)的統(tǒng)計(jì)信息來擴(kuò)展不同的功能3。3.3 zs中文分詞系統(tǒng)的設(shè)計(jì)分詞系統(tǒng)主要包括如下幾個(gè)模塊:原子切分,全切分,時(shí)間數(shù)詞識(shí)別,生成n條最優(yōu)路徑,人名識(shí)別,地名識(shí)別,生成分詞結(jié)果序列。其他的模塊共同維護(hù)著一個(gè)最重要的數(shù)據(jù)結(jié)構(gòu)切分詞圖。切分流程圖如圖1所示:給定一個(gè)輸入的字串,首先把它切分成一個(gè)原子的序列,然后把這個(gè)原子序列中的每一個(gè)原子都作為詞添加到切分詞圖中,同時(shí)把這個(gè)原子序列作為全切分模塊的輸入。全切分模塊圖1 zs中文分詞系統(tǒng)切分流程圖3.4 zs算法的優(yōu)點(diǎn)和不足該算法首先采用了詞

12、網(wǎng)格分詞方法對(duì)輸入字串進(jìn)行切分,這樣可以在一定程度上避免基于字符串匹配得分詞方法的分詞準(zhǔn)確率低的弊端。zsegment分詞算法使用層進(jìn)式最優(yōu)路徑算法,通過上述步驟并根據(jù)分詞詞典對(duì)字串進(jìn)行全面準(zhǔn)確的切分,最后的輸出基本上能使搜索引擎達(dá)到對(duì)信息的掌握。針對(duì)電子商務(wù)行業(yè)的特性,對(duì)分詞用詞典進(jìn)行了專門的設(shè)計(jì),對(duì)詞條作了專業(yè)的擴(kuò)充。相比較一般的中文分詞算法,本算法目標(biāo)明確集中于一個(gè)特定行業(yè),并在目前比較流行的方法的基礎(chǔ)上作出改進(jìn)和整合,使zsegment算法的效率有所提高,把人名識(shí)別和數(shù)詞識(shí)別與切分詞部分進(jìn)行分離,有助于提高準(zhǔn)確率,然后通過整合分析,能準(zhǔn)確反映一些與電子商務(wù)行業(yè)關(guān)系緊密的信息,適合電子商

13、務(wù)行業(yè)搜索引擎使用。但還有一些尚未處理的問題,諸如未登錄詞的識(shí)別、歧義識(shí)別等,需要以后的研究進(jìn)一步解決。分詞詞典中除了收錄日常用詞外,還收錄了一些電子商務(wù)行業(yè)專用詞匯,并提供判斷有關(guān)詞匯是否與本行業(yè)相關(guān)的功能,用于搜索結(jié)果中網(wǎng)頁的相關(guān)度排序。由于能力有限,分詞詞典的容量離真正的應(yīng)用還有很大的差距。4電子商務(wù)行業(yè)搜索引擎的實(shí)現(xiàn)nutch搜索引擎是一個(gè)用java語言實(shí)現(xiàn)的開源搜索引擎,它提供了運(yùn)行搜索引擎所需的全部工具。nutch可以與當(dāng)前流行的通用搜索引擎相媲美。它有極好的透明度5,所以本文選取nutch作為研究電子商務(wù)行業(yè)搜索的底層平臺(tái)。4.1整體結(jié)構(gòu)在構(gòu)建搜索引擎時(shí)我們將采用nutch作為電

14、子商務(wù)行業(yè)搜索引擎的主框架,基本流程與上文所建立的結(jié)構(gòu)流程圖基本類似,在搭建搜索引擎時(shí)我們只需修改nutch的源碼就會(huì)得到電子商務(wù)行業(yè)搜索引擎的。4.2分詞模塊本文更為關(guān)心的是中文搜索引擎,由content向indexers這一步驟之間添加入中文分詞模塊以適合中文搜索引擎的需求。5結(jié)論本文在借鑒傳統(tǒng)搜索引擎的相關(guān)技術(shù)并結(jié)合電子商務(wù)自身的特點(diǎn)基礎(chǔ)上,構(gòu)建出了一個(gè)電子商務(wù)行業(yè)搜索引擎的原型系統(tǒng),并對(duì)其中涉及到的若干關(guān)鍵性問題進(jìn)行了研究和探討,并提出了解決方案,可以應(yīng)用于需要對(duì)網(wǎng)絡(luò)信息進(jìn)行深層次加工、處理的相關(guān)應(yīng)用中。本系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)也可以加以改進(jìn),如加入文本分類模塊、關(guān)鍵字識(shí)別模塊,進(jìn)而用來開發(fā)情報(bào)采集系統(tǒng),幫助企業(yè)及時(shí)掌握市場(chǎng)動(dòng)態(tài),隨時(shí)了解競(jìng)爭(zhēng)對(duì)手信息,準(zhǔn)確把握行業(yè)發(fā)展趨勢(shì)和國(guó)家最新政策,從而在市場(chǎng)競(jìng)爭(zhēng)中獲勝。當(dāng)然,本搜索引擎還是很初步的,在獲取信息的全面性和準(zhǔn)確性等方面還可以改進(jìn),另外,應(yīng)能在人工智能和數(shù)據(jù)挖掘領(lǐng)域深入研究,使該搜索引擎的搜索性能更優(yōu)。參考文獻(xiàn):1馮書曉,徐新,楊春梅.國(guó)內(nèi)中文分詞技術(shù)研究新進(jìn)展j.情報(bào)雜志,2002,(11):29-30.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論