第三章_信息檢索評(píng)價(jià)_第1頁
第三章_信息檢索評(píng)價(jià)_第2頁
第三章_信息檢索評(píng)價(jià)_第3頁
第三章_信息檢索評(píng)價(jià)_第4頁
第三章_信息檢索評(píng)價(jià)_第5頁
已閱讀5頁,還剩76頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章:信息檢索系統(tǒng)的評(píng)價(jià)任飛亮東北大學(xué)自然語言處理實(shí)驗(yàn)室2010 內(nèi)容提要n引言n性能評(píng)價(jià)指標(biāo)n基本評(píng)價(jià)指標(biāo)n單值評(píng)價(jià)指標(biāo)n特殊的評(píng)價(jià)方法n其他評(píng)價(jià)方法n國(guó)外信息檢索評(píng)測(cè)n信息檢索評(píng)價(jià)的研究?jī)?nèi)容提要n引言引言n性能評(píng)價(jià)指標(biāo)n基本評(píng)價(jià)指標(biāo)n單值評(píng)價(jià)指標(biāo)n特殊的評(píng)價(jià)方法n其他評(píng)價(jià)方法n國(guó)外信息檢索評(píng)測(cè)n信息檢索評(píng)價(jià)的研究評(píng)價(jià)n評(píng)價(jià)一般是指評(píng)估某個(gè)系統(tǒng)的性能、某種產(chǎn)品的質(zhì)量、某項(xiàng)技術(shù)的價(jià)值,或者是某項(xiàng)政策的效果等等n信息檢索評(píng)價(jià)則是指對(duì)信息檢索系統(tǒng)的性能(主要是其滿足用戶信息需求的能力)進(jìn)行評(píng)估的活動(dòng)n從信息檢索系統(tǒng)誕生以來,對(duì)檢索系統(tǒng)的評(píng)價(jià)就一直是推動(dòng)其研究、開發(fā)與應(yīng)推動(dòng)其研究、開發(fā)與應(yīng)用用的一

2、種主要力量信息檢索的評(píng)價(jià)n針對(duì)一個(gè)檢索系統(tǒng),可以從功能和性能兩個(gè)方面對(duì)其進(jìn)行分析評(píng)價(jià)n功能評(píng)價(jià)n可通過測(cè)試系統(tǒng)來判定是否支持某項(xiàng)功能n因此相對(duì)來說較容易n性能評(píng)價(jià)n時(shí)間與空間性能n相關(guān)度排序性能用戶真正關(guān)心的性能評(píng)價(jià)信息檢索系統(tǒng)的困難n相關(guān)性不是二值評(píng)價(jià),而是一個(gè)連續(xù)的量n即使進(jìn)行二值評(píng)價(jià),很多時(shí)候也很難n從人的立場(chǎng)上看,相關(guān)性具有如下特點(diǎn):n主觀的,依賴于特定用戶的判斷n情景相關(guān)的,依賴于用戶的需求n認(rèn)知的,依賴于人的認(rèn)知和行為能力n時(shí)變的,隨著時(shí)間而變化準(zhǔn)備條件:n在評(píng)價(jià)和比較檢索系統(tǒng)的檢索性能時(shí),需要以下條件:n一個(gè)文檔集合C。系統(tǒng)將從該集合中按照查詢要求檢出相關(guān)文檔n一組用戶查詢要求q

3、1, q2, , qn。每個(gè)查詢要求qi描述了用戶的信息需求n對(duì)應(yīng)每個(gè)用戶查詢要求的標(biāo)準(zhǔn)相關(guān)文檔集R1, R2, Rn。該集合可由人工方式構(gòu)造n一組評(píng)價(jià)指標(biāo)。n這些指標(biāo)反映系統(tǒng)的檢索性能。通過比較系統(tǒng)實(shí)際檢出的結(jié)果文檔集和標(biāo)準(zhǔn)的相關(guān)文檔集,對(duì)它們的相似性進(jìn)行量化,得到這些指標(biāo)值內(nèi)容提要n引言n性能評(píng)價(jià)指標(biāo)性能評(píng)價(jià)指標(biāo)n基本評(píng)價(jià)指標(biāo)基本評(píng)價(jià)指標(biāo)n單值評(píng)價(jià)指標(biāo)n特殊的評(píng)價(jià)方法n其他評(píng)價(jià)方法n國(guó)外信息檢索評(píng)測(cè)n信息檢索評(píng)價(jià)的研究基本評(píng)價(jià)指標(biāo)n準(zhǔn)確率與召回率n平均準(zhǔn)確率基本評(píng)價(jià)指標(biāo)n準(zhǔn)確率與召回率準(zhǔn)確率與召回率n平均準(zhǔn)確率召回率和準(zhǔn)確率(查全率和查準(zhǔn)率)相關(guān)文本相關(guān)文本檢索出的檢索出的文本文本全部文本

4、集合全部文本集合檢出且相關(guān)未檢出且相關(guān)檢出且不相關(guān)未檢出且不相關(guān)檢出未檢出相關(guān)不相關(guān)召回率(Recall)=檢出的相關(guān)文檔數(shù)/相關(guān)文檔數(shù)準(zhǔn)確率(Precision)=檢出的相關(guān)文檔數(shù)/檢出文檔數(shù)假設(shè):文本集中所有文獻(xiàn)已進(jìn)行假設(shè):文本集中所有文獻(xiàn)已進(jìn)行了檢查了檢查舉例nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通過某一個(gè)檢索算法得到的排序結(jié)果: 1. d123 6. d9 11. d382. d847. d511 12. d483. d56 8. d129 13. d2504. d69. d187 14. d1135. d8 10. d25

5、15. d3 (準(zhǔn)確率,召回率)(100%,10%)(66%,20%)(50%,30%)(40%,40%)(33%,50%)準(zhǔn)確率上升的時(shí)候準(zhǔn)確率上升的時(shí)候, ,召回率在下降召回率在下降, ,反之亦然反之亦然! !相關(guān)文檔集準(zhǔn)確率和召回率的關(guān)系101準(zhǔn)確率召回率返回最相關(guān)的文本但是漏掉了很多相關(guān)文本理想情況返回了大多數(shù)相關(guān)文檔但是包含很多垃圾11點(diǎn)標(biāo)準(zhǔn)召回率下的準(zhǔn)確率曲線n11個(gè)標(biāo)準(zhǔn)召回率下所對(duì)應(yīng)的準(zhǔn)確率: 0%, 10%, 20%, , 100%02040608010020406080100插值法準(zhǔn)確率召回率準(zhǔn)確率準(zhǔn)確率上升的上升的時(shí)候時(shí)候, ,召召回率在回率在下降下降, ,反反之亦然之亦然

6、! !基本評(píng)價(jià)指標(biāo)n準(zhǔn)確率與召回率n平均準(zhǔn)確率平均準(zhǔn)確率平均準(zhǔn)確率n上述準(zhǔn)確率召回率的值對(duì)應(yīng)一個(gè)查詢n每個(gè)查詢對(duì)應(yīng)不同的準(zhǔn)確/召回率曲線n為了評(píng)價(jià)某一算法對(duì)于所有測(cè)試查詢的檢索性能,對(duì)每個(gè)召回率水平下的準(zhǔn)確率進(jìn)行平均化處理,公式如下:Nq: 使用的查詢總數(shù)Pi(r): 在召回率為r時(shí)的第i個(gè)查詢的準(zhǔn)確率1( )( )qNiiqP rP rN多個(gè)查詢下進(jìn)行檢索算法的比較n對(duì)多個(gè)查詢,進(jìn)行平均,有時(shí)該曲線也稱為:準(zhǔn)確率/召回率的值。n如下為兩個(gè)檢索算法在多個(gè)查詢下的準(zhǔn)確率/召回率的值。n第一個(gè)檢索算法在低召回率率下,其準(zhǔn)確率較高。n另一個(gè)檢索算法在高召回率下,其準(zhǔn)確率較高0102030405060

7、708090100020406080100120RecallPrecision準(zhǔn)確率與召回率評(píng)價(jià)的適應(yīng)性n這兩個(gè)指標(biāo)相互關(guān)聯(lián),評(píng)價(jià)不同方面,結(jié)合在一起形成單個(gè)測(cè)度更合適n測(cè)的是批處理模式下查詢集合性能內(nèi)容提要n引言n性能評(píng)價(jià)指標(biāo)n基本評(píng)價(jià)指標(biāo)n單值評(píng)價(jià)指標(biāo)單值評(píng)價(jià)指標(biāo)n特殊的評(píng)價(jià)方法n其他評(píng)價(jià)方法n國(guó)外信息檢索評(píng)測(cè)n信息檢索評(píng)價(jià)的研究單值評(píng)價(jià)方法n隨著測(cè)試集規(guī)模的擴(kuò)大以及人們對(duì)評(píng)測(cè)結(jié)果理解的深入,更準(zhǔn)確反映系統(tǒng)性能的新評(píng)價(jià)指標(biāo)逐漸出現(xiàn)n單值評(píng)價(jià)方法n已檢出相關(guān)文獻(xiàn)的平均準(zhǔn)確率均值nP10nR準(zhǔn)確率n準(zhǔn)確率直方圖 單值評(píng)價(jià)方法n隨著測(cè)試集規(guī)模的擴(kuò)大以及人們對(duì)評(píng)測(cè)結(jié)果理解的深入,更準(zhǔn)確反映系統(tǒng)性能

8、的新評(píng)價(jià)指標(biāo)逐漸出現(xiàn)n單值評(píng)價(jià)方法n已檢出相關(guān)文獻(xiàn)的平均準(zhǔn)確率均值已檢出相關(guān)文獻(xiàn)的平均準(zhǔn)確率均值nP10nR準(zhǔn)確率n準(zhǔn)確率直方圖 已檢出相關(guān)文獻(xiàn)的平均準(zhǔn)確率均值nMean Average Precision, MAPn最近幾年常用的評(píng)價(jià)標(biāo)準(zhǔn)n單個(gè)查詢的平均準(zhǔn)確率是逐個(gè)考察排序中每個(gè)新的相關(guān)文檔,然后對(duì)其準(zhǔn)確率值進(jìn)行平均后的平均值;n查詢集合的平均準(zhǔn)確率是每個(gè)查詢的平均準(zhǔn)確率MAP的平均值,MAP的計(jì)算公式如下:11riiMAPri第 個(gè)相關(guān)文檔的位置nMAP是反映系統(tǒng)在全部查詢上性能的單值指標(biāo)n系統(tǒng)檢索出來的相關(guān)文檔位置越靠前,MAP就可能越高.n如果系統(tǒng)沒有返回相關(guān)文檔,則MAP默認(rèn)為0.r

9、為相關(guān)文檔數(shù)MAP-例子MAP=?nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通過某一個(gè)檢索算法得到的排序結(jié)果:n1. d123 6. d9 11. d382. d847. d511 12. d483. d56 8. d129 13. d2504. d69. d187 14. d1135. d8 10. d25 15. d3 (1+0.66+0.5+0.4+0.3)/5=0.57相關(guān)文檔集新的評(píng)價(jià)指標(biāo)n隨著測(cè)試集規(guī)模的擴(kuò)大以及人們對(duì)評(píng)測(cè)結(jié)果理解的深入,更準(zhǔn)確反映系統(tǒng)性能的新評(píng)價(jià)指標(biāo)逐漸出現(xiàn)n單值評(píng)價(jià)方法n已檢出相關(guān)文獻(xiàn)的平均準(zhǔn)確率均值nP1

10、0nR準(zhǔn)確率n準(zhǔn)確率直方圖 P10評(píng)價(jià)n定義:系統(tǒng)對(duì)于查詢返回的前10個(gè)結(jié)果的準(zhǔn)準(zhǔn)確率確率. n考慮到用戶在查看搜索引擎結(jié)果時(shí),往往希望在第一個(gè)頁面(通常為10個(gè)結(jié)果)就找到自己所需的信息,因此P10能比較真實(shí)有效地反映在真實(shí)應(yīng)用環(huán)境下所表現(xiàn)的性能.P10-例子P10=?nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通過某一個(gè)檢索算法得到的排序結(jié)果:n1. d123 6. d9 11. d382. d847. d511 12. d483. d56 8. d129 13. d2504. d69. d187 14. d1135. d8 10. d

11、25 15. d3 0.4相關(guān)文檔集新的評(píng)價(jià)指標(biāo)n隨著測(cè)試集規(guī)模的擴(kuò)大以及人們對(duì)評(píng)測(cè)結(jié)果理解的深入,更準(zhǔn)確反映系統(tǒng)性能的新評(píng)價(jià)指標(biāo)逐漸出現(xiàn)n單值評(píng)價(jià)方法n已檢出相關(guān)文獻(xiàn)的平均準(zhǔn)確率均值nP10nR準(zhǔn)確率準(zhǔn)確率n準(zhǔn)確率直方圖 R準(zhǔn)確率n單個(gè)查詢的R準(zhǔn)確率是指檢索出R篇相關(guān)文篇相關(guān)文檔檔時(shí)的準(zhǔn)確率準(zhǔn)確率.nR是當(dāng)前檢索中相關(guān)文檔總數(shù)n查詢集合中所有查詢的R準(zhǔn)確率是每個(gè)查詢的R準(zhǔn)確率的平均值.PrRRecisionR前 篇文檔中實(shí)際相關(guān)文檔數(shù)R準(zhǔn)確率-例子1. d123 6. d9 2. d847. d5113. d56 8. d1294. d69. d1875. d8 10. d25 10-準(zhǔn)確率

12、=?1.d1232.d843.d56 10-precision=4/10=0.43-準(zhǔn)確率=?3-precision=1/3=0.333新的評(píng)價(jià)指標(biāo)n隨著測(cè)試集規(guī)模的擴(kuò)大以及人們對(duì)評(píng)測(cè)結(jié)果理解的深入,更準(zhǔn)確反映系統(tǒng)性能的新評(píng)價(jià)指標(biāo)逐漸出現(xiàn)n單值評(píng)價(jià)方法n已檢出相關(guān)文獻(xiàn)的平均準(zhǔn)確率均值nP10nR準(zhǔn)確率n準(zhǔn)確率直方圖準(zhǔn)確率直方圖 準(zhǔn)確率直方圖n用于快速比較兩個(gè)檢索算法的性能n在多個(gè)查詢下,分別計(jì)算每一查詢下的R準(zhǔn)確率,計(jì)算其差值,并用直方圖表示.n用RPA(i)和RPB(i)分別表示使用檢索算法A和檢索算法B檢索第i個(gè)查詢時(shí)得到的R準(zhǔn)確率,它們之間的差值RPA-B(i) = RPA(i)- RP

13、B(i) nRPA-B=0:對(duì)于第i個(gè)查詢,兩個(gè)算法有相同的性能nRPA-B0:對(duì)于第i個(gè)查詢,算法A有較好的性能nRPA-B1時(shí),表示準(zhǔn)確率P的重要性大于召回率Rn當(dāng)b1時(shí),表示召回率R的重要性大于準(zhǔn)確率P其他測(cè)度方法n調(diào)和平均值nE評(píng)價(jià)指標(biāo)n面向用戶的測(cè)度方法面向用戶的測(cè)度方法面向用戶的測(cè)度方法n覆蓋率:在用戶已知的相關(guān)文檔集合中,檢出相關(guān)文檔所占的比例n新穎率:檢出的相關(guān)文獻(xiàn)中用戶未知的相關(guān)文獻(xiàn)所占的比例covkRerageUuukRnoveltyRRU為用戶已知的相關(guān)文檔集Rk為系統(tǒng)檢索出的文檔集合A與集合U的交集Ru為檢出的用戶以前未知的相關(guān)文檔集圖示覆蓋率和新穎率相關(guān)文獻(xiàn)|R|結(jié)果

14、集|A|用戶已知的相關(guān)文獻(xiàn)|U|檢出的用戶以前未知的相關(guān)文獻(xiàn)|Ru|檢出的用戶已知的相關(guān)文獻(xiàn)|Rk|內(nèi)容提要n引言n性能評(píng)價(jià)指標(biāo)n基本評(píng)價(jià)指標(biāo)n單值評(píng)價(jià)指標(biāo)n特殊的評(píng)價(jià)方法n其他評(píng)價(jià)方法n國(guó)外信息檢索評(píng)測(cè)國(guó)外信息檢索評(píng)測(cè)n信息檢索評(píng)價(jià)的研究國(guó)外的評(píng)測(cè)n統(tǒng)一評(píng)測(cè)的意義n同一個(gè)算法在不同的數(shù)據(jù)條件下得到的結(jié)果差異很大n沒有統(tǒng)一的測(cè)試方法和共同的數(shù)據(jù)集合,幾乎不可能比較不同算法n數(shù)據(jù)采集需花費(fèi)很大的人力物力.而由政府學(xué)術(shù)機(jī)構(gòu)或者學(xué)術(shù)團(tuán)體組織的開放技術(shù)評(píng)測(cè),可以為科研提供一種統(tǒng)一的、普遍認(rèn)可的評(píng)價(jià)基準(zhǔn)和大型測(cè)試集,節(jié)省了各個(gè)研究者重復(fù)采集數(shù)據(jù)而造成的重復(fù)付出,對(duì)整個(gè)領(lǐng)域的科學(xué)研究和技術(shù)進(jìn)步起到很大的推

15、動(dòng)作用。n通過技術(shù)評(píng)測(cè)可以提出新的研究問題。n國(guó)外著名的評(píng)測(cè)nTRECnNTCIRnCLEF國(guó)外的評(píng)測(cè)n統(tǒng)一評(píng)測(cè)的意義n同一個(gè)算法在不同的數(shù)據(jù)條件下得到的結(jié)果差異很大n沒有統(tǒng)一的測(cè)試方法和共同的數(shù)據(jù)集合,幾乎不可能比較不同算法n數(shù)據(jù)采集需花費(fèi)很大的人力物力.而由政府學(xué)術(shù)機(jī)構(gòu)或者學(xué)術(shù)團(tuán)體組織的開放技術(shù)評(píng)測(cè),可以為科研提供一種統(tǒng)一的、普遍認(rèn)可的評(píng)價(jià)基準(zhǔn)和大型測(cè)試集,節(jié)省了各個(gè)研究者重復(fù)采集數(shù)據(jù)而造成的重復(fù)付出,對(duì)整個(gè)領(lǐng)域的科學(xué)研究和技術(shù)進(jìn)步起到很大的推動(dòng)作用。n通過技術(shù)評(píng)測(cè)可以提出新的研究問題。n國(guó)外著名的評(píng)測(cè)nTRECnNTCIRnCLEFTREC評(píng)測(cè)nTREC評(píng)測(cè) n文本檢索會(huì)議(Text R

16、etrieval Conference,TREC)是信息檢索( IR) 界為進(jìn)行檢索系統(tǒng)和用戶評(píng)價(jià)而舉行的活動(dòng), 它由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)協(xié)會(huì)(NIST) 和美國(guó)高級(jí)研究計(jì)劃局(DARPA)(美國(guó)國(guó)防部) 共同資助,開始于1992年。 n主要致力于以下幾個(gè)方面n促進(jìn)基于大規(guī)模測(cè)試文檔集的檢索研究。n為了反映現(xiàn)實(shí)系統(tǒng)的主題多樣性,必須保證有足夠的實(shí)驗(yàn)語料集,TREC的文獻(xiàn)集合一般在2G左右,包括50100萬篇文獻(xiàn);n建立一個(gè)開放的論壇來交流研究思想,使與會(huì)者能交流研究的成果與心得,促進(jìn)企業(yè)學(xué)術(shù)機(jī)構(gòu)和政府部門之間的交流溝通。n通過展示檢索方法在解決實(shí)際問題中的有效性,來加速實(shí)驗(yàn)室技術(shù)的商業(yè)化產(chǎn)品轉(zhuǎn)換。

17、n通過提供大型的語料庫(kù)、統(tǒng)一的測(cè)試程序,有系統(tǒng)地整理評(píng)測(cè)結(jié)果,達(dá)到改善文本檢索評(píng)價(jià)和檢驗(yàn)方法的目標(biāo)。TREC評(píng)測(cè)任務(wù)n早期的評(píng)測(cè)任務(wù):nAd hoc檢索任務(wù)(傳統(tǒng)的批處理檢索)n類似圖書館里的書籍檢索,即書籍庫(kù)(數(shù)據(jù)庫(kù)、文檔集合)相對(duì)穩(wěn)定不變,而用戶的查詢要求是千變?nèi)f化的。n主要研究任務(wù)包括對(duì)大數(shù)據(jù)庫(kù)的索引查詢、查詢的擴(kuò)展等;n固定主題檢索任務(wù)(Information Routing)n用戶的查詢要求相對(duì)穩(wěn)定,而文檔集常常發(fā)生變化n研究的主要任務(wù)不是索引,而是對(duì)用戶興趣的建模,即如何為用戶興趣建立合適的數(shù)學(xué)模型;TREC評(píng)測(cè)任務(wù)n新的任務(wù)n博客任務(wù):研究在博客上的信息檢索方法n企業(yè)檢索任務(wù):研

18、究企業(yè)搜索問題,即滿足用戶對(duì)組織機(jī)構(gòu)的相關(guān)數(shù)據(jù)的信息檢索需求;n基因數(shù)據(jù)檢索任務(wù):n法律文檔檢索任務(wù):目的是提高律師檢索電子文檔集效率的技術(shù)n問答系統(tǒng)任務(wù):要求系統(tǒng)能針對(duì)問題給出具體而明確的答案n垃圾郵件過濾任務(wù)n超大規(guī)模文檔檢索任務(wù):目的是研究是否以及什么時(shí)候把傳統(tǒng)信息檢索中基于測(cè)試集的評(píng)價(jià)方法應(yīng)用于超大規(guī)模文檔集。TREC評(píng)測(cè)影響n在測(cè)試集方法:TREC評(píng)測(cè)的測(cè)試集開創(chuàng)了大量文檔集、結(jié)構(gòu)化的查詢、務(wù)實(shí)的相關(guān)性判斷,被信息檢索的研究團(tuán)體廣泛采用;n在評(píng)測(cè)任務(wù)方面:TREC致力于持續(xù)地研究發(fā)展許多新的測(cè)試任務(wù),為新的熱點(diǎn)研究提供了急需的數(shù)據(jù)和評(píng)價(jià)體系,促進(jìn)了這些技術(shù)的快速發(fā)展。n在會(huì)議及論壇方

19、面:TREC會(huì)議的舉行使得研究者能透過系統(tǒng)測(cè)試以及相互間的觀摩切磋,使系統(tǒng)的檢索技術(shù)得到提高,并獲得更高的檢索效益。國(guó)外的評(píng)測(cè)n統(tǒng)一評(píng)測(cè)的意義n同一個(gè)算法在不同的數(shù)據(jù)條件下得到的結(jié)果差異很大n沒有統(tǒng)一的測(cè)試方法和共同的數(shù)據(jù)集合,幾乎不可能比較不同算法n數(shù)據(jù)采集需花費(fèi)很大的人力物力.而由政府學(xué)術(shù)機(jī)構(gòu)或者學(xué)術(shù)團(tuán)體組織的開放技術(shù)評(píng)測(cè),可以為科研提供一種統(tǒng)一的、普遍認(rèn)可的評(píng)價(jià)基準(zhǔn)和大型測(cè)試集,節(jié)省了各個(gè)研究者重復(fù)采集數(shù)據(jù)而造成的重復(fù)付出,對(duì)整個(gè)領(lǐng)域的科學(xué)研究和技術(shù)進(jìn)步起到很大的推動(dòng)作用。n通過技術(shù)評(píng)測(cè)可以提出新的研究問題。n國(guó)外著名的評(píng)測(cè)nTRECnNTCIRnCLEFNTCIRnNTCIR評(píng)測(cè)nNT

20、CIR(NACSIS Test Collection for IR Systems)始于1998年,是由日本國(guó)立信息學(xué)研究所(National Institute of Informatics,簡(jiǎn)稱NII)主辦的搜索引擎評(píng)價(jià)型國(guó)際會(huì)議 n主要評(píng)測(cè)任務(wù)n傳統(tǒng)的日文、中文、韓文、英文的單語ad hoc任務(wù).n最重要的任務(wù)是跨語言信息檢索。若以C、J、K、E分別代表中文、日文、韓文、英文,則有CCJKE、JCJKE、KCJKE、ECJKE等極為復(fù)雜的檢索任務(wù)。n另外一個(gè)比較重要的任務(wù)是中樞語言信息檢索,這個(gè)任務(wù)是模擬在語言資源不足的情況下進(jìn)行跨語言信息檢索。n如要進(jìn)行CK的跨語言信息檢索,但是沒有中

21、韓雙語詞典,只好借用中英詞典以及英韓詞典,此時(shí),英語就被視為中樞語言。NTCIRn其他評(píng)測(cè)任務(wù)n問答挑戰(zhàn)(Question Answering Challenge, QAC):它與TREC的QA任務(wù)類似,是單語QA,但是QAC的難度更大。它提供一種特別的QA評(píng)測(cè)任務(wù),這些任務(wù)由一系列問題構(gòu)成,這些問題是環(huán)環(huán)相扣。n網(wǎng)頁檢索:與TREC的Web 檢索任務(wù)類似;n自動(dòng)文摘:為文檔進(jìn)行摘要。n專利檢索:與日本知識(shí)產(chǎn)權(quán)局合作的專利檢索評(píng)測(cè)任務(wù),其目的是為了提升專利檢索的品質(zhì)與績(jī)效。國(guó)外的評(píng)測(cè)n統(tǒng)一評(píng)測(cè)的意義n同一個(gè)算法在不同的數(shù)據(jù)條件下得到的結(jié)果差異很大n沒有統(tǒng)一的測(cè)試方法和共同的數(shù)據(jù)集合,幾乎不可能

22、比較不同算法n數(shù)據(jù)采集需花費(fèi)很大的人力物力.而由政府學(xué)術(shù)機(jī)構(gòu)或者學(xué)術(shù)團(tuán)體組織的開放技術(shù)評(píng)測(cè),可以為科研提供一種統(tǒng)一的、普遍認(rèn)可的評(píng)價(jià)基準(zhǔn)和大型測(cè)試集,節(jié)省了各個(gè)研究者重復(fù)采集數(shù)據(jù)而造成的重復(fù)付出,對(duì)整個(gè)領(lǐng)域的科學(xué)研究和技術(shù)進(jìn)步起到很大的推動(dòng)作用。n通過技術(shù)評(píng)測(cè)可以提出新的研究問題。n國(guó)外著名的評(píng)測(cè)nTRECnNTCIRnCLEFCLEFnCLEF(Cross-Language Evaluation Forum)評(píng)測(cè)nCLEF于2000年開始籌辦,是歐洲各國(guó)共同合作進(jìn)行的一項(xiàng)長(zhǎng)期研究計(jì)劃,主要想通過評(píng)測(cè)信息科技技術(shù),促進(jìn)歐洲語言中的各種單一語言以及多語言信息技術(shù)的發(fā)展, nCLEF的目標(biāo)只在于跨語言信息檢索以及多語言信息檢索方面 nCLEF的評(píng)測(cè)任務(wù)n跨語言文本檢索:包括三個(gè)子任務(wù),即單語檢索、雙語檢索以及多語檢索。n跨語言專利數(shù)據(jù)檢索:主要是使用專業(yè)領(lǐng)域上下文的信息進(jìn)行單語言以及跨語言的信息檢索。n交互式跨語言檢索(Interactive Cross-Language Retrieval (iCLEF):嘗試模擬實(shí)際檢索環(huán)境下使用者與檢索系統(tǒng)的互動(dòng)情形,以改善信息檢索系統(tǒng)的性能。n多語問答:是一種跨語言QA檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論