新信息檢索在數(shù)學(xué)建模型中的應(yīng)用_第1頁
新信息檢索在數(shù)學(xué)建模型中的應(yīng)用_第2頁
新信息檢索在數(shù)學(xué)建模型中的應(yīng)用_第3頁
新信息檢索在數(shù)學(xué)建模型中的應(yīng)用_第4頁
新信息檢索在數(shù)學(xué)建模型中的應(yīng)用_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

新信息檢索在數(shù)學(xué)建模型中的應(yīng)用第1頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用計(jì)算機(jī)信息檢索,是指以計(jì)算機(jī)技術(shù)為手段,通過光盤和聯(lián)機(jī)等現(xiàn)代檢索方式進(jìn)行信息檢索的方法。與手工檢索一樣,計(jì)算機(jī)信息檢索應(yīng)作為未來科技人員的一項(xiàng)基本功,這一能力的訓(xùn)練和培養(yǎng)對(duì)科技人員適應(yīng)未來社會(huì)和跨世紀(jì)科研都極其重要,一個(gè)善于從電子信息系統(tǒng)中獲取信息的科研人員,必定比不具備這一能力的人有更多的成功機(jī)會(huì),美國報(bào)道生活新方式的期刊POV也將交互網(wǎng)絡(luò)檢索專家作為未來十大熱門職業(yè)之一,這些情況都說明了計(jì)算機(jī)信息檢索越來越重要,故值得大家對(duì)這一技術(shù)予以重視。2文獻(xiàn)

(1)科技文獻(xiàn)的結(jié)構(gòu)等級(jí)一次文獻(xiàn)(primarydocument):是指作者以本人的研究成果為基本素材而創(chuàng)作或撰寫的文獻(xiàn),不管創(chuàng)作時(shí)是否參考或引用了他人的著作,也不管該文獻(xiàn)以何種物質(zhì)形式出現(xiàn),均屬一次文獻(xiàn)。大部分期刊上發(fā)表的文章和在科技會(huì)議上發(fā)表的論文均屬一次文獻(xiàn)。第2頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用

二次文獻(xiàn)(secondarydocument):是指文獻(xiàn)工作者對(duì)一次文獻(xiàn)進(jìn)行加工、提煉和壓縮之后所得到的產(chǎn)物,是為了便于管理和利用一次文獻(xiàn)而編輯、出版和累積起來的工具性文獻(xiàn)。檢索工具書和網(wǎng)上檢索引擎是典型的二次文獻(xiàn)。三次文獻(xiàn)(tertiarydocument):是指對(duì)有關(guān)的一次文獻(xiàn)和二次文獻(xiàn)進(jìn)行廣泛深入的分析研究綜合概括而成的產(chǎn)物。如大百科全書、辭典等。也有研究者在以上分類基礎(chǔ)上再加上零次文獻(xiàn),它是指未經(jīng)過任何加工的原始文獻(xiàn),如實(shí)驗(yàn)記錄、手稿、原始錄音、原始錄像、談話記錄等。零次文獻(xiàn)在原始文獻(xiàn)的保存、原始數(shù)據(jù)的核對(duì)、原始構(gòu)思的核定(權(quán)利人)等方面有著重要的作用。(2)十大情報(bào)源所謂“十大情報(bào)源”,是指人們?cè)谶M(jìn)行科研及技術(shù)工作時(shí)使用頻率比較高的十種情報(bào)來源的總稱。第3頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用a.科技圖書:是對(duì)某專門知識(shí)或某學(xué)科進(jìn)行系統(tǒng)的論述或概括的一種情報(bào)來源。其主要特征是內(nèi)容比較成熟,但相對(duì)比較陳舊。合法出版的圖書均有版權(quán)頁。b.科技期刊(periodical):又稱連續(xù)性出版物(serials),是一種定期或不定期連續(xù)出版的文獻(xiàn)載體,它一般有同樣的名稱,按一定時(shí)間編定卷號(hào),每一卷又分若干期。其類型有:i.學(xué)術(shù)性、技術(shù)性刊物,是科技期刊的核心部分。刊名一般為:Acta(學(xué)報(bào))、Journals(雜志)、annales(紀(jì)事)、Bulletin(通報(bào))、Transactions(匯刊)、Preceedings(會(huì)刊)、Review(評(píng)論)、Progress;Advancesin...(進(jìn)展)等。

ii.快報(bào)型。Communication(通訊)、letters(通訊)、bulletin等。iii.消息性(newsyjournals)。news(新聞)、newsletters等。

iv.資料性(datajournals)。data、event等。科技期刊是最重要的一類文獻(xiàn)來源。第4頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用c.科技報(bào)告:報(bào)道(記錄)研究和開發(fā)調(diào)查工作的成果或進(jìn)展情況的一種文獻(xiàn)類型,一般都編有號(hào)碼,供識(shí)別報(bào)告本身及其發(fā)行機(jī)構(gòu)可以說,報(bào)告是一種典型的機(jī)關(guān)團(tuán)體出版物,常用的報(bào)告名稱有:科技報(bào)告按按報(bào)告的形式可分為:report(報(bào)告書),technicalnotes(技術(shù)札記),memorandum(備忘錄),papers(論文),bulletin(通報(bào)),technicaltranslations(技術(shù)譯叢),specialpublications(特種出版物)。按研究的進(jìn)展情況分:primaryreport(初步報(bào)告),progressreport(進(jìn)展報(bào)告),interrimreport(中間報(bào)告),finalreport(中間報(bào)告)。科技報(bào)告與其它文獻(xiàn)的顯著不同為根據(jù)科研水平的高低,科技報(bào)告分為若干密級(jí),如topsecret(絕密)、secret(秘密)、confidential(保密)、restricted(非密限制發(fā)行)、unclassified(公開)、declassified(解密)。第5頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用d.會(huì)議文獻(xiàn):是指學(xué)術(shù)會(huì)議文獻(xiàn),它往往反映出科學(xué)技術(shù)的發(fā)展趨勢(shì),其特點(diǎn)是與最新成果的間隔時(shí)間短,但其內(nèi)容與期刊相比可能不太成熟。會(huì)議類型大致可分為國際會(huì)議、全國性會(huì)議及地區(qū)會(huì)議等。會(huì)議和會(huì)議文獻(xiàn)常用的主要名稱有conference(大會(huì))、meeting(小型會(huì)議)、symposium(討論會(huì))、proceeding(會(huì)議錄)、paper(單篇論文)、transaction(匯報(bào))等。e.專利文獻(xiàn):在實(shí)行專利制度的國家,凡是本國或外國的個(gè)人和企業(yè)有了創(chuàng)造發(fā)明,都可以根據(jù)專利法的規(guī)定,向本國或外國專利局提出申請(qǐng),經(jīng)審查合格,批準(zhǔn)授予在一定年限內(nèi)享有創(chuàng)造發(fā)明成果的權(quán)利,并在法律上受到保護(hù),這樣一種受到法律保護(hù)的技術(shù)專有權(quán)利叫做專利。專利是與產(chǎn)業(yè)活動(dòng)密切相關(guān)的,因而其實(shí)用性非常強(qiáng)。根據(jù)專利的技術(shù)水平和應(yīng)用情況,其類型有invention(發(fā)明)、utilitypatent(實(shí)用新型)、和designpatent(外觀設(shè)計(jì))等。第6頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用f.標(biāo)準(zhǔn)文獻(xiàn):標(biāo)準(zhǔn)化主要包括三個(gè)方面:

Ⅰ.產(chǎn)品標(biāo)準(zhǔn)化,即產(chǎn)品質(zhì)量要符合技術(shù)規(guī)定;

Ⅱ.產(chǎn)品規(guī)格化和系列化,即產(chǎn)品按型號(hào)大小來分檔,成系列的發(fā)展,從而保證以較少的品種來滿足廣泛的要求;

Ⅲ.零部件通用化,即同類機(jī)型零部件,特別是易損件要做到最大限度的通用互換性經(jīng)過公認(rèn)權(quán)威當(dāng)局批準(zhǔn)的標(biāo)準(zhǔn)化工作成果,可以采用文件形式或規(guī)定基本單位(物理常數(shù))這兩種形式固定下來、以文件形式出現(xiàn)的標(biāo)準(zhǔn)化工作成果,就是標(biāo)準(zhǔn)文獻(xiàn)。g.學(xué)位論文:是高校研究生、畢業(yè)生為獲得學(xué)位進(jìn)行科學(xué)研究而寫出的學(xué)術(shù)性論文。博士學(xué)位論文中,常含有獨(dú)創(chuàng)性的學(xué)術(shù)性文獻(xiàn)資料。h.產(chǎn)品資料:一般是指品樣本,即產(chǎn)品說明書。好的產(chǎn)品說明書含有豐富的內(nèi)容,包括產(chǎn)品規(guī)格、產(chǎn)品特點(diǎn)、產(chǎn)品專利號(hào)等多種對(duì)生產(chǎn)有用的信息。第7頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用I.技術(shù)檔案:是指在生產(chǎn)建設(shè)中和科技部門的技術(shù)活動(dòng)中形成的,有一定的工程對(duì)象的技術(shù)文件的總稱。j.科技報(bào)紙:一些專門刊登科技類文獻(xiàn)的報(bào)紙對(duì)了解當(dāng)前的學(xué)科前沿和水平以及科學(xué)新聞很有益處。十大情報(bào)源中,最重要的是期刊、會(huì)議論文和專利。

3文獻(xiàn)的特征一篇文章、一本書、一份報(bào)告等一般都有以下特征:(1)外表特征:題目、作者、作者工作單位,專利和科技報(bào)告還有專利號(hào)或報(bào)告號(hào)等,這些可以表征一篇特定文獻(xiàn)的特征可以在文獻(xiàn)的封面或扉頁,即不打開書本,或不看文獻(xiàn)的具體內(nèi)容就可以確定一篇文獻(xiàn)。(2)內(nèi)容特征:假如我們深入到文獻(xiàn)內(nèi)容中間,則可以發(fā)現(xiàn)還可用另外兩種方法來表征它:

a.一般,一篇文獻(xiàn)都是論及某一方面的特定問題的,也就是說,與論題相關(guān)的詞出現(xiàn)的頻率較大。主題詞或關(guān)鍵詞即稱為文獻(xiàn)的主題特征第8頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用b.另外,一篇文獻(xiàn)還可以按照各種自然科學(xué)和社會(huì)科學(xué)的分類方法進(jìn)行歸類,如《中圖法》:是我國圖書館和情報(bào)單位普遍使用的一部綜合性的分類法。《中圖法》共分5個(gè)基本部類、22個(gè)大類。采用漢語拼音字母與阿拉伯?dāng)?shù)字相結(jié)合的混合號(hào)碼,用一個(gè)字母代表一個(gè)大類,以字母順序反映大類的次序,在字母后用數(shù)字作標(biāo)記。為適應(yīng)工業(yè)技術(shù)發(fā)展及該類文獻(xiàn)的分類,對(duì)工業(yè)技術(shù)二級(jí)類目,采用雙字母。第9頁,課件共51頁,創(chuàng)作于2023年2月新生入館教育

A馬列毛鄧

B哲學(xué)類系C-K社會(huì)科學(xué)

N-X自然科學(xué)

Z綜合性圖書簡表:

馬克思主義、列寧主義、毛澤東思想

A馬克思主義、列寧主義、毛澤東思想哲學(xué)

B哲學(xué)社會(huì)科學(xué)

C社會(huì)科學(xué)總論第10頁,課件共51頁,創(chuàng)作于2023年2月新生入館教育

D政治、法律

E軍事

F經(jīng)濟(jì)

G文化科學(xué)教育體育

H語言文字

I文學(xué)

J藝術(shù)

K歷史地理自然科學(xué)

N自然科學(xué)總論

O數(shù)理科學(xué)和化學(xué)第11頁,課件共51頁,創(chuàng)作于2023年2月新生入館教育

P天文學(xué)、地球科學(xué)

Q生物科學(xué)

R醫(yī)藥、衛(wèi)生

S農(nóng)業(yè)科學(xué)

T工業(yè)技術(shù)

U交通運(yùn)輸

V航空、航天

X環(huán)境科學(xué)、勞動(dòng)保護(hù)科學(xué)綜合性圖書

Z綜合性圖書第12頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用

N

O

P

Q

R……自然科學(xué)總論數(shù)、理、化天文、地理生物醫(yī)、衛(wèi)

O1

O3

O4

O6

O7……數(shù)學(xué)力學(xué)物理化學(xué)晶體

O11

O12

O13……古典數(shù)學(xué)初等數(shù)學(xué)高等數(shù)學(xué)

O121O122

O123

O124算術(shù)初等代數(shù)初等幾何三角這樣,我們可以把某一篇文獻(xiàn)歸入某一類中,如有關(guān)三角方面的文獻(xiàn)可歸入O124中,O124即可稱為該文獻(xiàn)的分類特征。第13頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用T工業(yè)技術(shù)(這是最為龐大的一個(gè)類目,下面又劃分許多子類目)TB一般工業(yè)技術(shù)

TH機(jī)械儀表工業(yè)

TN無線電電子學(xué),電信技術(shù)例如:《電視圖象信號(hào)處理》TN941.1TP自動(dòng)化技術(shù),計(jì)算機(jī)技術(shù)

TP311程序設(shè)計(jì),軟件工程(數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)庫理論)TP312程序語言

TP316操作系統(tǒng)

TP391信息處理(文字,圖像處理軟件方面)TP393計(jì)算機(jī)網(wǎng)絡(luò)

《中圖法》適用公共圖書館和高校圖書館。第14頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用文獻(xiàn)的外表特征與文獻(xiàn)是一一對(duì)應(yīng)的,即一組外表特征只對(duì)應(yīng)一篇唯一的文獻(xiàn),而文獻(xiàn)的內(nèi)容特征與文獻(xiàn)卻是一種模糊的對(duì)應(yīng)關(guān)系,即一篇文獻(xiàn)有多個(gè)主題詞(關(guān)鍵詞)或分類號(hào),一個(gè)主題詞(關(guān)鍵詞)或分類號(hào)也可對(duì)應(yīng)多篇甚至幾百篇文獻(xiàn)。正因?yàn)榇嬖谶@兩種對(duì)應(yīng)關(guān)系,使得兩種特征的用途大不相同。利用外表特征只能檢出很少的文獻(xiàn),有時(shí)只用于特定情況下(如已經(jīng)知道作者名等)。利用內(nèi)容特征一次能檢出一批文獻(xiàn),這對(duì)研究者來說是極其有用的。

第15頁,課件共51頁,創(chuàng)作于2023年2月二計(jì)算機(jī)基本檢索方法

一、布爾檢索

利用布爾邏輯算符進(jìn)行檢索詞或代碼的邏輯組配,是現(xiàn)代信息檢索系統(tǒng)中最常用的一種方法。常用的布爾邏輯算符有三種,分別是邏輯或“OR”、邏輯與“AND”、邏輯非“NOT”。用這些邏輯算符將檢索詞組配構(gòu)成檢索提問式,計(jì)算機(jī)將根據(jù)提問式與系統(tǒng)中的記錄進(jìn)行匹配,當(dāng)兩者相符時(shí)則命中,并自動(dòng)輸出該文獻(xiàn)記錄。檢索中邏輯算符使用是最頻繁的,對(duì)邏輯算符使用的技巧決定檢索結(jié)果的滿意程度。用布爾邏輯表達(dá)檢索要求,除要掌握檢索課題的相關(guān)因素外,還應(yīng)在布爾算符對(duì)檢索結(jié)果的影響方面引起注意。另外,對(duì)同一個(gè)布爾邏輯提問式來說,不同的運(yùn)算次序會(huì)有不同的檢索結(jié)果。第16頁,課件共51頁,創(chuàng)作于2023年2月二、截詞檢索

截詞檢索就是用截?cái)嗟脑~的一個(gè)局部進(jìn)行的檢索,并認(rèn)為凡滿足這個(gè)詞局部中的所有字符(串)的文獻(xiàn),都為命中的文獻(xiàn)。按截?cái)嗟奈恢脕矸郑卦~可有后截?cái)唷⑶敖財(cái)唷⒅薪財(cái)嗳N類型。

不同的系統(tǒng)所用的截詞符也不同,常用的有?、$、*等。分為有限截詞(即一個(gè)截詞符只代表一個(gè)字符)和無限截詞(一個(gè)截詞符可代表多個(gè)字符)。下面以無限截詞舉例說明:

(1)后截?cái)啵胺揭恢隆H纾篶omput?表示computer,computers,computing等。

(2)前截?cái)啵蠓揭恢隆H纾海縞omputer表示minicomputer,microcomputers等。

第17頁,課件共51頁,創(chuàng)作于2023年2月(3)中截?cái)啵虚g一致。如?comput?表示minicomputer,microcomputers等。

截詞檢索也是一種常用的檢索技術(shù),是防止漏檢的有效工具,尤其在西文檢索中,更是廣泛應(yīng)用。截?cái)嗉夹g(shù)可以作為擴(kuò)大檢索范圍的手段,具有方便用戶、增強(qiáng)檢索效果的特點(diǎn),但一定要合理使用,否則會(huì)造成誤檢。

四、加權(quán)檢索和聚類檢索

1.加權(quán)檢索

加權(quán)檢索是某些檢索系統(tǒng)中提供的一種定量檢索技術(shù)。加權(quán)檢索同布爾檢索、截詞檢索等一樣,也是文獻(xiàn)檢索的一個(gè)基本檢索手段,但與它們不同的是,加權(quán)檢索的側(cè)重點(diǎn)不在于判定檢索詞或字符串第18頁,課件共51頁,創(chuàng)作于2023年2月是不是在數(shù)據(jù)庫中存在、與別的檢索詞或字符串是什么關(guān)系,而是在于判定檢索詞或字符串在滿足檢索邏輯后對(duì)文獻(xiàn)命中與否的影響程度。加權(quán)檢索的基本方法是:在每個(gè)提問詞后面給定一個(gè)數(shù)值表示其重要程度,這個(gè)數(shù)值稱為權(quán),在檢索時(shí),先查找這些檢索詞在數(shù)據(jù)庫記錄中是否存在,然后計(jì)算存在的檢索詞的權(quán)值總和。權(quán)值之和達(dá)到或超過預(yù)先給定的閾值,該記錄即為命中記錄。

運(yùn)用加權(quán)檢索可以命中核心概念文獻(xiàn),因此它是一種縮小檢索范圍提高檢準(zhǔn)率的有效方法。但并不是所有系統(tǒng)都能提供加權(quán)檢索這種檢索技術(shù),而能提供加權(quán)檢索的系統(tǒng),對(duì)權(quán)的定義、加權(quán)方式、權(quán)值計(jì)算和檢索結(jié)果的判定等方面,又有不同的技術(shù)規(guī)范。

2.聚類檢索

第19頁,課件共51頁,創(chuàng)作于2023年2月聚類檢索是在對(duì)文獻(xiàn)進(jìn)行自動(dòng)標(biāo)引的基礎(chǔ)上,構(gòu)造文獻(xiàn)的形式化表示——文獻(xiàn)向量,然后通過一定的聚類方法,計(jì)算出文獻(xiàn)與文獻(xiàn)之間的相似度,并把相似度較高的文獻(xiàn)集中在一起,形成一個(gè)個(gè)的文獻(xiàn)類的檢索技術(shù)。根據(jù)不同的聚類水平的要求,可以形成不同聚類層次的類目體系。在這樣的類目體系中,主題相近、內(nèi)容相關(guān)的文獻(xiàn)便聚在一起,而相異的則被區(qū)分開來。

聚類檢索的出現(xiàn),為文獻(xiàn)檢索尤其是計(jì)算機(jī)化的信息檢索開辟了一個(gè)新的天地。文獻(xiàn)自動(dòng)聚類檢索系統(tǒng)能夠兼有主題檢索系統(tǒng)和分類檢索系統(tǒng)的優(yōu)點(diǎn),同時(shí)具備族性檢索和特性檢索的功能。因此,這種檢索方式將有可能在未來的信息檢索中大有用武之地。

五、擴(kuò)檢與縮檢

1.?dāng)U檢

第20頁,課件共51頁,創(chuàng)作于2023年2月擴(kuò)檢是指初始設(shè)定的檢索范圍太小,命中文獻(xiàn)不多,需要擴(kuò)大檢索范圍的方法。擴(kuò)檢的方法主要可以有以下幾種:①概念的擴(kuò)大;②范圍的擴(kuò)大;③增加同義詞;④年代的擴(kuò)大。

2.縮檢

縮檢是指開始的檢索范圍太大,命中文獻(xiàn)太多,或查準(zhǔn)率太低,需要增加查準(zhǔn)率的一個(gè)方法。縮檢與擴(kuò)檢相反,即概念的縮小、范圍的限定、年代的減少等。此外,還可以通過以下方法進(jìn)行限定:①核心概念的限定;②語種的限定;③特定期刊的限定。

擴(kuò)檢與縮檢是檢索過程中經(jīng)常面臨的問題。在聯(lián)機(jī)檢索時(shí),由于機(jī)時(shí)的限制,用戶應(yīng)該在上機(jī)前就擬定好擴(kuò)檢與縮檢的策略,也就是說,在擬定檢索策略時(shí),應(yīng)該同時(shí)考慮如命中文獻(xiàn)太少或太多時(shí)如何處理的辦法。否則,會(huì)大大增加機(jī)時(shí),而且不易得到滿意的果。第21頁,課件共51頁,創(chuàng)作于2023年2月檢索效果的評(píng)價(jià)

檢索效果是指利用檢索系統(tǒng)(或工具)開展檢索服務(wù)時(shí)所產(chǎn)生的有效結(jié)果。計(jì)算機(jī)檢索效果如何,直接反映檢索系統(tǒng)的性能,影響系統(tǒng)在信息市場上的競爭能力和用戶的利益。

一、評(píng)價(jià)的目的、范圍

評(píng)價(jià)系統(tǒng)的檢索效果,是為了準(zhǔn)確地掌握系統(tǒng)的各種性能和水平,找出影響檢索效果的各種因素,以便有的放矢,改進(jìn)系統(tǒng)的性能。檢索效果包括技術(shù)效果和社會(huì)經(jīng)濟(jì)效果兩個(gè)方面。技術(shù)效果主要是指系統(tǒng)的性能和服務(wù)質(zhì)量,系統(tǒng)在滿足用戶的信息需要時(shí)所達(dá)到的程度。社會(huì)經(jīng)濟(jì)效果是指系統(tǒng)如何經(jīng)濟(jì)有效地滿足用戶需要,使用戶或系統(tǒng)本身獲得一定的社會(huì)和經(jīng)濟(jì)效益。因此,技術(shù)效果評(píng)價(jià)又稱為性能評(píng)價(jià)。社會(huì)經(jīng)濟(jì)效果評(píng)價(jià)則屬于效益評(píng)價(jià),而且要與費(fèi)用成本聯(lián)系起來,比較復(fù)雜。第22頁,課件共51頁,創(chuàng)作于2023年2月二、評(píng)價(jià)標(biāo)準(zhǔn)判定一個(gè)檢索系統(tǒng)的優(yōu)劣,主要從質(zhì)量、費(fèi)用和時(shí)間三方面來衡量。因此對(duì)計(jì)算機(jī)信息檢索的效果評(píng)價(jià)也應(yīng)該從這三個(gè)方面進(jìn)行。質(zhì)量標(biāo)準(zhǔn)主要通過查全率與查準(zhǔn)率進(jìn)行評(píng)價(jià)。費(fèi)用標(biāo)準(zhǔn)即檢索費(fèi)用是指用戶為檢索課題所投入的費(fèi)用。時(shí)間標(biāo)準(zhǔn)是指花費(fèi)時(shí)間,包括檢索準(zhǔn)備時(shí)間、檢索過程時(shí)間、獲取文獻(xiàn)時(shí)間等。查全率和查準(zhǔn)率是判定檢索效果的主要標(biāo)準(zhǔn),而后兩者相對(duì)來說要次要些。

查全率是指系統(tǒng)在進(jìn)行某一檢索時(shí),檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文獻(xiàn)庫中相關(guān)文獻(xiàn)總量的比率,它反映該系統(tǒng)文獻(xiàn)庫中實(shí)有的相關(guān)文獻(xiàn)量在多大程度上被檢索出來。第23頁,課件共51頁,創(chuàng)作于2023年2月查全率=[檢出相關(guān)文獻(xiàn)量/文獻(xiàn)庫內(nèi)相關(guān)文獻(xiàn)總量]×100%

查準(zhǔn)率是指系統(tǒng)在進(jìn)行某一檢索時(shí),檢出的相關(guān)文獻(xiàn)量與檢出文獻(xiàn)總量的比率,它反映每次從該系統(tǒng)文獻(xiàn)庫中實(shí)際檢出的全部文獻(xiàn)中有多少是相關(guān)的。

查準(zhǔn)率=[檢出相關(guān)文獻(xiàn)量/檢出文獻(xiàn)總量]×100%查準(zhǔn)率是用來描述系統(tǒng)拒絕不相關(guān)文獻(xiàn)的能力,有人也稱查準(zhǔn)率為“相關(guān)率”。查準(zhǔn)率和查全率結(jié)合起來,描述了系統(tǒng)的檢索成功率。實(shí)際上,影響檢索效果的因素是非常復(fù)雜的。根據(jù)國外有關(guān)專家所做的實(shí)驗(yàn)表明,查全率與查準(zhǔn)率是呈反比關(guān)系的。要想做到查全,勢(shì)必會(huì)要對(duì)檢索范圍和限制逐步放寬,則結(jié)果是會(huì)把很多不相關(guān)的第24頁,課件共51頁,創(chuàng)作于2023年2月

文獻(xiàn)也帶進(jìn)來,影響了查準(zhǔn)率。企圖使查全率和查準(zhǔn)率都同時(shí)提高,不是很容易的。強(qiáng)調(diào)一方面,忽視另一方面,也是不妥當(dāng)?shù)摹?yīng)當(dāng)根據(jù)具體課題的要求,合理調(diào)節(jié)查全率和查準(zhǔn)率,保證檢索效果。三、影響檢索效果的因素

查全率與查準(zhǔn)率是評(píng)價(jià)檢索效果的兩項(xiàng)重要指標(biāo)。查全率和查準(zhǔn)率與文獻(xiàn)的存儲(chǔ)與信息檢索兩個(gè)方面是直接相關(guān)的,也就是說,與系統(tǒng)的收錄范圍、索引語言、標(biāo)引工作和檢索工作等有著非常密切的關(guān)系。第25頁,課件共51頁,創(chuàng)作于2023年2月1.影響查全率的因素

影響查全率的因素從文獻(xiàn)存儲(chǔ)來看,主要有:文獻(xiàn)庫收錄文獻(xiàn)不全;索引詞匯缺乏控制和專指性;詞表結(jié)構(gòu)不完整;詞間關(guān)系模糊或不正確;標(biāo)引不詳;標(biāo)引前后不一致;標(biāo)引人員遺漏了原文的重要概念或用詞不當(dāng)?shù)取4送猓瑥那閳?bào)檢索來看,主要有:檢索策略過于簡單;選詞和進(jìn)行邏輯組配不當(dāng);檢索途徑和方法太少;檢索系統(tǒng)不具備截詞功能和反饋功能第26頁,課件共51頁,創(chuàng)作于2023年2月

2.影響查準(zhǔn)率的因素

影響查準(zhǔn)率的因素主要有:索引詞不能準(zhǔn)確描述文獻(xiàn)主題和檢索要求;組配規(guī)則不嚴(yán)密;選詞及詞間關(guān)系不正確;標(biāo)引過于詳盡;組配錯(cuò)誤;檢索時(shí)所用檢索詞(或檢索式)專指度不夠,檢索面寬于檢索要求;檢索系統(tǒng)不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數(shù)量有限;截詞部位不當(dāng),檢索式中使用邏輯“或”不當(dāng)?shù)鹊取?/p>

第27頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用第三節(jié)網(wǎng)絡(luò)信息搜索1實(shí)用網(wǎng)絡(luò)搜索技巧/搜索技巧實(shí)用網(wǎng)絡(luò)搜索技巧

通過互聯(lián)網(wǎng)獲取信息,如何避免在浩瀚的互聯(lián)網(wǎng)海洋中迷失方向,掌握一些基本的網(wǎng)上搜索技巧可以說是必需的。1.1基本搜索技巧1、使用邏輯詞輔助查找比較大的搜索引擎都支持使用邏輯詞進(jìn)行更復(fù)雜的搜索界定,常用的有:AND(和)、OR(或)、NOT(否)及NEAR(兩個(gè)單詞的靠近程度),恰當(dāng)應(yīng)用它們可以使搜索結(jié)果非常精確。另外,也可以使用括號(hào)將搜索詞分別組合,如[(新聞OR足球)AND米蘭)NOT(“新聞”O(jiān)R足球]。2、使用雙引號(hào)進(jìn)行精確查找如果查找的是一個(gè)詞組或多個(gè)漢字,最好的辦法就是將它們用雙引號(hào)括起來,這樣得到的結(jié)果最少、最精確。第28頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用3、有針對(duì)性地選擇搜索引擎用不同的搜索引擎進(jìn)行查詢得到的結(jié)果常常有很大的差異,這是因?yàn)樗鼈兊脑O(shè)計(jì)目的和發(fā)展走向存在著許多不同,有的專用于USENET的搜索引擎,而有的則是針對(duì)郵遞列表或IRC等的搜索引擎。使用時(shí)要根據(jù)自己的需要選擇合適的搜索引擎。4、使用加減號(hào)限定查找很多搜索引擎都支持在搜索詞前冠以加號(hào)“+”限定搜索結(jié)果中必須包含的詞匯,用減號(hào)“-”限定搜索結(jié)果不能包含的詞匯。5、細(xì)化查詢?cè)S多搜索引擎都提供了對(duì)搜索結(jié)果進(jìn)行細(xì)化與再查詢的功能,如有的搜索引擎在結(jié)果中有“查詢類似網(wǎng)頁”的按鈕,還有一些則可以對(duì)得到的結(jié)果進(jìn)行新一輪的查詢。第29頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用6、根據(jù)要求選擇查詢方法如果需要快速找到一些相關(guān)性比較大的信息,可以使用目錄式搜索引擎的查找功能。如果想得到某一方面比較系統(tǒng)的資源信息,可以使用目錄一級(jí)一級(jí)地進(jìn)行查找。如果要找的信息比較冷門,應(yīng)該用比較大的全文搜索引擎查找。7、注意細(xì)節(jié)在Internet上進(jìn)行查詢時(shí)如果能注意一些細(xì)節(jié)問題,常常能增加搜索結(jié)果的準(zhǔn)確性,如許多搜索引擎都區(qū)分字母的大小寫,因此,如果你正在搜索人名或地名等關(guān)鍵詞,應(yīng)該正確使用它們的大小寫字母形式。8、利用選項(xiàng)界定查詢目前越來越多的搜索引擎開始提供更多的查詢選項(xiàng),利用這些選項(xiàng)人們可以輕松地構(gòu)造比較復(fù)雜的搜索模式,進(jìn)行更為精確的查詢,并且能更好地控制查詢結(jié)果的顯示。第30頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用1.2快速搜索技巧網(wǎng)上的信息搜索技術(shù)越來越多,怎樣才能高效迅速地找到問題的答案呢?有幾種技術(shù)可以幫助你更加快捷地找到所需網(wǎng)頁。沒有一種技術(shù)是萬能的,但將幾種技術(shù)巧妙地結(jié)合起來使用會(huì)大大加快網(wǎng)頁搜索進(jìn)程。1、搜索詞組如果只給出一個(gè)單詞進(jìn)行搜索,經(jīng)常會(huì)出現(xiàn)數(shù)以千計(jì)甚至以百萬計(jì)的匹配網(wǎng)頁。然而如果再加上一個(gè)單詞,那么搜索結(jié)果會(huì)更加切題。在搜索時(shí),給出兩個(gè)關(guān)鍵詞,并將兩個(gè)詞用AND(與邏輯)結(jié)合起來,或者在每個(gè)詞前面加上加號(hào)“+”,這種與邏輯技術(shù)大大地縮小了搜索結(jié)果的范圍,從而加快了搜索。幸運(yùn)的是,所有主要的搜索引擎都使用同樣的語法。一個(gè)帶引號(hào)的詞組意味著只有完全匹配該詞組(包括空格)的網(wǎng)頁才是要搜索的網(wǎng)頁。把這幾種符號(hào)結(jié)合起來使用,能大大提高搜索效率。第31頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用2、選擇詞組一般說來在網(wǎng)頁搜索引擎中,用詞組搜索來縮小范圍從而找到搜索結(jié)果是最好的辦法。但是,運(yùn)用詞組搜索涉及到如何使用一個(gè)詞組來表達(dá)某一具體問題。有時(shí)簡單地輸入一個(gè)問題作為詞組就能奏效,然而簡單明了地提問方法只對(duì)一部分搜索奏效。選擇合適的詞組對(duì)提高搜索效率是很重要的,實(shí)在找不出時(shí)可以試試下面的方法。3、查找信息源有時(shí)詞組搜索太精確或者一個(gè)詞組無法準(zhǔn)確表達(dá)所需信息。那么可以直接到信息源,這種技術(shù)“簡單得似乎不值一提”,但卻很有效。根本不用搜索引擎,直接到提供某種信息組織的站點(diǎn)去。很多時(shí)候我們可以用公式“www.公司名.com”去猜測(cè)某一組織的特點(diǎn)。從而得到所要搜索的信息的主要詞組。第32頁,課件共51頁,創(chuàng)作于2023年2月信息檢索在數(shù)學(xué)建模中的應(yīng)用一.數(shù)字圖書資源的檢索使用較通用的數(shù)字超星關(guān)鍵詞:數(shù)學(xué)建模

書目二.電子期刊資源的檢索使用中國期刊全文數(shù)據(jù)庫問題一:2009C題衛(wèi)星和飛船的跟蹤測(cè)控方法一:根據(jù)篇名

衛(wèi)星

衛(wèi)星跟蹤

第33頁,課件共51頁,創(chuàng)作于2023年2月方法二:分析關(guān)鍵詞閱讀材料,我們列出以下關(guān)鍵詞.

衛(wèi)星軌道共面區(qū)域覆蓋另外,我們還需要了解收集我國一個(gè)衛(wèi)星或飛船的運(yùn)行資料和發(fā)射時(shí)測(cè)控站點(diǎn)的分布信息

衛(wèi)星運(yùn)行發(fā)射

書目信息

測(cè)控站點(diǎn)分布問題二:高等教育學(xué)費(fèi)標(biāo)準(zhǔn)探討分析關(guān)鍵詞:高等教育學(xué)費(fèi)

書目信息1

書目信息2第34頁,課件共51頁,創(chuàng)作于2023年2月數(shù)學(xué)建模常用網(wǎng)站:

1、中國大學(xué)生數(shù)學(xué)建模競賽:

/

2、數(shù)學(xué)中國:

/index.html

3、中國數(shù)學(xué)建模網(wǎng):

/home/

4、中國工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì):

/

5、中國數(shù)學(xué)資源網(wǎng):

/

6、蘇北數(shù)學(xué)建模聯(lián)賽:

/

7、國際賽:

/

第35頁,課件共51頁,創(chuàng)作于2023年2月

8、山東大學(xué)數(shù)學(xué)建模網(wǎng):

/

9、賽才網(wǎng)數(shù)學(xué)建模論壇:

/bbs/

1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論