




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1Chap1信息檢索序論
1-1信息社會中的信息檢索
1-2信息檢索的概念和類型
1-3信息檢索的基本原理
1-4信息檢索新編年
思考題21-1信息社會中的信息檢索一、信息進入視野成為論域二、信息社會的基本特征三、信息檢索教學的主要意義四、信息檢索教學的基本內容附錄:有關《信息檢索與利用》文件3
一、信息進入視野成為論域1、信息的概念2、信息的基本特征3、信息的基本類型41、信息·日常生活概念在日常生活中,信息與符號、數據、消息、事實、新聞、情報、知識等概念混用,核心義項是消息。李中(924~975)在《碧云集》之《暮春懷故人》一詩中最早提出了“信息”一詞。符號是指人類感官接受外界刺激后,大腦中產生的刺激的組合;數據是各種事實、數字和字符等符號的集合;信息是指語法特征上相互關聯的數據對象的集合;知識是有語法、語義關聯的信息結構;而智能則是知識精華的集合。5信息·科學概念科學概念根植于理性的理論框架中,并與不定性、概率、熵、有序化、變異度等概念密切相關。L.V.R.Hartley:信息是選擇的自由度(1928);C.E.Shannon:信息是用來減少隨機不定性的東西(1948);N.Wiener:信息是指人們適應外部世界,并使這種適應為外部世界所感知的過程中,同外部世界交換的東西的名稱(1948);L.Brillouin:信息就是負熵,是系統組織結構和有序程度的度量(1951);W.R.Ashby:信息是集合的變異度(1956)。
一般說來,設隨機事件X(x1,x2,…,xn),每個事件(狀態)發生的概率為P(p1,p2,…,pn),那么這一隨機事件提供的信息量為I(xi)=﹣㏒Pi,而整個信源的信息熵為H(X)=﹣∑Pi㏒Pi。6信息·哲學概念在對信息進行哲學探討時,信息與物質、能量、運動、反映、意識等概念息息相關。信息是一切事物運動狀態和方式的表象或表征。這里,“事物”泛指一切可能的研究對象,可以是外部世界的物質客體,也可以是主觀世界的精神現象;“運動”泛指一切意義上的變化;“運動狀態”是指事物運動在空間上所展現的性狀和態勢,是事物的靜態特征;“運動方式”則是指事物運動在時間上所呈現的過程和規律,是事物的動態特征。“表象”說明信息并不是事物本身;而“表達”則是認識論上的主體所感知并能夠表示的、與人類生活有關的東西,這是上述本體論意義上的信息引入認識主體這一約束條件后的產物。72、信息的基本特征和屬性
普遍性與無限性
客觀性與相對性
抽象性與依附性
動態性與異步性
傳遞性與共享性8普遍性。信息是物質的普遍屬性,是物質運動的狀態和方式。信息的物質性以及物質的普遍性決定了信息的普遍存在性。無限性。物質的更替和人事的代謝無窮無盡,信息因此是無限的;即使在有限的時空中,由于物質的多樣性和物質運動的連續性,信息也是無限的。信息無限性的重要表現是信息的多樣性和衍生性:就多樣性而言,它一方面表現為信息的內容范圍無所不包的多樣性,另一方面表現為同一信息的表述、表達方式的多樣性。就衍生性而言,信息的信息仍然是信息;觀察的結果是信息,關于觀察結果的表述是信息,關于觀察結果的描述作為文獻的內容也是信息,而關于該文獻的目錄索引還是信息,……信息的信息,可以形成無窮無盡的衍生鏈帶。9客觀性。信息的客觀性源于客觀存在的物質運動的特征。信息不是虛無飄渺的東西,也不是可以隨意想象和“創造”的事物,它是現實世界各種事物運動的狀態和方式,有非常具體和真實的品格。各類信息的表達、存貯、傳遞、轉換和利用等都必須以客觀存在的物質載體為依托。相對性。由于認識能力、認識目的及其所儲備的先驗信息各不相同,各個認識主體從同一事物中獲取的信息及信息量(實得語法信息量、實得語義信息量和實得語用量)并不相同。假定事物X的實在信息量I(X)是常數,在這樣的條件下,第i個觀察者Ri的實得信息量I(X;Ri)就為:I(X;Ri)=I(X)-Io(X;Ri)。既然各個觀察者的先驗信息量Io(X;Ri)各不相同,它們的實得信息量當然也就各有差異。10抽象性。信息本身是看不見摸不著的,我們所能夠看得見摸得著的只是信息載體(包括語言、文字、圖畫、符號、紙張、磁帶和光盤等)而非信息內容。依附性。任何信息都必須以某種物質的特定的運動形式表現出來,即信息必須依附于一定的物質載體上,用文字、語言、圖像、符號等把信息記錄下來,并寄載在紙張、磁帶、膠卷和光盤等介質上,通過聲波、光波、電波等物質載體進行傳遞。信息的依附性是抽象性的延伸,是信息具有可傳遞性、可轉換性、可貯存性和可處理性的基礎,是信息能夠實際利用的前提;正是因為有了這些載體,信息才能變為一種廣泛的資源和財富。11動態性,或稱信息的時效性。信息的時效是指信息從產生、傳遞到接收利用的時間間隔及效率,而時效性就是指信息的內容和信息量大小都會隨時間的變化而不斷得到更新、充實、積累或取舍。在我們考察物質運動規律時,所取的空間界面和時間區段不同,所得到的有關信息的時效就會有所不同。異步性。異步性是動態性的延伸,包括滯后性和超前性兩個方面。信息脫離源物質后需要經過輸入、處理、傳遞和輸出等過程才能為人們所理解和掌握,而此時源物質已發生新的變化,這些信息因而就成為“過時”的信息,它們所反映的已是某一時刻之前的源物質運動的狀態和方式。換言之,任何信息總是產生、傳遞在事實之后,即先有事實而后有關于該事實方面的信息等,這是由于人的認識與客觀事物運動的異步性造成的,并導致信息都有一定的滯后性和不完全性。另一方面,人們在掌握大量信息的基礎上,又可以通過計劃、預測等方式測知未來的信息,超前于現實,因而信息又具有超前性。12傳遞性。信息傳遞的實質就是一種事物的運動狀態與方式脫離源物質而附著于另一事物,并通過后者的運動將這種狀態與方式在時空上從一點傳遞到另一點。信息的傳遞總是同物質的運動和能量的轉換聯系在一起。信息傳遞經歷了點-點、點-面、面-面的發展模式。共享性。指同一內容的信息,可以在同一時間內為眾多的使用者所接收和使用,當信息從傳者轉移到受者時,傳者不會因此丟失信息。⑴信息共享實現的條件在于信息對于物質依附性的相對性,即同一信息可以采用多種相同的或不同的物質載體及其運動形式構成。
⑵信息共享的基礎在于信息存在的普遍性和信息價值的非對稱性。信息產品的使用價值是一個點集或面,其價值和使用價值具有非對稱性;而物質產品的使用價值在同一時刻僅為一個點,且遵循等值交換原則。⑶信息共享的意義在于它從根本上改變了人類對資源的態度和方式。⑷不同的信息在共享范圍和程度上是有差異的。13
3、信息的基本類型3、1以認識主體為依據對信息進行的劃分3、2以信息的生成領域對信息進行的劃分3、3以信息的媒體形式對信息進行的劃分3、4以信息的邏輯意義對信息進行的劃分143、1以認識主體為依據對信息進行的劃分客觀信息,是指對事物不加判斷的如實和公正的報道,即關于認識對象的信息。主觀信息,一般是依據事實和分析,闡明個人對論題的觀點和見解,是經過思維主體加工的信息。153、2以信息的生成領域對信息進行的劃分自然信息,非生命物質的自然信息,是無機界事物屬性及事物之間內在聯系的表征。自然信息是融合式的、特殊的、彌漫的。生物信息,包括生物與外界聯系時做出的反應以及生物體內傳遞的信息。生物信息是信號形態的信息。社會信息,人類活動和社會發展的信息以及人類接收并破譯的自然信息。它以符號信息為特征。思維信息,以人腦為載體,以語言為外殼,以各種感覺器官為接收器,對各種外界信息進行加工、轉換,并實現思維分析、語言表達的過程。思維信息是社會信息運動的主體源泉,而社會信息則是思維信息運動的外化和現實化的結果。163、3以信息的媒體形式對信息進行的劃分文本信息。按線性順序排列的,閱讀時,人們跟隨文本的線性流向吸收其中的知識單元。超文本信息。按知識單元及其關系建立的知識結構網絡。其數據庫由結點和鏈路組成,查閱超文本信息時,以知識片段及其關系作為追蹤、檢索的依據。多媒體信息。多媒體是包括文本、圖像和聲音在內的各種信息表達或傳播形式的總稱。多媒體信息系統能針對用戶的需求提供各種形式的信息。超媒體信息。是指通過計算機控制,把各種文獻載體和各種內容綜合為一個整體,從而向讀者提供各種形式和各種內容的資料。超媒體是超文本與多媒體兩種技術的結合,即在信息瀏覽環境下超文本的信息管理方式與多媒體的信息表現方法結合在一起時,就稱為超媒體。173、4以信息的邏輯意義和利害關系劃分有益信息:對社會發展有積極作用的、能夠消除人們對未知事物不確定性的信息,它是人類社會的資源和財富。無用信息:指對信息使用者所從事的某種活動沒有作用的、多余的信息。衡量無用信息可以使用以下
3個指標:一是德國文獻學家瓦斯提出的廢頁率。二是美國信息科學家彭德爾伯里和加菲爾德等提出的不引率。三是信息冗余度,即信息中超出完整要求而在傳遞中屬于多余的內容。信息的冗余度R=1-H/Hmax。有害信息:指對社會發展和信息用戶有消極和阻礙作用的不真實或庸俗、媚俗的信息,主要有虛假信息和色情信息等。18
4、信息與知識、情報、文獻的關系
4、1信息與知識
4、2信息與情報
4、3信息與文獻
4、4
聯系與轉換194、1信息與知識知識是人類認識的成果,它是在實踐的基礎上產生又經過實踐檢驗的對客觀實際的反映。人們在日常生活、社會活動和科學研究中所獲得的對事物的了解,其中可靠的成分就是知識。依照反映對象的深刻性和系統性程度,知識分為生活常識和科學知識;按知識的成熟程度,分為經驗知識、理論知識。除了一部分基礎知識外,大部分都是專門知識,是關于某個領域、某個主題、某種思想方法、某門科學、某種技術、某種價值體系、某種社會組織形式的認識。知識具有意識性、信息性、實踐性、規律性、繼承性和滲透性等基本屬性。204、2信息與情報
/4、3信息與文獻情報是指被傳遞的知識或事實,其概念和功能尚在發展中。古代,情報是指“戰時關于敵情的報告”。20世紀90年代以來,大情報觀逐步確立,情報概念被認為是人類社會中傳遞的信息。情報3性:知識性、傳遞性和效用性。情報按應用范圍分為科學情報、經濟情報、技術情報、軍事情報、政治情報等;按內容及其作用分為戰略情報、戰術情報等等。文獻是記錄有知識的一切載體。文獻是在時間上、空間內用符號和載體積累和傳播情報的最有效的手段。214、4聯系與轉換聯系:⑴信息概念不僅包括人與人之間的消息的交換,而且還包括人機之間、機器與機器之間的消息交換,以及動、植物界信號的交換。⑵知識是人類通過加工吸收信息,對自然界、人類社會以及思維方式與運動規律的認識與掌握,是人的大腦通過思維重新組合的系統化信息的集合。⑶情報屬于人工信息的范疇,信息和知識都它的來源。轉換:⑴物質運動發出信息;⑵信息經人腦加工變成知識;⑶知識被記錄形成文獻、被傳遞成為情報;⑷情報應用于實踐產生新的信息、失去時效又還原為知識和信息。
發出大腦加工事物信息知識
反饋傳遞利用存貯情報傳遞利用文獻22
二、信息社會的基本特征1、信息數量的激增。2、信息職業的擴大。信息業成為經濟發展中的基干產業,從事信息業的人數占社會勞動力的多數。3、信息資源的顯化。信息與能源、材料并駕齊驅、甚至成為更重要的戰略資源。我們把一個社會從以材料、能源即物質為基礎向以信息、材料和能源并立而信息更具有基礎性的發展態勢,稱之為社會信息化。4、信息應用的泛化。信息技術和信息產品深入到日常生活中。決策科學化、生活多樣化、權力分散化和技術綜合化等等都與信息網絡的發展息息相關。5、信息意識的強化。信息意識是指對有關信息、知識和情報具有高度的敏感性和洞察力,并且及時對其進行分析、聯想、綜合、推理等,從而判斷該信息是否能為自己或某一團體所用,是否能解決現實中某一特定問題等一系列思維過程。主要包括對信息功能的認同意識,對信息來源的選擇意識,對信息內涵的同構-再生意識,對信息的檢索、利用和開發意識等。23三、信息檢索教學的主要意義1、一個平臺:培養學生的信息意識,提高其自學能力和獨立研究的能力。1992年國家教委高教司在《文獻檢索課教學基本要求》的通知中指出:“文獻檢索課是培養學生掌握利用圖書文獻/情報檢索,不斷提高自學能力和科研能力的一門科學方法課。”
2、一個引擎:促進信息資源的開發利用,使文獻信息機構成為社會信息化發展的智力引擎。信息資源是人類最寶貴的智慧資源,具有可再生性、可建設性、價值的潛在性等特征,是人類所有依賴的資源中最重要的資源。隨著自然資源的日益減少甚至枯竭,信息資源的重要性表現得更為明顯。3、一個工具:避免科研勞動的重復浪費,協助管理者做出正確的決策。24四、信息檢索與利用教學的基本內容1、信息檢索的基本知識:文獻、情報、知識、信息的概念;不同文獻類型的特點;專業文獻概況及主要收藏單位;情報與InformationLiteracy對科學活動及個人知識增殖的作用;文獻檢索的意義和作用。2、信息檢索的基本原理:信息檢索類型、檢索程序和方法;檢索語言與排檢法;檢索工具和參考工具書的類別、特點、功用及其結構;數據庫、計算機檢索的基本策略。3、信息檢索的基本技能:①掌握若干種基本的綜合性和專業性中外文檢索工具,了解其內容特點、結構和著錄格式,能夠通過多種途徑使用它們檢索和專業相關的不同類型的文獻。②掌握若干種主要綜合性和專業性參考工具書,了解其內容特點、適用范圍和查閱方法,能夠使用它們進行事實檢索和數據檢索。③初步掌握機檢方法,包括選擇數據庫、制訂檢索策略、分析檢索結果。④能夠獨立地根據檢索課題選用適當的檢索工具,并綜合使用多種檢索工具和參考工具書完成檢索課題。⑤掌握獲取原始文獻的主要方法。4、信息利用的基本素質:掌握科學研究的基本方法,熟悉學位論文的要求;掌握一定的文獻閱讀、整理和分析研究的基本方法和技能,具備初步的科學研究方法與研究論文的寫作能力等。2024/3/2025一、信息檢索的概念信息檢索是指知識的有序化識別和查找的過程。1、信息檢索是信息獲取的一種主要方式。2、信息檢索萌芽于圖書館的參考工作。3、信息檢索是人類信息活動的高層次,包括存與取兩個環節。4、信息檢索的本質是一種通訊。5、信息檢索是一個發展中的概念。信息檢索“就是最終用戶借助信息源(或知識源)、推理機,通過人-機、機-機或人-人等系統之間的交互聯作,以期達到啟迪的認知結構動態的建構過程”。2024/3/2026CalvinN.Mooers,1919~1994
穆爾斯(CalvinN.Mooers,1919~1994)在1948
年提出此術語時,把它定義為一種“延時性通訊形式”。其特點是:發信者在某一時刻發出信息,而接收者可以在晚一些時刻才收到該信息;發信者必須發出一切可能的信息,而接受者必須有某種檢索裝置以便從大量發送的信息中篩選出適合自己需要的信息。Mooerscoinedtheterms"informationretrieval"anddescriptors"inhisMITMaster'sthesisin1948.HethenwentontodeveloptheZatocodingsystemofsuperimposedrandomcoding.MooersfirstdevelopedtheTRACprogramminglanguagebetween1959-1964.Mooerswasanearlyadvocateoftheuseofintellectualpropertylaw,includingcopyrightandpatents,toprotectcomputerprogramminglanguages.2024/3/2027二、信息檢索的類型1、按照存貯與檢索的對象進行劃分2、按照存儲的載體和查找的技術手段進行劃分3、按照存貯文獻的時間進行的劃分4、按照檢索系統的結構進行的劃分2024/3/20281、按照存貯與檢索的對象進行劃分1、1Documentretrieval:以文獻為檢索對象的信息檢索,是指將文獻按一定的方式存貯起來,然后根據需要從中查出有關課題或主題文獻的過程。書目檢索:以文獻線索為檢索對象。換言之,檢索系統存貯的是書目、專題書目、索引和文摘等二次文獻。全文檢索:以文獻所含的全部信息作為檢索內容,即檢索系統存貯的是整篇文章或整部圖書。1、2Dataretrieval:以具有數量性質并以數值形式表示的數據為檢索內容的信息檢索,或稱數值檢索。1、3Factretrieval:以文獻中抽取的事項為檢索內容的信息檢索,或稱“事項檢索”。2024/3/20292、按照存儲的載體和查找的技術手段進行劃分2、1Manualretrieval:用人工方式查找所需信息的檢索方式。2、2Mechanicalretrieval:利用某種機械裝置來處理和查找文獻的檢索方式。穿孔卡片檢索:Punchcard是一種由薄紙板制成的、用孔洞位置表示信息,通過穿孔或軋口方式記錄和存儲信息的方形卡片。縮微品檢索:把檢索標識變成黑白點矩陣或條形碼,存儲在縮微膠片或膠卷上,利用光電效應,通過檢索機查找。2、3Computer-basedretrieval2024/3/20302、3Computer-basedretrieval計算機檢索是指把信息及其檢索標識轉換成電子計算機可以閱讀的二進制編碼,存儲在磁性載體上,由計算機根據程序進行查找和輸出。脫機檢索:成批處理檢索提問的計算機檢索方式。聯機檢索:檢索者通過檢索終端和通信線路,直接查詢檢索系統數據庫的機檢方式。1964年,美國國家醫學圖書館開始MEDLARS聯機情報檢索系統商品服務。光盤檢索:以光盤數據庫為基礎的一種獨立的計算機檢索,包括單機光盤檢索和光盤網絡檢索兩種類型。1983年首張高密度只讀光盤存儲器誕生;1984年美國、日本和歐洲開始利用CD-ROM存貯科技文獻。網絡檢索:利用E-mail、FTP、Telnet、Archie、WAIS、Gopher、Veronica、WWW等檢索工具,在Internet等網絡上進行信息存取的行為。2024/3/20313、按照存貯文獻的時間進行的劃分3、1SelectiveDisseminationofInformation:它是預先把用戶需要的有關文獻存貯在計算機的存貯器中,定期按用戶提問要求從存貯器中檢索出用戶所需要的最新文獻,發給用戶,使用戶能定期得到所需要的文獻信息。3、2RetrospectiveSearch:它是根據用戶提出的課題,提供某一時間以前文獻的檢索方式。2024/3/2032一、信息檢索的基本原理檢索的基本原理:對信息集合與需求集合的匹配和選擇。個人問題特征化選擇與特征化信息與知識表示匹配D&I表示集合I需求集合D2024/3/2033信息檢索基本過程可定義為一個四維組,即S=(D,Q,T,δ)。D為文獻集合,Q為用戶查詢,T是標引集合,而δ為匹配函數。δ:D/×Q/→R,D/是標引的文獻集合,Q/是標引的查詢集合,R為函數值集合。每個具體的δ值就表示具體的文獻d關于某次查詢q的相關程度。(借助于檢索語言)信息處理中心σ查尋Q標引Q’輸出ψ(q)文獻D標引D’2024/3/2034二、信息檢索基本原理的闡釋1、需求集合2、信息集合3、匹配與選擇2024/3/20351、需求集合需求集合涉及人類生存所必需的一切東西,其中包括信息需求。信息需求的結構與規律。⑴信息需求是一種運動狀態,并表現為三個層次結構。⑵信息需求的心理行為規律包括Mooers定律、Zipf最少省力法則、馬太效應和羅賓漢效應。⑶學生信息需求特征。信息需求的識別與表達。信息需求的處理與加工。即采用特定的檢索語言將信息需求表示出來,換言之,將檢索問題或課題進行處理,抽取出主題內容或其他特征。經過這樣處理的信息需求稱之為Query。2024/3/20362、信息集合信息集合是指有關某一領域的文獻或數據的集合。信息集合的復雜性。信息集合的序化。Accesspoint。每件信息都包含有其內部和外部的特征即信息的屬性,這些特征可以用來作為檢索的出發點和匹配的依據。我們稱之為檢索點。2024/3/20373、匹配與選擇匹配與選擇是一種機制,它負責把需求集合與信息集合進行相似性比較,然后根據一定的標準選出符合需要的信息。采用布爾模型,一個文檔通過一個關鍵詞條的集合來表示,這些詞條來自一個詞典。在查詢與文檔的匹配過程中,主要看該文檔中的詞條是否滿足查詢的條件。采用向量模型,計量文檔向量與查詢詞串之間的相似度。采用概率論模型,將文檔按照與查詢的概率相關性的大小進行排序,排在最前面的文檔是最有可能被獲取的文檔。此外,還可以采用神經網絡模型、基于命題邏輯模型、聚類模型、基于規則模型、模糊模型和語義模型等,來深入研究查詢與文檔之間的匹配過程。2024/3/2038
討論題Topic你了解哪些信息需求和信息系統?Topic你在學習方面的信息需求的分布狀況(按降序或升序排列)?Topic你查尋信息的基本途徑有哪些?2024/3/2039Topic你了解哪些信息需求和信息系統?由于父母培養孩子的方法不當,尤其是在最初三年間,許多孩子不能充分發揮其潛力信息經濟日新月異,但西北地區的信息水平卻很低。孩子教育費用、撫育費用逐年變化情況。肚子餓了,想在蘭州市找家飯店卻無法弄清孰好孰壞。2024/3/2040Topic你在學習方面的信息需求的分布狀況?類型上:教科書、專著、工具書、研究報告、專利文獻等;內容上:專業文獻、課外讀物(文學、管理、經濟、政治等)等;地域上:本單位、外單位、外地等;語種上:中文、外文、少數民族文字等。2024/3/2041Topic你查尋信息的基本途徑有哪些?檢索即是一種交流,它可以是內向的,也可以是外向的。2、同行同事3、中介4、技術5、已記載的知識1、生存環境1、文獻信息檢索階段(前兩千年~1954)。
公元前兩千年,類似文摘的東西首先出現在封裝美索不達米亞人用楔形文字寫成的文獻的陶制封套上。2、脫機信息檢索階段(1954~1964)。1954年,美國海軍軍械實驗站圖書館研制出計算機信息檢索試驗系統。3、
聯機信息檢索階段(1964~1972)。1964年,美國醫學圖書館開始了MEDLARS聯機信息檢索系統商業化服務,使計算機信息檢索進入了新的歷史發展階段。4、網絡信息檢索階段(1972~目前)。1972年,MEDLINE率先加入TYMNET通信網,然后又加入TELENET通信網。隨后,DIALOG、ORBIT等系統也相繼進入網絡,從而使信息檢索進入到網絡檢索階段。5、光盤信息檢索階段(1985~目前)。1985年,第一張商品化的CD-ROM數據庫Bibliofile,即美國會圖書館的MARC問世,標志著光盤信息檢索異軍突起,并大有與網絡信息檢索平分秋之勢。43
信息源概念與類型1、信息源的概念與一般特征信息源是指能夠提供信息、滿足人類信息需求的來源,凡是人類能夠獲取信息的實體都是信息的來源。信息源具有結構上的多樣性和功能上的互補性。2、信息源的基本類型與特點口頭信息源實物信息源機構信息源文獻信息源44口頭信息源與實物信息源口頭信息源:傳播口頭信息的個人或場合。口頭信息源具有廣泛性、針對性、適時性、隨意性和層次性等特點。實物信息源:載有信息內容的各種實際物體的總稱。實物信息源具有真實性、綜合性、直觀性、間接性和商品性等特點。45機構信息源與文獻信息源機構信息源:傳播信息和提供信息的社會機構。⑴創造信息的機構:學術機構和團體、高校、科研單位和政府部門等;⑵生產信息的機構:出版發行機構、編輯部、報社等;⑶研究信息的機構:信息研究所、數據中心、咨詢中心等;⑷傳播信息的機構:大眾傳媒,如電視臺、廣播電臺等;⑸收藏信息的機構:圖書館、文獻中心、資料室、檔案館等。文獻信息源:記錄和傳播信息的各類文獻,是信息源的主體和檢索的主要對象。文獻信息源具有交流性、積累性、社會性、時效性和可整理性等特點。46
2-1初識文獻
一、文獻概念二、文獻要素三、文獻資源四、經濟管理文獻47一、文獻概念:文獻是記錄有知識和
信息的一切載體“文獻”一詞最早見于《論語·八佾》,“夏禮吾能言之,杞不足徵也;殷禮吾能言之,宋不足徵也;文獻不足故也。足,則吾能徵之矣”。漢·鄭玄釋文獻為文章和賢才;宋·朱熹注:“文,典籍也,獻,賢也。”元代的馬端臨在《文獻通考》自序中指出:“引古經史謂之文,參以唐宋以來諸臣之奏疏,諸儒之議論謂之獻。故名曰:‘文獻通考’。”近現代,文獻作為一個整體術語,在兩個層面上使用:狹義上,文獻被理解為“具有歷史價值的圖書文物資料”和“與某一學科有關的重要圖書資料”;廣義上,文獻被理解為記錄有知識和信息的一切載體。在國外,Document一詞最早由法國文獻學家保羅·奧特勒(P.Otlet)提出,泛指“固定、傳遞、使用信息的物質客體”。48二、文獻要素:人們認識文獻的關鍵
1、信息內容
2、信息符號
西平石經
3、記錄方式
4、載體材料
甲骨文獻
扶風紙
老子帛書49信息內容與信息符號信息內容:文獻中所表達的思想意識和知識觀念。它是文獻的內涵、靈魂之所在,直接體現了文獻精神產品的性能,具有知識和情報價值。信息符號:符號系統是揭示文獻信息內容的標識,表達知識情報的手段,記錄和傳播文獻信息內容的媒介。文獻信息符號主要是從語言不斷衍化而來的,并逐步發展為文字、圖畫、表格、公式、編碼、聲頻和視頻等類型。50記錄方式與載體材料記錄方式:是指將文獻符號系統所代表的信息內容通過特定的人工記錄手段和方法使其附著于一定的文獻載體材料上。文獻記錄方式具體包括刻劃、書寫、印刷、拍攝、錄制、復印和計算機錄入等。載體材料:是可供記錄信息符號的物質材料,是全部信息載體中一個重要的子系統。文獻載體反映了文獻物質產品的性能,具有商品、保存和流通價值。文獻載體大體經歷了泥板、紙草、羊皮、蠟板、甲骨、金文、石頭、簡牘、縑帛等早期載體,到紙的出現,再到現代各種新興文獻的發展過程。文獻是物化的精神產品,或者說,文獻是知識信息的物化形態。其中,信息內容是文獻的知識內核,載體材料是文獻的存在形式和外殼,而符號系統和記錄方式則是二者聯系的橋梁和紐帶。這4個要素相互聯系就構成了文獻的四維框架結構。51三、文獻資源:人們認識文獻的根本所在文獻是一種資源,文獻資源是人類社會積累、貯存的有序文獻的總和或集合,是人類智力資源的主要存在形式。1、可再生性。文獻資源不同于一次性消耗資源,它可以反復利用、異地傳播、原文復制。2、可建性。文獻資源是人類自己創造的智力資源,人們可以對它進行規劃、建設、改造和優化。3、共享性。人類有可能、也應當共同分享全世界的文獻資源,使之為全人類的進步發揮更大的作用。4、冗余性。社會文獻資源并不是各單位文獻的簡單算術和,相同內容文獻的重復積累不僅不能增加信息總量,并形成體系完備、功能最佳的文獻資源,相反還會阻塞文獻交流通道,使有用信息的傳遞發生遲滯性干擾。5、價值潛在性。文獻資源的作用往往是間接的,其經濟和社會效益的實現完全依賴于文獻資源被開發利用的程度。52四、經濟管理文獻經濟管理文獻是記錄有經濟管理知識和信息的一切載體。經濟管理文獻具有較強的生命力,具有較強的經濟和管理效益,具有明顯的情報價值。經濟類文獻的基本類型管理類文獻的基本類型53
經濟類文獻的基本類型經濟學理論類:包括馬克思主義政治經濟學和西方各經濟學派的經濟理論和經濟學說等文獻。經濟史類:包括經濟發展史、經濟思想史、經濟技術史和各種經濟學說史等文獻。部門經濟學類:研究某一具體經濟領域內經濟發展規律的文獻。技術經濟學類:研究和記錄各個部門所使用的先進技術手段和先進管理方法及其經濟效益和社會效益的文獻。經濟法規和經濟政策類:包括一切有關經濟的法律、法令、條例、規則和章程及各種綱領性措施和方法。經濟統計類:以客觀或直觀的數據圖表等形式反映某一地區或某一國家在某一時期內經濟發展的變化、動態和趨勢。經濟組織機構和人物資料類。經濟信息類:指傳遞和指導經濟實踐活動中有關經濟信息和發展動態的文獻。54Primaryliterature是指作者對已經創造的知識信息進行第一次加工固化而形成的文字記載。一次文獻具有原始性、創造性和分散性等特點。Secondaryliterature是指文獻工作者對一次文獻進行加工整理后的產物,即對無序的一次文獻的外部特征或基本內容進行著錄、改組,并按照一定的學科或專業加以有序化而形成的文獻形式。二次文獻具有匯集性、檢索性和通報性、系統性等特點。目錄、索引、文摘是最基本的二次文獻類型。Tertiaryliterature是指文獻研究者按給定的課題,利用二次文獻選擇有關的一次文獻加以分析綜合而創作出來的文獻形式。三次文獻具有綜合性、針對性和價值性等特點。文獻經過外部替代、內容改組和綜合研究,從一次文獻到二次文獻再到三次文獻,使文獻由博而約、由分散到集中、由無組織到系統化,使離散和個別的信息遞增為系統的和定型的知識。55二、以文獻的物質載體形式為標準劃分1、Originaldocument2、Paperdocument3、Microformdocument4、Audio-visualdocument5、Machine-readabledocument56早期文獻:笨重、昂貴、荷載信息少,并具有偏倚時間等特征。紙質文獻:以紙張為載體,用書寫或印刷等方式記錄知識的文獻。縮微文獻:用縮微照像的方式,將原始文獻縮小若干倍存儲在感光材料上,并借助于專用閱讀器而使用的文獻。包括Microfiche、Microfilm和Microcard(Micro-opaque)等類型。縮微文獻具有自己的特點。57音像型文獻:以磁性材料、光學材料等為記錄載體,利用專門的機械裝置記錄與顯示聲音和圖像的文獻。主要有Videoform、Audiodocument和Audio-visualdocument等。音像文獻具有存儲密度高,內容直觀真切、表現力強,易于接受和理解,傳播效果好等優點。機讀文獻:是指以機器(主要是計算機)能閱讀和處理的形式存儲在某些特殊載體上的信息集合體。機讀文獻具有信息存儲量大,編輯出版迅速、傳輸存取方便,可提供立體的、動態的圖文信息以及保存時間長等特點。機讀目錄、文摘索引磁帶、聯機數據庫、光盤、電子票據、電子郵件等都是機讀文獻的家族成員。光盤是指利用激光將信息寫入和讀出的高密度存儲媒體。有只讀光盤、一次寫入光盤、可擦除光盤等類型。58三、以文獻的出版形式為主要標準的綜合性劃分1、Book2、Serial3、Scientific&TechnicalReport4、ConferenceLiterature5、StandardsLiterature6、ProductSampleBook7、GovernmentPublication8、PatentLiterature9、Archives10、DissertationforAcademicDegree59
1、Book用文字、圖畫或其他符號手寫或印刷于紙張等形式的載體上并具有相當篇幅的文獻。“圖書”一詞最早見于《史記·蕭相國世家》。廣義的圖書泛指一切書籍、期刊、小冊子、圖片等文獻。狹義的“圖書或稱專著,以印刷方式單本刊行的出版物”。就內容而言,圖書的主題鮮明,內容系統完整,論述全面深入,知識相對成熟穩定;但由于編撰出版周期較長,其內容有滯后現象,一般不含最新的信息。就形式而言,圖書都有相當篇幅,裝訂成冊,完整成型。圖書的類型多種多樣,Textbook和Referencebooks是較為重要的圖書類型。60
2、Serial印刷或非印刷形式的出版物,具有統一的題名,定期或不定期以連續分冊形式出版,有卷期或年月標識、并計劃無限期地連續出版(GB3792.3-85《連續出版物著錄規則》)。連續性、及時性和穩定性是連續出版物的主要特點。連續出版物通常包括期刊、報紙、年刊(年鑒、指南等)、成系列的報告、學術會刊、會議錄和專著叢刊等。其中Periodical和Newspaper是最基本的兩種類型。61Periodical:有固定名稱,定期或按宣布期限出版,并計劃無限期出版的一種連續出版物。主要刊登論文、記事或其他著述。通常每年至少出版兩期。世界上最早的期刊是1665年1月法國巴黎創刊的《學者雜志》和1665年3月英國皇家學會創辦的《哲學匯刊》。第一份中文期刊是英國傳教士馬禮遜于1815年8月5日在馬六甲創辦的《察世俗每月統計傳》。期刊的類型是多種多樣的,有學術性期刊(常冠以Proceeding/Bulletin/Journal等)、情報資料性期刊(Newsletter/Progress/Advance),檢索性期刊、普及性期刊、時政性期刊等。核心期刊是期刊研究中最重要的問題。Newspaper:主要刊載新聞和評論,出版周期較短的定期連續出版物。報紙具有傳遞信息快,現實感強,信息量大等特點。中國唐代官府的“邸報”和古羅馬元老院的《每日紀聞》被視為古代最早的報紙。近代較早的報紙有1609年在德國出版的《報道新聞報》、《政府報》等。1858年香港出版的《中外新聞》是最早的中文報紙。623、Scientific&TechnicalReport科技報告是對科學技術研究成果或研究進展的記錄。
美國四大報告。在內容上,科技報告具有新穎性、多樣性、保密性、真實性和專業性等特點;在形式上,科技報告入藏統一、格式統一、著錄項目完整、篇名較為冗長,同時,每份報告都自成一冊,印刷裝幀比較簡單。報告的類型:按科技報告反映的研究階段劃分為研究過程中的報告,如Statusreports、Preliminaryreports、Interimreports、Progressreports、Informalreports;研究工作結束時的報告,如Finalreports、Definitivereports、Testresultsreports、Completionreports、Formalreports、Publicreports等。按報告的文獻形式劃分為Reports、Notes、Papers、Memorandum、Bulletin和Technicaltranslation等。按報告的使用范圍劃分為Secretrep.、Confidentialrep.、Unclassified/Limitedrep.、Delimitedrep.和Declassifiedrep.等63
美國四大報告及其檢索工具PB報告:1945年6月,美國成立商務部出版局(OfficeofthePublicationBoard),負責整理公布從戰敗國獲取的科技資料,并編號出版,號碼前統一冠以PB字樣。20世紀40年代的PB報告主要為戰敗國的科技資料;50年代起,主要是美國政府科研機構及其有關合同機構的科技報告;20世紀70年代以后,PB報告側重于民用工程技術。AD報告:1951年5月,美國成立ArmedServiceTechnicalInformationAgency,負責收集、整理、編輯、出版國防部所屬海陸空三軍軍事系統科研機構及其與該部訂有合同的工業企業、高等院校提出的軍事科研報告,在該部規定的范圍內發行。AD報告即是這個情報局出版的文獻。PB、AD報告的主要檢索工具是美國商務部國家技術情報服務處NTIS編輯出版的U.S.GovernmentReportsAnnouncementandIndex,簡稱GRA&I。64NASA報告:美國NationalAeronauticsandSpaceAdministration擁有的研究機構產生的技術報告。該局成立于1958年10月1日,其前身是美國國家航空咨詢委員會(NationalAdvisoryCommitteeforAeronautics,NACA)。NACA報告創刊于1915年,主要檢索工具是1963年創刊的《宇航科技報告》(ScientificandTechnicalAerospaceReports,STAR)。AEC/ERDA/DOE報告:1946年美國建立AtomicEnergyCommission,AEC報告即為該委員會所屬單位及其合同戶編寫的報告。1975年,該委員會更名為EnergyResearchandDepartmentAdministration,AEC報告于1976年相應改稱為ERDA報告。1977年,該署又擴大為USDepartmentofEnergy,1978年7月起逐漸冠以DOE報告。主要檢索工具為NuclearScienceAbstracts,(NSA,1948~1978)、EnergyResearchAbstracts(ERA,1978~)。654、ConferenceLiterature在學術會議上宣讀和交流的論文、報告及其他有關資料。按會議的性質和規模劃分有Congress/Conference/General
Assembly/Seminar/Symposium/Workshop/Discussiongroupmeeting/Committee/Workinggroup等類型;按會議的級別劃分有國際性會議、全國會議、地區會議和基層會議等。會議文獻具有內容新穎,傳遞及時;專業性和針對性較強;數量龐大,類型多樣等特點。會議文獻通常分為Pre-meetingpublications,包括征文啟事、會議通知書、Program、AdvancedAbstracts和Preprints等;會中文獻;Post-meetingpublications,包括Proceedings、Conferencepapers、Transactions等。其中,會議錄是會后將論文、報告及討論記錄整理匯編而公開出版或發表的系統化文獻。許多國家出版有各種會議文獻檢索工具或數據庫。665、StandardsLiterature狹義指按規定程序制訂,經權威機構或主管機關批準的一整套在特定領域內必須執行的規格、規則、技術要求等規范性文獻。廣義指與標準化工作有關的一切文獻。標準文獻有多種類型和特征,國外經常使用Standard、Specification、Recommendation、RulesInstruction、Handbook、Practice、Code和Bulletin等來表示標準文獻。現代標準文獻產生于20世紀初。1901年英國成立了第一個全國性標準化機構,1906年成立的InternationalElectrotechnicalCommission和1947年2月成立的InternationalOrganizationforStandardization是最重要的國際標準化機構。1956年我國設立國家標準局,1957年8月加入IEC,并頒布了第一批國家標準;1978年成立國家標準總局,并于同年9月加入ISO。1989年4月1日《中華人民共和國標準化法》實施。中國標準化綜合研究所標準館是中國標準文獻中心,收藏有各種級別的標準文獻數十萬件。676、ProductSampleBook
廠商為向用戶宣傳和推銷其產品而印發的介紹產品情況的文獻。但也有少數是產品主管部門出版的。產品樣本主要包括產品說明書、產品數據手冊、產品目錄、廠商介紹和廠刊、外貿刊物等。產品文獻所介紹的多是已經投產或行銷的產品,反映的是較為成熟的技術,所列的各種特征曲線、數據、表格等比較具體,但不詳細,不提供理論依據。產品文獻是工程人員設計、制造新產品的重要參考資料,是產品使用人員和維修人員的指南,也是決策管理和市場營銷工作者掌握產品市場情況和動向的重要信息源。有許多產品目錄、手冊、樣本數據庫、年鑒等可供檢索。687、GovernmentPublication由政府機構制作出版或由政府編輯、由政府指定出版商出版的文獻。UNESCO規定:政府出版物是根據國家機關的命令并且由國家負擔經費而出版的一切記錄。常見的出版形式有報告、公報、文件匯編、會議錄、統計資料、政府工作手冊、官員名錄、國家機關指南、地圖、地名詞典等。西方國家多設有政府出版物的專門出版機構,美國政府出版局和英國皇家出版局都是世界上著名的出版機構。政府出版物主要包括行政性文獻和科技文獻兩種類型,并具有內容廣泛、可靠性強,一定的保密性,售價低廉或免費供應。政府出版物與其他文獻重復現象比較突出。一個國家的政府出版物的封面往往有其慣用的顏色。美國政府文件、英國下議院文件冠以白皮書,英國國會文件冠以藍皮書,法國政府公布的報告冠以黃皮書,意大利政府的報告和外交文件、英國政府各部發表的文件冠以綠皮書,美國外交文書、英國中央統計處的國際收支表冠以紅皮書,而日本則將外務省的外交文書等冠以灰皮書。698、PatentLiterature8、1概念與發展8、2特征與類型708、1專利文獻的概念與發展專利文獻是指記錄有關發明創造信息的文獻。廣義包括專利申請書、專利說明書、專利公報、專利檢索工具以及與專利有關的一切資料;狹義僅指各個國家或地區的專利局出版的專利說明書或發明說明書。專利文獻是專利制度的產物。世界上最早建立專利制度的是威尼斯城邦,1416年2月20日,它批準了第1件記載的專利;1474年威尼斯共和國頒布了世界上第1部專利法。17世紀末~18世紀初,西方各國相繼頒布了專利法。19世紀下半葉出現了國際性專利組織并締結了多種國際條約和協定。20世紀80年代初,全世界有130多個國家建立了專利制度。1980年1月,國務院正式批準中國建立專利制度,并成立了中華人民共和國專利局;1984年3月12日,我國制訂并通過了《中華人民共和國專利法》,1985年4月1日正式實施。718、2專利文獻的特征與類型專利文獻寓技術、法律和經濟信息于一體,內容新穎、出版迅速,內容可靠、實用性強,規格統一、分類科學,專利文獻的數量龐大,重復性較高。目前已經有系列檢索工具(專利公報、文摘索引刊物、專利光盤等)。1980年,中國建立中國專利文獻服務中心。729、Archives國家機構、社會組織以及個人從事政治、軍事、經濟、科技、文化、宗教等活動直接形成的具有保存價值的各種文字、圖表、聲像等不同形式的歷史記錄。中國明代以前檔案有典冊、簡牘、文書、簿書、案卷、文案、案牘等稱謂。檔案的主要特點:⑴記錄性和原始性。檔案是由文件轉化而來的歷史記錄。⑵定向積累性和歷史聯系性。檔案是各種機關、組織和個人在特定的社會活動中積累而成的文件組合體,其產生與存在始終淵源于專門的形成單位和其職能活動,并由此構成檔案材料之間的內在聯系。⑶可靠性和稀有性。檔案材料是歷史的原始記錄,具有可靠性,并且多具有單一性和稀有性。我國通常把檔案分為文書檔案、科技檔案和專門檔案3種基本類型。7310、DissertationforAcademicDegree學位論文通常是指高校或研究機構的學生為取得學位在導師指導下完成的科學研究、科學試驗成果的書面報告。它是科技論文的一種重要類型。此外,Records、MusicScore、Map等都是文獻家族中的重要成員。74四、按文獻傳播和使用范圍進行的劃分1、白色文獻:即通過正式渠道公開發行的文獻,具備內容的公開性、發行范圍的廣泛性等特點。2、黑色文獻:指不正式出版、發行范圍狹窄、內容保密的文獻。絕大部分黑色文獻都有密級規定,其制作、保管和流通都有嚴格控制;非特定讀者無法獲取。3、灰色文獻:指不正式出版、也非秘密文獻。75
經濟管理類核心期刊核心期刊是指在某一學科或專業信息密度大、刊載論文數量多、借閱率和被引率較高的少數期刊。一般來說,與某學科有關的論文總數的50%刊登在相關期刊總數5%~10%的期刊上,這小部分期刊,我們就稱之為核心期刊。我國核心期刊的研究始于20世紀70年代。《世界圖書·B輯》1981年第6期刊出《國外科技核心期刊專輯》,報道了88個不同學科的核心期刊表。以后,陸續出版了《中國科技核心期刊》(1990)、《國外科技核心期刊手冊》(1991)、《中文核心期刊要目總覽》(1992)、《中國自然科學核心期刊百種表》(1992)、《中國科學引文數據庫核心期刊》(1994)、《自然科學一流學術期刊》(1995)和《國外人文社會科學核心期刊總覽》(1997)等重要成果。全面掌握經濟管理核心期刊的刊名、刊期、創刊時間、創辦者、地址、主要內容等,并能夠在實際工作和科學研究中有效地利用這些核心期刊。76
我國核心期刊研究77一、數量龐大,增長迅速1、現象描述:據統計,世界圖書產量為80萬種/年,期刊為10萬種/年,并以5%的速度增長。科技期刊的增長速度更快,每7~8年就增長一倍;有些新興學科,每隔3年左右就翻一番。目前,全世界專利文獻每年增加100萬件,技術標準增加20萬件,產品樣本增加50~60萬件,會議文獻增加100萬篇左右,各種連續出版物40萬種。若以信息單位計算,當今每天約有40億個信息單位的信息量向全世界發送,年遞增速度為18~20%。782、數學描述:1961年,D.Price在ScienceSinceBabylon一書中指出:“似乎沒有理由懷疑任何正常的、日益增長的科學領域內的文獻是按指數增加的,每隔大約10~15年時間增加一倍,每年增長約5~7%。”他進一步指出,整個科學系統資金、人力和物力的指數輸入是造成科研成果和科技文獻指數輸出的重要原因;并且認為,科研人員、科研經費與文獻量呈n、n2、n1/2三個階數關系。通過對科學期刊的歷時性研究,普賴斯得出科學文獻增長同時間呈指數函數關系。793、圖像描述:以歷史年代為橫軸,以文獻量為縱軸,普賴斯描繪了文獻增長的指數模型。即:F(t)=aebt,a>0,b>0,t為時間,a為條件常數,即t=0時的文獻量,b為時間常數即持續增長率。
F(t)F(t)=aebtF(t)
科學期刊
106104文摘雜志
t102
t
16651770180019001965804、理論研究之進展。B·納里莫夫邏輯曲線增長模型;A·И·米哈依諾夫直線增長模型:F(t)=bt+a。一般的看法,文獻增長經歷四個階段:緩慢增長的初始階段,指數增長階段,線性增長階段和緩慢增長階段。5、文獻增長對文獻檢索的影響是多方面的。勒希爾的分級滑動指數模型:F(t)為文獻總量,則在λ級上的文獻量為[F(t)]λ,λ為文獻的質量等級指標,0≤λ≤1。具體而言:(1)λ=1,起碼是常規文獻(代表了所有文獻):F(t)λ=1=aebt;(2)λ=3/4,起碼是有意義的文獻:F(t)λ=3/4=[aebt]3/4;(3)λ=1/2,重要文獻:F(t)λ=1/2=[aebt]1/2;(4)λ=1/4,起碼是非常重要的文獻:F(t)λ=1/4=[aebt]1/4;(5)λ=0,頭等重要的文獻:F(t)λ=0=㏑a+bt。81二、時效性強,代謝頻繁文獻老化(Obsolescence)是指文獻隨著時間推移而使用頻次逐漸減少的現象。2、1文獻老化的衡量指標
Half-life、Price’sIndex和Residualutility2、2文獻老化的數學模型負指數模型和伯爾頓-凱普勒老化方程
822、1文獻老化的衡量指標衡量文獻時效,一般有3個指標:半衰期:指現有活性文獻中一半的出版時間,或者說,某一學科或專業被利用的文獻總量中,一半文獻失去效用所經歷的時間。各個學科領域和文獻類型的半衰期。普賴斯指數:在某一知識領域內,把對年限不超過5年的文獻的引文數量與引文總量之比當作指數,用以度量文獻老化。即P=被引文獻數量(≤5年)/被引文獻總量×100%。剩余有益性。有益性是指某一年份某一期刊被用戶利用的文章的次數,經過若干年后,期刊還保留的有益性即稱為剩余有益性。83各個學科領域和文獻類型的半衰期Burton&Kebler對9個領域半衰期的測定數據(1960):蘇聯《發明雜志》對各類文獻半衰期的統計研究數據:學科領域冶金物理學化工機械生理學化學植物學數學地質學半衰期(年)3.94.64.85.27.28.110.010.511.8文獻類型圖書科技報告學位論文技術標準連續出版物產品樣本半衰期(年)10~20105~753~53~5842、2文獻老化的數學模型負指數模型:1970年,英國的B.C.Brookes提出了科技期刊文獻的被引數量隨著時間推移的衰減過程服從簡單的負指數規律的假設:C(t)=C0e-bt
。式中,t表示文獻的出版年齡(以10年為單位),C(t)表示t年所發表的文獻的引用頻率,C0為t=0時文獻被引用的初始量,b為文獻老化速度,0<b<1。伯爾頓-凱普勒老化方程:1960年,美國的伯爾頓和物理學家凱普勒發現科技文獻衰變曲線并求出了這一曲線的標準公式:Y=1-(a/ex+b/e2x),式中,a+b=1,Y是被文獻量累積百分數(經過一定時間該學科尚在利用的文獻的相對數量),x為時間即被引文獻出版年齡(以10年為單位),a、b是因學科專業而變化的常數。文獻老化規律對信息檢索的具有重要的影響。85三、廣泛分散,交叉重復科技知識的高度分化和高度綜合,使科技文獻呈現出高度的離散性和冗余性。就離散性而言,同一專業文獻分散在眾多的相關專業刊物上,與此同時,某一學科或專業的刊物,除刊載本學科或專業的文獻外,還刊載其他學科或專業的文獻。這種離散性使用戶無法檢索到專業文獻的全部;但同時也把用戶引入到一個交叉滲透的科技世界,有利于用戶思考和研究學科的相關性以及科學發展的網絡結構。就冗余性而言,科研選題的重復,同一知識內容的不同表現方式等使文獻的內容交叉重復現象比比皆是。86四、載文聚散,分布有序[英]文獻學家S.C.Bradford在1934年發表的DocumentaryChaos一文中,首次揭示出文獻分布的規律。Vickery稱之為Bradford’sLawofScattering。4、1布氏定律的基本表述4、2布氏定律的基礎與應用874、1布氏定律的基本表述如果將科學期刊按某一給定學科的論文刊載量多少,以遞減順序排列起來,就可以將這些期刊分成專門論述該學科的核心區和另外幾個區,其中每區期刊的載文量與核心區期刊載文量相等,這時各區的期刊數成1∶n∶n2∶…。n為布氏常數,n>1,約等于5。如果將一定時間內的按載文量等級排序的期刊分為3個區,使每個區所包含的相關論文數量相等,即恰好等于全部期刊就此學科發表論文總數的1/3,那么就可以發現:Zone1所涉及的論文來自數量不多但效率最高的P1種期刊;Zone2包括數量較大、效率中等的P2種期刊;Zone3包括數量最大但效率很低的P3種期刊。3個區的期刊數量成下列關系:P1∶P2∶P3=1∶n∶n2
。884、2布氏定律的基礎與應用布氏定律的基礎是科學的統一性和多樣性原則。科學既是統一的力場,也有著復雜多樣的聯系。布氏定律在信息檢索中的應用:⑴測定核心期刊。采用載文率、摘引率和流通率等指標來進行。⑵測定檢索工具的完備性。對文摘或索引的實際款目數量和摘引的期刊數量進行比較。⑶測定全檢論文總數,估計檢索范圍,計算檢全率等指標。89五、形式多樣,文種復雜文獻類型復雜多樣,尤其是電子型信息資源大量涌現。這就要求信息檢索不能固守于傳統的書本而應當熟練掌握各種類型文獻信息,尤其是現代各種數據庫的檢索技能。世界各國出版的科技出版物所有文種有70~80種,比較常用的也有7~8種,其分布大體為:英文50%,德、俄文各占10%,法文7%,日文3%,西班牙文2%,中文和其他文種則占18%左右。與此同時,各種專業術語和符號越來越多,這些都增加了信息檢索和利用的難度。據UNESCO統計,在全世界出版的科技文獻中,有50%以上的文獻是用50%以上的科學家不懂的語種發表的。90附錄:社會科學文獻的基本特征社科文獻的內容特征社科文獻的形式特征社科文獻的運動特征91社科文獻的內容特征較多主觀因素,較少客觀因素。按科學知識所含的主觀因素遞增排序為:自然科學→技術科學→社會科學。較多相對性,較少絕對性。社科理論的提出總是根據某一特定時間段,而科學理論則往往是超越時間的。多為定性思辨,較少定量分析。“分析經濟形式,既不能用顯微鏡,也不能用化學試劑;二者必須用抽象力來代替”。多為綜合性,少有專業性。由于社會現象或社會問題的多面性,社會科學研究中的高度綜合并與科技理論相滲透,使得社會科學文獻在內容上的綜合性比較突出。較多依附性,較少獨立性。社科理論與其創始者的命運息息相關。根據D.Pendlebury和Garfield等人引文分析,物理、化學等自然科學的不引率為40%,而在社會科學和人文科學、藝術中,不引率卻高達74.7%和98%。這說明社會科學和人文科學存在著嚴重的學問自體性。92社科文獻的形式特征社科信息的術語經常有不統一的現象,同一術語在不同的時間和場合常常會有不同的含義,從而造成一種特殊的語言障礙。社科成果常常以專著為主,尤其是在學科發展的常規時期。社會科學研究常常具有辯論甚至論戰的性質,需要利用較多的資料,不僅要闡明新結論,而且還要敘述問題的歷史演變、研究現狀,不同觀點的分析,研究邏輯和過程,這就要求較大的篇幅。社科信息的內容除了使用規范的科學語體外,還常常采用政論語體。社科文獻的風格、結構、語氣等也具有一定的信息內容。93社科文獻的運動特征分散性較大;傳遞有一定的局限性;老化慢,生命力強。943-1檢索語言概述
一、檢索語言的概念和特點二、檢索語言的類型與譜系三、檢索語言的構成和基本功能四、檢索語言的基本原理五、檢索語言的基本要求95一、信息檢索語言的概念和特點信息檢索語言是根據信息檢索的需要而創制的人工語言,其實質是表達一系列概括文獻信息內容的概念及其相互關系的概念標識系統。它可以是從自然語言中精選出來并加以規范化的一套詞匯,也可以是代表某種分類體系的一套分類號碼,還可以是代表某一類事物的某一方面特征的一套代碼,用以對文獻內容和信息需要進行主題標引、邏輯分類或特征描述。⑴簡明扼要地表達文獻及其檢索課題的主題概念,使詞語和概念一一對應,排除一詞多義、多詞一義或詞義含糊等現象。⑵科學準確地匹配概念,即將檢索時的標引用語和檢索用語進行相符性比較。⑶全面有效地顯示概念之間的相互關系。采用等級結構、參照系統、輪排聚類法、范疇聚類法和圖示法等各種顯示概念之間關系的方法,來實現對內容相同或相關的信息加以集中或揭示其相關性。96二、檢索語言的類型與譜系2、1依據檢索語言的構成原理,把檢索語言劃分為分類檢索語言、主題檢索語言、分類-主題一體化語言、代碼語言和引文語言等類型。2、2依據檢索語言的受控情況,把檢索語言分為ArtificialLanguage和NaturalLanguage。此外,可以按檢索語言的學科或專業范圍、適用范圍、檢索標識的組合使用方法以及對信息特征的描述等標準,對檢索語言進行劃分。2、3檢索語言的譜系972、1按構成原理對檢索語言進行劃分分類檢索語言是指使用分類號碼表達文獻主題標識,并按照知識分類的原理加以排列的一類信息檢索語言。主題檢索語言則是指使用名詞術語表達文獻主題標識,并照按字順加以排列的一類信息檢索語言。分類檢索語言和主題檢索語言相互影響、滲透、補充和結合,從而出現了分類主題一體化語言,即分類語言和敘詞語言在術語系統、參照系統、標識系統和索引系統等方面完全實現兼容所組成的統一體。如分面敘詞表、敘詞表式字順索引、分類表-敘詞表對照索引及集成詞表等等。代碼檢索語言是指用來標引、檢索特定專業文獻的某種代碼系統。引文檢索語言則是基于文獻之間的引證關系而形成的一種檢索語言。它以引文為檢索詞,根據引證關系將有關文獻自然地耦合在一起。982、2按語言受控情況對檢索語言進行劃分ArtificialLanguage是指采用Controlledterm并進行人工控制的語言,或稱受控語言。所謂規范詞是指采用特定的詞匯來專指或網羅相應的概念,它們能夠對同義詞、近義詞、相關詞、多義詞及縮略語等進行規范。使用規范詞能夠提高檢索效率。單元詞語言、標題詞語言、敘詞語言等都是規范語言。NaturalLanguage是指采用Uncontrolledterm,即不加規范、不受控制的Freeterm,它們直接來自所處理的文獻本身的標引用語或檢索用語,在使用前未經優選和規范化處理。992、3檢索語言的譜系一般地,可以將檢索語言類型按親屬關系劃分為4個層次,從而構成檢索語言的譜系。
檢索語言語系檢索語言語族檢索語言語支檢索語言語種描述文獻內容分類檢索語言標題詞法特征的檢索語言主題檢索語言元詞法分類主題一體敘詞法漢語主題詞表描述文獻外在化語言鍵詞法特征的檢索語言
100三、檢索語言的構成和基本功能1、檢索語言的構成。檢索語言包括兩個部分:一是檢索語言詞匯,即登錄在分類表、詞表中的全部標識。一個標識(分類號、檢索詞、代碼)就是它的一個語詞,而分類表、詞表、代碼表則是它的詞典。二是檢索語言語法,它是指如何創造和運用那些標識來正確表達文獻內容和信息需要,以有效地實現信息檢索的一整套規則。檢索語言語法可以進一步分為詞法和句法兩個方面。2、檢索語言的基本功能。對文獻的信息知識內容及某些外部特征加以標引;對內容相同或相關的信息加以集中或揭示其相關性;對大量信息加以系統化或組織化;便于對標引
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年綠色建材市場推廣策略創新與政策支持體系研究報告
- 2025年CCS技術在能源行業中的應用經濟效益與能源產業協同發展研究報告
- 2025年金融行業報告:金融科技在金融投資中的智能投顧與財富管理
- 政策推動下的2025年醫療器械國產化產業升級路徑研究報告
- 數字貨幣對貨幣政策傳導效率的影響:2025年實證研究報告
- 2025年醫療器械臨床試驗質量管理與規范化臨床試驗數據統計分析報告
- 2025年遠程醫療在分級診療中的遠程病理診斷技術發展報告
- 教育信息化2.0時代2025年教師信息技術與教育教學改革實踐探索報告
- 2025年工業互聯網平臺計算機視覺缺陷檢測在風力發電機械制造機械行業應用分析報告
- 2025年中國涂料業市場研究報告
- 2025屆河南省許昌市名校高三下學期第二次模擬考試英語試題(原卷版+解析版)
- 蛛網膜下腔出血介入術后護理
- 2025年臨床執業醫師考試的院前急救知識試題及答案
- 數據治理架構試題及答案
- 會考地理綜合題答題模板+簡答題歸納-2025年會考地理知識點梳理
- 廣州中小企業招工難問題研究
- 2025年度綜合物業管理外包服務專項合同
- 2026年版廣西高等職業教育考試(新職教高考)普高生專用升高職大專《職業適應性測試》模擬試卷(第3套)
- 國家開放大學行管本科《城市管理學》期末紙質考試總題庫2025春期版
- 軍隊文職招聘(臨床醫學)近年考試真題題庫(含真題、典型題)(重點題)
- 《偽裝技術的簡介》課件
評論
0/150
提交評論