信息整流和知識增值服務_第1頁
信息整流和知識增值服務_第2頁
信息整流和知識增值服務_第3頁
信息整流和知識增值服務_第4頁
信息整流和知識增值服務_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、信息整流和知識增值服務    【內容提要】本文提出數字圖書館的主要功能目標是信息整流與知識增值服務;信息與知識轉換是數字圖書館的關鍵理論和技術問題。圖書館受到Internet的巨大沖擊、不再是文獻信息服務的唯一提供者,數字圖書館如何才能挽回失去的老用戶,吸引新用戶?知識管理工程將使數字圖書館成為21世紀學習的大平臺、文化知識的大平臺和知識資源中心。【摘  要  題】信息服務1數字圖書館的信息整流數字圖書館把傳統圖書館的功能由信息的查詢和圖書資料的借閱擴展到知識服務的新階段。實現這一宏偉目標需要解決許多技術和社會問題

2、,其中有兩個最關鍵的技術是信息的整流和知識的創新。前者涉及數字圖書館的知識鏈建立問題,后者涉及數字圖書館的信息變換成知識的知識增值服務問題。1.1數字圖書館的知識鏈數字圖書館是一個龐大的數字資料庫,包括所有資料的數字化存儲,在線網上資料、多媒體資料、電子出版物等。數字圖書館根據用戶對信息的不同需求,將文本、圖片等原件制作成不同數字形式。一般有純圖像形式,目錄文本形式,正文圖像形式,全文本形式和全文索引形式。但關鍵還是知識鏈的建立。為實現知識鏈信息,數字圖書館將資源分成為元數據和對象數據。對象數據指數字化的文本、圖像、聲言、影像等,元數據則指那些描述和管理對象的數據。對象數據分布式地存放在各地的

3、資源站點內,元數據則集中存放在數字圖書館中心的超大規模服務器上。用戶查詢時,中心調度系統通過元數據來調度各對象數據庫以提供服務。知識的控制單位長期停留在文獻這一級上,而人對知識的需求一般不是以文獻為單位的。早在20世紀70年代后期就有專家指出,知識的控制單位將從文獻深化到文獻中的數據、公式、事實、結論等最小的獨立的“知識元”。一旦實現知識的控制單位由文獻深化到“知識元”,大量文獻中所包含的“知識元”及相關信息間的鏈接將產生極大的知識增值,從而大大推進人類對知識的利用,促進新知識的創造,從而也將推動知識資源業的重大發展1。一篇文獻反映作者的科學研究成果,包含著作者的知識創新的過程。于是文本結構本

4、身就隱含著對某學科問題的知識鏈。假如我們把每篇文獻的知識看成是人類知識結構中的一個知識單元,知識單元與知識結構就組成了個性知識與共性知識的知識系統。個性知識體現在知識的創新上,共性知識結構則表現在知識的完整性上。于是我們就建立了個性知識與共性知識的知識鏈。事實上,專利文獻就明顯地表現了個性知識單元與人類知識結構的知識創新鏈關系2。數字圖書館對文本的知識標引,既體現了標引者應用學科知識結構的背景知識的能力,同時又體現了標引者識別和提煉作者的知識創新點的判斷和知識組織能力。因此,是一個知識鏈建立的知識增值過程。1.2數字圖書館的知識發現知識鏈的建立過程是知識發現和知識再組織的過程。知識發現的主要目

5、標是采用有效的算法,從大量現有或歷史數據集合中發現并找出最初未知、但最終可理解的有用知識,并用簡明的方式顯示出來。知識發現一般包含如下幾個步驟:(1)理解相應的問題領域;(2)準備相關數據子集;(3)發現模式(數據挖掘);(4)所發現模式的后處理;(5)應用發現結果。(1)文本知識結構分析技術盡管與多媒體信息相比,文本信息顯得比較普通,但文本仍然是記載和傳播信息的最主要媒體,因此對文本信息知識發現技術的研究具有十分重要的意義和廣泛的應用前景。文本結構分析的目的在于發現文本表達主題概念的物理組織結構,由物理結構自動重組主題概念的邏輯結構,實現對文本知識的抽象化和具體化推理檢索。文獻3把文本結構分

6、成物理結構和邏輯結構。物理結構=標題,段落,句子,詞匯,它表示了文本的組成情況。可采用向量空間模型表示文本及文本各個部分,進行文本結構分析,其中主要是文本的層次分析,從而得到文本的邏輯結構。邏輯結構=主題,層次,段落,句子,主題詞,它更著重于表示文本所包含的思想內容和表達的邏輯方式。(2)知識鏈結構文本的物理結構是文本的外表形式,邏輯結構體現了作者表達目的的邏輯順序,而文本的知識鏈結構則是作者的目的和靈魂,知識鏈結構=問題,已有解的優缺點,新解的方案,性能評價,今后方向。研究文本的目的是為了獲得文本的知識鏈,以創建新的知識鏈。引文方法是一種很好的文獻鏈,表現了引用文獻與被引用文獻之間的多種關系

7、。但它并不完全直接表現知識鏈關系。文獻鏈是一種龐大的文獻引用系統。知識鏈則是一種巨大的知識引用系統。若能完成這一巨大的系統,人類將可能進行更有效的知識學習。1.3信息整流的實現知識鏈是文本知識結構的普遍特性,是人類學習、創新的紐帶。信息整流與信息濾波不同。信息濾波的目的主要有兩點,即過濾掉不相關的文檔以及將相關文檔列表分為新的文檔和已經查閱過的文檔,并按相似度大小排序,對已檢索的相關文檔,通知信息Agent不必返回全文文檔,以減少通信費用。信息整流的目的在于建立數字圖書館的知識鏈庫,提供知識鏈服務。信息整流是建立知識鏈的過程。從全文提取出知識單元,形成獨立的知識基礎,構成知識單元庫,把各種知識

8、單元庫進行鏈接,構成數字圖書館廣泛的知識網絡庫。知識網絡庫形成了學科橫向交叉和學科縱向延伸的科學知識體系。描述了人類知識學習和知識創新的知識網絡結點。把人類知識學習和創新活動之間的距離大大的縮短。在知識網絡庫中,用戶可以跨知識單元庫學習所感興趣的知識,更可以通過知識單元庫直接學習到解決問題的知識和辦法。知識單元庫的實現是知識網絡庫建立的基礎和關鍵。已有的信息置標語言HTML(Hyper  Text  Markup  Language)的超級鏈接功能使Web技術從計算機世界走向社會、走向千家萬戶,實現Web與數據庫的超級鏈接。HTML表

9、現出Web顯示數據的通用方法,而XML提供了一個直接處理Web數據的通用方法。HTML著重描述Web頁面的顯示格式,而XML著重描述Web頁面的內容。XML是文檔的各種數字表示方式,用XML表示的數字文檔可以由計算機處理,也可以供人閱讀。XML文檔是一種純文本文檔,可以包含圖片、視頻或其他多媒體信息,可以是百科全書,也可以是一封電子郵件,或一則天氣預報、一張電子商務交易單等。如對商品的描述中,若在應用中的名稱、質量、價格還不足以描述一個商品的特征時,還可通過其他模式增加新特征,只要加入的元素在它們各自名域的前后關系中是有效的。這就為知識單元的描述提供了工具,通過XML標記將文本標記成知識單元,

10、繼而將知識單元鏈接成知識結構,實現知識鏈。與引文索引不同,在用XML實現知識單元的描述中,可以將被引文獻中的知識單元采用指針的方式加以直接標記,于是實現了知識鏈接的作用。鏈接(L    inking)是Web實現關鍵。HTML的鏈接是單向的有兩個端點源端和目標端,源端通常是Web頁的一個片段,如一個詞語、一段文本或一幅圖像,目標端是一個“資源”。由統一資源標記(URI)地址指定。XML是描述結構化數據的底層文法,用這種簡單文法可以支持種類繁多的應用。預計XML將成為數字圖書館信息整流的基礎性語言。2數字圖書館的知識增值服務數字圖書館不僅是傳統圖書館的數字

11、化,而且是來源極其豐富的網上資源庫。通過對信息資源的深加工和合理、有效的組織,使之成為永久、有序的知識源泉。數字圖書館不僅要進行信息整流,而且還要進行知識增值服務。數字圖書館將構筑起信息與知識轉換的社會大平臺,為實現全民終身學習、自主學習、隨時隨地學習創造條件。2.1圖書館受到Internet巨大沖擊Internet正在成為世界上最大的“圖書館”。網絡信息資源的迅猛擴大,越來越加深了人們對網絡的依賴程度,影響和改變著人們選擇信息、使用信息的行為和方式。目前,Internet上已擁有各種日報、雜志及時事快報、新書報道,世界上大多數主要的檢索系統、數據庫都已上網,并且向用戶提供信息服務。Inter

12、net信息服務商以其雄厚的資金投入和先進的技術設備優勢,面向企業、面向市場開發信息產品,圖書館不再是信息服務的唯一提供者,圖書館傳統的信息產品受到巨大沖擊。2.2數字圖書館的知識增值服務數字圖書館如何才能挽回以前的老用戶,并吸引更多的新用戶?這是圖書館轉型的根本所在,是數字圖書館建設的核心。為此,數字圖書館的服務內容和質量要比目前網上的信息服務更加獨具一格,數字圖書館要向信息實體虛擬化、信息資源數字化、信息傳遞網絡化、信息利用共享化、信息提供的知識化方向轉型發展。數字圖書館發展的優勢將在什么地方?知識增值服務是數字圖書館占領知識服務市場的優勢所在。數字圖書館應用系統應是可擴展的知識服務網絡系統

13、。數字圖書館對于有高價值的圖像、文本、語言、音響、影像、影視、軟件和科學數據等多媒體信息進行高質量的加工,實現知識增值,并提供在廣域網上高速橫向跨庫的便捷的數字知識存取服務。由此,我們可以說,數字圖書館的興起是Internet網絡技術的巨大沖擊;數字圖書館的發展的強大推動力是人類知識需求速度的猛增。人類不僅需求更多的信息,而且需要更高質量的知識。數字圖書館將面向知識增值服務系統的轉型發展。2.3數字圖書館的知識創新國家創新體系的主要功能,是知識創新、知識傳播、知識交換和知識利用。大力促進和提高知識的生產、傳播、交換和利用的水平、規模和效率,是國家創新體系的基本任務。(1)知識創新過程知識創新是

14、數字圖書館發展的最主要的動力源泉。信息經過加工和改造形成知識。知識是人腦創新的成果,是人類智慧的結晶。智慧是人類文明的源泉,是推動歷史發展的永恒動力,是生產力諸要素中的核心。知識一般可分為陳述性知識、過程性知識和控制性知識。陳述性知識提供概念和事實,描述系統狀態、環境和條件,使人們知道是什么。過程性知識提供有關狀態的變化、問題求解過程的操作、演算和動作的知識。個性知識單元由最小的知識元素“知識元”組成,知識元的不同排列構成了不同知識單元之間的差異,知識元也是知識結構的最小元素,在知識結構中可以由知識元直接組成新的知識單元,這就是知識學習與知識創新的過程。(2)知識創新的度量方法在考慮知識創新度

15、量問題時,我們應盡可能從知識單元與知識結構之間所表現的特征尋找描述度量的方法。就某一篇文獻而言,它的知識包含有兩個層次。一個是局部的,即是圍繞該文本主題有關方面的判斷、推理、結論等。另一個是全局的、總體的,即是相對該學科主題現狀的知識增量。比如,一篇綜述性文獻,由于采用知識的提煉與合成技術,它本身的(局部的)知識容量增加了,建立了新的知識鏈關系,就有知識創新產生。從知識度量角度講,我們所研究的知識是事實性的、靜態的知識,是關于事物的分類、屬性、事物間關系等的科學事實或客觀事實。具體到某一篇文獻而言,知識是指關于其所研究對象(主題)的結構、關系、屬性和取值等方面所做的概念、判斷、推理,即有關該主

16、題對象新有的結論。相對學科主題而言,它的知識則指的是新增加的那一部分,即知識創新的增量。知識是可學習的、可復制的,而智慧是不可復制的。目前對知識創新度量最簡單的方法是對產生新的知識增量及其效應的判別和估價。這種估價的結果表現為一種數量現象,實質上估價知識的增量隱含著對智慧的測度,因為實現知識創新的根源是智慧,但對智慧的度量目前則是太困難了。(3)信息與知識的變換科技發展史上的一條規律說明:當把兩門表面看來毫不相干的學科結合起來的時候,就可能形成一門新的學科;當把兩種似乎沒有任何聯系的現象聯系起來,就可能在科學技術上取得某些進展或突破。不同學科的文獻常有內在的聯系,包含隱含的知識或信息,可以從中

17、重組出全新的知識或信息,得出全新的推理或結論。·隱含信息的關聯隱含信息的重組是知識的外化和外延。一些信息本身沒有什么價值,但在它身后卻隱藏著另外一種很有價值的信息,這種延伸或潛在的信息單元、知識單元,有一定的隱蔽性,往往不易被人發現,一旦被開發出來,并運用到實踐當中去,卻可產生不可估量的效益。美國芝加哥大學圖書館研究生院、信息中心的Swansan  D.R.等一直在從事認知科學和文獻內容相互關系的研究,對信息重組和知識創新過程進行了不少研究。由于他們一直對文獻的隱含信息進行研究,并在研究過程中,利用現代的計算機技術,設計了一種新穎的計算機輔助信息檢索軟件(ARRO

18、WSMITH算法),能辨別出生物醫學文獻中兩個詞語間的聯系,從而進一步發現隱含信息的關聯,促進新知識的產生。·知識的消息通信知識元、知識單元、知識結構都以信息的方式在文獻中表現,把隱含在文獻中的大量復雜知識元以消息通信的方式連接起來,提高隱含知識的明晰化程度,將是未來數字圖書館向知識創新努力的關鍵4。知識檢索是在知識結構中獲取知識的過程,用戶可以通過知識單元間接地獲取知識,更可以通過知識元直接獲取知識;信息檢索只能通過間接的知識單元信息獲取文獻。知識鏈接是數字圖書館的核心,是實現數字圖書館從信息服務向知識服務轉型的關鍵技術。因此,采用知識鏈研究知識標引與檢索是合理的,研究知識元、知識

19、單元、知識結構之間的信息與知識的變換是可實現的。從人工智能觀點看,知識是對事實的合理推理的結果。知識的表達與處理可以有多種方法,且已有許多優秀成果,但最關鍵的是如何實現知識元與知識單元和知識結構之間的繼承性,以及如何有效地實現它們之間的消息通信。·信息轉換成知識從標引“知識元”層面研究,揭示單篇文獻的個體“知識元”信息與某領域共性“知識結構”的鏈接關系,從而找出信息與知識的轉換的普遍規律5,是提高用戶通過檢索系統直接獲取有效知識而不是一大堆文    獻的有效方法。傳統的信息服務只提供文獻的信息或提供作為知識素材的文獻,并沒有揭示文獻中的知識鏈。人們獲取的只是文獻數據信息本身,并不是知識。比如人們看到了題錄摘要,從中未必可以看到知識。即使讀完了一次文獻,也許仍不能準確了解其中的知識所在。數字圖書館中存在大量的文獻信息庫,文獻信息庫中的知識是非結構化的,知識元之間的關系是隱含的,需要一種能把文獻中的知

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論