




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
國內(nèi)外知識組織體系的研究進展及應(yīng)對策略
隨著計算機科學(xué)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,如何對異構(gòu)的、動態(tài)的、分布式的海量信息,進行快速的知識組織和集成檢索,以最方便、最人性化、最智能化的方式提供給用戶,已成為當今圖書情報界的重點關(guān)注領(lǐng)域。與知識組織相關(guān)的研究與應(yīng)用,有以下幾條主線:①從組織的深度看,包括從題錄組織、文獻組織、信息組織到知識組織的研究與應(yīng)用;②從組織的環(huán)境看,包括手工層面、計算機層面到網(wǎng)絡(luò)層面;③從組織的用戶層面看,包括以信息管理者為主到以用戶和機器理解為主等;④從組織工具角度看,有詞典類工具、主題法分類法、主題圖、本體等;⑤從學(xué)科角度看,包括情報語言學(xué)、計算語言學(xué)等。本文從知識組織體系的構(gòu)建和應(yīng)用角度,梳理了知識組織的主要研究成果、研究進展和發(fā)展策略,同時,也介紹了中國科學(xué)技術(shù)信息研究所近年來在知識組織體系領(lǐng)域開展的相關(guān)研究和應(yīng)用工作。1知識組織體系概述1.1知識組織體系的概念知識是對客觀世界事物本質(zhì)的認識,對知識的加工、整理、揭示、控制等一系列有序化過程稱之為知識組織(KnowledgeOrganization)[1]。知識組織一詞最早出現(xiàn)在1929年和1933年美國著名分類專家布利斯的著作《知識組織與科學(xué)系統(tǒng)》、《圖書館的知識組織》中[2]。知識組織體系(KnowledgeOrganizationSystems,KOS)是用于進行知識組織的各類規(guī)范和方法的統(tǒng)稱,是獲取、利用知識的重要手段[3]。在具體應(yīng)用中一般泛指為語義工具,它不僅僅涵蓋了傳統(tǒng)的分類法、主題詞表和敘詞表,還包括用于網(wǎng)站導(dǎo)航瀏覽用的等級體系結(jié)構(gòu),或者語義網(wǎng)的知識本體等[4]。其范圍也從側(cè)重于書本式信息資源分類標引的體系擴展為包含了規(guī)范文檔、機構(gòu)組成等多種類型系統(tǒng)的體系結(jié)構(gòu)。1989年成立的“國際知識組織協(xié)會”(ISKO)是研究知識組織的學(xué)術(shù)機構(gòu),涉及主題分類、人工智能等多種方法的知識組織研究,其會刊《知識組織》由以前的《國際分類》改名而來[5]。在圖書情報領(lǐng)域,隨著網(wǎng)絡(luò)環(huán)境及其應(yīng)用的普及,用戶獲取知識的需求不斷發(fā)生變化,與知識組織相關(guān)的概念、工具和研究應(yīng)用領(lǐng)域也在不斷進行著變革和發(fā)展。傳統(tǒng)圖書館基于文獻信息單元的知識組織方法,正向適應(yīng)計算機海量信息處理的概念單元或知識單元的本體(Ontology)方向發(fā)展。1.2知識組織體系的類型根據(jù)語義的強弱程度以及語言控制強度,可以將知識組織體系分為三大類:①詞匯列表:強調(diào)對概念的定義和解釋,接近自然語言,一般不涉及復(fù)雜的語義關(guān)系。例如,各類人名表、地名表、專業(yè)術(shù)語表、各類詞典、同義詞環(huán)和規(guī)范文檔等。②分類和聚類體系:強調(diào)概念間的層級聚合和類別體系,來自自然語言,具備相對固定規(guī)范的語義結(jié)構(gòu),主要起到范疇歸類、聚類導(dǎo)航等作用,是應(yīng)用廣泛、成熟完善的知識組織工具,如標題表、知識分類和圖書分類體系。③關(guān)聯(lián)組織:強調(diào)對概念之間的各種關(guān)系的揭示,且更為復(fù)雜和細致,語義結(jié)構(gòu)強,是經(jīng)過規(guī)范化的、機器可讀的人工語言,如敘詞表、概念地圖、語義網(wǎng)絡(luò)、本體等。各類知識組織體系可以實現(xiàn)不同的知識組織目的,分別具有各自的應(yīng)用優(yōu)勢和最佳適用范圍。例如,分類法的顆粒度比較粗,適用于學(xué)科導(dǎo)航和領(lǐng)域劃分等應(yīng)用;敘詞表知識組織的顆粒度相對較小,適用于從概念術(shù)語和主題角度組織文獻信息;本體的語義關(guān)系豐富,適用于知識挖掘和語義推理等智能檢索領(lǐng)域。通過對各類知識組織體系的組合應(yīng)用,可以滿足用戶多種不同的知識獲取需求。1.3主要知識組織體系的現(xiàn)狀1.3.1分類法1876年誕生的《杜威十進分類法》(DDC)[6],開辟了圖書分類法的新紀元;1933年阮岡納贊的《冒號分類法》出版;20世紀初至50年代,是體系分類法的成熟和大發(fā)展時期。新中國成立初期,我國編制了《人大法》、《科圖法》、《中小型表草案》和《武大法》等分類法,并引進了《國際十進分類法》(UDC)等。20世紀70年代編制成《中國圖書館圖書分類法》(簡稱《中圖法》),1999年更名為《中國圖書館分類法》,目前即將出版第五版。它是我國大多數(shù)圖書館采用的分類法,基本形成了統(tǒng)一規(guī)范應(yīng)用體系,在文獻形成的各個環(huán)節(jié)得到了普及,例如,在投稿或刊出時,多數(shù)中文核心期刊論文都要求加注,萬方、維普、CNKI等國內(nèi)大型期刊論文數(shù)據(jù)庫基本也是按《中圖法》進行分類導(dǎo)航[7]。與《中圖法》一脈相承的《中國圖書資料分類法》(簡稱《資料法》),也于2000年修訂至第四版,成為我國各類情報與信息機構(gòu)廣泛使用的大型檢索語言工具書[8]。其他文獻分類法包括圖書分類法、檔案分類法、專利分類法、標準分類法、資料分類法、公文分類法等。《美國國會圖書館分類法》(LCC)誕生于20世紀初,實用性強,類目詳盡,不但適用于綜合性圖書館,也適用于專業(yè)圖書館。LCC的分類號現(xiàn)已載入英美等國的在版編目數(shù)據(jù)、美國國會圖書館發(fā)行的印刷卡片以及若干國家的機讀目錄之中。DDC目前是全球各地圖書館廣泛使用的分類法,2003年出版第二十二版,已被全球超過135個國家的圖書館使用。在美國,有95%的公共圖書館及學(xué)校圖書館使用DDC。此外,DDC更能用來組織因特網(wǎng)上的各種資源。目前,DDC的更新主要是利用網(wǎng)站形式的WebDewey,自1997年上線使用,每季更新一次。同時,OCLCDeweyServices網(wǎng)站上也提供DDC新增及修訂的款目、與LCSH的對照表、相關(guān)研究等最新動態(tài)消息[9]。1.3.2敘詞表敘詞表的出現(xiàn)是情報檢索方法的一次突破。20世紀60~90年代,是敘詞表的大發(fā)展時期,1959年,美國杜邦公司編制了第一部用于情報檢索的敘詞表[10];1960年,美國武裝部隊技術(shù)情報局(ASTIA)首先編成用于電子計算機文獻檢索的敘詞表;1961年,美國化學(xué)工程師協(xié)會(AICHE)出版了《化學(xué)工程敘詞表》,為敘詞表的發(fā)展奠定了基礎(chǔ)。目前,國外編制的敘詞表有上千部,其中較有影響的綜合性敘詞表有《工程與科學(xué)主題詞表》和《日本科學(xué)技術(shù)情報中心主題詞表》;專業(yè)性敘詞表有美國的《航空和航天局主題詞表》、《國際核情報系統(tǒng)主題詞表》、英國的《電機工程師協(xié)會主題詞表》等。1964年我國編制第一部實用型標題表:《航空科技資料主題表》(第1版),1971年,《航空科技資料主題表》(第2版)問世。1975年我國啟動國家“748”工程的配套項目《漢語主題詞表》的編纂工作,全國先后505個單位的1378位專業(yè)工作者參加編表工作,1980年正式出版,分為3卷10個分冊,共收詞108568條,是包括自然科學(xué)和社會科學(xué)領(lǐng)域的大型綜合敘詞表。此后出現(xiàn)了大量的專業(yè)敘詞表,如《航空科技資料主題詞表》、《電子技術(shù)漢語主題詞表》、《化學(xué)工業(yè)主題詞表》、《農(nóng)業(yè)科學(xué)敘詞表》等[11]。1.3.3本體隨著網(wǎng)絡(luò)信息的普及和發(fā)展,語義網(wǎng)將成為網(wǎng)絡(luò)的主要結(jié)構(gòu)成分。在語義網(wǎng)中,本體主要解決語義層次上網(wǎng)絡(luò)信息共享和重用的基礎(chǔ),具有非常重要的作用。本體最早是一個哲學(xué)概念:西方哲學(xué)史認為,本體是指關(guān)于存在及其本質(zhì)和規(guī)律的學(xué)說;中國古代哲學(xué)認為,本體是指探究天地萬物產(chǎn)生、存在、發(fā)展變化的根本原因和根本依據(jù)的學(xué)說[12]。從20世紀90年代開始,由計算機人工智能領(lǐng)域研究的本體,在圖書情報界成為熱點研究領(lǐng)域。目前在圖書情報領(lǐng)域,多數(shù)學(xué)者認同的本體概念包括:“本體給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則”[13];“本體是對一個概念集的規(guī)范說明”或“本體是對概念化的精確描述”[14]。規(guī)范是為了形成對領(lǐng)域內(nèi)概念、知識及概念間關(guān)系的統(tǒng)一的認識與理解,以利于共享與重用。2知識組織體系研究進展20世紀90年代起,網(wǎng)絡(luò)逐漸成為用戶獲取信息的主要方法。多數(shù)網(wǎng)絡(luò)使用了分類法思想組織網(wǎng)絡(luò)分類目錄,如Yahoo和DMOZ等門戶網(wǎng)站[15]。但是,由于網(wǎng)絡(luò)信息以指數(shù)形式增加,人工分類速度制約了傳統(tǒng)網(wǎng)絡(luò)分類法的發(fā)展,從而誕生了用戶參與的大眾分類法;另一方面,以主題法為主要工具的網(wǎng)絡(luò)搜索引擎逐步成為網(wǎng)絡(luò)信息獲取的主流方法,以自然語言關(guān)鍵詞進行信息檢索在網(wǎng)絡(luò)信息獲取中得以廣泛應(yīng)用。與此同時,人們開始大規(guī)模修訂改造或者轉(zhuǎn)化融合飽含人類知識和智慧的分類法和主題法,使之逐步適應(yīng)網(wǎng)絡(luò)環(huán)境,并在新的信息環(huán)境下發(fā)揮其優(yōu)勢和功能。知識組織體系的研究進展主要體現(xiàn)在建設(shè)、轉(zhuǎn)化和應(yīng)用三個方面。①建設(shè)是指各類知識組織體系的構(gòu)建、知識庫的建設(shè)、相關(guān)標準規(guī)范的制定和修訂,還包括分詞聚類和知識挖掘等計算語言學(xué)的基礎(chǔ)研究。例如,分類表或敘詞表的編制、主題圖或知識本體的構(gòu)建、漢語分詞軟件的研制等。②轉(zhuǎn)化是指不同分類法、敘詞表、本體以及其他知識組織體系之間的映射和融合。例如,分類主題一體化、從敘詞表向知識本體的轉(zhuǎn)化等[16]。③應(yīng)用是指各類知識組織工具的專業(yè)應(yīng)用和綜合應(yīng)用,包括從技術(shù)進步或用戶理念等不同角度開發(fā)的各種應(yīng)用系統(tǒng)。2.1傳統(tǒng)知識組織體系的網(wǎng)絡(luò)化研究隨著Internet的普及,OCLC及時推出了DDC網(wǎng)絡(luò)版,建立了專門的網(wǎng)站,并基于DDC的研究項目開發(fā)了多個版本,實現(xiàn)在線更新和發(fā)布等[6]。DDC成為傳統(tǒng)文獻分類法網(wǎng)絡(luò)化改造的經(jīng)典案例。由于網(wǎng)絡(luò)信息組織的需求,我國的《中圖法》近年來同樣開發(fā)了電子版,可以在網(wǎng)絡(luò)上直接檢索和瀏覽類目名稱和周圍類目,如上位類、下位類和同位類。電子版《中圖法》還包含窗口的布局、調(diào)整和互動、檢索功能與檢索方法、用戶評注與管理、與編目系統(tǒng)接口等功能[17]。分類法在網(wǎng)絡(luò)時代的編制和改造工作,還包括用戶參與的大眾分類法的編制,以及適合網(wǎng)絡(luò)信息分類的分面分類法的編制和應(yīng)用研究。敘詞表在網(wǎng)絡(luò)環(huán)境下的改造大致可以分為兩種:一種是聯(lián)機敘詞表。這是獨立于檢索系統(tǒng)而存在的網(wǎng)絡(luò)信息檢索工具,主要是詞匯選擇,而不直接鏈接到資源。如醫(yī)學(xué)主題詞表(Mesh)[18],UNESCO敘詞表[19]。另一種是將敘詞表嵌入檢索系統(tǒng),充當檢索系統(tǒng)的后控詞表,用戶進行瀏覽和檢索后,可以直接選用檢索詞鏈接到相關(guān)的資源,如CAB敘詞表[20]、AGROVOC敘詞表等[21]。網(wǎng)絡(luò)化的敘詞表可以增強網(wǎng)絡(luò)檢索系統(tǒng)的性能。通過在詞表內(nèi)實現(xiàn)超文本導(dǎo)航,利用其語義關(guān)系幫助用戶建立檢索提問,控制檢索范圍,從而提高檢索效率。在網(wǎng)絡(luò)環(huán)境下,傳統(tǒng)的知識組織體系正在向聯(lián)機數(shù)據(jù)庫、網(wǎng)絡(luò)搜索引擎、學(xué)科信息門戶等新領(lǐng)域拓展,尋求新的應(yīng)用前景。在經(jīng)過實用性、易用性改造后,傳統(tǒng)的分類法已廣泛應(yīng)用于網(wǎng)絡(luò)資源的組織與檢索。DDC已被多個著名的網(wǎng)站所采用,如CanadianInformationbySubject[22]和Renardus[23]等;UDC被多個學(xué)科信息門戶用來組織各種網(wǎng)絡(luò)資源,如BUBLLink[24],SOSIG[25]和OMNI等[26];分面分類組織也在許多網(wǎng)站得到應(yīng)用,如Artifact門戶將資源類型分為學(xué)術(shù)機構(gòu)、圖書、期刊、新聞等,用戶可按資源主題和類型進行組配檢索[27]。另一方面,傳統(tǒng)分類法可用于信息資源的自動分類,這是自動分類領(lǐng)域的一個研究熱點。其中,美國OCLC的蝎子計劃是成果顯著的一個項目。該計劃主要利用DDC的電子編輯支持系統(tǒng)對數(shù)字信息資源進行自動分類和主題識別。該項目建立了以DDC和LCC為基礎(chǔ)的知識庫,開發(fā)了自動分類軟件“Scorpion-1.0”,并優(yōu)化自動分類系統(tǒng),使之接近于人工分類的效果[28]。2.2知識組織體系之間的轉(zhuǎn)化研究傳統(tǒng)的知識組織體系經(jīng)過多年的發(fā)展,體系結(jié)構(gòu)相對成熟。將傳統(tǒng)知識組織體系轉(zhuǎn)化成新型的知識組織體系,可以加快構(gòu)建速度,實現(xiàn)對已有知識的再利用。最常見的是吸收傳統(tǒng)知識組織體系的概念和詞匯,并參考其體系結(jié)構(gòu)將敘詞表轉(zhuǎn)化為本體。國外許多學(xué)術(shù)機構(gòu)進行了嘗試,已經(jīng)有十多種敘詞表被轉(zhuǎn)換為本體。如聯(lián)合國糧農(nóng)組織將AGROVOC敘詞表轉(zhuǎn)換為農(nóng)業(yè)本體[29],阿姆斯特丹大學(xué)信息科學(xué)系把藝術(shù)和建筑敘詞表(AAT)轉(zhuǎn)換為本體[30]。在敘詞表向本體的轉(zhuǎn)換研究中,學(xué)者們嘗試了許多方法,如用XMLSchema構(gòu)建敘詞標記語言,用RDFSchema表示敘詞內(nèi)容和關(guān)系,用DML+OIL、OWL表示敘詞關(guān)系。我國國家自然科學(xué)基金2005年資助了從敘詞表向本體轉(zhuǎn)化的研究工作。相關(guān)的研究成果包括:提出敘詞表的概念如何向本體的概念、屬性和實例轉(zhuǎn)化;編寫了具體的轉(zhuǎn)化程序,可以將敘詞表的數(shù)據(jù)直接轉(zhuǎn)化為RDF或OWL格式的本體數(shù)據(jù);研究了轉(zhuǎn)化以后要進行的調(diào)整和補充工作。該項目主要選擇了食物安全領(lǐng)域,通過構(gòu)建食物安全本體,來研究本體的構(gòu)建和轉(zhuǎn)化方式,并構(gòu)建了一個具有演示功能的食物安全本體原型系統(tǒng)。研究成果對本體的構(gòu)建和轉(zhuǎn)化具有參考意義,為語義網(wǎng)信息組織工作奠定了基礎(chǔ)[31]。分類表、敘詞表、概念圖和本體等知識組織工具,都有著各自的適用范圍和優(yōu)勢。而在當今的網(wǎng)絡(luò)時代,資源的組織和管理工作常常需要對這些知識組織工具進行映射、轉(zhuǎn)化或融合,從而在技術(shù)上實現(xiàn)互操作等知識共享應(yīng)用。2006年,ALCTS成立了專門的語義互操作子委員會,并對37個主要的知識組織系統(tǒng)語義互操作研究項目進行調(diào)研和評價。其中最為著名的項目有UMLS、HILT、GEMET、Rendurus、AGROVOC、KoMoHe等[32]。2.3知識組織體系之間的映射研究在不同知識組織體系之間建立映射機制,是實現(xiàn)不同知識組織體系集成、整合,進而實現(xiàn)互操作的一種方法。這是目前知識組織體系研究的一大熱點,并形成了大量的研究成果及其應(yīng)用。國外的主要研究項目包括:①高級敘詞表項目(High-LevelThesaurusProject,HILT)研究的是不同敘詞表以及不同語言之間的映射[33]。②歐盟的Renardus項目,實現(xiàn)了各個網(wǎng)關(guān)的局部分類法與全局分類法之間的映射,通過全局分類法就可以對各個網(wǎng)站進行分類瀏覽[23]。③生物醫(yī)學(xué)領(lǐng)域的UMLS項目,它涉及了100多部敘詞表、分類法、術(shù)語表等知識系統(tǒng)間的互操作[34]。④美國的UnfamiliarMetadata項目,它是自然語言與受控語言之間的映射的典型代表。⑤GLUE系統(tǒng),它是基于經(jīng)典算法研究出的具體的本體映射系統(tǒng),由華盛頓大學(xué)AnHainDoan等提出。這是一種在語義Web環(huán)境下進行本體映射的方法,是典型的基于機器學(xué)習(xí)的方法。它首先對概念的實例進行分類,然后通過實例的分布概率確定概念的相似度,最后結(jié)合領(lǐng)域約束和啟發(fā)知識確定本體映射關(guān)系[35]。⑥FOS項目,整合了四個詞表系統(tǒng):FIGIS門戶的參考目錄、ASFA敘詞表、AGROVOC敘詞表的漁業(yè)部分、OneFish主題樹。建設(shè)目標是在現(xiàn)有系統(tǒng)基礎(chǔ)上建立通用的概念框架下的本體,實現(xiàn)現(xiàn)有系統(tǒng)之間的相互映射和參照,并實現(xiàn)異構(gòu)系統(tǒng)之間的互操作[36]。在國際合作方面,2005年聯(lián)合國糧農(nóng)組織(FAO)支持了從中國農(nóng)業(yè)科學(xué)敘詞表向FAO農(nóng)業(yè)多語種敘詞表AGROVOC的映射研究。該項目主要將中國農(nóng)業(yè)科學(xué)敘詞表(CAT)的全部6萬多個農(nóng)業(yè)領(lǐng)域概念,按照擬定的概念間關(guān)系,映射到AGROVOC的3萬多個概念上,提出了敘詞表的映射方法,修訂了概念匹配規(guī)則,展望了映射成果在跨語言檢索中的應(yīng)用等[37]。在我國,圖書館學(xué)和情報學(xué)專業(yè)的研究人員在這方面做了大量研究工作。20世紀90年代末,山西省圖書館等研制了《中圖法》、《科圖法》和《人大法》之間的映射對應(yīng)系統(tǒng),并且實現(xiàn)了以上三者與《漢語主題詞表》的對應(yīng);南京農(nóng)業(yè)大學(xué)侯漢清課題組,近年來在檢索語言互操作領(lǐng)域進行了大量的研究,開發(fā)了分類法的自動映射系統(tǒng),制定了類目映射規(guī)則等,為實現(xiàn)我國分類法與西方分類法之間的兼容互換作出了貢獻[38];《中國分類主題詞表》的編制,也是我國檢索語言之間映射的重要進展;在主題法、醫(yī)學(xué)用術(shù)語映射領(lǐng)域,中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所的研究人員進行了相關(guān)的研究,研究建立統(tǒng)一的中國醫(yī)學(xué)語言系統(tǒng)[39]。2.4本體研究各類知識組織工具的一個應(yīng)用方向是機器理解和機器推理。由于其概念及其語義關(guān)系揭示的明確化、模型化和機器可讀等特點,本體成為語義網(wǎng)環(huán)境下不可或缺的組織工具,受到了信息管理、知識工程、人工智能和機器翻譯等多個領(lǐng)域的關(guān)注,掀起了一股研究熱潮。目前對本體的研究主要集中在四個方面:(1)本體構(gòu)建工具:這是用于本體構(gòu)建、編輯、維護與開發(fā)的軟件系統(tǒng)。目前研制開發(fā)出來的工具有90多種,這些工具在格式、描述語言和推理機制等方面各有特色,但不同工具之間的標準化、互操作和實用性等方面仍然存在著問題。較為成熟的工具包括[40]:OilEd,OntoEdit,Ontolingua,Protege,Webonto,Ontosaurus等。(2)本體表示語言:本體需要某種語言來對其進行概念化描述,即本體表示語言。其功能在于為構(gòu)建本體提供建模語言,為本體從自然語言轉(zhuǎn)化為機器可讀的邏輯表達形式提供工具。目前有許多語言可用于表示Ontology,其中一些語言是基于XML語法并用于語義網(wǎng)的,如XOL、SHOE、OML,以及由W3C組織創(chuàng)建的RDF與RDFS。建立在RDF與RDFS之上、較為完善的Ontology語言包括DAML、OIL、DAML+OIL以及OWL語言。其中OWL是W3C推薦的網(wǎng)絡(luò)本體語言標準[41]。(3)本體構(gòu)建方法:本體構(gòu)建研究目前處于發(fā)展階段,還未形成一套標準的本體構(gòu)建方法。國外開發(fā)的幾種常見方法包括:METHONTOLOGY法、IDEF5法、TOVE法、骨架法、SENSUS法、七步法、KACTUS法等。國內(nèi)有研究將這七種方法進行比較,認為:這七種方法都允許系統(tǒng)之間的互操作并提供知識共享和復(fù)用的機制,各自有著各自的優(yōu)勢與不足;但沒有一種方法體系是完全成熟的[42]。(4)本體的應(yīng)用:構(gòu)造本體的目的在于實現(xiàn)一定程度的知識共享和重用。本體的作用包括:理順領(lǐng)域知識的結(jié)構(gòu),從而為知識表示打好基礎(chǔ)。為人和組織之間的通信提供共同的詞匯,使知識共享成為可能。在不同的建模方法、范式、語言和軟件工具之間進行翻譯和映射,以實現(xiàn)不同系統(tǒng)之間的互操作和集成[43]。本體在數(shù)字圖書館的重要作用在于信息組織、信息檢索和異構(gòu)信息系統(tǒng)互操作。例如,KIM(KnowledgeandInformationManagement)是一個基于本體的信息檢索系統(tǒng)。作為OntoText實驗室的研究項目的研究成果,KIMPlatform提供了一個語義服務(wù)平臺構(gòu)架和在此構(gòu)架上的應(yīng)用,包括:網(wǎng)頁內(nèi)容的半自動語義標注、本體部署、基于內(nèi)容的語義索引、檢索與知識導(dǎo)航以及知識問答[44]。又如,國際糧農(nóng)組織的農(nóng)業(yè)本體論服務(wù)(AOS)提出[45],AOS的主要目標在于提供一個框架,以便于實現(xiàn)更佳的資源索引和檢索,加強農(nóng)業(yè)領(lǐng)域內(nèi)的互操作。2.5用戶參與和用戶使用優(yōu)先趨勢傳統(tǒng)知識組織工具強調(diào)用戶體驗,但是,其主體用戶是信息服務(wù)專業(yè)人員,因此,在用戶體驗和用戶優(yōu)先方面貫徹得不太理想。在網(wǎng)絡(luò)時代,各類知識組織體系編制的前提條件是從最終用戶的使用角度出發(fā),直接面向大眾終端用戶,所以,面向大眾用戶的易用性和適用性成為知識組織體系的重要指標。在語法、語義和語用基礎(chǔ)上,用戶參與也可以借鑒網(wǎng)絡(luò)搜索引擎在基于用戶信息檢索方面所取得的成果,將目前的各類知識組織工具面向終端用戶,增加與用戶的互動,使分類表、敘詞表和本體等知識組織工具在用戶使用中實現(xiàn)可擴展和可伸縮,在系統(tǒng)應(yīng)用中實現(xiàn)可互操作,在關(guān)系設(shè)置和應(yīng)用中實現(xiàn)簡單易用和智能化,在領(lǐng)域知識表達方面實現(xiàn)專業(yè)化和精深化,從而達到情報檢索語言的大眾性,實現(xiàn)知識組織工具的智能應(yīng)用等。自從20世紀90年代以來,網(wǎng)絡(luò)的分類出現(xiàn)了應(yīng)用已有分類法,或者用戶參與編制的各種大眾分類法。后者是分類法在網(wǎng)絡(luò)時代新的發(fā)展和創(chuàng)新。大眾分類法(folksonomy),是由“Folks”和“Taxonomy”組合而來。其主要特點在于:由網(wǎng)絡(luò)用戶給定標簽,經(jīng)過整理、標引和檢索那些統(tǒng)計詞頻比較高的標簽,就可以獲得平面非等級的分類信息。這是網(wǎng)絡(luò)時代用戶參與的一種重要分類法,例如,在約舒亞·沙科特(JoshuaSchachter)開發(fā)的Delicious中[46],用戶可以與他人分享和交流網(wǎng)頁書簽,亦可儲存和管理私人書簽,其中應(yīng)用的就是大眾分類法;用戶在Flickr中可以為照片添加標簽[47],使其他用戶可以通過博客在線分享照片信息;43things的用戶可以添加愿望標簽[48],豆瓣網(wǎng)提供圖書介紹、讀者評論及網(wǎng)上書店價格比較等[49],這些都是大眾分類法的典型。2.6知識組織體系的標準化研究對于面向機器應(yīng)用、以信息技術(shù)和網(wǎng)絡(luò)載體為主要環(huán)境的知識組織工具與系統(tǒng),標準與規(guī)范的制定和執(zhí)行是非常重要的。遵循一定的標準來構(gòu)建和表示知識組織體系,有助于實現(xiàn)知識組織體系之間的互操作。敘詞表編制實踐發(fā)展了敘詞表標準,也使之始終處于不斷的制定、修訂、執(zhí)行過程中。知識組織體系(以敘詞表為例)的標準規(guī)范建設(shè)可以大致分為兩個方面。2.6.1敘詞表編制標準的修訂自從1959年出版了第一部真正意義上的敘詞表以后,敘詞表的編制就進入了蓬勃發(fā)展的階段,并促進了相關(guān)標準的形成。1974年,美國發(fā)布了《Z39.19敘詞表結(jié)構(gòu)、編制與使用規(guī)則》[50],隨后ISO也分別于1974年和1985年發(fā)布了《ISO2788單語種敘詞表編制規(guī)則》[51]、《ISO5964多語種敘詞表的編制規(guī)則》[52]。在參照國際標準化組織ISO相關(guān)標準的基礎(chǔ)上,我國也制定了相應(yīng)的國家標準:《GB/T13190—1991漢語敘詞表編制規(guī)則》[53]、《GB/T15417—1994文獻多語種敘詞表編制規(guī)則》[54]、《GB/T19486—2004電子政務(wù)主題詞表編制規(guī)則》[55]、《GJB1776—1999軍用主題詞表編制規(guī)則》[56]、《GJB5098—2004軍用電子敘詞表編制規(guī)范》[57]。在網(wǎng)絡(luò)環(huán)境下,敘詞表開始進入網(wǎng)絡(luò)化的實踐階段,原有的標準已經(jīng)難以規(guī)范現(xiàn)有的實踐。因此,敘詞表編制標準相繼開始修訂:美國于2005年對Z39.19進行了修訂;英國于2005-2007年對其敘詞表標準進行大幅修訂,目前第五部分仍在修訂中;ISO于2007年底對兩個敘詞表編制標準進行修訂,2008年底ISO又推出了ISOCD25964-1(ISOcommitteedraft,ISO技術(shù)委員會草案),并面向各國廣泛征求意見。ISO25964-2還沒有相應(yīng)的標準文本[58]。作為實踐經(jīng)驗的總結(jié),這些敘詞表標準在修訂中呈現(xiàn)出類似的特點:①標準化對象都進行了不同程度的拓展,涵蓋了其他類型的知識組織體系,如美國敘詞表標準將敘詞表改為受控詞表,涵蓋了列表、同義詞環(huán)和知識分類等知識組織體系;英國敘詞表標準將敘詞表改為結(jié)構(gòu)化詞表,涵蓋了分類體系、知識分類、本體、主題標題表等知識組織體系。預(yù)計未來的標準不僅僅能規(guī)范敘詞表,還可以規(guī)范其他的知識組織體系,能在同一標準中實現(xiàn)對不同知識組織體系的規(guī)范。②標準內(nèi)容大幅增加。除了原有的敘詞表編制的條款,所修訂的標準內(nèi)容還涉及:規(guī)范敘詞表的互操作問題,具體包括敘詞表編制軟件和其他應(yīng)用軟件之間的數(shù)據(jù)交換、不同語種的敘詞表之間的映射以及不同類型的詞表或知識組織工具之間的互操作;規(guī)范信息技術(shù)在敘詞表編制中的應(yīng)用,如敘詞表編制軟件、可視化技術(shù)以及RDF、OWL和SKOS等描述語言[59]。2.6.2敘詞表描述和表達的相關(guān)標準的編制在網(wǎng)絡(luò)環(huán)境下,敘詞表的用戶不再僅僅局限于人,還包括計算機。為了實現(xiàn)計算機對敘詞表的理解和應(yīng)用,運用各種語言和框架模型對敘詞表進行描述和表示逐漸成為敘詞表編制實踐的中心。近幾年,國際上已經(jīng)形成了一系列的標準對描述語言和框架進行規(guī)范。(1)Zthes(Z39.50ProfileforThesaurusNavigation):2006年由美國國家標準組織發(fā)布。這是一個用以表示和檢索詞表的抽象模型,指明如何將Z39.50協(xié)議用于該模型的實現(xiàn)。這一協(xié)議標準對于敘詞表的網(wǎng)絡(luò)應(yīng)用非常重要[60]。(2)SKOS(簡單知識組織系統(tǒng))推薦標準:2004年由W3C發(fā)布,這是一個基于語義網(wǎng)技術(shù)來表示受控詞表以及其他知識組織工具的概念框架,具有通用、簡潔和易擴展的特點,并與傳統(tǒng)圖書情報領(lǐng)域聯(lián)系緊密,對于促進受控詞表在網(wǎng)絡(luò)環(huán)境下的使用具有非常重要的意義[61]。(3)主題圖相關(guān)的標準:主題圖(TopicMaps)最初是由W3C提出的,并由國際標準組織SGML委員會第三工作小組的研究人員開發(fā),用來實現(xiàn)索引和辭典構(gòu)建過程的形式化。相關(guān)的標準包括:ISO/IEC13250:2003定義了TopicMaps的完整模型;ISO/IEC13250-2定義了主題圖的數(shù)據(jù)模型;ISO/IEC13250-3:2007定義了用于主題圖交換的XML詞匯;ISO/IEC132504:2009規(guī)定如何從主題圖產(chǎn)生CXTM文件[62]。3推進知識組織體系研究的應(yīng)對策略鑒于知識組織體系的國內(nèi)外發(fā)展趨勢,基于數(shù)字環(huán)境下人們對知識服務(wù)的期待,對知識組織體系的研究、建設(shè)和應(yīng)用也成為業(yè)界十分關(guān)注的重大課題。作為《漢語主題詞表》編制的主持單位,中國科學(xué)技術(shù)信息研究所(以下簡稱“中信所”)近年來加強了網(wǎng)絡(luò)知識組織體系的建設(shè)和研究工作:建設(shè)了英漢科技詞庫,編制了《綜合電子政務(wù)主題詞表》;主持牽頭承擔(dān)了“十一五”國家科技支撐計劃重點項目“科技文獻信息服務(wù)系統(tǒng)關(guān)鍵技術(shù)研究及應(yīng)用示范”研究,聯(lián)合相關(guān)單位開展了知識組織體系、多語言信息服務(wù)環(huán)境及知識鏈接系統(tǒng)等關(guān)鍵技術(shù)研究;以“EI敘詞表的中文映射”研究為核心,完成EI敘詞表與漢語敘詞表結(jié)構(gòu)對比分析[63];設(shè)立了“漢語科技詞系統(tǒng)建
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 礦產(chǎn)投資顧問合同(含市場分析與風(fēng)險評估)
- 網(wǎng)絡(luò)金融服務(wù)技術(shù)標準合作編制與應(yīng)用合同
- 水利工程節(jié)能改造項目效益分成合同
- 綠色環(huán)保立體停車庫租賃合作合同
- 影視劇臨時租賃場地及拍攝監(jiān)督服務(wù)合同
- 移動支付平臺安全防護補充協(xié)議
- 古裝劇劇本版權(quán)買斷及網(wǎng)絡(luò)播放權(quán)合同
- 抖音直播助力鄉(xiāng)村產(chǎn)業(yè)發(fā)展合作協(xié)議
- 2024至2030年中國吸奶片市場調(diào)查研究報告-市場調(diào)查研究報告-市場調(diào)研
- 裝修置換協(xié)議書范本
- 單管塔施工方案
- 數(shù)字電子電路技術(shù)1
- 混凝土質(zhì)量管理體系
- 《西廂記》英文劇本
- EndNote使用教程介紹課件
- 中國老年高血壓管理指南2023解讀
- 《數(shù)字編碼》PPT說課課件(人教版)
- NT檢查規(guī)范-課件
- 工程倫理-核工程的倫理問題
- 中國慢性腎臟病營養(yǎng)治療臨床實踐指南(2021版)
- 新產(chǎn)品開發(fā)打樣流程
評論
0/150
提交評論