數據結構與數據交互格式設計_第1頁
數據結構與數據交互格式設計_第2頁
數據結構與數據交互格式設計_第3頁
數據結構與數據交互格式設計_第4頁
數據結構與數據交互格式設計_第5頁
已閱讀5頁,還剩10頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1數據結構與數據交互格式設計(廖華明)1.1 metadata繼承體系設計Metadata繼承體系定義因為系統必須容納各種類型的數據,如音樂、動畫、影視、新聞、書籍等,這些信息不 但存儲的格式不同,而且需要描述的屬性內容也很不一樣,它們適用的元信息標準也有一定 的差別。而且,一旦有新的信息類型加入,系統也對其提供相應的支持。因此系統必須支持 一種通用的、可擴充的metadata體系。Metadata繼承體系就是這樣一種體系結構。數據類型可以按照一定的分類原則形成一種從普通到特殊的數據類型繼承系統。我們將 最普通的數據類型的屬性,也就是各種類型數據需要描述的屬性中最通用的部分抽取出來作 為基礎屬

2、性,然后將描述特殊類型數據的元信息字段作為擴充屬性,更特殊的類型將具有更 為特殊的擴充屬性。通用類型數據的元信息只包括基礎屬性,繼承通用類型的特殊類型數據 的元信息則既包括基礎屬性,又包括擴充屬性。這種通用與特殊數據的屬性關系就形成了 Metadata的繼承體系。1.1. 0版支持的Metadata繼承體系定義為:1層普通文獻(包括所有書籍、稿件等)2層視覺文獻(包括所有三維作品、動畫等)、音樂作品(包括MIDI音樂、MP3主m坐、 曰樂等)該體系在需要描述更細致的元信息時可進行擴展。Metadata存儲結構定義1.1.0版Metadata采用二維表形式 存放,繼承體系 中普通文獻的元信 息用

3、數據表 T_fMetadata存放,第二層視覺文獻和音樂作品的擴充屬性分別由數據表T_sMetadata_1,T_sMetadata_2來存放。各數據表結構如下:T fMetadata字段名類型長度生成方式說明GID(32 位)Int自動生成*連續編碼DCTitleChar string80自動獲取,手工編輯DCCreatorChar string80文檔的作者DCSubjectChar string80將DC.Title作為缺省提供關鍵詞DCDescriptionChar string200將文檔的開頭100字 符內容作為缺省提供摘要DCPublisherChar string50出版商(對

4、于 Web page 指的是來源站點;對于傳 統出版物指的是出版 社。)DCDateDate系統提供缺省,手工 編輯出版時間。InfoClassIDChar string10該文檔的類型編號。VersionNumChar String10(system reserved)用 于 版本管理的版本號FormatInt自動識別*(system reserved)文檔物理類型,例如 HTML 頁面(0), Word 文 檔(1) , oracle 數 據,Sqlserver數 據,Access 數據(12)URLChar string500自動獲取SubMetaPointChar string100指

5、定子類型元信息擴展屬性表(T_sMetadata_1、T_sMetadata_2 等)T_sMetadata_1字段名類型長度生成方式說明GID(32 位)Int自動生成*連續編碼WorkTypeChar string100系統提供缺省,手 工編輯作品類型(油畫、水彩 等)。MaterialChar string10載體材料。TechniqueChar String100技術MeasurementsChar String10尺寸RepositoryNameChar String512收藏單位名稱RepositoryPlaceChar String512收藏地點RepositoryNumChar

6、 String10收藏號CurrentSiteChar String512現存地點NcultureChar String100民族/文化OtherChar String512風格/時期/派別/運動T_sMetadata_2字段名類型長度生成方式說明GID(32 位)Int自動生成*連續編碼MtypeChar string100系統提供缺省,手 工編輯作品類型(歌曲、戲曲、主m坐、 曰樂等)。PerformerChar string10表演者。Metadata繼承體系對應表(具體實現時可以采用配置文件)該表保存Metadata繼承體系與元信息存儲表之間的對應關系,表結構為:字段名類型長度生成方式

7、說明DataTypeIDChar string10自動生成*數據類型編號DataTypeDesChar string100數據類型描述MetadataTableChar string512系統提供缺省該類型數據對應的 Metadata數據存儲表 (T_fMetadata 等)2信息分類體系存儲結構設計1 .信息分類目錄結構表T_ClassDirectory表結構目錄項類型長度生成方式說明infoClassIDChar string10系統提供缺省,手工 編輯類型編號,系統內唯一,子 類型編碼為父類型的編碼 加上該類型在其兄弟類型 中的編號。InfoClassNameChar string20手

8、工添加類型名稱ReadingPermitChar string400手工添加讀角色列表,分隔符為逗 號,缺省值為該類父節點的 相應值WritingPermitChar string400手工添加寫角色列表,分隔符為逗 號,缺省值為該類父節點的 相應值InfoClassDesChar string40手工添加對該類型的描述語句(包括 關鍵字等)BrowserTepChar string80手工添加瀏覽輸出模板文件名BrowserFieldsChar string8*40手工添加瀏覽輸出缺省字段列表,以 逗號分隔,缺省值為該類父 節點的相關值2.數據說明1.1.0版分類體系按照中圖分類法進行分類類

9、型編碼與信息類型一一對應,編碼原則:依照中圖分類法原則。例如:信息分類與編碼為 醫藥衛生R預防醫學/衛生學R1中國醫學R2基礎醫學R3臨床醫學R42數據導入(劉萍,王海波,廖華明)數據導入中的文件系統導入的詳細設計(劉萍)功能文件系統的導入是一個獨立的模塊,是為系統信息員提供的一種批量導入數據 的工具。文件系統的導入是指在節點服務器上,對已經存在的文件系統,指定目錄或文件, 提取文件的相應屬性,然后指定文件所屬的類別,將這些信息組成meta記錄,添加到 meta庫中。文件系統中所包含的文件的類型可以為多種,但現在只對html文件、txt文件抽取 subject信息,其余的沒有此字段信息。提取的

10、meta信息包括:文件的名字入到DCTitle 字段,文件的前若干字節(例如200字節,100個漢字)入到摘要字段DCSubject字段 中,文件的日期入到DCData字段中。Meta庫中,記錄的GID字段為系統自動生成的 連續流,類別InfoClassID字段為文件導入時由信息員指定的。具體實現界面:用VC做類似于NT中的資源管理器的界面,頁面的左邊為當前系統的分類結構, 右邊為當前接點服務器的文件系統結構,利用鼠標的點擊和拖動來實現文件系統的導 入。文件的選中:當在文件系統結構中的某個目錄或文件上按下鼠標左鍵時,目錄或文件被 選中,顏色變深。此時應保存選中的目錄名或文件名。類別的選中:當鼠

11、標拖動到頁面左邊的分類結構中時,隨著它的移動,相應的分類應標 識被選中。當鼠標的左鍵被抬起時,最終的類別將被確定,此時應在T_ClassDirectory 表中查找此類對應的InfoClassID,保留此ID號,它就是將要導入的這批數據的類別, 也就是它們入到T_Metadata表中InfoClassID字段的內容。文件導入的確認:當鼠標左鍵被抬起時,應彈出一個對話框,詢問是否將選中的目錄或 文件按選中的類別導入meta庫。對話框有“確認”和“取消”兩個按鈕。若按下“確 認”按鈕,則應馬上建立和T_Metadata表的連接,準備數據的入庫;若按下“取消” 按鈕,則返回原界面。文件meta信息的

12、提取和建立:當在確認框中按下“確認”后,系統開始對選中的文件 進行meta信息的提取。在操作系統返回的文件系統的數據結構中,首先判斷文件的類 型,若是html或txt類型的,則取回name、data域的內容,另外打開文件,取出前 200個字節的內容作為此文件的摘要subject;若不是這兩類文件,則只取name、date 域的內容。GID字段的值加1。文件meta信息的入庫:用Insert等相關的數據庫操縱指令對T_Metadata表操作,逐條 的將由文件相關屬性形成的meta記錄插入表中。入庫的完成:當所有的文件記錄都已經添加到T_Metadata表中后,系統應彈出信息框, 顯示“數據導入成

13、功”的信息。當點擊“OK”按鈕時,系統關閉與T_Metadata表的連 接,導入過程結束。考慮的問題除了可將本地節點服務器的文件系統導入以外,也可將其它節點服務器的相關內容 導入,即可作成一個ftp工具?基于metadata繼承體系的數據導入工具( 王海波)1概述3. Metadata繼承體系定義因為系統必須容納各種類型的數據,如音樂、動畫、影視、新聞、書籍等,這些信息不 但存儲的格式不同,而且需要描述的屬性內容也很不一樣,它們適用的元信息標準也有一定 的差別。而且,一旦有新的信息類型加入,系統也對其提供相應的支持。因此系統必須支持 一種通用的、可擴充的metadata體系。Metadata繼

14、承體系就是這樣一種體系結構。數據類型可以按照一定的分類原則形成一種從普通到特殊的數據類型繼承系統。我們將 最普通的數據類型的屬性,也就是各種類型數據需要描述的屬性中最通用的部分抽取出來作 為基礎屬性,然后將描述特殊類型數據的元信息字段作為擴充屬性,更特殊的類型將具有更 為特殊的擴充屬性。通用類型數據的元信息只包括基礎屬性,繼承通用類型的特殊類型數據 的元信息則既包括基礎屬性,又包括擴充屬性。這種通用與特殊數據的屬性關系就形成了 Metadata的繼承體系。整個系統可以用下圖表示:4.設計思路在目前以有的系統之上做一些修改完成此次的工作。具體來說,包括VB數據導入工具 界面的修改,向Metada

15、taAgent傳輸參數的修改以及MetadataAgent向數據庫中添加記 錄的修改。2具體修改方法2.1 VB數據導入工具界面的修改在數據映射的標簽中,給用戶提供所要輸入的數據屬于哪一類文獻的選擇。根據不同 的選擇,在原來的第一層的Metadata的基礎上,分別增加視覺文獻和音樂作品的擴充屬性 的輸入欄。2. 2向MetadataAgent傳輸參數的修改增加MetadataAgent對外的屬性接口,VB數據導入工具把用戶輸入的Meta數據分別 賦給MetadataAgent的屬性接口。2.3 MetadataAgent向數據庫中添加記錄的修改由于現在Metadata信息由三個表組成,Meta

16、dataAgent需要分別向此三個庫中分別添 加。即針對每個庫形成sql的添加數據庫記錄的語句,調用ADO對象來進行。通過鏈接分析批量導入數據(廖華明)該程序主要包括兩個部分的功能:鏈接分析批量導入數據1 .系統實現的假設條件鏈接相似性假設頁面中所有有效的鏈接(即與需求相關的鏈接)都具有相同的子字符串,或者都是 屬于某個確定的虛擬路徑。也就是具有某種程度的相似性,而且這種相似性是可以描述和判 別的。數據頁面可區分考慮到時間問題,1.1.0版假設鏈接層次體系中最終存放數據的頁面與存放層次信息的 頁面是可區分的,也就是存放層次信息的頁面不作為最終數據考慮,并且數據頁面可以通過 特殊標記進行區分的。

17、在以下的文檔中,存放層次信息的頁面稱為節點頁面,指向節點頁面 的鏈接稱為節點鏈接,存放最終數據的頁面稱為數據頁面,指向數據頁面的鏈接稱為數據鏈 接。該假設比較苛刻,在下一版本中將根據實際需求進行改進。3 元信息抽取同樣基于時間的考慮,1.1.0版在元信息的抽取上作如下簡化:HTML頁面的標題由標記對決定HTML頁面的摘要為有效信息(除去標記的數據)的前50個字符Txt文件的摘要為文件內容的前50個字符其它類型文件的標題即其文件名2.對象設計1鏈接分析器一一該對象對相關鏈接的關系進行分析,由此獲取鏈接間的層次關系。2. 1. 1對象屬性首鏈接一一需要進行分析的鏈接的首頁地址有效鏈接描述一一有效鏈

18、接共同包含的字符串2. 1. 2對象方法鏈接分析程序流程1)層次計數器1=0,當前層次為第0層2)生成頁面對象3)判斷當前頁面是否為數據頁面4)不是數據頁面,則5)鏈接計數器j=0,調用頁面對象的方法抽取出該頁面的所有鏈接和相應層次信息, 將有效鏈接壓入鏈接棧(計數器j遞增計數)6)記錄當前鏈接為節點鏈接7)計數器I+18)是數據頁面,計數器I-19)調用頁面對象的數據導入方法進行數據導入操作10)記錄當前鏈接為數據鏈接11)鏈接棧是否空12)不空:彈出鏈接棧第一個鏈接作為當前鏈接,記錄其層次信息,轉至第2步13)空:結束循環鏈接還原將不完整的鏈接進行還原處理程序流程:1)通過參數獲取當前鏈接

19、層的虛擬路徑、根路徑2)分析當前鏈接的url,可能為以下幾種情況:相對于根路徑的url,直接由根路徑與url相接形成完整的url具有父目錄引用(。/)的url,則追蹤到最上層鏈接,再形成完整的url其他情況,則由當前鏈接層的虛擬路徑與當前鏈接的url相接形成完整的url 2. 2頁面對象2. 2. 1對象屬性當前鏈接一一指向頁面對象的鏈接2. 2. 2對象方法頁面初始化程序流程:1)通過socket獲取頁面內容2)進行頁面分析3)如果為數據頁面,調用元信息抽取對象的方法抽取元信息,將頁面存放到相應 的目錄文件中4)如果為節點頁面,將頁面包含的鏈接存放到鏈接記錄文件中頁面類型程序流程:1)返回頁

20、面類型獲取鏈接程序流程:1)返回頁面包含的所有鏈接數據導入程序流程:1)建立元信息代理對象實例,調用該對象的數據導入方法進行數據導入3綜合檢索(姜吉發,張一偉)中國數字圖書館之核心業務平臺的總體設計及其中綜合檢索模塊之詳細設計一、中國數字圖書館之建設背景1、什么是數字圖書館數字圖書館首先是指將館藏信息數字化并將這些數字化的圖書搬到網絡上去,用戶可以 通過一個統一的界面瀏覽或查詢這些圖書信息。其次,它必須通過網絡方式為用戶提供 傳統的圖書館能夠完成的所有功能。另外,隨著網絡技術的發展和用戶需求的增加與改 進,數字圖書館還要提供大量傳統意義上的圖書館沒法提供的許多動能,如各種各樣的 網站和網絡門戶

21、。2、數字圖書館的建設背景政府的積極參與為數字圖書館的建設提供了政治、法律和經費保障。美國數字圖書館建設為我國數字圖書館建設提供了示范與參考。各大學和研究機構為數字圖書館建設提供了相關的技術儲備。國內多數圖書館都建有各自的圖書管理和借閱信息系統乃至自己的獨立數字圖書館系 統,為我國數字圖書館的建設打下了人才、技術、數字化信息和信息系統等各方面的基 礎。Internet和WWW本身為數字圖書館的建設提供了技術驅動。Internet和WWW的普及使用為數字圖書館的建設提供了需求牽引。3、國家數字圖書館的體系結構圖二核心業務平臺之搜索引擎之體系結構 、流程圖三、綜合檢索的詳細設計1、什么是綜合檢索所

22、謂綜合檢索,就是對結構化信息的結構化檢索和非結構化信息全文檢索的總稱。本系統中的綜合檢索包括三方面功能:。全文檢索。元信息的結構化檢索。元信息的全文檢索2、全文檢索。是指數字圖書館用戶通過PORTAL輸入界面輸入一個關鍵字,系統將含有該關鍵 字的文擋返回給用戶。由于文擋信息及其索引分布于各個不同的子數字圖書館系統,而每個子數字圖書館系統 均可提供全文檢索功能,故需將用戶的查詢請求分發到各個子數字圖書館系統,之后各個系統在各自 的庫中并行查找,然后將結果返回到主PORTAL主PORTAL對結果進行合并并將合并結果提交給用 戶。該功能用一個COM組件實現。給組件實現查詢請求分發和返回結果合并之功能

23、。關鍵詞全文檢索請求的分發格式和檢索結果的回送以C/S方式進行請求分發,主PORTAL是CLIENT,各個分PORTAL是SERVER。請 求格式為:查詢方式關鍵詞1關鍵詞2關鍵詞3結束符其中,查詢方式用數字表示,1表示與檢索,2表示或檢索,3表示詞間距檢索。結束符用$表示。每個字段之間用一個單字節空格隔開。檢索結果以字符串的形式返回。串中含有每篇文章的GID號,GID號之間以單字節空 格分開。3)元信息的結構化檢索通過傳統的結構化數據庫檢索技術實現對元信息庫中特定字段的檢索功能。4)元信息的全文檢索將元數據庫中要進行全文檢索的每個記錄字段看作一個獨立的文檔,從中抽取之形成一 個新的文檔庫,對

24、該新文檔庫做全文索引,從而可以實現對元數據庫的全文檢索。4數據更新與傳輸,信息瀏覽(周立新,朱茂盛)數據更新與傳輸(周立新)節點引擎MDB數據實時傳輸器節點引擎MDB數據實時傳輸器包括Metadata變化的獲取、Metadata更新數據的傳輸等 功能,輸入數據為節點端須更新的數據,其算法流程為:INPUT:更新的Matadata數據OUPUT :傳輸成功,或失敗標志COMPUT讀入更新的Matadata數據,將更新的Matadata數據存入緩沖區“NEW MATADATATABLE”;建立傳輸連接,啟動計時器;IF連接不成功THEN返回失敗標志;傳輸數據;IF傳輸成功(收到應答)THEN返回成功標志,成功后的NEW MATADATA處理(如刪除)ELSE IF符合重傳條件THEN返回第3步EL

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論