




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
一種基于人機結合思想的書本式地方文獻索引編制方法一種基于人機結合思想的書本式地方文獻索引編制方法一種基于人機結合思想的書本式地方文獻索引編制方法 地方文獻論文更新:2022-4-8閱讀: 一種基于人機結合思想的書本式地方文獻索引編制方法地方文獻以其地名、人名、機構名等專有名詞術語眾多而一直是索引編制的難點。對于文字數量數百萬乃至上千萬的地方文獻而言,假設要到達滿足讀者檢索要求的標引深度,那么索引制作的工作量就會急劇增加。假設純用手工制作,不僅在信息的處理過程中容易產生過失,且費時費力。為理解決這一矛盾,降低索引編制本錢,需要引入計算機信息處理技術。以下我們以在?杭州市志·索引?編制過程中開發的計算機輔助索引軟件(CAIC1.0Beta)為例,就詳細說明這一基于人機結合思想的地方文獻索引編制方法。1現狀目前,運用計算機信息處理技術來進展漢語文獻索引編制的方法一般分為兩大類:一種為根本以自動標引、索引為主的方法,其中漢語自動標引法常見的有詞典標引法、切分標引法、語法分析標引法、漢語自動標引專家系統、單漢字標引法等;在漢語索引法上那么多采用題名關鍵詞抽詞索引法、主題詞表選詞索引法、職能符號標引索引法等。這些方法都在一定程度上解決了漢語文獻標引和索引的問題,但由于漢語語言現象的復雜性,此工作根本都在文獻題名這一層次上展開,至于針對文獻全文的智能標引和索引尚處于探究階段。而且,這些方法需要具備相當專業的計算機、語言學、文獻學知識,并且相關的專用軟件獲取本錢極高。另一個常用方法是人機結合、以人為主的方法,主要為采用諸如FoxproMicrosoftAccess據庫軟件來編制。這種方法具有技術要求低、使用方便的特性。但這僅是一個以人工為主、輔以計算機技術的方案,并且參照系統即關鍵詞之間的互相關系(見、參見)不能直接在上述數據庫軟件中得到表達和轉移,因此索引庫的生成無法直接應用參照系統,編制者將不得不依靠手工來進展,這是一個非常繁瑣而且極易導致過失的工作。2解決方案的系統設計方志作為地方文獻的一個重要門類,其數量龐大,包含了一個區域的自然、政治、經濟、文化、社會、軍事等信息,有地方百科全書之稱,具有極高的使用價值。為此,我們在理論中以?杭州市志·索引?作為地方文獻的樣本,對此進展索引的編制。其編制目的是一部分析內容的書本式關鍵詞索引,其標引范圍為全志中的正文、附錄、圖、表格、照片,標引對象為人物、機構、地名以及其他一切具有檢索價值的各類事物、事件和活動。對于一個優秀的索引而言,確定適宜的標引、索引方案和參照系統是至關重要的,也是本索引編制解決方案首先要解決的問題。因此,在系統設計過程中,我們考慮了地方文獻的特點和客觀實際,分析上述方法的利弊,制訂了以下的編制思路。2.1標引方案以實現的手段劃分,可分為人工標引和自動標引。自動標引又可分為自動抽詞標引和賦詞標引。自動抽詞標引是指直接從原文中抽取詞或短語作為標引詞來描繪文獻的主題內容。假設在自動標引過程中,使用的標引詞來自于預先編制好的詞表,那么稱之為自動賦詞標引。對于計算機而言,針對漢語的自動抽詞主要困難在于自動分詞以及選取標引詞的標準,而自動抽詞標引的標準很大程度上是建立在詞頻統計的根底上的。就方志這一類地方文獻而言,假設一些人名、地名在文獻中只出現數次乃至一次的話,就很有可能不被標引,這會導致大量有價值的信息不能被檢索到。而假設放低詞頻標準,那么相關的標引詞數量會急劇增多,書本式索引的篇幅會相當龐大。而自動賦詞標引又依賴于詞表,由于方志的地域性,這樣一個包含有大量地方獨特的人名、機構名和地方特色事物的詞表一般都沒有建立,因此無從根據詞表來進展自動標引。由于地方文獻的編纂者或研究者對于文獻內容比較熟悉,可以準確地分析主題內容,并抽取相應的關鍵詞予以標引。因此,采用由他們來進展人工標引的方法,應該是方便和切合實際操作情況的策略。2.2索引方案索引款目的自動生成目前已經有很多實際應用的方案,如鏈式索引法(ChainIndexing)、選擇組合排列索引法SLIC)、掛接主題索引法(ASI)、保存上下文索引法(PRECIS)等,這些基于計算機的索引法無一例外地運用了輪排或循環技術,對于計算機來說只要設定好索引法的原那么后,工作是相當簡單的。但是這種方法會導致索引款目急劇增多的后果,因此這種對于專業性文獻檢索工具而言是非常適宜的方法,運用到地方文獻上時,特別是如方志一類篇量較大的文獻上時,就要承擔索引篇幅大幅增加印刷本錢進步所帶來的危險。基于這個因素,我們認為在方志索引上應該采取對于絕大部分的索引詞不進展輪排,只對極個別的主標目和副標目進展輪排的索引方案,以最小的代價來實現相對高的查全率。2.3參照系統生成是否設置參照系統是衡量索引系統質量的重要指標之一。而為了進步查全率,也需要我們設置參照系統。參照系統由主標目詞和見參照(seereference)、參見參照(seeaisoreference)組成,從而保證了索引的整體性和系統性。因此,我們認為在沒有現成詞表的前提下,運用計算機技術結合人工干預來生成參照系統應該是軟件追求的目的。2.4編程語言的選擇由于直接運用Foxpro數據庫技術在款目地址碼歸并和參照系統生成上的困難,因此采用通用編程語言是理想的選擇。Delphi為一種面向對象的可視應用程序開發工具,與其他語言相比,它提供了一種快速的編譯器,優化編譯形式在很大程度上進步了代碼質量和運行穩定性,所以這種語言一直受到專業人士的青睞。同時,Delphi特別對于數據庫的體系構造提供了強大的支撐,Delphi還允許開發者將應用程序作為單一的.exe文件提供給終端用戶,這樣就減少了可執行文件在運行時對于其他文件或DLL(動態鏈接文件)的依賴。因此我們以Delphi為系統前臺,以MicrosoftAccess為后臺數據庫存儲原始信息,來編制索引計算機輔助編制系統。3本方案的技術實現3.1數據構造本軟件數據庫包含三個主要的數據表:a主表(標引詞庫)。該表用來儲存從方志文獻中抽取的關鍵詞和諸如卷號、頁碼、體裁、參照關系等屬性,以及一些用于操作管理的信息。其中的記錄需要索引編制者人工輸入。為了方便數據的錄入工作,一般可按照文獻的頁碼順序依次輸入。b關鍵詞表。該表根據主表表達的各標引詞之間的參照關系,由程序自動生成。此表是軟件下一步進展索引合成的根據。c索引正文數據表。該表用來儲存關鍵詞及其地址碼(卷號、頁碼),可用來最后輸出索引正文格式的文本文件。3.2程序功能(主控界面見圖1)本軟件具備信息采集;信息處理;信息輸出三大功能。3.2.1信息采集功能。主要是由索引編制者將標引詞(關鍵詞)及其屬性輸入主表。標引詞屬性包括關鍵詞所在卷號、頁碼、關鍵詞代表內容的體裁(文、圖、照片、表格)以及參照系統。3.2.2信息處理功能。包括人工干預(預處理)功能、關鍵詞表生成功能、索引正文生成功能。人工干預功能。由于標引者對索引編制標準和對志書原文的理解可能不一致,不同作者在處理一樣事物所用的術語亦有不同,以及數據錄入過程中都會導致一樣內涵的關鍵詞往往以不同的形式出現。詳細表現形式有:a.一見多———如A見B,A見C,A見D,……;b.連續見———如A見B,B見C,C見D,……;c.循環見———如A見B,B見C,C見A(A、B、C均指不同的關鍵詞,下同);d.同頁重復。假設產生如上a、b、c三種情況,對于形式a而言,將在索引輸出中喪失信息A見C和A見D(假設B的音序先于C、D,下同);對于情況b而言,將在索引輸出中喪失信息A見B和B見C;對于情況c而言,將出現關鍵詞A、B、C及其地址碼等信息的喪失;對于情況d而言,那么會在索引中出現某一關鍵詞后跟有完全一樣的地址碼。上述情況出現的數量并不少,這就可能導致生成信息的大量缺失而導致索引資料的不完好。由于人工檢查極為煩瑣且不完全甚至可能會引入新的錯誤,為此本軟件特設預處理功能(見圖2),將上述的“循環見處理〞、“連續見處理〞、“一見多處理〞、“同頁重復處理〞,通過人工干預子功能,可以自動查找在索引主數據庫中由于在標引、數據錄入過程中產生的過失,生成錯誤提示(寫入.TXT文件,格式見信息輸出功能部分),以便編制者根據提示信息檢查主數據庫,對錯誤進展修改。同時本軟件還可在一定程度上對上述錯誤在人工確認正確的關系后自動予以修復,保證了在后續處理過程中信息的正確。圖此外,由于方志具有地域性,因此記述到的機構往往都為本地機構。這樣就會存在大量具有同一地名或行政區劃名開始的機構名。例如,?杭州市志?中就存在大量的以“浙江省〞、“杭州市〞等為首的機構名,假設一律以機構名首字音序排列的話,即,如將“浙江省人民政府〞和“杭州市人民政府〞分別排列在“浙〞字和“杭〞字中,如此就會出現大量以“浙江省〞、“杭州市〞開頭的機構聚集在一起的情況,從而極大地增加檢索難度,同時還會造成相關信息的離散。為此,在預處理時設置了前置詞處理功能,程序自動將這些詞作為前置詞,進展倒置處理,關鍵詞那么按截去前置詞后剩余部分為音序排列。在輸出時,那么自動將后置的前置詞復原至頭部(詳見輸出功能部分)。關鍵詞表生成功能。程序自動從主表(標引詞庫)中根據標引者設置的參照系統生成關鍵詞表。此關鍵詞表是索引正文生成階段的根據,它與主數據庫、索引正文保持相對獨立性,以后索引編制者只要對關鍵詞表中的關鍵詞及其互相關系(參照系統)進展維護,即可獲得正確結果,而無需對主表數據進展大量的修改工作,大大減少了工作量。索引正文生成功能。軟件自動根據關鍵詞表中的關鍵詞及其互相關系,對主表中的數據進展處理,按照索引要求,將一樣關鍵詞的卷號、頁碼、體裁代碼按照卷數、頁碼先后排列,并根據關鍵詞表中的參照系統,作出相應處理,將“所見〞關鍵詞的頁碼自動歸并到“被見〞關鍵詞后,并作出“參見〞說明。3.2.3信息輸出功能。該功能可分兩種情況:一種是以數據庫的形式輸出階段性的查詢操作結果,一種是文本文件形式輸出結果。第一種情況的查詢功能包括主表查詢、關鍵詞表查詢,它支持準確和模糊查詢。第二種情況的信息輸出可分為三種輸出格式,分別對應于索引編制的不同階段。其中格式1是在對主表輸入標引詞及其屬性等原始信息后輸出的格式,它主要是用來和標引原始記錄進展校對。格式1以頁碼為順序排列關鍵詞,其格式如下:格式2為利用本文中設計的人工干預算法所生成的計算機提示信息。格式如下:情況“一見多(連續見、循環見)〞———請查看:這里,地址碼包含卷數和頁碼,均為出現錯誤的卷數、頁碼數。格式3為索引正文輸出格式,又分為A、B、C三種子格式:格式3A:關鍵詞(Keyword)[說明語(Description)]地址碼n(addressn);格式3B:關鍵詞(Keyword)[說明語(Description)]見(See)關鍵詞;格式3C:關鍵詞(Keyword)[說明語(Description)]地址碼n(addressn)格式3為索引正文形式(見圖4),款目的題按關鍵詞的拼音順序排列,將數據處理部分中索引正文生成的結果輸出到文本文件,以便索引編制者在Microsoftword或方正等專業排版系統中再進展版式處理。此外,CAIC1.0Beta在程序中間處理過程中將被倒置處理的前置詞復原至關鍵詞前面,并在這些前置詞前后分別添加“(〞、“)〞。同時還可在頁碼和標目詞之間添加一定的分隔符,以方便排版工作的進展。4實際應用效果本軟件系統具有索引生成準確、速度快、少用人工、使用簡單、人機界面良好、運行穩定可靠等特點。其中數據處理階段的效率比手工操作進步了數百倍,因此與整個索引制作所用時間相比,程序處理的時間幾乎可以忽略不計。5結論及展望通過此次?杭州市志?索引的計算機輔助編制理論證明,采用本文介紹的方法可以比較圓滿地解決本文開始提出的問題,即由于地方文獻的獨特性及標引深度進步而導致的關鍵詞急劇增多和人工編制速度慢、準確率低的矛盾,因此該方案具有一定的實用和推廣價值。同時,由于方志索引內容的相似性,本次索引編制中生成的關鍵詞表還為今后構造方志關鍵詞表打下了良
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 種子種苗國際貿易與市場分析考核試卷
- 紡織設備操作安全風險評估與控制考核試卷
- 窗簾行業的綠色服務模式創新實踐與案例分析考核試卷
- 維綸纖維在高端服裝面料中的應用考核試卷
- 紡織行業供應鏈管理策略考試考核試卷
- 木材采伐與可持續經營考核試卷
- 濾波器設計與實現考核試卷
- 電氣安裝施工環境保障措施考核試卷
- 礦山環境保護與污染防治考核試卷
- 山西省長治市三校2025年高三元月三診一模摸底診斷測試英語試題文試題含解析
- 死因監測培訓課件
- 如何在企業文化中樹立自信心
- 羽毛球正手發高遠球說課稿
- 北斗手持機操作教案
- 區域地理,高二地理
- 圖書館消防安全培訓課件
- 2024年江蘇國信集團有限公司招聘筆試參考題庫含答案解析
- 中小型會計師事務所發展策略
- 非國有資金投資工程項目直接發包備案表
- 《拼多多運營方案》課件
- 常見腫瘤AJCC分期手冊第八版(中文版)
評論
0/150
提交評論