




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第第#頁共5頁古籍文獻數字化加工系統硬件解決方案摘要:古籍數字化與古籍整理、文獻保護、文化傳承緊密相關。文章從古籍數字化的概念與意義談起,詳細介紹了古籍數字化的加工流程,并從系統硬件配置入手,完整地設計并實現了一種通用古籍文獻數字化系統的構建。【關鍵詞】:F:古籍數字化;系統設計古籍文獻數字化的概念與意義古籍在各類文獻中獨具特色。以國家圖書館為例,其古籍文獻資數量龐大,種類齊全,既包括甲骨、金石、簡帛、輿圖、善本等珍貴特藏,也包括圖書、期刊、報紙、縮微文獻等傳統普通古籍文獻類型。無論線裝古籍,還是碑帖拓本、古地圖,所有古籍文獻資都蘊含著獨特的文獻價值、藝術價值,彰顯著古老文明的魅力。據文化部統計,全國公共圖書館系統古籍2717.5萬冊件,其中善本229.5萬冊件[1]。如此豐富的古籍資,為古籍數字化建設提供了可供開采的豐富寶藏,成為數字圖書館資建設不可缺少的重要內容。古籍數字化就是從利用和保護古籍的目的出發,采用計算機技術,將常見的語言文字或圖形符號轉化為能被計算機識別的數字符號,從而制成古籍文獻書目數據庫和古籍全文數據庫,用以揭示古籍文獻信息資的一項系統工作[2]。古籍文獻數字化可以降低原件丟失和損失的風險。古老的文獻、照片都可以轉換成數字化文獻,避免讀者直接使用原件,以減少或避免原件損失的機率,同時也可以擴大原始文獻的利用范圍。古籍文獻數字化后,可以產生較原件可靠而功能性更強的數字資,這將有利于開展古籍文獻研究,從而擴大研究范圍。例如:對手稿字跡的鑒別,對圖畫、照片的放大瀏覽等等。古籍數字化是數字圖書館資建設的重要組成部分,數字圖書館推廣工程將在全國范圍內依托圖書館館藏優勢,建成內容豐富、類型多樣的公共文化資庫群。古籍文獻數字化加工系統工作流程古籍文獻數字化加工系統的工作流程一般可大致分為六個部分:文獻整理、圖像掃描、圖像處理與質檢、文字識別與質檢、數據標引與質檢、數據整理。其中,“文字識別與質檢”根據加工需求為可選流程。圖1為古籍文獻數字化加工系統工作流程,各類古籍文獻依據類型的差異在數字化細節上會有所不同。根據古籍文獻數字化加工系統工作流程圖可以得出,完成古籍文獻加工的單條流水線主要包含以下幾個環節:(1)文獻整理:待加工的文獻存放在專門的資料管理室,由相關人員統一上架登記,保護文獻安全;需借出做加工和歸還的文獻需要登記入冊,統計書目信息和文獻數量;(2)圖像掃描:按照加工要求對古籍文獻進行掃描,對掃描圖像進行命名、旋轉等;(3)圖像處理:應用專用圖像整理工具,自動檢查整理圖像的DPI與圖像模式,主要包括批量進行傾斜校對,調整傾斜度、統一畫布尺寸、調整dpi、去除黑邊等操作、糾正文件名命名、建立圖像索引等,處理完成后導入數字化加工管理系統進行數據自動分發與流轉,系統會在流水線上自動派發任務;(4)0CR識別:應用專業OCR識別軟件依照文獻數字化加工要求進行全文或特定的文字識別;(5)OCR數據質檢:完成字體切分、校對,從而做到一字一框,精確對位,同時進行聚類校對,將一批次中所有同一個字的字形聚集到一起,選出與標準字庫不一樣的那一個進行標紅,為下一步錯字修改做準備;完成錯字修改,操作員通過管理客戶端可以實時讀取到上一步的校對結果,并進行錯誤修改,修改完的字體會有高級人員校對;如遇操作員識別不了的字體,也可留給高級人員糾正。(6)版式還原:包括原有版式編輯還原、ML排版、PDF排版、調整字體、字號、字間距、標題格式等內容;(7)成品全檢:根據文獻數字化加工項目的特點,應用成品檢查工具,對每批完成數據進行成品檢查。對出錯的部分,按照誰做誰修改的原則,由管理系統返回給操作員進行修改。古籍文獻數字化加工系統設計參照古籍文獻數字化系統工作的一般流程,可以將加工系統設計為包含軟硬件運行平臺、數字化專用采集和輸出設備、數字化加工管理軟件等幾大部分。整個古籍文獻數字化加工系統硬件架構中將包含服務器、存儲設備、加工工作站(終端PC機)、各類型掃描儀及網絡集成等。古籍文獻數字化加工系統拓撲結構圖古籍文獻數字化加工系統軟件古籍文獻數字化加工系統軟件可分為數字化加工管理系統軟件和文獻數字化生產系統軟件兩大部分。軟件系統部署在服務器端和工位的PC機端。目前市面上成品數字化管理及生產系統軟件很多也比較成熟,可以依據古籍文獻數字化的具體要求直接采購使用。古籍文獻數字化加工系統服務器設計古籍文獻數字化加工系統服務器可設計為數據庫及管理服務器2臺,互做雙機熱備,部署數據庫、中間件、文獻數字化生產系統和數字化加工管理系統。其中一臺兼做數據封裝服務器和數據自動處理服務器,另外一臺兼做元數據控制服務器和FTP服務器。由于有頻繁的數據處理,因此這2臺服務器建議為大內存和多CPU。文獻數字化加工系統服務器2臺,參考配置如下:☆4路PC服務器,配4顆Intel8核CPU。☆內存至少為128GB,硬盤至少配2塊1TBSAS高速盤,做RAID1☆至少配2個千兆網口,1個萬兆光口☆配DVD,冗余電和風扇。古籍文獻數字化加工系統存儲設計采用IP-SAN磁盤陣列作為加工系統存儲。目前各家IP-SAN廠商已研發出自己的卷共享軟件并能免費提供,并且其iSCSI口已支持到萬兆(10G)°iSCSI技術是一種新儲存技術,該技術是將現有SCSI接口與以太網絡(Ether)技術結合,使服務器通過網絡交換機可與IP-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年山西衛生健康職業學院高職單招語文2019-2024歷年真題考點試卷含答案解析
- 2025年宿州職業技術學院高職單招職業技能測試近5年常考版參考題庫含答案解析
- 2025年安徽黃梅戲藝術職業學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年安徽機電職業技術學院高職單招(數學)歷年真題考點含答案解析
- 2025年安徽商貿職業技術學院高職單招(數學)歷年真題考點含答案解析
- 2025年安徽交通職業技術學院高職單招職業技能測試近5年常考版參考題庫含答案解析
- 肢體腫脹的觀察與護理
- DIP知識課件教學課件
- 物業服務接待課件
- 上消化道出血患者個案護理
- 創傷失血性休克中國急診專家共識(2023)解讀課件
- 項目管理工程師招聘筆試題與參考答案(某大型集團公司)2024年
- 高中文言文實詞虛詞總集(打印版)
- 咨詢實施顧問能力素質模型
- 婚禮主要工作人員及分工職責
- 2024年鐵路線路工(高級技師)技能鑒定理論考試題庫(含答案)
- 工程造價預算書
- TGDNAS 043-2024 成人靜脈中等長度導管置管技術
- 安徽省江淮十校2023-2024學年高一下學期6月期末測試語文試題(解析版)
- 《認識面積》(教學設計)-2023-2024學年三年級下冊數學蘇教版
- 晚期產后出血 課件
評論
0/150
提交評論