




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、中文信息處理教學日歷中文信息處理使用十八周完成教學任務,每周三課時理論課,每兩周學生上機實踐一次。理論課在有投影儀的教室進行,采用多媒體手段以教師講解為主;上機實踐課在計算機科學與技術學院的實驗中心機房進行,以學生上機實踐,教師個人輔導為主。一、理論課時間與安排序號教 學 內 容教時分配目的要求1中文信息處理概述一3中文信息處理的研究對象、研究目的和意義;如何研究中文信息處理2中文信息處理概述二3本學科的特點和研究內容;本學科的發展史和研究前沿與現狀3漢字的代碼體系3ASCII碼;ISO/IEC 2022;漢字交換碼、區位碼、機內碼及其它們之間的關系;代碼頁的介紹;掌握漢字在計算機內的各個代碼
2、,包括輸入碼、地址碼、字形碼、機內碼,重點是機內碼的理解4因特網漢字信息交換技術3了解常用漢字編碼字符集,包括:GB2312-80,BIG5,ISO10646,Unicode,GBK,GB18030;Internet上的漢字交換碼,包括:Uuencode,Xxencode,Base64,Quoted-Printable,HZ碼,UTF-7,UTF-8;掌握用于Internet的漢字交換碼5中文系統平臺概述3中文操作系統概述;介紹中文操作系統總體框架;中文Windows操作系統;中文Linux操作系統;中文嵌入式操作系統6漢字編碼技術3了解漢字編碼的概念及發展狀況;漢字編碼中的基本概念;漢字編碼
3、的依據;漢字編碼的分類;漢字編碼舉例;漢字編碼的國家標準7漢字輸入技術一3掌握輸入碼對照表的設計技術,包括定長結構、變長結構、索引結構和其他結構;要求能夠自行設計和實現簡單結構的輸入碼對照表8漢字輸入技術二3掌握漢字輸入的基本原理、輸入技術分類和實現技術, 以DOS和Windows為例,介紹其輸入技術9實驗分析一3分析講解前四個實驗的原理與主要難點10漢字鍵盤輸入系統4以Windows和Linux為例,介紹漢字鍵盤輸入系統的設計以及實現方法11漢字字形管理技術一2漢字字形概述;常用的字形描述技術介紹(點陣字形,矢量輪廓字形,曲線輪廓字形);字形的壓縮和還原;字形的放大和縮小技術及減少失真的措施
4、12漢字字形管理技術二3介紹TTF字形技術,并對TTF字形進行分析和應用;介紹字庫的設計和管理技術;漢字字庫的應用13漢字輸出技術3掌握漢字顯示輸出的原理和過程,介紹漢字顯示技術實例, 掌握漢字打印輸出的原理和過程,介紹漢字輸出的應用14中文文本分詞3介紹中文詞語分詞的概念、主要問題,基本方法和國內外研究現狀15中文信息檢索3介紹中文信息檢索的基本原理,并使用實例(如google)來說明信息檢索的實現技術16中文文本分類3介紹中文文本分類的概念,主要方法,實現技術,以及國內外研究現狀17中文信息抽取3介紹中文信息抽取的概念,主要方法,實現技術,以及國內外研究現狀18實驗分析二3分析講解前四個實
5、驗的原理與主要難點二、上機實踐內容安排序號實驗項目名稱實驗內容/目的要求學時實驗類型1漢字在計算機內存儲及文件操作熟悉中文在計算機內存儲的機制,了解ANSI-Code文件和Unicode文件的區別,并編寫程序以文本文件和二進制文件的方式對文件進行復制和加密操作。3課時基礎性實驗2簡-繁(繁-簡)漢字機內碼的轉換設計一個GBK到Unicode的低存儲、高效檢索的數據結構,并編寫程序實現GBK到Unicode和Big-5到Unicode的轉換表。從而間接實現簡-繁轉換,并分析遇到的問題,進一步考慮解決方案。3課時設計性實驗3漢字機內碼和交換碼的轉換了解漢字的各種機內碼和交換碼,并清楚其定義和表示方
6、法。能夠根據漢字機內碼和交換碼的特點進行處理,從而掌握漢字代碼的處理方法。3課時設計性實驗4漢字輸入系統碼本的構建與檢索初步了解輸入碼對照表的定長結構、變長結構、計算結構和索引結構。并能夠根據不同的碼本設計合適的對照表結構,并提供高效的檢索算法,計算時間和空間復雜度。3課時設計性實驗5Windows下中文輸入法的實現在詳細了解Windows下漢字輸入法的實現原理和實現技術的基礎上,基于實驗4設計的輸入碼對照表結構,在Windows下實現了一個系統級的拼音輸入法。3課時綜合性實驗6基于點陣字庫的漢字顯示對于給定結構的字形庫文件,學生能夠根據輸入某個漢字的機內碼,將之轉化成地址碼,進而在字形庫中讀
7、取該漢字的字形碼,在屏幕上還原輸出該漢字的點陣圖形。3課時綜合性實驗7點陣字庫的壓縮與還原利用黑白段和線性增量對指定的點陣漢字字形庫進行壓縮處理,并從算法上定量分析壓縮率;設計出還原算法,并編寫程序實現還原過程。3課時綜合性實驗8漢語自動分詞在學習漢語分詞基礎理論的基礎上,學習二次開發技術,利用天津海量分詞系統的API接口,開發一個文件級的漢語自動分詞系統。3課時綜合性實驗三、課外作業第一講1.什么是中文信息處理?它包含哪些主要內容?2.軟件的國際化和本地化對中文信息處理有和意義?第二講1.什么是字頻?什么是詞頻?2.中文信息處理的研究對象有哪些?第三講1.字符在ISO-10646中是如何編碼
8、的?ISO-10646中基本位平面的作用是什么?2.從字符編碼標準的角度談談計算機中文信息處理的特點。第四講1.QP、Baese64和HZ等編碼主要解決什么問題?2.分析郵件產生 “亂碼”的原因,并提出相應的解決方法。第五講1.中文操作系統有哪一種設計方法?各有什么特點?2.中文操作系統和中文平臺有什么區別?第六講1.如何理解漢字編碼技術中的“以字為基礎,以詞為主導”?2.“小鍵盤編碼”和“大鍵盤編碼”各有哪些優缺點?第七講1.輸入碼對照表在漢字輸入系統中的作用是什么?2.定長、變長和索引結構的輸入碼本各有什么優缺點?第八講1.闡述Windows中的鉤子機制。2.什么是鍵盤掃描碼?它與ASCI
9、I碼之間有何關系?第九講1.簡要描述IMM-IME體系的輸入法的工作原理。2.什么是Linux的輸入法服務器?輸入法服務器作用是什么?第十講1.利用實驗設計的數據結構和數據,實現一個簡單的為漢字標拼音程序。2.設計并實現一個繁體(big-5)文本轉換為簡體(GBK)文本的軟件第十一講1.漢字的字形描述與西文的字形描述有哪些異同點?2.如何利用一個點陣字庫實現漢字的傾斜、加粗、加下劃線的效果?第十二講1.字庫為什么要壓縮?設計字形壓縮算法需要考慮哪些因素?2.什么是“黑白段表示法”?什么是線性增量表示法?第十三講1.什么是打印機的分辨率?2.簡述漢字顯示的基本過程。第十四講1.什么叫真歧義?什么叫偽歧義?2.為何逆向最大分詞算法比正向最大分詞算法效果略好?第十五講1.什么是半結構化文檔和非結構化文檔?2.如何評價信息檢索系統?第十六講1.文本分類時常用的文檔表示技術有哪些?2.常用的文本分類算法有哪些?第十七講1.信息抽取有哪些研究對象?其特點是什么?2.W
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國氧化錫項目投資計劃書
- 拆遷合同補償協議書范本
- 柔性電子材料項目創業計劃書
- 淘寶客服2025年工作計劃書(新版)
- 文化墻制作合同協議書
- 簡單工程合同協議書范本
- 濾油機維修合同協議書
- 意向協議書是預約合同
- 2025年汽車檢具市場調查報告
- 簡單員工合同協議書下載
- JBT 1306-2024 電動單梁起重機(正式版)
- 板式換熱器對數平均溫差計算公式
- 《工程建設標準強制性條文電力工程部分2023年版》
- 《輸變電工程無人機傾斜攝影測量技術規程》
- 醫療廢物的分類及管理
- 鋰電池項目經濟效益分析報告
- 2024氫氣長管拖車安全使用技術規范
- 垃圾中轉站安全培訓
- 2024年輔導員職業能力大賽的基礎知識題庫解析
- 2024供電營業規則學習課件
- 老舍先生的成長研究報告
評論
0/150
提交評論