同方 第5章51 文本與文本處理_第1頁
同方 第5章51 文本與文本處理_第2頁
同方 第5章51 文本與文本處理_第3頁
同方 第5章51 文本與文本處理_第4頁
同方 第5章51 文本與文本處理_第5頁
已閱讀5頁,還剩42頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第第5章章 數字媒體及應用數字媒體及應用5.1 文本與文本處理文本與文本處理 5.2 圖像與圖形圖像與圖形 5.3 數字聲音及應用數字聲音及應用5.4 數字視頻及應用數字視頻及應用25.1 文本與文本處理5.1 文本與文本處理文本與文本處理 5.1.1 字符的編碼字符的編碼5.1.2 文本準備文本準備5.1.4 文本編輯、排版與處理文本編輯、排版與處理5.1.5 文本的展現文本的展現 5.1.3 文本的分類文本的分類與表示與表示35.1 文本與文本處理文字處理是計算機應用的基礎文字處理是計算機應用的基礎n 計算機應用使用計算機進行信息處理計算機應用使用計算機進行信息處理n 其中,其中,文字信息

2、的處理是各種計算機應用的基礎文字信息的處理是各種計算機應用的基礎文字文字數值數值語言語言音樂音樂圖像圖像信息的形態有多種信息的形態有多種45.1 文本與文本處理傳統的文字處理過程傳統的文字處理過程寫作寫作編輯編輯排版排版印刷印刷發行發行55.1 文本與文本處理計算機文字處理過程計算機文字處理過程n 文字信息在計算機中稱為文字信息在計算機中稱為“文本文本”(text),文本是計算機中最),文本是計算機中最常用的一種數字媒體常用的一種數字媒體n 文本由一系列文本由一系列 “字符字符”(character)組成,每個字符均使用二)組成,每個字符均使用二進制編碼表示進制編碼表示n 文本在計算機中的處理

3、過程是:文本在計算機中的處理過程是:(文本編輯器)(文本編輯器)文本編輯文本編輯與排版與排版格式化的格式化的電子文本電子文本(2)文本存儲文本存儲與傳輸與傳輸(4)文本文本展現展現(文本閱讀器)(文本閱讀器)(5)文本處理文本處理(文本處理軟件)(文本處理軟件)(3)文本準備文本準備電子電子文本文本(1)(文字與圖(文字與圖表表 的輸入)的輸入)65.1 文本與文本處理5.1.1. 字符在計算機中的表示字符在計算機中的表示 75.1 文本與文本處理字符、字符集及其碼表字符、字符集及其碼表 n 文字的基本元素是字母和符號,統稱為文字的基本元素是字母和符號,統稱為“字符字符” (character

4、),它包括:字母、數字、符號等,它包括:字母、數字、符號等n 字符集:一組特定字符的集合字符集:一組特定字符的集合n 不同的字符集包含的字符數目與內容不同,如:不同的字符集包含的字符數目與內容不同,如:n中文字符集、西文字符集、日文字符集等中文字符集、西文字符集、日文字符集等n 字符的編碼:字符的編碼:n 字符集中每個字符都使用二進位字符集中每個字符都使用二進位(code) 表示,稱為該字符的表示,稱為該字符的編碼編碼n 不同的字符其編碼各不相同不同的字符其編碼各不相同n 字符集中所有字符的編碼的一覽表,稱為該字符集的碼表字符集中所有字符的編碼的一覽表,稱為該字符集的碼表85.1 文本與文本處

5、理西文字符的編碼西文字符的編碼ASCII碼碼n 西文是表音文字西文是表音文字(拼音文字拼音文字),它由拉丁字母、數字、標點符,它由拉丁字母、數字、標點符號以及一些特殊符號所組成號以及一些特殊符號所組成n 美國標準信息交換碼美國標準信息交換碼(American Standard Code for Information Interchange, 簡稱簡稱ASCII碼碼):n ASCII字符集包含字符集包含96個可打印字符和個可打印字符和32個控制字符個控制字符n 采用采用7個二進位進行編碼個二進位進行編碼n 計算機中使用計算機中使用1個字節存儲個字節存儲1個個ASCII 字符字符n 存在問題:存

6、在問題:n 7位代碼空間太小(解決方案:位代碼空間太小(解決方案:8位的擴充位的擴充ASCII碼)碼)n 不同國家和地區使用不同的字符集及其編碼,互不兼容不同國家和地區使用不同的字符集及其編碼,互不兼容n 東亞地區使用的大字符集無法編碼東亞地區使用的大字符集無法編碼95.1 文本與文本處理漢字如何編碼?漢字如何編碼?n 漢字是記錄漢語(國語,華語)的文字,屬于表漢字是記錄漢語(國語,華語)的文字,屬于表意文字,它用符號直接表達詞或詞素意文字,它用符號直接表達詞或詞素n 漢字的特點漢字的特點n數量大;多個國家和地區使用;字形復雜,同音字數量大;多個國家和地區使用;字形復雜,同音字多,異體字多多,

7、異體字多n 如何編碼?如何編碼?n確定收入多少字、哪些字?確定收入多少字、哪些字?n漢字在字符集中的排序方式漢字在字符集中的排序方式n確定使用的代碼結構和代碼空間確定使用的代碼結構和代碼空間105.1 文本與文本處理常用的漢字編碼字符集常用的漢字編碼字符集n國家標準國家標準GB2312n漢字擴充規范漢字擴充規范 GBKn國家標準國家標準GB18030n臺灣地區的標準漢字字符集臺灣地區的標準漢字字符集CNS 11643 (BIG 5,俗稱俗稱“大五碼大五碼”)n日本工業標準漢字字符集日本工業標準漢字字符集JIS X 0208-90n韓國國家標準漢字字符集韓國國家標準漢字字符集KSC 5601-8

8、7115.1 文本與文本處理一級漢字一級漢字(3755個)個)二級漢字二級漢字(3008個)個)(擴充使用)(擴充使用)字母、數字和各種符號字母、數字和各種符號 19423位號位號 191655568794區區 號號(按漢語拼音排列按漢語拼音排列)(按偏旁部首排列按偏旁部首排列)GB2312漢字編碼字符集漢字編碼字符集n 1980年頒布年頒布信息交換用漢字編碼字符集信息交換用漢字編碼字符集基本基本集集GB2312-1980n GB2312字符集由三個部分構成:字符集由三個部分構成:拉丁字母、俄拉丁字母、俄文、日文平假文、日文平假名與片假名、名與片假名、希臘字母、漢希臘字母、漢語拼音等共語拼音等

9、共682個個共共6763個漢字和個漢字和682個符號,個符號,每個每個漢字或符號都有一漢字或符號都有一個確定位置,該位個確定位置,該位置的區號和位號就置的區號和位號就是這個漢字的是這個漢字的“區區位碼位碼”125.1 文本與文本處理GB2312漢字的編碼漢字的編碼n 每一個每一個GB2312漢字使用漢字使用16位位(2個字節個字節)表示表示n 每個字節的最高位均為每個字節的最高位均為“1”n 在在16位代碼空間中的碼位分布:位代碼空間中的碼位分布:第第1字字節節第第 2字節字節00 7E A1 FE0081A1FEGB2312圖形符號圖形符號漢字代碼空間漢字代碼空間(6763個漢字)個漢字)B

10、0F716位的代位的代碼空間共碼空間共有有216 65536個個碼位碼位135.1 文本與文本處理GB2312漢字編碼的不足之處漢字編碼的不足之處nGB2312漢字字數太少,無法滿足一些特殊應漢字字數太少,無法滿足一些特殊應用的需要:用的需要:n人名、地名;人名、地名;n古籍整理、古典文獻研究。古籍整理、古典文獻研究。n沒有繁體字沒有繁體字n編碼效率不高編碼效率不高: (6763+682)/65536n與與ASCII碼不兼容碼不兼容145.1 文本與文本處理幾種漢字編碼的對比幾種漢字編碼的對比GB2312GBKGB18030UCS-2(Unicode)6763個漢個漢字字(簡體字簡體字)210

11、03個漢個漢字(包括字(包括GB2312漢漢字在內)字在內)27 000多漢多漢字字(包括包括GBK漢字和漢字和CJK及其擴充中及其擴充中的漢字的漢字)2萬多漢字萬多漢字雙字節存雙字節存儲和表示,儲和表示,每個字節每個字節的最高位的最高位均為均為“1” 雙字節存儲雙字節存儲和表示,第和表示,第1個字節的個字節的最高位必為最高位必為“1”部分雙字節、部分雙字節、部分部分4字節表字節表示示(UTF-8編碼編碼) 1字節、字節、2字字節、節、3字節字節等不等長編等不等長編碼碼編碼不編碼不兼容!兼容!保持向下兼容保持向下兼容GBK00 FF00FF20902漢字00 FF00FF6763漢字GB231

12、200 FF00FF27484漢字GB18030155.1 文本與文本處理例例: IE瀏覽網頁時文字編碼的選擇瀏覽網頁時文字編碼的選擇165.1 文本與文本處理5.1.2. 文本準備文本準備 文稿如何輸入計算機文稿如何輸入計算機 175.1 文本與文本處理文字符號輸入計算機的方法文字符號輸入計算機的方法鍵盤輸入鍵盤輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入(1)數字編碼數字編碼, 如電報碼、區位碼等如電報碼、區位碼等, (2)字音編碼字音編碼, 如智能如智能ABC等等(3)字形編碼,如五筆字形和表形碼等字形編碼,如五筆字形和表形碼等, (4)形音編碼形音編碼發展趨

13、勢:基于統計和學習功能的以詞語發展趨勢:基于統計和學習功能的以詞語(短語短語)或句子作為輸入單或句子作為輸入單位的輸入方法位的輸入方法185.1 文本與文本處理文字符號輸入計算機的方法文字符號輸入計算機的方法鍵盤輸入鍵盤輸入聯機手寫輸入聯機手寫輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入優點:優點:自然,流暢自然,流暢小型化,適合移動計算小型化,適合移動計算不足:不足:識別速度和正確性還需提高識別速度和正確性還需提高書寫要求還要降低書寫要求還要降低195.1 文本與文本處理文字符號輸入計算機的方法文字符號輸入計算機的方法鍵盤輸入鍵盤輸入聯機手寫輸入聯機手寫輸入語音輸

14、入語音輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入優點:優點:自然,方便,適合移動計算自然,方便,適合移動計算不足:不足:對說話人、說話方式、說話內容的對說話人、說話方式、說話內容的適應能力要大適應能力要大大增強大增強識別速度和正確性還需大大提高識別速度和正確性還需大大提高205.1 文本與文本處理文字符號輸入計算機的方法文字符號輸入計算機的方法印刷體識別印刷體識別鍵盤輸入鍵盤輸入聯機手寫輸入聯機手寫輸入語音輸入語音輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入掃描儀掃描儀OCR數字數字文本文本紙介質紙介質文本文本文本的文本的映象映象(im

15、age)識別率已達到識別率已達到98%功能功能: 簡、繁體字簡、繁體字混合識別混合識別 中文、西文混合識別中文、西文混合識別 文字、表格混合識別文字、表格混合識別 智能校對功能智能校對功能215.1 文本與文本處理文字符號輸入計算機的方法文字符號輸入計算機的方法印刷體識別印刷體識別手寫體識別手寫體識別鍵盤輸入鍵盤輸入聯機手寫輸入聯機手寫輸入語音輸入語音輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入 技術上非常困難,還無法實用技術上非常困難,還無法實用目前準備先突破工整的楷書手寫體的識別目前準備先突破工整的楷書手寫體的識別!225.1 文本與文本處理漢字的鍵盤輸入漢字的

16、鍵盤輸入n 漢字與鍵盤上的鍵無法一一對應,因此必須使用漢字與鍵盤上的鍵無法一一對應,因此必須使用幾個鍵來表示一個漢字,這就稱為漢字的幾個鍵來表示一個漢字,這就稱為漢字的“鍵盤輸鍵盤輸入編碼入編碼”n 優秀的漢字鍵盤輸入編碼應具有的特點:優秀的漢字鍵盤輸入編碼應具有的特點:n易學習、易記憶易學習、易記憶n效率高效率高(平均擊鍵次數較少平均擊鍵次數較少)n重碼少重碼少n容量大容量大(可輸入的漢字字數多可輸入的漢字字數多)235.1 文本與文本處理漢字鍵盤輸入方法的比較漢字鍵盤輸入方法的比較類型類型原理原理舉例舉例優點優點缺點缺點數字數字編碼編碼使用一串數字來表示漢使用一串數字來表示漢字字電報碼電報

17、碼區位碼區位碼僅使用僅使用10個數個數字鍵字鍵難記憶難記憶字音字音編碼編碼把漢語的拼音作為漢字把漢語的拼音作為漢字的輸入編碼的輸入編碼智能智能ABC紫光紫光微軟拼音輸入微軟拼音輸入簡單易學,適簡單易學,適合于非專業人合于非專業人員員重碼多,需增加選擇操作,重碼多,需增加選擇操作,不會漢語拼音或不知道讀不會漢語拼音或不知道讀音時無法使用音時無法使用字形字形編碼編碼把漢字的部件或筆畫作把漢字的部件或筆畫作為碼元,按照漢字結構為碼元,按照漢字結構及其切分規則作為編碼及其切分規則作為編碼依據,確定每個漢字的依據,確定每個漢字的輸入代碼輸入代碼五筆字形五筆字形表形碼表形碼鄭碼鄭碼重碼少、輸入重碼少、輸入

18、速度較快,適速度較快,適合于專業錄入合于專業錄入員、打字員使員、打字員使用用缺乏統一的規范,編碼規缺乏統一的規范,編碼規則不易掌握則不易掌握音形音形編碼編碼(或形音或形音編碼編碼)采用字音及字形兩種屬采用字音及字形兩種屬性作為碼元的漢字編碼性作為碼元的漢字編碼輸入方法輸入方法粵音輸入法粵音輸入法同上同上同時要掌握音、形兩種取同時要掌握音、形兩種取碼方法或規則,對普通用碼方法或規則,對普通用戶比較困難戶比較困難245.1 文本與文本處理5.1.4 文本的編輯與排版文本的編輯與排版255.1 文本與文本處理復習:使用復習:使用Word的操作流程的操作流程創建新文檔或打開老文檔創建新文檔或打開老文檔

19、文稿輸入文稿輸入編輯編輯排版排版文檔存盤、打印或發送文檔存盤、打印或發送輸入中西文字、符號輸入中西文字、符號和圖表和圖表進行增、刪、改操作,保進行增、刪、改操作,保證文本的正確性證文本的正確性滿足清晰、美觀、便滿足清晰、美觀、便于使用等要求于使用等要求265.1 文本與文本處理n 目的:確保文本內容正確無誤目的:確保文本內容正確無誤n 操作:對字、詞、句和段落進行添加、刪除、修操作:對字、詞、句和段落進行添加、刪除、修改等操作改等操作n MS Word的功能:的功能:n在文本的任何位置都可以在文本的任何位置都可以插入插入新的文字新的文字n從文本的任何位置都可以從文本的任何位置都可以刪除刪除不需

20、要的文字不需要的文字n將一段文字從一處將一段文字從一處移動移動到另一處到另一處n將一段文字從一處將一段文字從一處復制復制到另一處到另一處n在文本中自動在文本中自動查找查找指定的詞語指定的詞語n用一個詞語自動用一個詞語自動替換替換文本中指定的詞語文本中指定的詞語文本編輯文本編輯(text editing)275.1 文本與文本處理n 目的:使文本清晰、美觀、目的:使文本清晰、美觀、便于閱讀便于閱讀n 操作內容:對文本中的字操作內容:對文本中的字符、段落乃至整篇文章的符、段落乃至整篇文章的格式進行設計和調整,分格式進行設計和調整,分成成3個層次:個層次:n對字符格式進行設置對字符格式進行設置n對段

21、落格式進行設置對段落格式進行設置n對文檔頁面進行格式設對文檔頁面進行格式設置置文本排版文本排版(格式化格式化)285.1 文本與文本處理設置字符的格式設置字符的格式n 字號字號( (八號八號 初號初號, 5磅磅72磅以上磅以上) ) 1 1磅相當于磅相當于1/721/72英寸英寸 n 字體字體( (宋體、楷體、黑體、仿宋、隸書宋體、楷體、黑體、仿宋、隸書) )n 字符的修飾字符的修飾n 字符的形狀字符的形狀( (字形字形) ):正常、加粗、傾斜、加粗傾斜:正常、加粗、傾斜、加粗傾斜n 字形的修飾:下劃線、著重號、上下標、刪除線字形的修飾:下劃線、著重號、上下標、刪除線n 字符的顏色字符的顏色n

22、 字符的寬度字符的寬度n 字符的間距字符的間距n 字符的效果字符的效果n 字符的排列方向字符的排列方向Demo1295.1 文本與文本處理n 什么是段落?用什么是段落?用“回車回車”相互隔開的一組文字相互隔開的一組文字n 段落格式的設置:段落格式的設置:n 段落的對齊方式段落的對齊方式( (兩端對齊、分散對齊、居中對齊、左對齊、兩端對齊、分散對齊、居中對齊、左對齊、右對齊右對齊)n 段落的縮進方式段落的縮進方式( (首行縮進、懸掛縮進、左縮進、右縮進首行縮進、懸掛縮進、左縮進、右縮進)n 段間距和段內行距段間距和段內行距n 使用編號和項目符號使用編號和項目符號n 段落段落添加邊框和底添加邊框和

23、底紋紋n 首字下沉或懸掛首字下沉或懸掛n 段落與分頁的關系段落與分頁的關系設置段落的格式設置段落的格式Demo2305.1 文本與文本處理控制段落的縮進控制段落的縮進n 段落縮進是指段落中的文本到正文區左、右邊界的距離,段落縮進是指段落中的文本到正文區左、右邊界的距離,包括段落左縮進、右縮進和首行縮進。其縮進的距離可包括段落左縮進、右縮進和首行縮進。其縮進的距離可由水平標尺上對應的三個縮進標記來指示由水平標尺上對應的三個縮進標記來指示左縮進標記左縮進標記首行縮進標記首行縮進標記右縮進標記右縮進標記右縮進右縮進左縮進左縮進首行縮進首行縮進正文區正文區右邊界右邊界正文區正文區左邊界左邊界懸掛縮進懸

24、掛縮進標標記記315.1 文本與文本處理n頁面格式的設置:頁面格式的設置:n設置紙張大小和頁邊距設置紙張大小和頁邊距n設置每頁的行、列數目設置每頁的行、列數目n設置分欄數目與格式設置分欄數目與格式n設置頁碼設置頁碼n設置頁眉和頁腳設置頁眉和頁腳設置頁面的格式設置頁面的格式325.1 文本與文本處理設置頁面的分欄設置頁面的分欄335.1 文本與文本處理n “所見即所得所見即所得”(操作效果立即可見,且打印結果與屏操作效果立即可見,且打印結果與屏幕所見相同)幕所見相同)n 撤銷撤銷(undo)和恢復和恢復(redo)操作操作n 格式刷格式刷n 多種視圖多種視圖(大綱視圖與大綱編輯大綱視圖與大綱編輯

25、)n 自動更正、自動套用格式、自動編號、自動圖文集自動更正、自動套用格式、自動編號、自動圖文集 n 自動保存功能和自動備份功能自動保存功能和自動備份功能n 樣式、模板和向導樣式、模板和向導(wizard)功能功能n 宏操作(宏操作(Macro)提高操作效率的若干措施提高操作效率的若干措施345.1 文本與文本處理文本處理初步文本處理初步355.1 文本與文本處理n使用計算機對文本中的字、詞、短語、句子、篇章進行識別、轉換、分析、理使用計算機對文本中的字、詞、短語、句子、篇章進行識別、轉換、分析、理解、壓縮、加密和檢索等有關的處理解、壓縮、加密和檢索等有關的處理n文本處理內容:文本處理內容:n字

26、數統計,詞頻統計,簡字數統計,詞頻統計,簡/ /繁體相互轉換,漢字繁體相互轉換,漢字/ /拼音相互轉換拼音相互轉換n詞語排序,詞語錯誤檢測,文句語法檢查詞語排序,詞語錯誤檢測,文句語法檢查n自動分詞,詞性標注,詞義辨識,大陸自動分詞,詞性標注,詞義辨識,大陸/ /臺灣術語轉換臺灣術語轉換n關鍵詞提取,文摘自動生成,文本分類關鍵詞提取,文摘自動生成,文本分類n文本檢索(關鍵詞檢索、全文檢索),文本過濾文本檢索(關鍵詞檢索、全文檢索),文本過濾n文語轉換(語音合成),文種轉換(機器翻譯)文語轉換(語音合成),文種轉換(機器翻譯)n篇章理解,自動問答,自動寫作等篇章理解,自動問答,自動寫作等n文本壓

27、縮,文本加密,文本著作權保護文本壓縮,文本加密,文本著作權保護什么是文本處理什么是文本處理?365.1 文本與文本處理例:例:Word 2003的文本處理功能的文本處理功能n 英文拼寫檢查和英文拼寫檢查和英語同義詞檢查英語同義詞檢查n 字數統計字數統計n 自動編寫摘要自動編寫摘要n 中文簡繁體轉換和術語轉換中文簡繁體轉換和術語轉換n 中英詞語翻譯中英詞語翻譯n 語法和格式檢查語法和格式檢查n 語音識別(口授命令和聽寫)語音識別(口授命令和聽寫)n 文檔保護文檔保護(防止打開或修改文檔防止打開或修改文檔)375.1 文本與文本處理關于文本檢索關于文本檢索n 將文本按一定的方式進行組織、儲存、管理

28、,并根據用將文本按一定的方式進行組織、儲存、管理,并根據用戶的要求查找到所需要的文本,稱為戶的要求查找到所需要的文本,稱為“文本檢索文本檢索”n 文本檢索系統的組成和工作流程文本檢索系統的組成和工作流程: : 文本庫文本庫索引數據索引數據標引標引匹匹 配配結果分析、排序結果分析、排序提提 問問對每一文本生成索引對每一文本生成索引索引的結構為:索引標識索引的結構為:索引標識+相應的地址相應的地址索引標識可以是文本的標題索引標識可以是文本的標題(主題主題)、作者、作者、分類、關鍵詞等、分類、關鍵詞等 給出查詢要求,如標題是什么、作者是誰、給出查詢要求,如標題是什么、作者是誰、屬于哪一類、所包含的關

29、鍵詞等屬于哪一類、所包含的關鍵詞等提問詞可以使用提問詞可以使用“與與”、“或或”、“非非”等等邏輯運算進行組合邏輯運算進行組合由檢索軟件將查詢要求由檢索軟件將查詢要求與索引數據進行匹配,與索引數據進行匹配,找出與查詢要求相關的找出與查詢要求相關的文本的地址;文本的地址;系統按地址從文本庫中系統按地址從文本庫中取出對應的一組文本,取出對應的一組文本,返回給用戶返回給用戶 經過分析后,按照與查詢經過分析后,按照與查詢要求的相關程度(從高到要求的相關程度(從高到低排序)返回給用戶低排序)返回給用戶 385.1 文本與文本處理對文本檢索系統的評價對文本檢索系統的評價n 效果效果n精度精度:返回結果中相

30、關的文本占返回結果中相關的文本占返回總數的百分比返回總數的百分比n召回率召回率: 返回結果中相關的文本占返回結果中相關的文本占全部相關文本的百分比全部相關文本的百分比n 效率效率: 檢索速度檢索速度n 其它其它: 易用性等易用性等全部全部文本文本返回文本返回文本所有相關所有相關文本文本395.1 文本與文本處理Web信息檢索系統之信息檢索系統之1n 也稱為搜索引擎也稱為搜索引擎, ,例如例如Google、Yahoo、Alta Vista、Infoseek、新浪、天網、百度等。、新浪、天網、百度等。n 系統結構:系統結構:預先使用軟件預先使用軟件robot遍遍歷歷Web,將,將Web上的信上的信

31、息下載到本地文檔庫息下載到本地文檔庫對文本內容對文本內容進行自動分析進行自動分析并建立索引并建立索引用戶提出檢索請求時,搜用戶提出檢索請求時,搜索引擎通過檢查索引找出索引擎通過檢查索引找出匹配的文本(或匹配的文本(或URL地址地址)并返回給用戶)并返回給用戶405.1 文本與文本處理Web信息檢索系統之信息檢索系統之2n 全文索引全文索引適用于檢索難以查找的或主題比較模糊的信息;適用于檢索難以查找的或主題比較模糊的信息;n 目錄檢索目錄檢索有助于逐步縮小主題或者查找某個主題常見的、有助于逐步縮小主題或者查找某個主題常見的、質量較高的信息質量較高的信息415.1 文本與文本處理5.1.5 文本的

32、展現文本的展現(輸出輸出)425.1 文本與文本處理文本的展現文本的展現(輸出輸出)n 目的:閱讀、瀏覽或打印文本目的:閱讀、瀏覽或打印文本n 使用的軟件:文本閱讀器使用的軟件:文本閱讀器/ /文本瀏覽器文本瀏覽器n嵌入在文本編輯嵌入在文本編輯( (處理處理) )軟件中,如微軟的軟件中,如微軟的Word,n獨立的軟件:如獨立的軟件:如Adobe公司的公司的Acrobat Reader,微軟公司的微軟公司的IE等等 n 文本展現的過程:文本展現的過程:1.1.對文本的格式描述進行解釋對文本的格式描述進行解釋2.2.生成文字和圖表的映像(生成文字和圖表的映像(bitmap)3.3.傳送到顯示器或打

33、印機輸出傳送到顯示器或打印機輸出435.1 文本與文本處理附:輸出過程中字形的生成附:輸出過程中字形的生成 n 過程:過程:n 先根據字符的字體確定相應的字庫(先根據字符的字體確定相應的字庫(font),),n 再按照該字符的代碼從字庫中取出該字符的形狀描述信息再按照該字符的代碼從字庫中取出該字符的形狀描述信息n 然后按形狀描述信息生成字形,并按照字號大小及有關屬性然后按形狀描述信息生成字形,并按照字號大小及有關屬性(粗體、斜體、下橫線)將字形作必要的變換(粗體、斜體、下橫線)將字形作必要的變換n 最后將變換得到的字形放置在頁面的指定位置處最后將變換得到的字形放置在頁面的指定位置處n 2種不同

34、的字庫:種不同的字庫:點陣點陣描述描述輪廓輪廓描述描述輪廓點輪廓點直線直線二次曲線二次曲線445.1 文本與文本處理5.1.3 文本的分類與表示文本的分類與表示455.1 文本與文本處理簡單文本簡單文本(純文本純文本 ) 本本 書書 由由 南南 京京 大大 學學 出出 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 版版 社社 ( P u b l i s h i n g B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 H o u s e o f N a n j i n 20 48 6F 75 73 65

35、20 6F 66 20 4E 61 6E 6A 69 6E g U n i v e r s i t y ) 出出 版版 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文文本本的的內內容容文文本本在在計計算算機機中中的的表表示示 沒有字體、字號的變化,不能插入圖片、表格,也不能建立超沒有字體、字號的變化,不能插入圖片、表格,也不能建立超鏈接,其文件后綴名是鏈接,其文件后綴名是 .txt 由一串用于表達正文內容的字符編碼所組成,幾乎不包含任何由一串用于表達正文內容的字符編碼所組成,幾乎不包含任何其他的格式信息和結構信息其他的格式信息和結構信息 舉例:舉例:465.1 文本與文本處理豐富格式文本豐富格式文本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論