




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《現代漢語詞典》
系列數據庫中國社會科學院語言研究所2006《現代漢語詞典》
系列數據庫中國社會科學院語言研究所概述來源:根據《現代漢語詞典》的系列辭書建立的數據庫;用途:電子辭書的查詢和發布;
辭書編纂和修訂的參考資料;
從聚合的角度研究漢語詞匯的資料;
用比較的方法研究辭書的資料;概述《現代漢語詞典》系列數據庫一、數據庫主要內容
二、數據的一致性
三、數據庫的主要應用功能
四、關于缺字問題
《現代漢語詞典》系列數據庫一、數據庫主要內容一、數據庫主要內容詞典的版本信息詞條信息偏旁部首檢字表其他一、數據庫主要內容詞典的版本信息一、數據庫主要內容詞典的版本信息(以第三版為例)包括:書號書名版次作者出版單位出版時間發行單位印刷單位印次印數開本字數印張定價防偽前言說明總目音節表檢字表凡例附錄等。詞條信息包括:詞目異體/繁體字拼音釋義特征。一、數據庫主要內容詞典的版本信息(以第三版為例)包括:一、數據庫主要內容偏旁部首:偏旁部首、偏旁部首筆畫。檢字表:歸屬于某偏旁部首的漢字、除去偏旁部首筆畫外的漢字筆畫。其他:詞條中其他一些可供查詢、統計的語法、語義、語用、構詞等特征。
一、數據庫主要內容偏旁部首:偏旁部首、偏旁部首筆畫。二、數據庫與辭書數據的一致性數據的原始排列順序與辭書數據保持一致數據內容和辭書數據保持一致數據庫主體結構保持一致各版本《現代漢語詞典》辭書之間同種標記不同標法的數據在庫中也要保持一致(主要表現在各種計算機字庫中沒有的標記、符號、序號等)。二、數據庫與辭書數據的一致性數據的原始排列順序與辭書數據保持三、數據庫的主要應用功能經過對詞典內容的結構化處理,數據庫里有以下幾類信息可以用于檢索、統計、分析和比較:1、詞目部分:字、詞、語素、字數、偏旁部首、偏旁部首筆畫、除去偏旁部首筆畫外的漢字筆畫、繁體字、異體字、可插入特征、結構詞特征、重疊詞特征、兒化等。2、語音部分:原拼音、轉寫拼音、同音、輕聲、第二音節無輔音特征、重讀、結構詞發音等。
三、數據庫的主要應用功能經過對詞典內容的結構化處理,三、數據庫的主要應用功能3、語用部分:學科分類(語、經、地質、地、等)。語用信息(<書>、<方>、<古>、<文>、<口>、<京>、<簡>等)。4、詞類部分:12個詞類。5、釋義部分:釋義中所包含的字、詞、短語、句子等字符串。6、其他部分:多音、近義詞、從屬條目、外來語、專有名詞、義項數等。7、版本信息:凡例中的信息、偏旁部首、檢字表、版次、時間、作者、前言、說明等。
三、數據庫的主要應用功能3、語用部分:學科分類(語、經、地質三、數據庫的主要應用功能1、查詞釋疑2、模糊查詢3、類別查詢4、比較查詢5、統計查詢6、逆序查詢7、版本信息三、數據庫的主要應用功能1、查詞釋疑2、模糊查詢四、關于缺字問題在WINDOWSXP操作環境中,使用GBK宋體字庫,以《現代漢語詞典》第三版為例,缺字共計695個漢字(不包括各種符號)。我們對這些缺字逐個作了字形分析,決定用字形描述的辦法來說明這些字。
四、關于缺字問題在WINDOWSXP操作環境中,使用G四、關于缺字問題1、缺字的分析695個缺字中,有399個漢字在計算機字庫中沒有對應的簡體字、繁體字或異體字,我們稱其為絕對缺字。另外296個缺字在計算機字庫中可以找到各自對應的簡體字、繁體字或異體字,我們稱其為相對缺字。對這些缺字都要進行缺字描述。四、關于缺字問題1、缺字的分析四、關于缺字問題2、缺字的描述缺字描述公式=X[字型描述:結構描述]X=詞典數據庫中的缺字標記。字型描述=組成該字的若干個拆分的部首或字形。:=字形描述與結構描述的分隔符號結構描述=該字由若干個拆分的部首或字形所組成的方式。
四、關于缺字問題2、缺字的描述四、關于缺字問題2、缺字的描述A、絕對缺字的描述結構描述:左右、上下、外里、左中右、上中下、左上下、上下右、上外里等字形描述:直接對應結構順序進行字形排列舉例:X[是鳥:左右];tí
X[彳亢亍:左中右];háng
X[思:上下];sī
X[九田:上下];lā四、關于缺字問題2、缺字的描述四、關于缺字問題2、缺字的描述B、相對缺字的描述用修改漢字結構中部分部首或字形的辦法來描述舉例:X[鰶:魚改魚];jì
X[顣:頁改頁];cù
X[譆:訁改讠];xī四、關于缺字問題2、缺字的描述四、關于缺字問題3、計算機缺字分類統計:
A、絕對缺字399個:左右結構漢字有246個;左中右結構漢字有1個;左上下結構漢字有5個;外里結構漢字有16個;外里右結構漢字有1個;外里下結構漢字有1個;上下結構漢字有63個;上左中右結構漢字有1個;上下右結構漢字有2個;上外里結構漢字有1個;結構和修改結合及結構和短語描述結合的結構描述的漢字有7個;采用修改缺字結構中拆分部分的偏旁部首或字型來描述的漢字有55個;
四、關于缺字問題3、計算機缺字分類統計:四、關于缺字問題3、計算機缺字分類統計:
B、相對缺字296個:通過簡寫偏旁部首進行缺字描述的有142個;通過簡寫非偏旁部首部分進行缺字描述的有142個;通過繁寫非偏旁部首部分進行缺字描述的有2個;即要簡寫偏旁部首部分又要簡寫非偏旁部首部分的有10個;
四、關于缺字問題3、計算機缺字分類統計:四、關于缺字問題3、計算機缺字分類統計:
C、幾個因字體變化而產生的缺字:
計算機中的漢字由于字體的變化而字型有所改變的漢字有4個。這四個漢字在處于小四號字體時該字字型與詞典中漢字字型不一致,而處于其他字號字體時該字字型則與詞典中漢字字型相一致。這四個漢字是:四、關于缺字問題3、計算機缺字分類統計:四、關于缺字問題4、關于GB18030-2000大字符集695個缺字在GB18030-2000中的補充情況:GB18030-2000簡體繁/異體總字數已補充
225145370仍然缺少
30322325四、關于缺字問題4、關于GB18030-2000大字符集GB四、關于缺字問題另外,在GBK和大字符集中有個別漢字字形與《現代漢語詞典》中的字形有細微的差別,這會影響數據庫與紙質詞典在字形上的一致性:《現代漢語詞典》拼音字符集差別最:日改宀zuì宀取:上下GB18030取與最的下半部分
忄朮:左右chù怵GBK術與朮
山廠火:上外里tàn炭GBK中間部分
四、關于缺字問題
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 泉州幼兒師范高等專科學校《數字系統與邏輯設計》2023-2024學年第二學期期末試卷
- 南京農業大學《中國文學批評史》2023-2024學年第二學期期末試卷
- 泉州海洋職業學院《算法設計與分析》2023-2024學年第二學期期末試卷
- 重慶航天職業技術學院《專業技能訓練數據庫應用系統開發實驗教學》2023-2024學年第二學期期末試卷
- 西雙版納職業技術學院《浙江現代作家作品研究》2023-2024學年第二學期期末試卷
- 乾安縣2025屆三年級數學第二學期期末綜合測試試題含解析
- 上海紐約大學《分子生物學基礎》2023-2024學年第二學期期末試卷
- 泉州師范學院《應急管理與工程》2023-2024學年第二學期期末試卷
- 山東新泰莆田2024-2025學年初三下學期質量檢查(I)物理試題含解析
- 山東畜牧獸醫職業學院《發育生物學與再生醫學》2023-2024學年第二學期期末試卷
- 京東快遞員合同
- DB42T2012-2023土家族吊腳樓營造規程
- 高中生物-細胞膜教學課件設計
- 暗黑2裝備出處及爆率(全身)
- 2023年內蒙古產權交易中心員工招聘筆試參考題庫附帶答案詳解
- 善戰者說:孫子兵法與取勝法則十二講
- GB/T 614-2006化學試劑折光率測定通用方法
- GB/T 31539-2015結構用纖維增強復合材料拉擠型材
- 機械制圖國家標準
- 最新體檢信息系統課件
- 西師版三年級數學(下冊)第一單元試題
評論
0/150
提交評論