項目交流會語文學(xué)科本體知識庫構(gòu)建_第1頁
項目交流會語文學(xué)科本體知識庫構(gòu)建_第2頁
項目交流會語文學(xué)科本體知識庫構(gòu)建_第3頁
項目交流會語文學(xué)科本體知識庫構(gòu)建_第4頁
項目交流會語文學(xué)科本體知識庫構(gòu)建_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、項目交流會語文學(xué)科本體知識庫構(gòu)建主要內(nèi)容研究項目的背景簡介語義網(wǎng)相關(guān)技術(shù)簡介本體知識庫構(gòu)建路線構(gòu)建過程的心得體會2020/12/192研究項目的背景簡介2020/12/1932020/12/1942020/12/1952020/12/196本體知識庫的研究與應(yīng)用研究領(lǐng)域:Linked Open Data, Dbpedia2020/12/197本體知識庫的研究與應(yīng)用工程領(lǐng)域:Google的Knowledge Graph2020/12/198“大項目中的基礎(chǔ)研究”構(gòu)建面向基礎(chǔ)教育的海量知識庫2020/12/199本體知識庫構(gòu)建基本路線學(xué)科知識概念體系(領(lǐng)域本體)資源庫系統(tǒng)(書籍、網(wǎng)站資源等)語義標(biāo)

2、注系統(tǒng) (半自動化/自動化語義標(biāo)注)面向基礎(chǔ)教育的海量知識庫權(quán)威性知識清單教輔書等教材、教師用書、課內(nèi)外讀物等基于知識庫的應(yīng)用系統(tǒng)(知識庫展示系統(tǒng)、知識記憶類問題的問答系統(tǒng)等)歸納總結(jié)版面標(biāo)注2020/12/1910語義網(wǎng)相關(guān)技術(shù)簡介2020/12/1911Semantic Web(語義網(wǎng))1998年Tim Berners-Lee提出語義網(wǎng)的概念“Web of documents”到“Web of data”語義網(wǎng)的七層體系結(jié)構(gòu)2020/12/1912RDF(資源描述框架)Resource Description Framework用來描述網(wǎng)絡(luò)資源的標(biāo)記語言使用RDF Triple描述知識庫中

3、的知識 唐詩李白 2020/12/1913Ontology(本體)本體是共享概念模型的形式化規(guī)范說明,它的目標(biāo)是描述相關(guān)領(lǐng)域的知識,確定該領(lǐng)域內(nèi)共同認可的概念(詞匯、術(shù)語),并給出這些概念和概念間相互關(guān)系的明確定義使用本體描述語言來描述學(xué)科知識概念體系2020/12/1914本體知識庫構(gòu)建路線2020/12/1915本體知識庫構(gòu)建基本路線學(xué)科知識概念體系(領(lǐng)域本體)資源庫系統(tǒng)(書籍、網(wǎng)站資源等)語義標(biāo)注系統(tǒng) (半自動化/自動化語義標(biāo)注)面向基礎(chǔ)教育的海量知識庫權(quán)威性知識清單教輔書等教材、教師用書、課內(nèi)外讀物等基于知識庫的應(yīng)用系統(tǒng)(知識庫展示系統(tǒng)、知識記憶類問題的問答系統(tǒng)等)歸納總結(jié)版面標(biāo)注20

4、20/12/1916知識庫構(gòu)建中的難點2020/12/1917難點一:本體構(gòu)建結(jié)合七步法構(gòu)建本體(斯坦福大學(xué) Ontology Design)2020/12/1918語文本體構(gòu)建流程(1)確定本體的應(yīng)用領(lǐng)域和知識范疇參考資料 (百度文庫)通過閱讀上面的資料可以基本了解語文學(xué)科大致的知識范圍,有助于后面各個階段中的知識點取舍問題,例如以下這些內(nèi)容對于后面的體系結(jié)構(gòu)的構(gòu)建都是有用的信息:義務(wù)教育新課程標(biāo)準(zhǔn)(2011版)語文的附錄五中明確列出了3500個常用漢字;普通高中語文課程標(biāo)準(zhǔn)的附錄一中列出了120個常見的文言實詞和15個文言虛詞,附錄二列出了高中階段的古詩文誦讀篇目;2015年全國新課標(biāo)高考

5、語文考試大綱中詳細指出了高考語文的考核范圍。義務(wù)教育新課程標(biāo)準(zhǔn)義務(wù)教育新課程標(biāo)準(zhǔn)(2011版)語文普通高中課程標(biāo)準(zhǔn)普通高中語文課程標(biāo)準(zhǔn)新課標(biāo)考試大綱2015年全國新課標(biāo)高考語文考試大綱2020/12/1919語文本體構(gòu)建流程(2)確定概念和概念層次關(guān)系參考資料 (推薦以下書籍)通過閱讀上面的資料可以初步確定語文學(xué)科知識概念體系,在確定體系結(jié)構(gòu)的時候要盡量保證知識覆蓋率廣、準(zhǔn)確率高。例如,通過分析語文學(xué)科知識清單類書籍可知,語文學(xué)科主要是分為了5大模塊:(1)語言文字運用;(2)文學(xué)常識、文化常識和名句名篇;(3)古代詩文閱讀;(4)現(xiàn)代詩文閱讀;(5)作文。然后再結(jié)合相關(guān)的書籍和資料,對每個大

6、模塊再進行劃分,構(gòu)建過程當(dāng)中的知識取舍問題盡量參考課程標(biāo)準(zhǔn)和考試大綱來確定(知識粒度的把握是一個很困難的事情,可以考慮)。教輔類書籍 (精讀)高中語文知識清單、初中語文知識清單語文基礎(chǔ)知識手冊教材類書籍 (略讀)人教版高中/初中/小學(xué) 語文教材2020/12/1920語文本體構(gòu)建流程(3)確定知識概念的屬性參考資料 (根據(jù)學(xué)科在網(wǎng)上調(diào)研)通過閱讀上面的資料可以輔助完善語文學(xué)科的知識概念體系結(jié)構(gòu),確定知識概念的通用屬性。例如,提取漢字的屬性、文言詞的屬性等;海量圖書中可以抽取重要內(nèi)容作為已有知識點的補充。互聯(lián)網(wǎng)漢文學(xué)網(wǎng)(在線新華字典、漢語詞典、成語詞典等)古詩文網(wǎng)(詩文、名句、典籍等)海量圖書選

7、修教材、教師用書等2020/12/1921語文本體構(gòu)建流程(4)確定概念之間的關(guān)系參考資料同以上構(gòu)建流程考慮問答系統(tǒng)能夠解決什么類型的題目,這些題目的答案一般體現(xiàn)的知識概念之間的關(guān)系上常見的8種關(guān)系:部分與整體關(guān)系 part-of類屬關(guān)系 kind-of實例關(guān)系 instance-of屬性關(guān)系 attribute-of等同關(guān)系 synonymy-of比較關(guān)系 compare-of順序關(guān)系 sequence-of轉(zhuǎn)換關(guān)系 conversion-of2020/12/1922語文本體構(gòu)建流程(5)添加部分實例進行驗證參考資料同以上構(gòu)建流程嘗試列舉一些實例驗證現(xiàn)有的本體 (Protege)2020/1

8、2/1923語文本體目前研究現(xiàn)狀(1)2020/12/1924語文本體目前研究現(xiàn)狀(2)2020/12/1925語文本體目前研究現(xiàn)狀(3)知識屬性集合名稱 說明 來源 類別 特征 結(jié)構(gòu) 意義 要求 作用 用法詞類 關(guān)系 相關(guān)字 相關(guān)詞 字音 字形 解釋 舉例作者 國別 時代 主要作品 內(nèi)容 體裁 屬于 要素性質(zhì) 發(fā)展歷程 語言 表達技巧 寫作要求 作品 知識來源 2020/12/1926難點二:版面標(biāo)注語義標(biāo)注的對象是網(wǎng)頁文檔(*.html)從紙質(zhì)書籍到網(wǎng)頁文檔的過程稱之為版面標(biāo)注,該過程由點通公司完成,但是具體的版面標(biāo)注方案由校方提出點通公司進行版面標(biāo)注之后得到的是EPUB格式的文件,該文件

9、解壓之后即可得到書籍對應(yīng)的網(wǎng)頁文檔以及圖片內(nèi)容參考文檔版面標(biāo)注方案制定指南+ X版面標(biāo)注方案基礎(chǔ)教育資源庫書籍加工規(guī)范(版面標(biāo)注方案制定指南)語文版面標(biāo)注方案數(shù)學(xué)版面標(biāo)注方案點通版面標(biāo)注規(guī)范需求文檔2020/12/1927版面標(biāo)注結(jié)果演示 (1)2020/12/1928版面標(biāo)注結(jié)果演示 (2)2020/12/1929難點三:半自動化語義標(biāo)注設(shè)計并實現(xiàn)語義標(biāo)注系統(tǒng),系統(tǒng)的基本功能是根據(jù)設(shè)置的本體,采用人工的方式對網(wǎng)頁文檔(部分書籍的版面標(biāo)注結(jié)果)進行語義標(biāo)注,選定主謂賓并生成RDF三元組保存到本體知識庫中。語義標(biāo)注系統(tǒng)的實現(xiàn)過程中可能遇到的技術(shù)難點:1.用戶標(biāo)注的交互界面:操作簡單便捷;2.標(biāo)注

10、元數(shù)據(jù)的提取:提取標(biāo)注人、時間、位置等標(biāo)注信息;3.系統(tǒng)對本體的自適應(yīng)性:系統(tǒng)能夠立即適應(yīng)對本體的更新;4.對于特殊內(nèi)容的標(biāo)注:例如普通圖片以及公式圖片等內(nèi)容的標(biāo)注;參考實現(xiàn):Pundit 2020/12/1930基本功能演示界面(Pundit)2020/12/1931Semantic Annotation System ArchitectureAnnotation Client Rest APISesameTriple Store repositoryMySQL(users, permissions)Rest APIResource System(books)Ontology EditorH

11、TTPAnnotation ServerRest API?2020/12/1932難點四:自動化語義標(biāo)注自動化語義標(biāo)注目前處于調(diào)研階段,其方法大致有兩類:基于模式的:模式可以是手動定義也可以是挖掘得到的;基于機器學(xué)習(xí)的:可以是基于統(tǒng)計模型的,也可以是基于NLP的。如果數(shù)據(jù)量特別大的話,可以考慮采用Map-Reduce架構(gòu)來實現(xiàn)2020/12/1933構(gòu)建過程的心得體會2020/12/1934心得體會總結(jié)1.構(gòu)建知識概念體系選用知識點密集、權(quán)威性高的教輔書籍,推薦曲一線的知識清單類書籍;2.構(gòu)建的知識概念體系和知識點屬性采用Excel的形式描述,便于修改,后期可以通過程序生成本體;3.知識點的屬性以及知識概念之間的關(guān)系一定要盡可能詳細,這樣便于后期自動問答系統(tǒng)回答問題;4.版面標(biāo)注方案的制定一定要考慮知識是否有用以及如何才能使得后期語義標(biāo)注更加

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論