


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于Nlp的教師答疑系統設計1教師答疑系統的NLP的實現NLP是本系統的核心,解決學生提出的自然語言形式的問題,從本質上講,就是以問題為查詢需求,在系統問題資源庫中進行搜索的過程。在自然語言查詢時,學生提出的問題首先交給問題內容過濾部件進行過濾,如果問題里面含有禁用詞匯,則提示出錯,查詢過程終止;否則,在問題庫和答案庫中進行搜索匹配;然后把滿足條件的問題按照一定的標準進行排序,從而把最相關的若干個問題返回給學生。如果學生對查詢結果滿意,則查詢過程結束;如果不滿意,可以把問題提交到無解問題庫,等待教師或其他學生回答,也可以通過站內信箱、異步討論區互相討論。問題查詢的基本過程如下圖所示。圖1NLP查詢的基本過程1.1分詞分詞是一切自然語言處理的基礎,也是本系統回答自然語言提問的第一步。下面對分詞所依據的詞庫、預處理和具體實現進行闡述。1.1.1詞庫設計詞庫是中文分詞的依據,詞庫設計的適當與否將直接影響分詞的準確程度,從而影響搜索的效率。根據查詢過程中的各階段對不同種類的詞的需要,本系統設計了如下幾個詞庫。1.停用詞庫在進行搜索的時候把哪些經常出現,但是又和語義關系不大的詞統統都刪選掉,直接執行忽略操作,這樣大大的簡化搜索條件,提高速度。2.專業詞庫答疑學科當中經常會用到的一些專業詞語,是和一般的詞典是不同的,它還包括了一些重要詞組的搭配問題,這樣做能夠最大匹配分詞法時提高分詞的準確度,同樣的是凸顯出詞匯的重要性。3.禁用詞匯這就包含一些不正常詞匯,比如說“法輪功”、“笨蛋”等等之內的,和政治、宗教以及色情相關的詞匯進行篩選。1.1.2預處理預處理就是在分詞之前首先把輸入的問題分割成若干子串(這些子串一般是比較短的),然后對這些子串進行分詞。問題分割的依據有兩個:一是顯式的標點、數字及其它非中文符號。這些符號在處理時也采用不同的規則,標點和數字直接過濾掉,考慮到問題中的英文單詞,我們把連續的英文字母當作一個子串,如“OS”。二是停用詞表中的詞匯,主要是沒有意義的詞。比方說輸入問題“請問JSP和ASP各自的優缺點是什么?”經過了分析,分割的依據就是英文和標點,問題被分成了5個子串:請問/JSP和/ASP/各自的優缺點是什么這樣的話,就有一個非常完整的自然語言形式的問題就慢慢的轉變成為5個短字符串,接下來就是選擇適當的分詞算法對字符串進行分詞。1.1.3分詞算法的實現作為網絡教學平臺的一部分,答疑系統主要是針對某個具體領域或具體學科的,所涉及的內容具有很強的專業性。學生所提問題包含的詞匯也比較集中,重復率較高,并且在問題中一般都包含了表明問題性質的詞、短語或語法結構。因此,本系統采用雙向最大匹配法。只要詞庫設計得合理,分詞的準確性能達到較高的水平。在雙向最大匹配法是采用了一些歧義排除方法,先是通過正向和逆向最大匹配的到兩組切分結果,然后是根據一些具體的情況來決定選擇哪一組作為最終的分詞結果。1.2問題過濾問題過濾是指對學生提出的問題內容進行檢查,判斷問題中是否含有非法詞匯并做出相應處理。這一過程是判斷問題中是否包含于禁用詞庫中的詞,如果包含,則系統認為該問題是非法的,給學生出錯提示,搜索過程終止。如果系統認為問題合法,則進行下一步的處理。1.3基于文本段的空間模型1.3.1文本段文本段是指文檔中一個具有獨立邏輯意義的文本部分。例如,一般文檔中的標題、摘要、正文乃至參考文獻部分都可以看作是一個文本段。實際操作中,文本段可以根據文檔的表現形式予以確定。在本系統中,學生提出的新問題是一個文本段,一個有解問題及其所有答案一起看作為一個搜索文檔,是一個整體,而這個有解問題及各個答案都作為此搜索文檔的文本段。1.3.2特征向量本系統要用到的特征項是文本段的特征項,設文檔集為C,文檔D的第i個文本段記為Si,Si中第k個特征項記為Tik(k=1,2,…,n,n為特征項總數)。文檔、文本段、特征項之間的關系如下圖所示。圖2文檔結構圖特征項權重的計算是基于文本段的向量空間模型中最重要的步驟。設文檔集為C時,Tik在Si中的權重記為),(iikCSTw,計算公式可以通過公式得到。其中,tf(Tik,Si)表示特征項Tik在文本段Si中出現的次數;N表示文檔集C中的文檔總數,ikTn為文檔集中包含Tik的文檔數。1.3.3相似度與閥值本系統中,新提問題Q和搜索文檔D的相關性首先由局部相似度最大值來度量,當最大值是超過了某一設定值的時候,就能夠認為文檔D與Q的相關性較大,能夠滿足學生的提問需求。當有多大文檔符合的時候,就會按照Q和各文檔的局部相似度的最大值進行降序排列,然后把問題返回給學生。1.4用戶反饋用戶反饋是讓學生對檢索結果進行判斷,這些問題是否滿足查詢需求。如果滿足則直接查看即可;如果沒有查詢到相關問題或學生對結果不滿意,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 忻州師范學院《體育學科通識閱讀與寫作》2023-2024學年第二學期期末試卷
- 新疆維吾爾自治區阿克蘇地區庫車縣烏尊鎮中學2025年3月高三年級綜合模擬測試生物試題含解析
- 江蘇省淮安市淮安區達標名校2025屆初三下學期期末教學質量檢測試題試卷生物試題含解析
- 四川文化傳媒職業學院《商務英語基礎》2023-2024學年第一學期期末試卷
- 永州職業技術學院《汽輪機原理及設備》2023-2024學年第一學期期末試卷
- 山東省濟南歷下區重點名校2024-2025學年初三化學試題下學期一模預考試題含解析
- 廈門演藝職業學院《食品質量檢測技術》2023-2024學年第二學期期末試卷
- 山東臨清2025屆初三數學試題模擬試卷(一)試題含解析
- 山西省運城市稷山縣2025屆初三下學期5月考試卷化學試題試卷含解析
- 威海職業學院《血液流變學與人體健康》2023-2024學年第一學期期末試卷
- JJF 1159-2006四極桿電感耦合等離子體質譜儀校準規范
- GB/T 24844-20181 000 kV交流系統用油浸式并聯電抗器技術規范
- 交通安全設置圖
- 蜀都飲食文化
- 靜配中心醫院感染知識培訓課件
- 顱內動脈瘤的護理
- 肝移植圍手術期的概念課件
- 單縣煙草專賣局QC課題:多維度降低行政處罰文書出錯率課件
- 英文租房合同精選
- 2021抑郁癥基層診療指南(最終版)解讀
- 17.起重機械監督檢驗規程(2002,無附件)
評論
0/150
提交評論