




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第 37 卷第 4 期2005 年 12 月東 北 師 大 學 報 自 然 科 學 版J OU RNAL O F NOR T HEAS T NORMAL U N IV ERSI T YVol . 37 No . 4December 2005 文章編號 1000 21832 (2005) 0420038205電子政務系統引入“主題智能公文包”服務的研究張真繼1 ,劉紅璐2 ,孫潔1(11 北京交通大學經濟管理學院 ,北京 100044 ;21 北京交通大學運輸學院 ,北京 100044) 摘要 利用數理統計 、知識推理原理 ,采用智能代理 、信息推送等技術 ,提出在系統內建立利于用戶自身習慣的方
2、便快捷的信息定制服務 (即主題智能公文包) 功能模型 . 通過該模型 ,用 戶可以獲得即時 、主動 、個性化的信息服務 ,并且能夠便捷地獲取所需信息. 關鍵詞 個性化定制服務 ;搜索引擎 ;智能代理 ;推送技術 中圖分類號 TP 315 ; TP 301 . 6 學科代碼 520·40 文獻標識碼 A0引言任何一個電子政務系統一般都包含“前臺系統”和“后臺系統”. 前臺系統一般服務于公眾 ,后臺系統則一般服務于公務員 .“后臺系統”數據支持“前臺系統”信息的自動更新. 每個“前臺系統”的會員制用戶 及“后臺系統”的公務員用戶在使用該電子政務系統的信息資源時 ,一般都具有自己的使用方法
3、及使用 信息的不同頻率等特點 .面對龐大無序的政務信息 ,如何獲取和利用用戶所需的有效信息就成了一個大問題 . 普通的搜索引 擎不足以滿足政務信息量和信息復雜度的幾何級增長 ,其局限性概括起來有以下幾點 :(1)“大海撈針”式的搜索效率極低 ,信息的查準率不高.(2) 這種信息查找方式不足以滿足電子政務系統用戶個性化的要求 ,智能化程度不高.(3) 數據風暴問題加劇了網絡擁塞. 甚至一旦具有某種信息資源的計算機同時受到多臺計算機的訪 問 ,有可能造成主機的崩潰 、癱瘓 .因此 ,在電子政務系統內建立利于用戶自身習慣的方便快捷的個性化信息定制服務成為迫切之需 .電子政務系統引入個性化信息定制服務
4、主要基于兩個目的 :一是為了提高電子政務系統將原始資 源轉化為知識的能力 ;二是便于用戶方便快捷地獲得所需信息資源 . 該服務模式應為用戶提供這樣一種 服務 ,它能充分了解用戶需求 ,可以提供即時 、個性化 、主動的信息服務 ;同時 ,在用戶端提供主題化的信 息界面 ,例如包含所有用戶感興趣的信息公文包形式 ,使用戶便捷地獲得所需資源.個性化信息定制服務模式1作為一種提供公共服務的信息系統 ,電子政務急需解決的一個問題是如何緩解海量的政務信息和用戶的信息駕馭能力之間強烈的反差所引起的矛盾. 一方面 ,用戶通常不知道如何貼切地表達自己的信 收稿日期 基金項目 作者簡介 2005204201鐵道部
5、科技基金資助項目 ( 2002 X040) .張真繼 ( 1961 - ) ,男 ,博士 ,副教授 ,主要從事信息化理論與實踐研究.假設在電子政務系統中加入這樣一個模塊 ,可稱之為基于個性化信息定制服務的主題智能公文包.該模塊能自動記錄每個用戶的個性特征并根據這些特征建立用戶知識庫 ,具有良好的自適應性 、學習性 和可定制性 ,在傳統信息檢索的基礎上進行用戶知識匹配 ,根據用戶特征對檢索到的信息進行過濾 ,并將有用信息及時推送給用戶 ,使用戶能準確 、直接 、有效地獲得自己真正所需要的信息 .主題智能公文包是融合了個性化信息定制技術與電子政務理念的產物 ,它是電子政務信息服務形 式的變革 ,是
6、個性化信息定制技術的外延 ,為用戶提供了便于操作 、主題化的信息界面 . 其服務模式如圖1 所示1 .在用戶桌面 , 經過主題智能公文包模 塊 處 理 的 個性化信息存放在主題文件夾中 ,當有更新信息時 , 系統將會以圖標等形式提醒用戶 , 用戶只需在主題 智能公文包中查閱新的信息. 系統將自動對信息進 行過濾和篩選 , 將搜索到的相關信息根據用戶知識庫中具體用戶的需求進行選擇 , 若匹配則放入本地 信息庫 ,客戶端只需要從本地信息庫中調用該用戶 所需的信息即可. 為了節省空間 ,還應該在客戶端嵌 入某種算法 , 定期更新已搜集過的舊信息或者用戶 長時間不訪問的文件 . 根據堆棧理論 ,一般應
7、遵循先進先出的原則 ,根據預先設置好的時間 ,比如一個星期 、一個月自動刪除文件夾中的信息 ; 或者由用戶自己按照重要程度設定優先級進行更新 . 主題智能公文包是電子政務個性化服務模式的核心 ,主要通過用 戶興趣模型的建立實現系統的主要功能.圖 1 主題智能公文包服務模式主題智能公文包的算法實現2用戶興趣是個性化服務的基礎. 為了更好地了解用戶需求 ,在主題智能公文包服務中 ,應該找到一種比關鍵字更能貼切地描述用戶興趣的特征量 . 這種特征量的獲得需要跟蹤并分析用戶日常行為 ,通過 機器學習用戶興趣. 為了讓機器可以識別用戶的行為 ,首先要把用戶瀏覽的各種文本轉化成機器可以識別的邏輯結構 ,然
8、后對轉換后的文本進行分析 ,提取用戶興趣向量 ,得出用戶興趣模型. 主題智能公文包 服務的另一個特點是主動性 ,這集中體現在信息推送服務上 . 通過監視頁面的更新 ,將更新信息通過郵 件或頻道的方式推送到用戶桌面 ,省去了用戶瀏覽所需花費的時間 . 最后 ,根據用戶興趣 ,去掉用戶不感 興趣的信息 ,存入主題智能公文包 . 其功能模塊劃分為如下三種.211 用戶興趣學習功能模塊用戶興趣建模方法很多 ,包括向量空間模型 , Navie Bayes ,神經網絡 ,遺傳算法等. 本文采用了向量 空間模型2 .40東 北 師 大 學 報 自 然 科 學 版第 37 卷檔 , f c 表示示例文檔類型
9、, f d (Doc) 表示示例文檔 Doc 經過一定的文檔映射可以轉換為 Text 類型文檔 ,則有 :H ESet ( U ) = Doc| f c (Doc) Doc Type , f d (Doc) = Text ,Doc Type = U RL , H TML , T EX T , KE YWO RD ,WO RD , PS , PD F ,W PS , .另設轉換后的示例集為 E TSet ,則有E TSet ( U ) = Txt | Doc H ESet , f d (Doc) = Text = T 1 , T 2 , T m .(1)對于每個示例文本 ,首先經過版面整理和文本
10、物理結構分析 ,確定文本的各個組成單元 ,主要是段落 、標題 、文本日期等 ,然后去掉禁用詞和感嘆詞 、介詞 、連詞等對理解用戶興趣作用很小的詞匯 ,用如下 結構表示該文本集的邏輯結構 :T = T No , Title ,Aut ho rs , Text ,date ,Doc Type ,L engt h ,U RL ,Text = P1 , P2 , P s ,Pi = PNo , P Ti , Po sitio n ,L engt h , T No ,P Ti = ter m i1 ,ter m i2 , . . . ,ter m i n , ter m ij = t ij ,At t
11、r , Po sitio n , T No ,f t ( ter m i j ) lo g2 ( 1 + f v ( ter m ij ) ) lt i j = f w ( ter m ij ) =(2).m( f t ( ter m ij ) lo g2 ( 1 + f v ( ter m i j ) ) l ) 2j = 1其中 , T 表示示例文本 , T No 表示文本序號 ,Aut ho r 表示作者 , Text 表示文本正文 ,L engt h 表示長度 , Pi表示段落序號 , P Ti 表示段落的特征向量 , Po sitio n 表示所在位置 , 如段首 、標題 、摘要等
12、, ter m i j 表示特征 項 , At t r 為屬性 , t ij 為權重值 , f w ( ter m i j ) 為權重函數 , f t ( ter m ij ) 表示 ter m ij 在文本內的頻數 ; f v ( ter m ij ) 為 ter m i j 的段落頻率 , l 表示特征項 ter m ij 的詞長. 計算出的權重值 t i j 組成了段落的特征向量 . 根據段落 特征向量 , 我們下一步將進行段落聚類分析 .( 2) 段落聚類分析得到了段落特征向量 , 就可以利用段落間的相似度把段落分成若干個意義近似的類別 , 假定給定類 別數為 K , 段落集為 P n
13、 則相似度為mt ik t j k k = 1 Sim ( Pi , Pj ) =.( 3)m mt 2 t 2ik j kk = 1k = 1然后根據相似度進行段落聚類 , 段落聚類的算法如圖 2 所示 :圖 2 段落聚類算法流程將示例文本分為若干類之后 , 就可以通過計算各個類別的表達能力 . 各個示例文本中公共詞匯表明了詞匯水平上的用戶興趣 , 利用特征項在示例文本中的分布情況來衡量特征項對于用戶興趣的表達能 力 . 一個段落或者一個類別中包含這樣的特征項越多 , 可以認為對用戶興趣的表達能力越強 .于用戶定義的 關 鍵 字 集 合 時 , = 1 ; 當 位 于 副 標 題 或 者 摘
14、 要 段 以 及 H TML 文 檔 的 標 記 區 域 內 , 如H TML 的標題 、頭部等其他表示主頁內容的標記內所含的特征項 ,= 0 . 5 .類別表達能力f calss ( C) = 1f para ( P) , 其中 T 是類別中包含的段落數 .T P C最后 , 按照表達能力的高低進行排列 , 得到類別序列 C1 , C2 , C K , 取前 S 個表達能力最強的類S, S ) , 則用戶興趣的特征向量為 Q = i Ci , 其中 i = f class ( Ci ) /別 , 設其為段落特征向量 Ci ( i = 1 , 2 ,Si = 1f class ( Cj ) 3
15、 .j = 1212用戶興趣判斷功能模塊假設文本流為 St ream , 文本 T St ream , f c ( T ) Doc Type , f d ( T ) = Text , 則經過版面處理 , 獲得文本的特征向量 T = ( P1 , P2 , , Ps ) , Pi ( 1 i S ) 表示段落特征向量 , Pi = ( t i1 , t i2 , t i n , ) . 文本 T 與用戶興趣向量的 Q = ( q1 , q2 , qn ) 的匹配度為nt i k qkSim ( T , Q) = 1 (Sk = 1) .( 4)S i = 1n nt 2 q2i kkk = 1
16、k = 1通常 , 指定類別 K , 段落相似度 Sim ( P i , Pj ) 和文本與用戶興趣向量的相似度 Sim ( T , Q ) 是初次運行系統時由系統管理員制定的 . 因此 , 用戶興趣模型還應根據用戶反饋來進行修改 , 以取得更好的效果.213 用戶興趣更新與維護模塊一般地 , 用戶興趣模型不需要用戶手動更新 , 如果必要也可由用戶手工修改. 正如我們所知 , 一個人 的興趣有時是隨著時間 、工作性質等外部環境的變化而改變的 . 一個適應性良好的智能模塊還應該能跟蹤用戶的這種狀態的改變 , 來相應地更新用戶模型 . 當用戶對某一特征項表現出感興趣時 , 它的權重就 增加 ; 當
17、用戶對原來的特征項長期沒有訪問 , 則降低它的權值. 同時用戶興趣模型中所有的權值都會隨 著時間的過去而下降 , 這樣就保證了用戶興趣模型的時間可靠性 . 在下列情況下 , 用戶興趣特征向量都 可能發生改變 4 :用戶點擊一個鏈接 , 瀏覽一個文檔 ;用戶向系統反饋一個評價 ;用戶的信息經過外部系統得出 ;用戶的愛好被重新設置或描述 ;用戶的愛好自動地由用戶的行為推導出來.用戶的興趣向量最終是通過向量空間模型來表示的. 如果現在得到一個新的當前興趣向量 Q1 , 可 以借鑒下面的公式來計算用戶興趣變化后的興趣向量 5 :Q = Q0 + Q1 + ( 1 - ) Q 0 Q 1 ,0 ,0 .
18、( 5)其中 : Q 0 是原始的興趣向量 ; Q 1 是后來提取的興趣向量 ; Q 0 Q 1 表示在 Q 0 中去掉在 Q 1 中出現的42東 北 師 大 學 報 自 然 科 學 版第 37 卷當 = 0 時 , 意味著拋棄原來的興趣向量 , 當 = 0 時 , 則意味著當前的興趣向量不起作用 . 一般情況下 , 我們認為后來提取的新興趣向量更能代表用戶當前的興趣 , 所以 比往往要大 , 即 . 例如 可以取 = 0 . 4 ,= 0 . 6 .在用戶興趣模型的更新中 , 不但要充分考慮用戶的長期個性化向量 , 而且也要考慮用戶的當前興趣 向量 , 綜合兩者來取舍其特征項及計算特征項的權
19、重 .結束語3主題智能公文包是結合了搜索引擎技術 、智能代理技術 、個性化技術和信息推送技術的自動信息檢索機制 , 它滿足了個性化定制服務的需要 , 在電子政務系統中具有巨大的發展潛力和現實意義 . 本文只 給出了一個系統框架設計 , 關鍵在于如何具體實現 . 特別是在用戶知識庫的建立 、使用 、機器學習 、相關 度分析等方面都是下一步的研究重點 . 此模型的算法也可以推廣應用到其他信息系統的定制服務研究 中去. 在知識經濟時代 , 人們越來越需要個性化服務的提供 , 因而“主題智能公文包”信息定制服務的功能將受到廣大用戶的青睞 , 相信它的發展前景是非常廣闊的 . 參考文獻 1234林鴻飛
20、,杜之生. 用戶興趣模型的表示和更新機制J . 計算機研究與發展 ,2002 ,39 ( 7) :843 - 847 .李曉麗 ,杜振龍 ,李明 ,等. 基于 Bayes 概率的用戶興趣發現J . 計算機工程與科學 ,2003 ,25 ( 5) :17 - 20 .孫鐵利 ,鄧安生. 智能用戶接口 Agent 的用戶模型與系統構建方法J . 東北師大學報 ( 自然科學版) ,2000 ,30 ( 3) :115 - 119 . Bernick , Philip . Habitabilit y in search engine interfaces :characteristics identi
21、fied t hro ugh fo r mative evaluatio n D . New Mexico State U niversit y. 2003 .Zhang Zhen - ji , Sun jie . Research and realizatio n o n a custo mized service of E - government systemA . Proceedin gs of 2004 Interna2tio nal co nference o n management science & engineeringC , Harbin : Press of Harbin Institate of Technolo gy ,2004 . 235 - 241 .5Study on themat ic an d intell igent portf ol ioservice in E - govern ment systemZHAN G Zhen2ji1 ,L IU Ho ng2lu2 ,SU N J ie1( 1 . School of Eco no mics and Management ,Beijing J iaoto ng U niversit y ,Beijing 100044 ,China ;2 . S
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吐魯番職業技術學院《電路B》2023-2024學年第二學期期末試卷
- 內蒙古建筑職業技術學院《工程流體力學B》2023-2024學年第二學期期末試卷
- 太原理工大學《熱流體學及應用》2023-2024學年第一學期期末試卷
- 山東省日照市山海天旅游度假區2025年數學三下期末綜合測試模擬試題含解析
- 昆明學院《安全信息技術》2023-2024學年第二學期期末試卷
- 延安大學《研究型建筑設計》2023-2024學年第二學期期末試卷
- 上海對外經貿大學《世界文化產業》2023-2024學年第一學期期末試卷
- 一嗨租車會員注冊協議書二零二五年
- 二零二五版裝修質量保證及售后服務承諾書
- 二零二五版兼職人員聘用協議
- QCR 409-2017 鐵路后張法預應力混凝土梁管道壓漿技術條件
- 南師地信培養方案
- 采購工作調研報告(3篇)
- 10KV高壓開關柜操作(培訓課件PPT)
- 希爾國際商務第11版英文教材課件完整版電子教案
- 《學弈》優質課一等獎課件
- 2023年6月大學英語四級考試真題(第1套)(含答案)
- 靜脈導管常見并發癥臨床護理實踐指南1
- Sup20普通瀝青混合料目標配合比設計
- 2023年北京天文館招考聘用筆試參考題庫附答案詳解
- 國家開放大學《農村政策法規》形成性考核(平時作業)參考答案
評論
0/150
提交評論