審計知識圖譜的構建與研究_第1頁
審計知識圖譜的構建與研究_第2頁
審計知識圖譜的構建與研究_第3頁
審計知識圖譜的構建與研究_第4頁
審計知識圖譜的構建與研究_第5頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

審計知識圖譜的構建與研究傳統的審計組織,一直在致力于構建各種法規庫、知識庫、案例庫、代碼模型庫、程序庫等等,用現在比較流行的話,其實是在構建知識圖譜。理想的應用場景,應該是輸入一個關鍵詞后,相關聯的信息都會浮現出來。比較low的就是一條條的關鍵詞,文章題目加關鍵字索引,像百度一樣,應該很多組織都可以實現。文檔放在本地的話,google桌面也可以實現本地加互聯網的檢索。真正增值的部分,是通過數據化的手段,系統化的梳理各個知識之間的內在聯系,通過圖形方式呈現出來。特別是一些比較模糊和踩腳的部分,讓審計人員在接觸一個陌生的項目的時候有著更加深刻的認識。對一個大型審計組織,人員流動較為頻繁,庫或者知識圖譜的意義不僅僅在于知識的沉淀,而在于將散落在各處的碎片化的知識組織在一起,形成一個不那么完整的碎片化的塊狀信息,呈現給審計人員。問題背景知識圖譜(KnowledgeGraph)的定義:顯示知識發展進程與結構關系的一系列各種不同的圖形,又被稱為知識域可視化或知識領域映射地圖,是用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。隨著大數據技術的發展以及海量數據轉化為知識時代的到來,知識圖譜技術能夠從海量非結構化數據(如文本和圖像)和結構化數據中進行知識獲取、知識共享,并在大數據時代進行知識創新。知識圖譜可以高效、直觀地描繪出目標對象(如企業,事件等)之間的相關網絡,并在多維視角實現對象的真實情況和錯綜復雜的關系。在企業的實際業務中,面對海量繁多的財務會計憑證、賬簿、報表及電子數據等信息,審計人員常常通過抽查來發現問題。知識圖譜技術的出現,提供了更高效的審計,提高審計工作效率,可以作為經典審計方法的補充,在理想情況下甚至可以做到全面排查總體,這樣不僅能避免審計抽樣的風險,同時也降低了審計工作的復雜性和總體風險。本文基于百度問答的數據,對審計領域的一些常見知識進行了收集,基于多源異構審計數據,構建了結構化審計數據庫,并通過可視化工具,進行初步的可視化分析產生可視化圖表,對審計信息進行分析和使用,有助于審計信息使用者快速了解特定領域的審計知識,為審計需求相關方的決策提供參考價值。對國內外研究的分析和比較,可以看出知識圖譜及其可視化服務正在迅猛發展,并開始逐步應用至各行各業。知識可視化的實質是將內容用圖形的方式表示,更符合人們對信息的感知與理解,從而進行知識傳播(劉琦,2018)。在企業審計領域中,由于審計知識領域涉及范圍較廣,審計知識之間的關系紛繁復雜,存儲、組織和表達方式較為松散,缺乏有效的管理。另外,審計知識檢索的效率不高,無法進行關聯知識的深度檢索。由此可見,將知識圖譜與可視化技術運用至企業審計領域中,與檢索者產生交互,顯示地表達知識的整體性與關聯性,將對知識的傳播起到推動作用。同時,企業也可通過運用審計知識圖譜,將傳統的業務推動數據模式轉化為數據推動業務模式,提高審計的效率,挖掘不易發現的審計數據,為企業決策提供參考價值基于Neo4j圖數據庫構建審計知識圖譜在審計領域中,由于審計知識領域涉及范圍較廣,審計知識之間的關系紛繁復雜,存儲、組織和表達方式較為松散,缺乏有效的管理(劉琦,2018)。另外,審計知識檢索的效率不高,無法進行關聯知識的深度檢索。對此,Neo4j圖數據庫的存儲結構與領域知識存儲與查詢功能,不僅能良好地支持知識庫中實體關系的管理,還能對知識進行快速查詢和清晰展示(葉帥,2019)。為了實現審計數據的信息化,知識圖譜中的語義關聯可以有效地整合多元異構審計數據。知識圖譜的數據通常以三元組(S,P,D)的形式來表示實體、關系、屬性之間的關系,因此,本文用Neo4j圖數據庫實現實體及實體關系的存儲,構建審計知識圖譜。Neo4j是一種圖形數據庫,是目前圖形數據庫中使用率最高的庫,Neo4j具備本地存儲和數據處理的功能,與一般的數據庫有顯著的區別,它能夠保證數據的完整性和高讀寫性。審計知識圖譜構建的目的是將經典的審計方法與知識圖譜可視化方法相結合,從大量的企業結構化和非結構化文本中自動提取三元組,構建審計的知識圖譜,方便審計信息使用者快速抓取信息,有助于審計決策的制定和實施。本文從以下幾個方面入手,具體探討審計知識圖譜的構建過程。1.審計數據的獲取經過對不同行業和領域對審計需求的調研,發現存在兩類數據,第一類是審計領域內的直接數據,第二類是與審計相關聯的通識數據。對于直接數據,先從結構化數據源的相應本體模型出發,定義概念之間的分層關系,然后從多個數據源所定義的概念出發添加實體和屬性。通過定義知識圖譜的本體模式,以確保知識層次結構的正確性,然后再針對定義好的本體模式,對領域數據中的相關知識進行抽取,通過知識融合、質量評估等階段,篩選出滿足準確率要求的三元組進行企業審計知識圖譜的構建,并將其存儲于MySQL數據庫進行關聯。另外,由于非結構化數據的知識可信度相對低,抽取的精度也是有限的,這使得它難以滿足可用性標準。因此,具有高可信度的半結構化的通識知識數據將被用作構建企業審計知識圖譜,作為構建審計知識圖譜的另一個層次的數據源,與審計數據互補。對于通識知識數據,將抽取百科頁面中的半結構化數據,作為關鍵性的知識,轉換成三元組,然而,對于關鍵知識中部分冗余的信息仍然存在,例如,存在實體名稱不一樣,但實際對應現實世界中的同一實體,需要對這些冗余的知識進行知識融合,保證所構建知識圖譜的準確性。由于企業審計知識圖譜對準確性的要求較高,關系到企業的利益,因此將采用已有的算法,對這些冗余的知識進行篩選,然后再使用人工進行評估。這些冗余的知識,在百科數據中只是部分存在,而且比例很低,使用這種思路不會造成較高的人工成本,準確度和效率都是可接受的。2.審計數據處理經過知識清洗與數據預處理,得到了關于審計領域的知識三元組數據,儲存在txt文檔中,以逗號分隔,然后將數據txt文檔格式轉為CSV文件格式。CSV是使用文本文檔形式存儲的數據,文件內每一行代表一條數據,每條記錄包含了由逗號分隔的一個屬性值,其中A列中的數據代表Source節點類型,C列中的數據代表Target節點類型,B列中的數據代表關系(relation)。其數據格式如下圖所示。將上述數據導入Neo4j,其邏輯為:(node相關:CSV文件首列為Source節點,第三列為Target節點,第二列為relation(關系)。消除完重復數據后,為每個節點生成唯一的id和name字段,方便查看節點的屬性。(2)relation相關:每種關系單獨生成一個關系類型,這樣在進行后續的查詢操作時可以針對某個關系或節點直接進行查詢。關系兩端的node用生成的id進行標示。(3)數據導入生成知識圖譜:清空Neo4j現有的graph并重啟Neo4j程序。若啟動Neo4j程序需要在cmd中輸入如指令,指令輸入完成后打開Neo4j,利用Neo4j的Cypher語句進行查詢。3.審計數據的導入本文采用Python與Neo4j圖數據庫連接的方式,進行數據導入工作。首先需要將已有的CSV格式的數據導入py2neo庫,需在Python中輸入如下代碼:frompy2neoimportGraph,Node,Relationship,Subgraph。隨后建立時間模塊與導入操作數據需要使用的模塊。下一步需要在Neo4j中運用Cypher語句建立索引、提高查詢速度,輸入CREATE語句:CREATEINDEXFOR(n:Entity)ON()。之后需在Python中設置自己本地的url與Neo4j庫的用戶名與密碼,即可實現審計數據導入Neo4j,從而完成基于Neo4j圖數據庫的審計知識圖譜的構建。審計知識圖譜的實現審計知識圖譜的實現主要是通過信息抽取、知識融合、圖譜的構建與儲存等核心技術從大量的異構數據源出發,抽取其中的實體、屬性等關鍵知識及其相互關系,再完成實體對齊與實體消歧等數據融合工作,然后采用符合質量要求的知識構建圖譜,并利用MYSQL數據庫對構建好的知識圖譜進行儲存。在上一節中進行了數據導入工作并在Neo4j圖數據庫中構建了企業審計領域知識圖譜。Neo4j圖數據庫中,共設有兩種節點類型,分別是Source節點類型與Target節點類型。用戶可以根據自己的需求進行查詢,進而清晰明了地了解節點以及節點與節點之間的關系。比如,用戶需要在Neo4j中查詢某一個節點(node)并且節點類型屬于Source類型時,以查詢“中國投資服務網”為例,用戶需輸入如下查詢語句:MATCH(n:Source{name:‘中國投資服務網’})returnn,點擊運行后會顯示出節點‘中國投資服務網’,若用戶需要查詢節點類型為Target的節點,只需把查詢語句中的Source改為Target即可進行查詢。再比如,當用戶需要在Neo4j中查詢關系(relation)時,需要使用Match語言進行查詢,以查詢“審計”關系為例,若想查詢圖數據庫中所有關于“審計”關系的節點,查詢語句如下:MATCH(n:Source)-[:‘審計’]-(m:Target)returnn,mlimit20。這時圖數據庫會加載出所有以“審計”關系連接的節點,(其中limit為控制節點顯示數量的參數,可修改為任意數量),查詢結果如圖所示。對審計領域的知識獲得全局認識,亦可以借助知識圖譜的手段。審計知識圖譜的構建,有助于人們通過節點—關系—節點的方式,方便快捷、清晰明了地獲取審計領域的相關知識,完成審計知識的查詢和獲取。比如對于初次接觸審計領域知識的用戶而言,可以通過知識圖譜的方式查詢“審計”相關領域,例如查詢對于“審計(獨立性的經濟監督活動)”相應知識,查詢結果如圖所示,即可通過圖譜的方式獲得相應審計知識的展示,方便用戶快速、系統、較為全面地獲得審計領域知識。另外,知識圖譜也提供了強大的模糊查詢的功能。當用戶在搜索框內輸入想要查詢的詞語,隨后會出現下拉框,用戶可通過點擊某一詞語或句子,這時會出現用戶搜索的詞語的網絡關系圖。以搜索“cpa”為例,頁面的搜索框下會出現所有包含cpa字段的詞語或語句,可通過點擊自己想要查詢的范圍來進行查詢。例如,以選擇以“cpa[注冊會計師]”為例,用戶點擊此詞語,頁面會展示關于此詞語的知識圖譜,如圖所示。這種通過圖譜的形式展示出來的、區別于傳統的百度搜索查找審計領域知識的方式,是大數據審計、信息化審計和智能化審計發展到一定階段的產物,有助于用戶對審計知識的查詢、獲取和使用,提高了用戶的決策相關性。結語通過審計知識圖譜的構建,相關人員可以快速準確地了解到當前環境下審計知識的現狀,精準抓取審計行業面臨的問題等等。對于審計從業人員而言,需要不斷加強大數據審計和智能化審計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論