【稅會實務】XBRL層次結構與財務信息數據挖掘_第1頁
【稅會實務】XBRL層次結構與財務信息數據挖掘_第2頁
【稅會實務】XBRL層次結構與財務信息數據挖掘_第3頁
【稅會實務】XBRL層次結構與財務信息數據挖掘_第4頁
【稅會實務】XBRL層次結構與財務信息數據挖掘_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

我們只分享有價值的知識點,本文由梁老師精心收編,大家可以下載下來好好看看!【稅會實務】XBRL層次結構與財務信息數據挖掘【摘要】XBRL是XML在商業報告領域的規范化,發展步伐迅猛。XBRL吸收了XML的結構層次特點,并有其獨特的地方。它通過分層機制,有利于把握商業事實內在語義,便于計算機理解,促進了財務信息數據挖掘。

【關鍵詞】XBRL;XML;層次結構;數據挖掘

XBRL(eXtensibleBusinessReportingLanguage,可擴展商業報告語言)是用于企業財務數據電子交流的語言,是一種基于XML語言的實現(準確的說是規范化)。上世紀90年代末美國首先提出XBRL理論,很快為實務界所采納,短短幾年之內,XBRL得到超乎尋常的發展。在XBRL國際組織()的推動下,目前XBRL在全球范圍內已經被大多數會計師事務所、貿易機構、軟件開發商、金融機構、投資者以及政府機構采用。

現在對XBRL的研究普遍存在僅從技術上理解的傾向,但其實際情況并非如此。XBRL的廣泛傳播并不是僅僅是由于技術規范的成熟和標準的整齊劃一,更重要的是因為它對于現實生活中商業行為的深刻理解和語義層面的把握,才使得不同語法形式下(外在表現為異質平臺)信息共享成為可能,極大地促進了財務信息數據挖掘的進行,滿足了決策者對有用信息和知識的需求。本文將探討XBRL的層次結構特點,以說明為何它能有效地把握語義信息及由此而產生的數據挖掘問題。

一、XML層次結構與計算機理解

XBRL是XML在商業報告領域的應用。XML是一種面向計算機的使用元數據標識信息的標準化結構;XBRL則給出了元數據的一個規范化,并簡單定義了財務報告文檔信息標記的語義關系。

XBRL,或者說XML之所以要采用層次結構的方式,是因為人和計算機對事物的理解,都是分層的。

筆者采用自然語言描述這樣一個事實——“紅星股份有限公司2006年年報總資產是1000萬元”,我們理解這一語句的過程大致分為這么幾步:分析語句語法結構為“<主語名詞詞組>(<‘是’><數量詞賓語>=”,此語法結構對應的語義解釋規則為“(等值于)(個體—>屬性,數量值)”,據此語句解釋為“(等值于)(紅星股份有限公司—>總資產,1000萬元)”;至此解釋并沒有完成,而只是把對象語言的自然語言形式轉化為了元語言的邏輯函數形式,對對象語言的理解也轉化為了對邏輯函數的理解。要理解這一邏輯函數項,需要解釋等值關系、年報總資產等語義要素的含義,對這些要素的理解又需要訴諸于更上一層的元語言。由此每一層次的語言都需要在更上一層的元語言中實現語義解釋。當然,如此反復將導致無限循環,可能存在語義解釋系統都以一定的假設(尤其是對某些形而上命題的假設,亦即本體論)為起點。以W3C總監TimBerners-Lee在XML2000年會上提出的語義Web為例,其意義解釋層次結構如圖1所示。

這一層次結構中,只有XML層、RDF層、Ontology層、Logic層是為語言解釋而設計的,這四個層次本身還可以進一步劃分。XML文檔描述的是信息內容,NS定義了信息內容的訪問地址標識,XMLSchema則規定了文檔的語法格式;RDF提供了標準的元數據語義描述規范;而本體論(ontology)在RDFs基礎上定義了領域共享概念的形式化顯式說明,Ontology一般分為頂層本體、領域本體、任務本體、應用本體;邏輯層則(Logic)提供了基于本體進行邏輯推理的規則,它目前有SWRL(SemanticWebRuleLanguage)與ORL(OWLRuleLanguage)兩個提案,未形成標準。

相比HTML及PDF的會計信息表述形式,XML的優勢在于可標識信息的語義項,這種標識是對計算機而言的。以“投資收益1000萬元”為例,PDF與HTML等方式只是通過網絡傳遞人類能通過視覺系統將其中的信息項“投資收益”與值項“1000”相對應起來的、顯示在屏幕上或打印到紙上的“電子圖紙”;而在XML里,我們可以通過標簽來唯一地標識信息項,如1000表示投資收益1000萬元,計算機可以輕松地通過查找各上市公司發布財務報表的固定網址上的標簽來獲得各上市公司投資收益。而對PDF與HTML文檔,計算機只能將整篇的文檔匯總到一起供我們集中閱讀。

740)this.width=740”border=undefined>

740)this.width=740”border=undefined>

XML的思想精髓在于分層,實現“信息顯示與信息內容相分離”、“信息內容與信息語法格式相分離”、“語法格式與語義規則相分離”、“語義規則與本體論相分離”。分層機制將語義解釋轉化為了對樹形結構文檔的解讀問題,這使得計算機能夠使用一個相似的遞歸算法來實現,大大降低了工程實踐的難度,也從實踐的角度佐證了語義解釋亦是遞歸計算。不過不能因此而認為樹形結構的XML文件就完整地表示了信息語義關系,XML不過是信息的語法形式,盡管語義解釋的元語言語句也可以是XML(事實上Schema、RDF、OWL都采用樹形文檔結構),但邏輯上兩者處于不同層次上。

狹義地講,計算機對XML的理解是根據Schema文檔定義的語法要素(element)及要素之間的組合關系(complexType)識別出XML實例文檔中語法要素,并據此建立語法要素與信息內容之間的關聯。但如果沒有RDF、OWL、Logic層次的支持,計算機理解只可能是限定于特定語言層次上的形式化理解。從廣義上看,XML是一個包含了RDF、OWL、Logic的完整體系結構,計算機理解實質上是借助于遞歸算法,對各層次的關系完整把握。

二、XBRL的層次結構

作為XML的一個應用模式,XBRL的層次結構也有其特點。可以將現有的XBRL分為三層:技術規格(specification)、分類標準(Taxonomy)和實例文檔(InstanceDocuments)。

技術規格,或稱說明、規范,主要用于定義XBRL的各種專門術語,描述了XBRL文件的結構,詳細規定了XBRL分類的標準和XBRL實例文檔的語法和語義。雖然有XML元素和屬性的語義上的表述,但XBRL規格是一項側重技術的文件,目的在于定義一項符合規范的XBRL文檔。

分類標準是財務報告發布的語法格式,也部分定義了各會計報表要素的“語義關系”。如“資產=負債+所有者權益”、“主營業務收入是利潤表的要素”、“Assets表達資產的概念”等等。分類標準由名為Taxonomy.xsd的XMLSchema文檔與相關聯的五個XML鏈接庫文件(Definition.xml,Calculation.xml,Presentation.xml,Label.xml,Reference.xml)組成,Taxonomy定義的是報表的語法形式,鏈接庫文件定義的是報表語法要素的語義關系,其結構如圖2所示。

XML鏈接庫文件是使用鏈接語言(XLink)定義的,并不局限于外在形式上標簽之間的鏈接(HTML鏈接則是外在形式上的鏈接),而是主要用來描述信息內容標簽(元數據)之間的聯系。XBRL的五個鏈接庫文件定義的是XBRLSchema文檔中各標簽之間的聯系,屬于XBRLSchema的元語言范疇。顯然,XBRL并未遵循語義Web的體系結構,其語義表達功能較為簡單。

Definition鏈接庫描述Schema文件中元素概念之間的關系,這些關系可取general-special、similar-tuples、essence-alias、requires-element等四種值,分別表示一般與特殊的種屬關系、不同XML視圖中的元組間的定義等價關系、概念間的相似關系、跟隨出現關系。Calculation鏈接庫定義了元素間的線性運算關系,具體關系式為“TO=FROM1*WEIGHT1+FROM2*WEIGHT2+……+FROM-n*WEIGHT-n”。Label鏈接庫定義了Schema文檔中的元素與XML中標記的對應關系,實現一個元素與多個標記相關聯。Presentation鏈接庫規定了元素展現的父子關系與兄弟元素的展現次序。Reference鏈接庫建立了元素到元素涵義解釋的權威參考文獻鏈接。Label與Presentation定義的都是XBRL實例文檔的展示問題,而Reference顯然是為便于人類閱讀者索取各元素權威解釋而設計的,它們都不涉及信息項的語義關系定義;定義Schema元素語義關系的只有Definition與Calculation。

實例文檔是一個企業根據XBRL規范和XBRL分類標準做成的財務報表,它必須要同時滿足分類標準的定義和規范的限制。實例文檔封裝了具體的商業事實(fact),根據信息的匯集程度分為條目(item)、元組(tuple)、組(groups)三個不同層次。其中,條目通常與一個數字型的事實對應;元組是事實的聯合體,等同于關系數據庫里的一條記錄,組是實例文檔的根結點,由相關聯的數據項的集合構成。在不知道分類標準的情況下,實例文檔沒有任何意義。用戶需要借助與分類標準和相應的軟件才能從XBRL實例中提取所需要的數據并加以分析。

可以看到,XBRL并沒有完全遵循語義Web的規范,試圖通過Definition鏈接庫和Calculation鏈接庫來把握財務對象的語義,這必將是不充分的。技術規格雖然也有一些專門術語語義層次上的表述,但總的來看,與XML存在的缺陷一樣,XBRL缺乏本體層概念關系定義和邏輯層的計算規則定義。

W3C也試圖致力于彌補這一缺陷。2004年提出標準化的本體語言OWL就代表了這方面的努力。OWL由OWLLite、OWLDL(DescriptionLogics)、OWLFull三個并列的子集構成,OWLLite用于表示只需一個分類層次和簡單約束關系的形式語義關系;OWLDL用于表示需要最強表達力且需要保持計算的完備性(即所有結論可計算)與可判定性(所有計算能夠在有限時間內完成)的形式語義關系;OWLFull用于需要最強表達力且無法提供計算完備性與可判定性保證的形式語義關系。其中,OWLDL也提供了完備的實例、類、屬性、關系等元語言對象的表示工具。也就是說,OWL層提供了充分定義XBRL范疇概念關系的形式工具。

若OWL能夠得到充分的完善,必將為XBRL提供有力支持,彌補技術規范語義表達方面的不足。可以設想,較為理想的XBRL層次關系如圖3所示。

740)this.width=740”border=undefined>

三、XBRL層次結構引致的財務數據挖掘

數據挖掘(DataMining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的,但又是潛在的有用信息和知識的過程。相對于傳統的數據分析,數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。

因為信息具有強烈的時效性,一旦為所有人所知曉,信息的價值就蕩然無存。在當今瞬息萬變的商業環境中,競爭的主要方式是信息的競爭,傳統的事后分析型的數據分析方法將被事前探索型的數據挖掘所取代。而與此同時,信息提供者之間也存在著激烈的競爭,如財務信息與非財務信息之間的競爭也日益激烈。XBRL的提出不但為財務信息提供者增加了競爭的籌碼,也直接推動了財務數據挖掘的開展。

XBRL的優勢在其清晰的層次關系和語義表達能力。XBRL的層次結構在財務數據挖掘的優勢表現在:(一)跨平臺使用

由于采用了XML的架構體系,在不同的操作系統下,如Windows、Unix和Linux等,XBRL文件無需修改就可以直接使用。在不同的應用軟件中,即使所用的數據庫不同,只要轉換成XBRL格式,也可以實現數據的交換。跨平臺使用的關鍵在于XBRL實現了語法格式與語義規則分層,在圖3中表現為技術規范和分類標準的分層,從而使得XBRL在不同的技術實現之間沒有障礙。

(二)數據跟蹤

XBRL可以在不同的信息之間建立連接,跟蹤相關的信息線索,自頂向下地考察數據源直到底層的數據,方便了對企業報告的閱讀和數據分析。XBRL的技術結構使其具有良好的動態分析功能,計算機可以讀懂XBRL標記的含義,而且操作員也可以很容易地從文檔中獲取有價值的信息。當搜索引擎找到所需的信息時,它能進一步追蹤下去找到數據的最初來源及其它與該信息有關的資料。同時,完善的定義與唯一的XBRL要素使信息減少了模糊性。數據跟蹤的關鍵則在于OWL與分類標準的分層結構,通過對OWL的深入挖掘可發現分類標準中各元素之間的內在聯系,在圖3中表現為OWL與分類標準的分層。

(三)搜索快速、準確

XBRL使用標簽描述數據的含義。在進行數據搜索時,不是像HTML那樣根據字面內容進行搜索,而是根據標簽的語義進行定位,這樣搜索引擎就能夠快速、準確地找到用戶所需的特定信息。同時,由于XBRL采用標簽來標記數據,可以通過應用程序對搜索結果中的數據進行匯總。其效率遠遠高于目前互聯網上的PDF、WORD和HTML等文件格式。而實現這一目標的要點在于圖3中分類標準與實例文檔的分層,清晰的分類有利于滿足豐富實例中信息的挖掘。

XBRL清晰的層次結構關系不但支持了數據收集和數據預處理過程,也為各種適用于不同范圍與層次的數據挖掘工具提供了良好的材料。如在數據的預處理過程中,為對XBRL文檔進行存儲和校驗,可以借助于IPEDOXML智能處理平臺,利用其SchemaManager和XMLRule模塊在OWL和分類標準層次上搜集相關信息,然后對XBRL實例文檔進行校驗。

總之,XBRL的層次結構特點為財務數據的挖掘提供了極大的方便,這是XBRL得到廣泛推崇的原動力之一。

四、結論

XBRL承繼了XML分層的機構特征,有利

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論