




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICS35.240.40
CCSL67
T/CCUA
中國計算機用戶協會團體標準
T/CCUALX003—2020
不良資產管理領域知識圖譜技術要求
Knowledgegraphforassetmanagement------Technicalrequirement
(征求意見稿)
(本草案完成時間:2021年12月29日)
在提交反饋意見時,請將您知道的相關專利連同支持性文件一并附上。
XXXX-XX-XX發布XXXX-XX-XX實施
中國計算機用戶協會發布
T/CCUALX003—2020
目次
前言................................................................................II
引言.................................................................................III
1范圍.......................................................................................1
2規范性引用文件............................................................................1
3術語和定義................................................................................1
4縮略語....................................................................................2
5概況......................................................................................3
5.1領域相關特點.........................................................................3
5.9領域相關限制.........................................................................3
6知識圖譜技術架構.........................................................................3
7知識圖譜構建和應用.......................................................................4
71源數據................................................................................4
79數據處理..............................................................................4
7.3知識抽取..............................................................................4
74知識表示..............................................................................4
7.5知識融合..............................................................................5
7.6知識存儲..............................................................................5
77圖譜中心..............................................................................5
7.fl知識推理..............................................................................6
7.9知識圖譜應用.........................................................................6
8知識圖譜系統運維.........................................................................6
9安全......................................................................................7
參考文獻..............................................................................8
I
T/CCUALX003—2020
■■■1/■—A----
刖百
本文件按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定
起草。
請注意本文件的相關內容不涉及專利。本文件的發布機構不承擔識別專利的賁任。
本文件由中國計算機用戶協會云應川分會和華融融通(北京)科技有限公司共同提出.
本文件由中國計算機用戶協會歸口。
本文件起草單位:中國計算機用戶協會云應用分會、中國華融資產管理股份有限公司,北京郵電大
學,北京航空航天大學,中國信達資產管理股份有限公司,華融融通(北京)科技有限公司,華鴻匯德
(北京)信息技術有限公司。
本文件主要起草人:唐常芳、傅湘玲、王寶會、彭雷、袁佳寧、張昕夏、黃笑童、趙蒙、鄭藝、萬
誼強、高高峰、王友軍、王茵、申楠楠、時國歡。
本文件為首次發布。
II
T/CCUALX003—2020
引言
不良資產管理領域涉及較多非標準業務,各類項目的操作方式靈活多樣,各業務條線維護和關注的
信息豐富繁雜。在項目進行的各個階段和盡職調查、方案審查、風險控制、資產處置和機會發現的各個
環節,業務人員需要對項目相關市場參與主體的信息及擴展關聯數據有所了解和掌握,對企業經營基本
狀況、企業集團、投資集中度、授信額度、項目協同意愿或利益沖突、美聯關系、擔保風險、輿情事件
等進行判斷,涉及的關系網絡不僅包括市場、監管、產業鏈、企業、干系人等外部信息,同時包括業務
運轉過程中形成的項目、客戶、協同等內部信息,這些都構成了不良資產管理領域知識體系的一部分,
而知識圖譜在表示這些關聯知識和基于網絡關系進行分析方面具有天然的優勢,并可以支持通過進一
步數據挖掘賦能業務創新,因此在不良資產管理領域有著廣泛的應用前景。本文件的制定,有利于指導
和幫助不良資產管理領域知識圖譜技術的具體實踐。
III
T/CCUALX003—2020
不良資產管理領域知識圖譜技術要求
1范圍
本文件確立了不良資產管理領域知識圖譜架構,規定了相關構建技術框架及流程、技術要求、數據
使用、安全要求,并界定了有關的術語、定義和縮略語。
本文件適用于不良資產管理行業使用知識圖譜支持業務場景過程中涉及的數據和知識的獲取、存
儲與處理,知識圖譜管理和計算,應用系統維護相關的技術,其他領域也可參照使用。
2規范性引用文件
下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
本文件沒有規范性引用文件。
3術語和定義
下列術語和定義適用于本文件。
3.1不良資產管理領域
3.1.1
不良資產non-performingassets
企業尚未處理的資產凈損失和潛虧(資金)掛賬,以及按財務會計制度規定應提未提資產減值準備
的各類有問題資產預計損失金額。
3.1.2
干系人projectstakeholders
積極參與項目實施或者在項目完成后其利益可能受積極或消極影響的個人或組織。
示例:客戶、用戶、發起人、高層管理員、執行組織、公眾或反對項目的人。
3.1.3
產業鏈industrychain
指各個產業部門之間基于一定的技術經濟關聯,并依據特定的邏輯關系和時空布局關系客觀形成
的鏈條式關聯關系形態。
3.2知識圖譜
3.2.1
知識圖譜knowledgegraph
知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系,其基本組
成單位是“實體-關系-實體”三元組,以及實體及其相關屬性-值對,實體間通過關系相互聯結,構成
網狀的知識結構。
3.2.2
知識(用于人工智能)knowIedge(inartificialinteIIigence)
事實、事件、信念以及規則的匯集,以便于系統地使用.
[來源:GB/T5271.28—200128.01.03]
3.2.3
對象(用于人工智能)object(inartificialintelligence)
具有一種或多種屬性的物理或概念實體。
3.2.4
本體ontology
1
T/CCUALX003—2020
在大數據語境下,約束后續各種不同層次邏輯模型的語義模型,是共享概念模型明確的形式化規范
說明。
注:本體,從本質上看,既可以是非常概括性的,也可以是極其專門化的。
[來源:GB/T35295—20172.1.54]
3.2.5
實體entity
機構名、地名、人名等專有名詞或其他有意義的名詞性短語。
3.2.6
關系relationship
實體之間的語義聯系。
注:關系包括隱含語義聯系。
3.2.7
屬性attribute
對實體的描述。
3.2.8
事件event
發牛在某個特定時間點或時間段、某個特定地域范圍內,由一個或者多個角色參與的一個或者多個
動作組成的事情或者狀態的改變。
3.2.9
節點node
在RDF協議框架下,指圖譜中三元組的主語或賓語,個別情況下也可是謂詞IRI。
3.2.10
標簽IabeI
節點的分類結果信息。
3.2.11
三元組triple
表示RDF中的一組關系,由主語(subject)>謂語(predicate)和賓語(object)三個部分組成。
3.2.12
實體鏈接entitylinking
為文本中提到的實體(如著名的個人、地點或公司)分配獨特身份的任務。
3.2.13
知識抽取knowledgeacquisition
查找、收集和精化知識,并將它轉換成一種形式的過程,該形式能被基于知識的系統志一步處理。
[來源:GB/T5271.28—200128.01.09]
3.2.14
知識表示knowledgerepresentation
將知識編碼并存入知識庫的過程或結果。
[來源:GB/T5271.28—200128.01.08]
3.2.15
知識融合knowledgefusion
知識組織與信息融合的交叉學科,獲取隱含的或有價值的新知識,優化知識的結構和內涵,提供知
識服務。
注:面向需求和創新,通過對眾多分散、異構資源上知識的獲取、匹配、集成、挖掘等實現。
3.2.16
知識推理knowledgereasoning
按照某種策略,根據已有知識推出新知識的過程。
4縮略語
2
T/CCUALX003—2020
下列縮略語適用于本文件。
AMC:資產管理公司(AssetManagementCompanies)
IRI:國際化資源標識符(InternationalizedResourceIdentifier)
OWL:網絡本體語言(WebOntologyLanguage)
RDF:資源描述框架(ResourceDescriplionFramework)
NER:命名實體識別(NamedEntityRecognition)
5概況
5.1領域相關特點
不良資產管理領域使用知識圖譜,相關的領域特性有:
a)涉及的數據種類較為綜合和廣泛;
b)較為依賴行業或企業內部特有的非公開信息;
c)業務運轉天然形成網狀信息,易于用圖譜表示,同時應用也更依賴圖譜提供的能力。
5.9領域相關限制
不良資產管理領域使用知識圖譜,相關的領域限制有:
a)不良資產管理行'業信息科技化以及基于人工智能和大數據的知識圖譜技術應用仍在發展階段,
為保持技術路線穩健,更關注經過較為廣泛使用驗證和較為成熟的技術和方式;
b)不良資產管理屬于較為傳統的金融行業,相對于底層技術,更關注知識圖譜的業務應用;
c)金融數據具有歧義多、噪聲大、碎片化的特點,知識圖譜所能吸收的高質量數據較為有限,知
識圖譜中的知識抽取、知識融合及知識計算等技術面臨較多困難與挑戰;
d)不良資產管理領域知識圖譜包含多方數據,對數據的加工和使用涉及到相關的金融安全考量。
6知識圖譜技術架構
不良資產管理領域知識圖譜技術架構見佟11:
應用搜索查詢
技術關聯發現
知識
搜索遍歷
圖譜知識儲存
企業和干系人圖譜輿情事件圖譜
中心
知識知識表示
實體抽取關系抽取屬性抽取
抽取
數據
數據載入數據抽取數據轉化
處理
源
結構化數據半結構化數據非結構化數據
數據
圖1不良資產管理領域知識圖譜技術架構
不良資產管理領域知識圖譜技術框架由源數據、數據處理、知識抽取及知識融合、圖譜中心、知識
推理、應用技術及業務場景等六個層次組成。知識表示及儲存貫穿整個知識圖譜技術架構,負責將前三
3
T/CCUALX003—2020
個層次獲取的知識按照統一規則保存在適當媒介內,并向后三個層次提供便利快速的知識使用、知識內
容更新和知識結構重組。
圖譜的源數據由結構化數據、半結構化數據和非結構化數據組成,包括但不限于市場和企業基礎數
據和關聯關系和屬性數據,行業領域特色數據,內部業務相關數據等。基于數據處理層的數據載入、數
據抽取、數據轉化技術,為數據向知識的轉換做好準備。
完成基本處理的數據,通過知識抽取相關的技術如NER、關系抽取、事件抽取、屬性抽取等,結合
知識融合相關的方法如本體匹配、實體對齊等,形成包括企業圖譜、干系人圖譜、輿情事件圖譜、領域
業務圖譜和監管和法規圖譜等在內的面向應用的圖譜數據,匯集在圖譜中心。
基于圖譜中心數據進行搜索便利、路徑發現、社區聚類、子圖挖掘、實體鏈接和標簽傳播等知識推
理后,為探索查詢、關聯發現、知識問答等應用技術提供支撐,并應用于知識可視化、穿透杳詢、智能
客服、限額控制、風險預警、客戶畫像和機會發現等業務場景。
7知識圖譜構建和應用
71源數據
源數據和數據獲取符合以卜要求:
a)可利用現有通用知識圖譜、領域知識圖譜中的已有知識;
b)可從穩定可靠的外部公開合法數據源或第三方合法數據源獲取權威信息、,包括但不限于企業
工商數據、司法訴訟數據等;
c)可從網絡公開渠道獲取用于進一步分析提取信息的數據,包括但不限于輿情新聞、行業詞庫等;
d)可結合內部業務自有數據、領域專家知識和外部數據構造融合數據集合;
0)應優先使用定義清晰的結構化數據,以保證圖譜知識準確可靠;
f)對于分析處理獲得的非確定性參考信息,應與確定性信息進行區分。
7.2數據處理
數據處理符合以下要求:
a)應對存在噪聲的數據進行清洗操作;
b)應按照數據存儲方式的選擇將原始數據轉化為相應的格式;
c)可保留用于直接導入存儲的中間數據;
d)可保留中間數據的多個版本,或對中間數據的增顯和差異進行記錄;
e)對于涉及到敏感信息的數據,應符合第9章的安全要求。
7.3知識抽取
知識抽取符合以下要求:
a)可使用直接映射的方法進行結構化數據的知識抽取;
b)可使用模板解析的方法進行半結構化數據的知識抽取;
c)可主要使用基于領域專家構建的規則講行非結構化數據的知識抽取:
d)可使用實體抽取算法、關系抽取算法、屬性抽取算法和事件抽取算法進行非結構化數據的知識
抽取;
e)可保留用于知識抽取的映射、模板、規則以及人工智能模型的參數。
74知識表示
知識表示符合以下要求進行:
a)應對領域概念進行劃分,對實體、關系、屬性、事件等知識進行定義和格式化表示;
b)可依據行業慣例進行知識圖譜元素定義和邏輯結構構建;
c)應根據知識圖譜的數據規模、操作兔雜度、模型結構來選擇知識表示的方式:
d)對于基于語義網進行的知識表示,應遵循萬維網聯曹(W3C)發布的各項標準,使用唯一的IRI
表示資源,使用RDF框架對IRI進行描述,使用0匹本體語言對本體進行描述;
4
T/CCUALX003—2020
e)對于基于特征向量進行的知識表示,可使用平移距離模型、語義匹配模型或其他機器學習模型;
f)可使用三元組作為知識圖譜表示和數據交換的基本形式。
7.5知識融合
知識融合符合以下要求:
a)應對知識圖譜的概念層和數據層進行融合;
b)可使用基于術語的方法、基于結構的方法、基于本體中的實例的方法或三者綜合運用的方法進
行概念層的本體匹配;
c)可使用基于規則的方法、基于聚類的方法進行數據層的實體對齊;
d)內外部數據的融合,涉及通用類型的數據時,可使用統一標識進行匹配;
e)可構建不良資產管理行業術語、縮寫和別名對照、詞匯庫等用于輔助知識融合;
f)構建知識圖譜可使用自頂向下或自底向上的方法:
?使用自頂向下的方法構建知識圖譜時,應先確定知識圖譜的數據模型,再根據模型填充具
體數據,最終形成知識圖譜;
?使用自底向上的方法構建知識圖譜時,應首先對實體進行歸納組織,形成底層概念,然后
逐步往上抽象,形成上層的概念;
g)知識概念的更新可通過領域專家人工審核。
7.6知識存儲
知識存儲符合以下要求進行:
a)不良資產管理領域的實體應定義和存儲為節點,例如企業、法人等;
b)不良資產管理領域實體間的關系應定義和存儲為節點間的邊,例如從屬、投資等:
c)可根據知識圖譜的數據規模、操作復雜度、模型結構來選擇知識存儲的方式;
d)可優先使用圖數據庫用于知識圖譜的存儲,可使用關系型數據庫作為輔助存儲方式;
e)數據存儲可支持多副本,保證安全、可容災、高可用等性能要求;
f)可通過提高服務器硬件配置或服務器數量的方式來實現集群數據處理能力的提升:
?)可支持高效自動的知識圖譜數據更新策略。
77圖譜中心
7.7.1圖譜管理
圖譜管理符合以下要求:
a)應提供集中的方式管理圖譜;
b)可支持圖譜模型的統一管理:
c)可支持對圖譜整體和子圖的查看;
d)可支持圖譜的導入和導出,導入導出支持通用的標準格式;
e)可支持對圖譜中的實體、關系、屬性進行查看和管理等操作;
f)可支持圖譜查詢語句的統一管理;
g)可提供可視化的方式管理圖譜中心。
7.7.2領域圖譜
領域圖譜符合以下要求:
a)應以有效支撐業務的分析和決策需求為構建目標;
b)企業和干系人圖譜可包含不良資產管理領域業務參與企業、法人、自然人等實體及其屬性;
c)企業和干系人圖譜可支持實體之間的投資關系、組織關系、司法訴訟關系、經營合作關系、基
于其他共同屬性的關系等關系及其屬性;
d)領域業務圖譜可包含不良資產管理領域業務參與方、業務標的、業務領域術語和規程等實體及
其屬性;
5
T/CCUALX003—2020
e)領域業務圖譜可支持業務參與方之間的組織關系、法律關系、經營關系等關系及其屬性;
f)領域業務圖譜可支持業務標的之間的分解、組合、遷移、轉化等關系及其屬性;
g)監管和法規圖譜可包含不良資產管理領域'業務參與實體、監管機構涉及實體、法律法規涉及實
體等實體及其屬性;
h)監管和法規圖譜可支持各實體之間與監管和法律法規相關事件關聯的關系及其屬性;
i)輿情事件圖譜可包含不良資產管理領域廣泛的業務參與實體及其屬性;
j)輿情事件圖譜可支持各實體之間與動態事件關聯的關系及其屬性;
k)應支持領域圖譜的擴展。
7.7.3圖譜可視化
圖譜可視化符合以下要求:
a)應以直觀方式提供圖譜的可視化;
b)應對實體、關系、屬性進行區分;
c)以傳統的節點和連線方式表示圖譜時,應以節點表示實體,以連線表示關系;
d)應體現屬性與對應實體或關系的關聯;
e)可對實體的屬性和關系的屬性進行區分;
f)可對圖譜中的實體進行鉆取顯示;
g)可支持對特定實體間的特定關系進行顯示;
h)可支持用實體的屬性對可視化內容進行篩選;
i)可支持用關系的屬性對可視化內容進行篩選;
j)可支持用關系的層數對可視化內容進行篩選;
k)在圖譜元素數量較多時,可支持對可視化方式進行優化:
1)可支持不同圖譜之間的關聯。
7.8知識推理
知識推理符合以下要求:
a)可基于不同的關系構造相關子圖,用于對特定關系或事件進行查詢;
b)可支持對圖譜的搜索;
c)可支持對圖譜的遍歷;
d)可支持對圖譜的路徑發現計算:
e)可支持對圖譜的聚類計算;
f)可支持基于規則、統計、機器學習的知識推理。
7.9知識圖譜應用
知識圖譜應用符合以下要求:
a)應支持對實體、關系和屬性的查詢;
b)應支持對兩個或多個實體間關系、關系屬性的查詢:
c)可支持對基于特定關系的圖譜的查詢;
d)提供的圖譜信息應包括所有必要的實體和關系;
e)對于包含多層級關系的圖譜,可支持關系的逐級查詢和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CQAGS 3201-2023重慶好糧油壓榨菜籽油
- T/CNFMA B021-2022戶外林業機械以汽油機為動力的手持式挖樹機
- T/CNCA 029-2022基于掘錨一體機的煤巷快速掘進系統設計規范
- T/CIQA 57-2023進口剛果共和國茯苓藥材種植與采收技術規范
- T/CIIA 031-2022空間環境科學數據安全分級指南
- T/CHINABICYCLE 13-2022智能功率騎行臺
- T/CHIA 25-2022兒童營養與健康管理信息系統基本功能規范
- T/CGCC 50-2021購物中心客戶滿意度評價規范
- T/CETA 003-2022多功能小型文化服務綜合體設計指南
- T/CECS 10360-2024活毒污水處理裝置
- 2025年反恐與公共安全管理職業資格考試試卷及答案
- 2025年消防知識考試題庫:火災預防與逃生逃生技巧實戰演練題
- 福建卷-2025屆高考化學全真模擬卷
- 高速公路占道施工應急安全措施
- 2022隧道順光照明技術指南
- 中國蠶絲綢文化智慧樹知到期末考試答案章節答案2024年浙江大學
- MOOC 學術英語寫作-東南大學 中國大學慕課答案
- 緩刑期滿個人總結
- 市政道路中線測量內容及計算方法
- 南瓜種植PPT演示課件(PPT 46頁)
- 第三章磁功能玻璃
評論
0/150
提交評論