6個方面分析知識圖譜的價值和應用_第1頁
6個方面分析知識圖譜的價值和應用_第2頁
6個方面分析知識圖譜的價值和應用_第3頁
6個方面分析知識圖譜的價值和應用_第4頁
6個方面分析知識圖譜的價值和應用_第5頁
免費預覽已結束,剩余13頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、WOR格式6個方面分析知識圖譜的價值和應用知識對于人工智能的價值就在于,讓機器具備認知能力和理解能力。構建知識 圖譜這個過程的本質,就是讓機器形成認知能力,理解這個世界。一、知識圖譜無處 不在說到人工智能技術,人們首先會聯想到深度學習、機器學習技術;談到人工智能 應用,人們很可能會馬上想起語音助理、自動駕駛等等,各行各業都在研發底層技術和尋求AI場景,卻忽視了當下最時髦也很重要的AI技術:知識圖譜。當我們進行搜索時,搜索結果右側的聯想,來自于知識圖譜技術的應用。我們幾乎每天都會接收到各種各樣的推薦信息,從新聞、購物到吃飯、娛樂。 個性化推薦作為一種信息過濾的重要手段,可以依據我們的習慣和愛好推

2、薦合適的服 務,也來自于知識圖譜技術的應用。搜索、地圖、個性化推薦、互聯網、風控、銀行 ?越來越多的應用場景,都越來越依賴知識圖譜。二、知識圖譜與人工智能的關系知 識圖譜用節點和關系所組成的圖譜,為真實世界的各個場景直觀地建模。通過不同知 識的關聯性形成一個網狀的知識結構,對機器來說就是圖譜。形成知識圖譜的過程本 質是在建立認知、理解世界、理解應用的行業或者說領域。每個人都有自己的知識面,或者說知識結構,本質就是不同的知識圖譜。正是因為有獲取和形成知識的能力,人類才可以不斷進步。知識圖譜對于專業資料整理WOR格式人工智能的重要價值在于,知識是人工智能的基石。機器可以模仿人類的視覺、聽覺等感知能

3、力,但這種感知能力不是人類的專屬,動物也具備感知能力,甚至某些感知能力比人類更強,比如:狗的嗅覺。而“認知語言是人區別于其他動物的能力,同時,知識也使人不斷地進步,不斷地凝練、傳承知識,是推動人不斷進步的重要基礎。”知識對于人工智能的價值就在于,讓機器具備認知能力。而構建知識圖譜這個過程的本質,就是讓機器形成認知能力,去理解這個世界。三、圖數據庫知識圖譜的圖存儲在圖數據庫(Graph Database)中,圖數據庫以圖論為理論基礎,圖論中圖的基本元素是節點和邊,在圖數據庫中對應的就是節點和關系。用節點和關系所組成的圖,為真實世界直觀地建模,支持百億量級甚至千億量級規模的巨型圖的高效關系運算和復

4、雜關系分析。目前市面上較為流行的圖數據庫有:Neo4j、Orient DB 、Titan 、Flock DB 、Allegro Graph等。不同于關系型數據庫,一修改便容易“牽一發而動全身”圖數據庫可實現數據間的“互聯互通”,與傳統的關系型數據庫相比,圖數據庫更擅長建立復雜的關系網絡。圖數據庫將原本沒有聯系的數據連通,將四、離散的數據整合在一起,從而提供更有價值的決策支持。知識圖譜的價值知識圖譜用節點和關系所組成的圖譜,為真實世界的各個場景直觀地建模,運用“圖”這種基礎性、通用性的“語言”,“高保真”地表達這個多姿多彩世界的各種專業資料整理WOR格式關系,并且非常直觀、自然、直接和高效,不需

5、要中間過程的轉換和處理這種中間過程的轉換和處理,往往把問題復雜化,或者遺漏掉很多有價值的信息。在風控領 域中,知識圖譜產品為精準揭露“欺詐環”、“窩案”、“中介造假”、“洗錢”和其他復雜的欺詐手法,提供了新的方法和工具。盡管沒有完美的反欺詐措施,但通過超越單個數據點并讓多個節點進行聯系,仍能發現一些隱 藏信息,找到欺詐者的漏洞,通常這些看似正常不過的聯系(關系),常常被我們忽視,但又是最有價值的反欺詐線索和風險突破口。盡管各個風險場景的業務風險不同,其欺詐 方式也不同,但都有一個非常重要的共同點一一欺詐依賴于信息不對稱和間接層,且它們 可以通過知識圖譜的關聯分析被揭示出來,高級欺詐也難以“隱身

6、”。凡是有關系的地方 都可以用到知識圖譜,事實上,知識圖譜已經成功俘獲了大量客戶,且客戶數量和應用領 域還在不斷增長中,包括沃爾瑪、領英、阿迪達斯、惠普、FT金融時報等知名企業和機構。目前知識圖譜產品的客戶行業,分類主要集中在:社交網絡、人力資源與招聘、金融、保險、零售、廣告、物流、通信、IT 、制造業、傳媒、醫療、電子商務和物流等領域。在風控領域中,知識圖譜類產品主要應用于反欺詐、反洗錢、互聯網授信、保險欺詐、銀行欺詐、電商欺詐、項目審計 作假、企業關系分析、罪犯追蹤等場景中。那相比傳統數據存儲和計算方式,知識圖 譜的優勢專業資料整理WOR格式顯現在哪里呢?(1 )關系的表達能力強傳統數據庫

7、通常通過表格、字段等方式進行讀取,而關系的層級及表達方式多種多樣,且基于圖論和概率圖模型,可以處理復雜多樣的關聯分析,滿足企業各種角色關系的分析和管理需要。(2 )像人類思考一樣去做分析基于知識圖譜的交互探索式分析,可以模擬人的思考過程去發現、求證、推理,業務人員自己就可以完成全部過程,不需要專業人員的協助。(3)知識學習利用交互式機器學習技術,支持根據推理、糾錯、標注等交互動作的學習功能,不斷沉淀知識邏輯和模型,提高系統智能性,將知識沉淀在企業內部,降低對經驗的依賴比傳統存儲方式,數據調取(4)高速反饋圖式的數據存儲方式,相速度更快,圖庫可計算超過百萬潛在的實體的屬性分布,可實現秒級返回結果

8、,真正實現人機互動的實時響應,讓用戶可以做到即時決策。五、知識圖譜的主要技術5.1知識建模知識建模,即為知識和數據進行抽象建模,主要包括以下個步驟:以節點為主體目標,實現對不同來源的數據進行映射與合并。(確定節點)利用屬性來表示不同數據源中針 對節點的描述,形成對節點的全方位描述。標簽)利用關系來描述各類抽象建模成節點的數據之間的關(確定節點屬性、聯關系,從而支持關聯分析。(圖設計)通過節點鏈接技術,實現圍繞節點的多種類型數據的關聯存儲。(節點鏈接)使用事件機制描述客觀世界中動態發展,體現事件與節點間的專業資料整理WOR格式關聯,并利用時序描述事件的發展狀況。(動態事件描述)5.2知識獲取從不

9、同來源、不同結構的數據中進行知識提取,形成知識存入到知識圖譜,這一過程我們稱為知識獲取。針對不同種類的數據,我們會利用不同的技術進行提取。從結構化數據庫中獲取知識:D2R。難點:復雜表數據的處理。從鏈接數據中獲取知識:圖映射。難點:數據對齊。從半結構化(網站)數據中獲取知識:使用包裝器。難點:方便的包裝器定義方法,包裝器自動生成、更新與維護。從文本中獲取知識:信息抽取。難點:結果的準確率與覆蓋率。5.3知識融合如果知識圖譜的數據源來自不同數據結構的數據源,在系統已經從不同的數據源把不同結構的數據提取知識之后,接下來要做的是把它們融合成一個統一的知識圖譜,這時候需要用到知識融合的技術(如果知識圖

10、譜的數據結構均為結構化數據,或某種單一模式的數據結構,則無需用到知識融合技術)。知識融合主要分為數據模式層融合和數據層融合,分別用的技術如下:數據模式層融合:概念合并、概念上下位關系合并、概念的屬性定義合并。數據層融合:節點合并、節點屬性融合、沖突檢測與解決(如某一節點的數據來源有:豆瓣短文、數據庫、網頁爬蟲等,需要將不同數據來源的同一節點進行數據層的融合)。由于行業知識圖譜的數據模式通常采用自頂向下(由專家創建)和自底向上(從現有的行業標準轉化,從現有高質量數據源(如百科)專業資料整理WOR格式轉化)結合的方式,在模式層基本都經過人工的校驗,保證了可靠性,因此,知識融合的關鍵任務在數據層的融

11、合。5.4知識存儲圖譜的數據存儲既需要完成基本的數據存儲,同時也要能支持上層的知識推理、知識快速查詢、圖實時計算等應用,因此需要存儲以下信息:三元組(由開始節點、關系、結束節點三個元素組成)知識的存儲、事件信息的存儲、時態信息的存儲、使用知識圖譜組織的數據的存儲。其關鍵技術和難點就在于:大規模三元組數據的存儲;知識圖譜組織的大數據的存儲;事件與時態信息的存儲;快速推理與圖計算的支持。5.5知識計算知識計算主要是在知識圖譜中知識和數據的基礎上,通過各種算法,發現其中顯式的或隱含的知識、模式或規則等,知識計算的范疇非常大,這里主要講三個方面:圖挖掘計算:基于圖論的相關算法,實現對圖譜的探索和挖掘。

12、本體推理:使用本體推理進行新知識發現或沖突檢測。基于規則的推理:使用規則引擎,編寫相應的業務規則,通過推理輔助業務決策。5.6圖挖掘和圖計算知識圖譜之上的圖挖掘和計算主要分以下6類:第一是圖遍歷,知識圖譜構建完之后可以理解為是一張很大的圖,怎么去查詢遍歷這個圖,要根據圖的特點和應用的場景進行遍歷;第二是圖里面經典的算法,如最短路徑;第三是路徑的探尋,即給定兩個實體或多個實體去發現他們之間的關系;第四是權威節點的分析,這在社交網絡分析中用的比較多;專業資料整理WOR格式第五是族群分析;第六是相似節點的發現。5.7可視化技術目前兩個比較常見的可視化工具是:D3.js和ECharts。D3.js :

13、全稱Data-Driven Documents,是一個用動態圖形顯示數據的JavaScript 庫,一個數據可視化工具,它提供了各種簡單易用的函數,大大方便了數據可視化的工作。ECharts :是一款由百度前端技術部開發的,同樣基于Javascript的數據可視化圖標庫。它提供大量常用的數據可視化圖表,底層基于ZRender (個全新的輕量級canvas類庫),創建了坐標系、圖例、提示、工具箱等基礎組件,并在此上構建出折線圖(區域圖)、柱狀圖(條狀圖)散點圖(氣泡圖) 、餅圖(環形圖)、 K線圖、地圖、力導向布局圖以及和弦圖,同時支持任意維度的堆積和多圖表混合展現。六、知識圖譜的應用知識圖譜的

14、應用場景很多,除了問答、搜索和個性化推薦外,在不同行業不同領域也有廣泛應用,以下列舉幾個目前比較常見的應用場景。6.1信用卡申請反欺詐圖譜 6.1.1 欺詐手法銀行信用卡的申請欺詐包括個人欺詐、團伙欺詐、中介包裝、偽冒資料等,是指申請者使用本人身份或他人身份或編造、偽造虛假身份進行申請信用卡、申請貸款、透支欺詐等欺詐行為。欺詐者一般會共用合法聯系人的一部分信息,如電話號碼、聯系地址、聯系人手機號等,并通過它們的不同組合創建多個合成身份。比如:3個人僅通過共用電話和地址兩個信息,可以合成9個假名身份,每個合成身份假設有專業資料整理WOR格式5個賬戶,總共約45個賬戶。假設每個賬戶的信用等級為20

15、000元,那么銀行的損失可能高達900000元。由于擁有共用的信息,欺詐者通過這些信息構成欺詐環。一開始,欺詐環中的賬戶使用正常,欺詐者會進行正常的購買、支付和還款行為,這種行為稱為“養卡”。“養卡” 了一段時間后,信用額度會有所增加,隨著時間推移會增長到一個讓欺詐者相對“滿意”的額度。突然有一天欺詐環“消失”了,環內成員都最大化地使用完信用額度后跑路了。6.1.2 知識圖譜解決信用卡申請反欺詐問題使用傳統的關系數據庫,來揭露欺詐環需要技術人員執行一系列的復雜連接和自連接,而且查詢構建起來非常復雜,查詢效率低、速度慢且成本高。知識圖譜產品利用圖數據庫的天然優勢,直接將銀行欺詐環節可能涉及的所有

16、有用的數據字段:如申請號、賬戶、身份證、手機、地址、家庭電話、聯系人、設備指紋等設計成圖譜的節點,定義好圖譜所需的所有節點和節點屬性后,定義兩兩節點間的關系。女口:申請號節點與設備指紋節點相連構成“申請設備”關系,人節點與地址節點相連構成“申請人地址”關系。根據業務上設計好的圖譜進行建圖,建圖后,用戶可以直接在關聯圖譜平臺上,輸入某個節點值查詢節點的關聯信息,如:輸入某個黑手機號,看其關聯5層范圍內的涉及到的申請人信息,看該節點是否與其他節點關聯成欺詐環,看節點與歷史的黑節點間是否有過關聯等等。用戶可借助知專業資料整理WOR格式識圖譜產品,在貸前防御風險,貸中進行關聯分析找出可疑點,控制風險,

17、貸后進行風險把關,讓損失降到最低。6.2企業知識圖譜目前金融證券領域,應用主要側重于企業知識圖譜。企業數據包括:企業基礎數據、投資關系、任職關系、企業專利數據、企業招投標 數據、企業招聘數據、企業訴訟數據、企業失信數據、企業新聞數據等。利用知識圖譜 融合以上企業數據,可以構建企業知識圖譜,并在企業知識圖譜之上利用圖譜的特性, 針對金融業務場景有一系列的圖譜應用,舉例如下:(1)企業風險評估基于企業的基礎信息、投資關系、訴訟、失信等多維度關聯數據,利用圖計算等方法構建科學、嚴謹的企業風險評估體系,有效規避潛在的經營風險與資金風險。(2 )企業社交圖譜查詢基于投資、任職、專利、招投標、涉訴關系以目

18、標企業為核心向外層層擴散,形成一個網絡關系圖,直觀立體展現企業關聯。(3 )企業最終控制人查詢基于股權投資關系尋找持股比例最大的股東,最終追溯至某自然人或國有資產管理部門。(4)企業之間路徑發現在基于股權、任職、專利、招投標、涉訴等關系形成的網絡關系中,查詢企業之間的最短關系路徑,衡量企業之間的聯系密切度。(5 )初創企業融資發展歷程基于企業知識圖譜中的投融資事件發生的時間順序,記錄企業的融資發展 歷程。(6) 上市企業智能問答用戶可以通過輸入自然語言問題,系統直接給出用戶想要的 答案。6.3交易知識圖譜金融專業資料整理WOR格式交易知識圖譜在企業知識圖譜之上,增加交易客戶數據、客戶之間的關系數據以及交易行為數據等,利用圖挖掘技術,包括很多業務相關的規則,來分析實體與實體之間的關聯關系,最終形成金融領域的交易知識圖譜。在銀行交易反欺詐等多重維度/套現路6.5信貸/方面,可以從從身份證,手機號、設備指紋、IP對持卡人的歷史交易信息進行自動化關聯分析,關聯分析出可疑人員和可疑交易。6.4反洗錢知識圖譜對于反洗錢或電信詐騙場景,知識圖譜可精準追蹤卡卡間的交易路徑,從源頭的賬戶/卡號/商戶等關聯至最后收款方,識別洗錢徑和可疑人員,并通過可疑人員的交易軌跡,層層關聯,分析得到更多可疑人員、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論