




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
任務(wù)書學(xué)院專業(yè)班級學(xué)號姓名指導(dǎo)教師設(shè)計(論文)題目基于自然語言處理的急性氣胸傷情知識圖譜構(gòu)建研究畢業(yè)設(shè)計(論文)主要內(nèi)容和要求:面對信息時代爆炸式增長的海量數(shù)據(jù),人們對迅速獲取和全面掌握信息資源提出了新的需求,知識圖譜技術(shù)應(yīng)運(yùn)而生。一方面,知識圖譜從語義角度出發(fā),通過知識挖掘和智能決策將知識更加有序、有機(jī)地組織起來,實現(xiàn)了知識的智能獲取和管理,對于互聯(lián)網(wǎng)搜索、智能推薦、智能問答等具有重要作用。另一方面,知識圖譜通過考慮特定領(lǐng)域的目標(biāo)對象和應(yīng)用場景,可以應(yīng)用于面向特定領(lǐng)域的分析應(yīng)用和決策支持。當(dāng)前,知識圖譜在醫(yī)療領(lǐng)域的應(yīng)用被廣泛關(guān)注。傳統(tǒng)的診斷方法是通過醫(yī)療儀器對病人進(jìn)行初步檢查,再由醫(yī)生根據(jù)檢查結(jié)果和病情的描述信息進(jìn)行綜合分析和判斷,得出診斷結(jié)果,這種診斷方式存在一個問題,即診斷結(jié)果的正確性與醫(yī)生的水平息息相關(guān)。尤其是對于一些急性病來說,由于發(fā)病速度快、醫(yī)療設(shè)備不充足、場景復(fù)雜等原因,傳統(tǒng)的醫(yī)療診斷很難發(fā)揮效用。將知識圖譜應(yīng)用于醫(yī)療領(lǐng)域,即利用現(xiàn)代信息技術(shù)收集并分析大量數(shù)據(jù)和信息,通過自然語言處理技術(shù)、統(tǒng)計學(xué)習(xí)等方法,整合醫(yī)學(xué)知識,迅速找準(zhǔn)病例的數(shù)據(jù),以一種更加方便和簡明的形式提供給廣大醫(yī)護(hù)人員和用戶,給他們提供一定參考價值,可以提高診斷準(zhǔn)確率,并為用戶自我診斷提供參考。本文選用急性氣胸這一傷情作為研究對象。急性氣胸是我國臨床醫(yī)學(xué)上的一種常見急重癥,在嚴(yán)重的時候會導(dǎo)致患者死亡,有關(guān)氣胸的醫(yī)療急救服務(wù)也尤為重要。但是由于患者急性胸痛的發(fā)病速度比較快,而且病情多變,容易出現(xiàn)診斷不及時或者是診斷失誤等情況。從理論上看,本文在相關(guān)醫(yī)生提供專業(yè)指導(dǎo)的前提下,通過自然語言處理等技術(shù)對專業(yè)醫(yī)學(xué)書籍及專業(yè)醫(yī)學(xué)網(wǎng)站的知識進(jìn)行抽取,從而構(gòu)建氣胸的知識圖譜,實現(xiàn)了知識抽取與知識圖譜技術(shù)的結(jié)合。本文通過挖掘相關(guān)數(shù)據(jù),著重構(gòu)建相關(guān)的知識圖譜,本文的主要研究內(nèi)容如下:(1)在數(shù)據(jù)的獲取階段,首先著手從《內(nèi)科學(xué)第九版》《黃家駟外科學(xué)》《急診手冊第四版》幾本醫(yī)學(xué)專業(yè)書籍中獲取相關(guān)的氣胸知識,與此同時,采用爬蟲技術(shù)從尋醫(yī)問藥專業(yè)醫(yī)學(xué)網(wǎng)站進(jìn)行相關(guān)知識的獲取工作。多數(shù)據(jù)來源保證了氣胸知識的完整性,有利于知識圖譜的構(gòu)建。(2)在知識抽取階段,采用自然語言處理的方法對實體及實體關(guān)系進(jìn)行抽取,主要分為實體識別、關(guān)系抽取以及知識融合幾個方面。在實體識別過程中,需要完成分詞、詞性標(biāo)注以及實體識別工作。在關(guān)系抽取階段,需要完成實體間關(guān)系的抽取工作。在知識融合階段,需要對不同來源下的氣胸醫(yī)學(xué)實體類型、屬性等進(jìn)行實體對齊、屬性對齊、沖突消解,對知識抽取的謂詞進(jìn)行規(guī)范統(tǒng)一。(3)在構(gòu)建圖譜的階段,將知識抽取獲得的實體及實體關(guān)系根據(jù)圖數(shù)據(jù)庫的屬性圖模式規(guī)定的形式對數(shù)據(jù)進(jìn)行整理,選用neo4j作為圖數(shù)據(jù)庫進(jìn)行知識圖譜的構(gòu)建,進(jìn)行氣胸知識圖譜的可視化,建立氣胸的應(yīng)急醫(yī)療知識圖譜。畢業(yè)設(shè)計(論文)主要參考資料:[1] 汪慶生.急性胸痛患者在急診科風(fēng)險評估與診療中的臨床分析[J].臨床醫(yī)藥文獻(xiàn)電子雜志,2020,7(23):32.[2] 王藝,任淑霞.醫(yī)療大數(shù)據(jù)可視化研究綜述[J].計算機(jī)科學(xué)與探索,2017,11(5):681-699.[3] 舒影嵐,陳艷萍,吉臻宇,等.健康醫(yī)療大數(shù)據(jù)研究進(jìn)展[J].中國醫(yī)學(xué)裝備,2019,16(1):143-147.DOI:10.3969/J.ISSN.1672-8270.2019.01.039.[4] SinghalA.Introducingtheknowledgegraph:things,notstrings./research-papers/official-google-blog-introducingknowledge-graph-things-not-strings/,2012-01-08[5] 李濤,王次臣,李華康.知識圖譜的發(fā)展與構(gòu)建[J].南京理工大學(xué)學(xué)報,2017,41(01):22-34.[6] 常亮,張偉濤,古天龍,孫文平,賓辰忠.知識圖譜的推薦系統(tǒng)綜述[J].智能系統(tǒng)學(xué)報,2019,14(02):207-216[7] 王劍輝,朱曉波,夏正洪,何乃帥.基于知識圖譜的國內(nèi)空中交通管理研究可視化分析[J].交通信息與安全,2019,37(06):11-19.[8] ChenS,WenJ,ZhangR.GRU-RNNBasedQuestionAnsweringOverKnowledgeBase[M].KnowledgeGraphandSemanticComputing:Semantic,Knowledge,andLinkedBigData.SpringerSingapore,2016:80-91.[9] LiH,ChenQ,TangB,etal.AnInitialIngredientAnalysisofDrugsApprovedbyChinaFoodandDrugAdministration[J].2016.[10] AbdelazizI,FokoueA,Hassanzadeh0,etal.Large-scalestructuralandtextualsimilarity-basedminingofknowledgegraphtopredictdrug-drugin-teractions[J].WebSemanticsScienceServicesamp;AgentsontheWorldWideWeb,2017.[11] PaulheimH.Knowledgegraphrefinement:Asurveyofapproachesandevaluationmethods[J].Semanticweb,2017,8(3):489-508.[12] YuT,LiJ,YuQ,etal.KnowledgegraphforTCMhealthpreservation:Design,construction,andapplications[J].ArtificialIntelligenceinMedicine,2017,77(Mar.):48-52.[13] 袁凱琦,鄧揚(yáng),陳道源,張冰,雷凱,沈穎.醫(yī)學(xué)知識圖譜構(gòu)建技術(shù)與研究進(jìn)展[J/0L].計算機(jī)應(yīng)用研究,2018(07):1-11.(2017-08-18)[14] 何霆,吳雅婷,王華珍,熊英杰,孫偲,徐漢川.基于EHR的醫(yī)療知識圖譜研究與應(yīng)用綜述[J].哈爾濱工業(yè)大學(xué)學(xué)報,2018,50(11):137-144.畢業(yè)設(shè)計(論文)應(yīng)完成的主要工作:由于致命性氣胸知識圖譜特殊的專業(yè)性,在本文中將知識圖譜構(gòu)建方法與人工結(jié)合起來。通過爬取互聯(lián)網(wǎng)醫(yī)學(xué)專業(yè)網(wǎng)站數(shù)據(jù),并結(jié)合專業(yè)醫(yī)師的意見,設(shè)計醫(yī)學(xué)知識表示方法,抽取實體和關(guān)系,知識融合,知識推理,獲得準(zhǔn)確且專業(yè)的氣胸知識圖譜。本論文主要完成的目標(biāo)如下:知識抽取,首先從互聯(lián)網(wǎng)專業(yè)醫(yī)學(xué)網(wǎng)站爬取醫(yī)學(xué)數(shù)據(jù),采用自然語言處理的方法進(jìn)行實體及關(guān)系的抽取;知識融合,通過人工定義的實體及關(guān)系規(guī)則,并基于知識圖譜的集成實體對齊方法實現(xiàn)知識融合;圖譜構(gòu)建,并采用屬性圖的表示方法將醫(yī)學(xué)知識圖譜存儲于Neo4J圖數(shù)據(jù)庫中,形成完整的醫(yī)學(xué)知識圖譜。畢業(yè)設(shè)計(論文)進(jìn)度安排:序號畢業(yè)設(shè)計(論文)各階段內(nèi)容時間安排備注1論文選題2020.12.1-2020.12.30文獻(xiàn)閱讀與可行性分析2數(shù)據(jù)采集與知識抽取2021.1.1-2021.1.31算法學(xué)習(xí)及模型構(gòu)建3知識圖譜構(gòu)建2021.2.1-2021.2.30知識抽取及結(jié)構(gòu)確定4論文撰寫模型評價2021.3.1-2021.3.31論文撰寫及方案完善5論文結(jié)題2021.4.1-2021.5.31結(jié)果分析與結(jié)題準(zhǔn)備課題信息:課題性質(zhì):設(shè)計論文課題來源:教學(xué)科研生產(chǎn)其它發(fā)出任務(wù)書日期:指導(dǎo)教師簽名:年月日教研室意見:教研室主任簽名:年月日學(xué)生簽名:摘要隨著大數(shù)據(jù)時代的發(fā)展,知識工程在行業(yè)中開始發(fā)揮越來越重要的作用,如何從海量的數(shù)據(jù)中提取有用的知識,是知識分析的關(guān)鍵。知識圖譜技術(shù)提供了一種從海量文本中抽取結(jié)構(gòu)化知識的手段,具有廣闊的應(yīng)用前景。醫(yī)療知識圖譜作為人工智能在醫(yī)療領(lǐng)域的前沿應(yīng)用技術(shù),為做出具有高度準(zhǔn)確性的診斷決策發(fā)揮了重要作用。本文應(yīng)用自然語言處理相關(guān)技術(shù),選用氣胸為研究對象進(jìn)行了知識抽取及圖譜構(gòu)建。在知識抽取方面,根據(jù)專業(yè)醫(yī)生建議從相關(guān)醫(yī)學(xué)書籍及醫(yī)療網(wǎng)站獲取氣胸數(shù)據(jù),采用自然語言處理的方法,并通過構(gòu)建知識詞典以及引入依存句法和語義角色標(biāo)注模型進(jìn)行實體及關(guān)系的抽取。此外,從圖數(shù)據(jù)庫存儲的需求出發(fā),定義了一套實體類型及實體關(guān)系規(guī)則,對抽取的醫(yī)療實體及關(guān)系進(jìn)行了實體對齊、屬性消解等知識融合工作。在圖譜構(gòu)建階段,采用屬性圖模式并結(jié)合相關(guān)數(shù)據(jù)庫語言將知識圖譜存儲到Neo4j圖數(shù)據(jù)庫中,實現(xiàn)了氣胸知識圖譜的構(gòu)建及可視化。該氣胸知識圖譜的成功構(gòu)建可進(jìn)一步應(yīng)用于氣胸智能問答輔助系統(tǒng),對氣胸患者的診斷、治療、預(yù)防等有著重要的作用。關(guān)鍵詞:知識圖譜;自然語言處理;命名實體識別;關(guān)系抽取目錄1緒論 緒論1.1研究背景及意義1.1.1研究背景從人類誕生的那一刻起,就開始不斷產(chǎn)生知識,礙于信息技術(shù)的落后以及對于知識本身的理解不夠深刻,直到1998年萬維網(wǎng)之父Berners-Lee提出了語義網(wǎng)的概念,人們才對從自身文明中產(chǎn)生的知識有了進(jìn)一步的認(rèn)識與思考,并在不斷進(jìn)步的互聯(lián)網(wǎng)技術(shù)以及信息存儲技術(shù)發(fā)展下,才開始試著將文明發(fā)展過程中的經(jīng)驗與過程化為知識這一形式,存儲到已有電子設(shè)備中。而在將經(jīng)驗轉(zhuǎn)化成知識,再將知識存儲進(jìn)電子設(shè)備這一過程中形成了一個概念標(biāo)準(zhǔn)化的過程,這種標(biāo)準(zhǔn)化的過程形成了知識圖譜的前身,也是將知識信息化的重要一步。知識圖譜作為從語義網(wǎng)不斷發(fā)展而來的一項技術(shù),近些年來已經(jīng)在各個領(lǐng)域展現(xiàn)它獨(dú)特的作用,包括電子商務(wù)、醫(yī)療救援甚至是軍事戰(zhàn)略等領(lǐng)域。尤其是從2012年Google提出了知識圖譜[1]這一概念后,將知識圖譜與搜索引擎進(jìn)行系統(tǒng)綁定后,知識圖譜這一概念就走進(jìn)了人們的視野,并在此之后得到長足的發(fā)展。知識圖譜在一開始僅僅作為存儲知識、建立知識與知識之間的聯(lián)系以及對相關(guān)領(lǐng)域內(nèi)的知識進(jìn)行可視化而出現(xiàn)在人們的視野中。但是隨著算法以及信息獲取能力的提升,直到今日,知識圖譜的功能已不再僅僅是提供可視化這么單一了,形如數(shù)據(jù)挖掘技術(shù)(DataMining)、自然語言處理(NLP)、機(jī)器學(xué)習(xí)技術(shù)(ML)以及信息分析技術(shù)等甚至能從圖譜中挖掘出之前沒有的信息,亦或是根據(jù)現(xiàn)有的知識單元推理出之前未被發(fā)現(xiàn)的新知識,不僅僅為知識存儲這一領(lǐng)域提供了有力的科學(xué)化方法,更是為各個科研領(lǐng)域提供了一個研究進(jìn)程、發(fā)展動態(tài)甚至是新知識推理的切實方法。而醫(yī)療知識圖譜作為知識圖譜在醫(yī)療領(lǐng)域的前沿應(yīng)用技術(shù),意在解決醫(yī)療領(lǐng)域中存在的諸多問題。醫(yī)學(xué)知識圖譜技術(shù)總共可以歸納為五部分,分別為對于醫(yī)學(xué)知識的可視化展示、醫(yī)療知識的抽取、醫(yī)療知識的消歧與融合、醫(yī)療知識的推理以及知識質(zhì)量評估。通過從大量的結(jié)構(gòu)化或非結(jié)構(gòu)化的醫(yī)學(xué)數(shù)據(jù)中提取出醫(yī)學(xué)相關(guān)數(shù)據(jù),并根據(jù)圖數(shù)據(jù)庫建立的需求,將數(shù)據(jù)對應(yīng)實體、關(guān)系、屬性等知識圖譜的組成元素整理數(shù)據(jù),確定三元組,選擇合理高效的方式存入知識庫。然而目前市面上存在的具有醫(yī)學(xué)背景的知識庫,比如SNOMEDCT、早期的MYCIN系統(tǒng)、大腸桿菌數(shù)據(jù)庫EcoCyc等,由于之前的技術(shù)原因,缺乏可操作性,已經(jīng)不能滿足現(xiàn)在醫(yī)療領(lǐng)域基于知識庫的諸多上層研究。1.1.2研究意義面對信息時代爆炸式增長的海量數(shù)據(jù),人們對迅速獲取和全面掌握信息資源提出了新的需求,知識圖譜技術(shù)應(yīng)運(yùn)而生。一方面,知識圖譜從語義角度出發(fā),通過知識挖掘和智能決策將知識更加有序、有機(jī)地組織起來,實現(xiàn)了知識的智能獲取和管理,對于互聯(lián)網(wǎng)搜索、智能推薦、智能問答等具有重要作用。另一方面,知識圖譜通過考慮特定領(lǐng)域的目標(biāo)對象和應(yīng)用場景,可以應(yīng)用于面向特定領(lǐng)域的分析應(yīng)用和決策支持。當(dāng)前,知識圖譜在醫(yī)療領(lǐng)域的應(yīng)用被廣泛關(guān)注。傳統(tǒng)的診斷方法是通過醫(yī)療儀器對病人進(jìn)行初步檢查,再由醫(yī)生根據(jù)檢查結(jié)果和病情的描述信息進(jìn)行綜合分析和判斷,得出診斷結(jié)果,這種診斷方式存在一個問題,即診斷結(jié)果的正確性與醫(yī)生的水平息息相關(guān)。尤其是對于一些急性病來說,由于發(fā)病速度快、醫(yī)療設(shè)備不充足、場景復(fù)雜等原因,傳統(tǒng)的醫(yī)療診斷很難發(fā)揮效用。將知識圖譜應(yīng)用于醫(yī)療領(lǐng)域,即利用現(xiàn)代信息技術(shù)收集并分析大量數(shù)據(jù)和信息,通過自然語言處理技術(shù)、統(tǒng)計學(xué)習(xí)等方法,整合醫(yī)學(xué)知識,迅速找準(zhǔn)病例的數(shù)據(jù),以一種更加方便和簡明的形式提供給廣大醫(yī)護(hù)人員和用戶,給他們提供一定參考價值,可以提高診斷準(zhǔn)確率,并為用戶自我診斷提供參考。本文選用急性氣胸這一傷情作為研究對象。急性氣胸是我國臨床醫(yī)學(xué)上的一種常見急重癥,在嚴(yán)重的時候會導(dǎo)致患者死亡,有關(guān)氣胸的醫(yī)療急救服務(wù)也尤為重要。但是由于患者急性胸痛的發(fā)病速度比較快,而且病情多變,容易出現(xiàn)診斷不及時或者是診斷失誤等情況。從理論上看,本文在相關(guān)醫(yī)生提供專業(yè)指導(dǎo)的前提下,通過自然語言處理等技術(shù)對專業(yè)醫(yī)學(xué)書籍及專業(yè)醫(yī)學(xué)網(wǎng)站的知識進(jìn)行抽取,從而構(gòu)建氣胸的知識圖譜,實現(xiàn)了知識抽取與知識圖譜技術(shù)的結(jié)合。從實踐上看,本文作為2022冬奧應(yīng)急醫(yī)療診斷系統(tǒng)項目的子課題,將冬奧會中可能出現(xiàn)的急性氣胸這一傷情作為目標(biāo)情景,擬整合互聯(lián)網(wǎng)中專業(yè)醫(yī)學(xué)知識形成致命性氣胸知識圖譜,并基于知識圖譜提供疾病診斷服務(wù),從而有針對性的對患者進(jìn)行救治,為冬奧會應(yīng)急醫(yī)學(xué)保障提供輔助決策支持。1.2國內(nèi)外研究現(xiàn)狀1.2.1知識抽取現(xiàn)狀知識抽取是知識圖譜構(gòu)建的關(guān)鍵技術(shù),主要是通過結(jié)構(gòu)或者非結(jié)構(gòu)化的數(shù)據(jù),將語段中包含實體與關(guān)系的信息挑選出來,以實體-關(guān)系-實體的形式構(gòu)成一個三元組形式。知識抽取主要分為命名實體識別、關(guān)系抽取、知識融合等內(nèi)容,目前知識抽取主要分為了基于本體的知識抽取以及基于自然語言處理等技術(shù)的知識抽取兩個研究方面。在基于本體的知識抽取方面,鄭夢悅[2]等人結(jié)合知識元本體理論,構(gòu)建了一個面向科技文獻(xiàn)非結(jié)構(gòu)化摘要的知識元本體模型,實現(xiàn)了對文獻(xiàn)摘要中相關(guān)內(nèi)容的自動抽取。張志申[3]等提出了基于領(lǐng)域本體獲取特定領(lǐng)域知識的概念,并結(jié)合IDLSSD算法實現(xiàn)了對DBpedia領(lǐng)域的知識自動抽取。RaxitGoswami[4]等人利用基于規(guī)則的方法、統(tǒng)計方法、最短路徑算法及其混合算法,應(yīng)用并比較不同方法豐富了基于本體論的知識庫。JunYixu[5]等人在meta-learning的啟發(fā)下,整合了分布式知識,提取出與所有Agent一致的元知識。基于本體的知識抽取一般能達(dá)到較高的準(zhǔn)確率,但由于其主要面向?qū)S蓄I(lǐng)域進(jìn)行知識抽取,在本體庫的構(gòu)建過程中需要消耗大量的精力,且不能適應(yīng)其他領(lǐng)域的抽取,因此具有一定的局限性。隨著人工智能的發(fā)展,運(yùn)用機(jī)器學(xué)習(xí)、自然語言處理等技術(shù)進(jìn)行知識抽取受到了越來越多學(xué)者的關(guān)注。如李濤等[6]提出了一種融合對抗主動學(xué)習(xí)的端到端網(wǎng)絡(luò)安全知識三元組抽取方法,并通過融合動態(tài)注意力機(jī)制的Bi20LSTM-LSTM模型實現(xiàn)了實體與關(guān)系的聯(lián)合抽取。GuerganaK.Savova等人[7]通過自然語言處理的方法從臨床文本中對癌癥的臨床表現(xiàn)進(jìn)行了抽取,MarcosMartínez-RomeroRoberto等[8]使用網(wǎng)絡(luò)刮擦和自然語言處理技術(shù)的組合,從MedlinePlus有關(guān)傳染病的文章中提取診斷標(biāo)準(zhǔn)。有些學(xué)者提出了基于遠(yuǎn)程監(jiān)督的抽取方式,如余小康等提出結(jié)合從句級遠(yuǎn)程監(jiān)督和半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法,解決了標(biāo)注數(shù)據(jù)不足的問題[9]。此外,基于神經(jīng)網(wǎng)絡(luò)[10]的知識抽取可以有效提高抽取的效率,如丁禹等人提出了基于注意力的雙向長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場的深度學(xué)習(xí)模型,實現(xiàn)了非結(jié)構(gòu)化電網(wǎng)調(diào)控文本知識的自動抽取[11]。江川等[12]利用條件隨機(jī)場和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合的方式,實現(xiàn)了基于BERT的突發(fā)公共衛(wèi)生事件實體的自動抽取模型。鄭光敏等[13]基于BERT-BiLSTM-CRF提出一種先抽取關(guān)系和后抽取實體自動抽取知識模型,最后通過實驗,該模型可高效抽取《中國民族藥辭典》中的實體和關(guān)系。LejlaBegicFazlic等人[14]通過NLP-FUZZY使用雙向長短期記憶(LSTM)執(zhí)行醫(yī)學(xué)指南的語義提取。PeilinLi[15]等建立了用于NER和MRE任務(wù)的雙向長短期記憶組合條件隨機(jī)場(BiLSTM-CRF)模型的兩個應(yīng)用場景,并得出了該模型收斂速度更快,并且避免了諸如過度擬合之類的問題的結(jié)論。機(jī)器學(xué)習(xí)和自然語言處理方法在抽取階段較為節(jié)省人力,但是在審查三元組的正確過程中較為費(fèi)時費(fèi)力,同時還要根據(jù)模型抽取的精度以及效率等問題,不斷對模型進(jìn)行再調(diào)整。1.2.2知識圖譜現(xiàn)狀知識圖譜在我國起步較晚,但近年來國內(nèi)相關(guān)的研究也在不斷擴(kuò)寬。如李濤等人[16]通過總結(jié)專家學(xué)者、科研機(jī)構(gòu)或企業(yè)對知識圖譜的研究內(nèi)容,對知識圖譜的發(fā)展趨勢和構(gòu)建方式作了全方位的詳細(xì)介紹。黃恒琪等人[17]從本體構(gòu)建角度出發(fā),對知識圖譜構(gòu)建基礎(chǔ)進(jìn)行研究,并指出了知識圖譜未來的發(fā)展方向。劉嶠等人[18]從知識圖譜的定義和技術(shù)架構(gòu)出發(fā),對各個階段設(shè)計到的關(guān)鍵技術(shù)進(jìn)行了分析,并總結(jié)了當(dāng)前知識圖譜構(gòu)建面臨的問題和挑戰(zhàn)。漆桂林等人[19]通過對現(xiàn)有開放知識數(shù)據(jù)集的分析,探討了知識圖譜的實際應(yīng)用及演技意義。知識圖譜在國外的研究相對較早,Paulheim[20]對知識圖譜的構(gòu)建方法以及評估方法進(jìn)行研究。Suchanek[21]等人提出的基于概率的知識融合算法PAIRS,以兩個知識庫作為輸入,能夠高效地跨本體同時對齊類別、實例、屬性和關(guān)系以進(jìn)行圖譜的構(gòu)建。Chen等人[22]從圖譜應(yīng)用的角度出發(fā),通過訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)提高圖譜構(gòu)建的準(zhǔn)確性;Drumond等人[23]通過應(yīng)用兩兩交互的張量分解模型,對知識圖譜中相關(guān)知識存在的潛在關(guān)系進(jìn)行了研究。Mavin[24]在現(xiàn)有的知識圖譜的基礎(chǔ)上,通過分布式框架進(jìn)行三元組的推理工作以得到新的實體關(guān)系,豐富了知識圖譜類型。近年來,有關(guān)知識圖譜的應(yīng)用場景及領(lǐng)域也在不斷擴(kuò)寬。邢萌[25]等人通過構(gòu)建面向軍事領(lǐng)域的知識圖譜,為智能化作戰(zhàn)場景中的特殊需求提供了技術(shù)支持。劉津[26]等人將知識圖譜技術(shù)應(yīng)用于電力領(lǐng)域,證明了知識圖譜對于電力系統(tǒng)中智能連接、人機(jī)交互等環(huán)節(jié)有著重要作用。陸泉等人[27]以臨床醫(yī)學(xué)專業(yè)主干課程為研究對象,基于醫(yī)學(xué)主題詞表、電子教材、電子教案等醫(yī)學(xué)教育數(shù)據(jù),通過LDA模型挖掘課程中的知識主題,利用關(guān)聯(lián)分析揭示課程間、知識主題間及課程與知識主題間的細(xì)粒度關(guān)聯(lián),從而構(gòu)建臨床醫(yī)學(xué)課程知識主題圖譜。呂華揆[28]等人以中國金融數(shù)據(jù)為基礎(chǔ),從股權(quán)結(jié)構(gòu)出發(fā)進(jìn)行金融知識圖譜的構(gòu)建,實現(xiàn)了金融機(jī)構(gòu)持股比例和關(guān)系的可視化,為金融工作提供了新的方向。曹明宇[29]等人對成人中常見的原發(fā)性肝癌,從醫(yī)學(xué)指南及SemMedDB知識庫中抽取其知識三元組,構(gòu)建了原發(fā)性肝癌的知識圖譜。Abdelaziz等人[30]在大型的基于相似度的框架上構(gòu)建知識圖譜并挖掘預(yù)測藥物相互作用;Weng等人[31]提出一種基于語義分析的醫(yī)學(xué)知識圖自動構(gòu)建框架并運(yùn)用高血壓語料構(gòu)建知識圖譜。此外,知識圖譜還被廣泛應(yīng)用于機(jī)器翻譯[32]、智能問答系統(tǒng)[33]以及自然語言理解[34]等方面。1.3研究內(nèi)容與方法本文的研究內(nèi)容與方法如下:在數(shù)據(jù)來源方面,根據(jù)相關(guān)醫(yī)生提供的應(yīng)急醫(yī)療手冊,選用了氣胸這一有應(yīng)急醫(yī)療需求的病情作為本文的研究對象,同時從應(yīng)急醫(yī)療的需求出發(fā),在醫(yī)生的指導(dǎo)以及建議下,對知識抽取的實體大類進(jìn)行界定,明確圍繞氣胸的屬性、就診、流行病學(xué)、病理生理、臨床表現(xiàn)、診斷依據(jù)、治療措施、預(yù)防等方面進(jìn)行數(shù)據(jù)的采集工作。在數(shù)據(jù)的獲取階段,首先著手從《內(nèi)科學(xué)第九版》《黃家駟外科學(xué)》《急診手冊第四版》幾本醫(yī)學(xué)專業(yè)書籍中獲取相關(guān)的氣胸知識,與此同時,采用爬蟲技術(shù)從尋醫(yī)問藥專業(yè)醫(yī)學(xué)網(wǎng)站進(jìn)行相關(guān)知識的獲取工作。多數(shù)據(jù)來源保證了氣胸知識的完整性,有利于知識圖譜的構(gòu)建。在知識抽取階段,采用自然語言處理的方法對實體及實體關(guān)系進(jìn)行抽取,主要分為實體識別、關(guān)系抽取以及知識融合幾個方面。在實體識別過程中,通過清華大學(xué)自然語言處理的社會人文計算實驗室推出的THUOCL醫(yī)學(xué)詞典以及LTP平臺訓(xùn)練的MEMM統(tǒng)計和規(guī)則模型完成了分詞、詞性標(biāo)注以及實體識別工作。在關(guān)系抽取階段,通過引入哈工大的語言技術(shù)平臺LTP的自然語言處理模塊,并結(jié)合python語言完成了構(gòu)建依存句法樹、剪枝、語義角色標(biāo)注等工作,實現(xiàn)了對謂詞及論元的標(biāo)注以及抽取工作。在知識融合階段,主要采用了與專家結(jié)合的方法,對不同來源下的氣胸醫(yī)學(xué)實體類型、屬性等進(jìn)行實體對齊、屬性對齊、沖突消解,對知識抽取的謂詞進(jìn)行規(guī)范統(tǒng)一。在構(gòu)建圖譜的階段,將知識抽取獲得的實體及實體關(guān)系交付醫(yī)生進(jìn)行數(shù)據(jù)的確認(rèn),醫(yī)學(xué)知識確認(rèn)無誤后,選用neo4j作為圖數(shù)據(jù)庫進(jìn)行知識圖譜的構(gòu)建,根據(jù)圖數(shù)據(jù)庫的屬性圖模式規(guī)定的形式對數(shù)據(jù)進(jìn)行整理,運(yùn)用py2neo模塊包將實體及關(guān)系進(jìn)行導(dǎo)入處理,通過查詢語言Cypher查看圖譜的實體節(jié)點(diǎn)和實體,并通過搭載服務(wù)器的ip地址連接目標(biāo)Neo4j數(shù)據(jù)庫,進(jìn)行氣胸知識圖譜的可視化,建立氣胸的應(yīng)急醫(yī)療知識圖譜。1.4技術(shù)路線本文的技術(shù)路線如圖1所示。其中包含三個大的階段,分別為數(shù)據(jù)獲取階段,知識抽取階段,氣胸醫(yī)療圖譜建立階段。圖1技術(shù)路線2相關(guān)理論及技術(shù)基礎(chǔ)2.1知識圖譜知識圖譜是一種結(jié)構(gòu)化的語義知識庫,基于圖的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲,用于描述物理世界中的基本概念及其相互關(guān)系。知識圖譜由“實體-關(guān)系-實體”或“實體-屬性-值”的三元組組成,實體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的語義網(wǎng)絡(luò)[35],表示為,其中,是知識庫中的實體集合,共包含種不同實體,是知識庫中的關(guān)系集合,共包含種不同關(guān)系,屬于代表知識庫中的三元組集合。知識圖譜的構(gòu)建過程是從原始數(shù)據(jù)出發(fā),采用一系列自動或半自動的技術(shù)手段,從原始數(shù)據(jù)中提取出知識要素,并將其存入知識庫的過程。知識圖譜通過對錯綜復(fù)雜的文檔的數(shù)據(jù)進(jìn)行有效的加工、處理、整合,轉(zhuǎn)化為簡單、清晰的“實體-關(guān)系-實體”的三元組,最后聚合大量知識,從而實現(xiàn)知識的快速響應(yīng)和推理。醫(yī)療知識圖譜的構(gòu)建流程一般包括,醫(yī)學(xué)實體識別、醫(yī)學(xué)關(guān)系抽取、知識圖譜存儲以及可視化等步驟。2.2命名實體識別命名實體識別是指從語料中識別任務(wù)需要的人名、地名、組織機(jī)構(gòu)等命名實體,目前命名實體識別主要有三種方法。第一,基于規(guī)則和詞典的方法。這種方法主要由專業(yè)領(lǐng)域的專家人工定義規(guī)則,選用包括關(guān)鍵詞、指示詞、統(tǒng)計信息等的特征,基于模式和字符串相匹配的方法,配合使用現(xiàn)有或?qū)<腋鶕?jù)語料構(gòu)建的詞典進(jìn)行實體的識別。基于規(guī)則和詞典的方法是命名實體識別中最早使用的方法。通常情況下,當(dāng)文本的規(guī)則性較強(qiáng),且編制的規(guī)則能較為準(zhǔn)確地反映語料現(xiàn)狀時,該方法是一種簡單且有效的實體識別手段。但是,由于目前沒有一個詞典能夠涵蓋所有的領(lǐng)域,可能會造成識別效率過低的問題。第二,基于傳統(tǒng)機(jī)器學(xué)習(xí)方法。在基于機(jī)器學(xué)習(xí)的方法中,命名實體識別被當(dāng)作是序列標(biāo)注問題,其原理是應(yīng)用統(tǒng)計學(xué)并結(jié)合醫(yī)療文本的特點(diǎn)進(jìn)行實體識別。基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法主要包括隱馬爾可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量機(jī)(SupportVectorMachine,SVM)、條件隨機(jī)場(ConditionalRandomFields,CRF)等。在這四種學(xué)習(xí)方法中,最大熵模型結(jié)構(gòu)緊湊,當(dāng)標(biāo)注的數(shù)據(jù)越多時效果越好,具有較好的通用性。但是由于數(shù)據(jù)的標(biāo)注需要耗費(fèi)大量有相關(guān)專業(yè)知識人員的時間和精力,采用這種方法會導(dǎo)致訓(xùn)練時間過長且成本較高。第三,基于深度學(xué)習(xí)方法。近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,越來越多的學(xué)者嘗試將深度學(xué)習(xí)的方法應(yīng)用到命名實體的識別中,該技術(shù)對專業(yè)領(lǐng)域知識和特征工程的依賴程度較小。一方面,基于深度學(xué)習(xí)的方法可以降低人工標(biāo)注的成本,另一方面,對命名實體識別的準(zhǔn)確率也有較大程度的提升。醫(yī)療領(lǐng)域的命名實體識別大多是指從相關(guān)醫(yī)療數(shù)據(jù)中提取出特定類型的命名實體,例如疾病名稱、疾病癥狀、臨床表現(xiàn)等醫(yī)學(xué)實體,通用領(lǐng)域的命名實體識別方法同樣適用于醫(yī)療領(lǐng)域。如Friedman等人[36]通過自定義的語法規(guī)則對電子病歷中的醫(yī)學(xué)實體進(jìn)行識別,龍光宇[37]將醫(yī)學(xué)詞典與CRF相結(jié)合,提出了一種新的醫(yī)學(xué)實體識別模型,潘璀然等[38]基于句子級Lattice-長短記憶神經(jīng)網(wǎng)絡(luò)對中文電子病歷中的命名實體進(jìn)行識別。2.3關(guān)系抽取知識圖譜的構(gòu)建離不開大量的三元組,而三元組的獲取除了對命名實體進(jìn)行識別以外,另一個子任務(wù)就是進(jìn)行實體關(guān)系的抽取。關(guān)系抽取是知識圖譜構(gòu)建中重要的一步,其目的在于從文本中抽取兩個或多個實體之間的關(guān)聯(lián)關(guān)系。目前實體關(guān)系抽取的方法主要分為三類,其一是基于觸發(fā)詞、字符串或者基于依存句法的模板方法(hand-writtenpatterns),其二是基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的監(jiān)督學(xué)習(xí)方法(supervisedmachinelearning),其三基于半監(jiān)督或無監(jiān)督學(xué)習(xí)(semi-supervisedandunsupervised)的方法,主要有Bootstrapping、Distantsupervision、Unsupervisedlearningfromtheweb等算法。醫(yī)學(xué)的關(guān)系抽取主要分為兩類,一是同類型的醫(yī)學(xué)實體關(guān)系抽取,如疾病的“氣胸”與“血?dú)庑亍笔且环N基于上下本體的關(guān)系,二是不同類型醫(yī)學(xué)實體關(guān)系抽取,如“氣胸”與“胸悶”是一種疾病與癥狀的關(guān)系。對于同類型的醫(yī)學(xué)實體關(guān)系部分,醫(yī)療領(lǐng)域?qū)@部分關(guān)系有專業(yè)的劃分,通常可以在由醫(yī)療專家編制的ICD-10、SNOMEDCT等權(quán)威的醫(yī)學(xué)知識庫中獲取,對于自動抽取而言技術(shù)難度較低,通常不是關(guān)系抽取研究的重點(diǎn)內(nèi)容。對于不同類型的醫(yī)學(xué)實體關(guān)系抽取,根據(jù)數(shù)據(jù)來源和數(shù)據(jù)類型可以分為兩類。一種是來源于醫(yī)療網(wǎng)站、醫(yī)療數(shù)據(jù)庫知識,這類數(shù)據(jù)大多是半結(jié)構(gòu)化數(shù)據(jù),語料中有關(guān)于實體和關(guān)系的具體定義,即可以通過已有的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行轉(zhuǎn)化來獲取需要的三元組。另一種是來源于專業(yè)醫(yī)學(xué)數(shù)據(jù)、電子病歷等的非結(jié)構(gòu)化數(shù)據(jù),通常情況下這些數(shù)據(jù)中的實體和關(guān)系都不是顯見的,需要結(jié)合實體關(guān)系抽取模型進(jìn)行知識抽取。2.4知識圖譜存儲知識圖譜存儲就是要以怎樣的方式將知識存儲到數(shù)據(jù)庫中,目前常見的存儲方式有以下兩種。第一種就是基于RDF的存儲方式,這種方式主要是通過三元組的形式對數(shù)據(jù)進(jìn)行存儲,其應(yīng)用不受領(lǐng)域限制,因此被廣泛應(yīng)用于互聯(lián)網(wǎng)、金融、生物醫(yī)藥等各個領(lǐng)域。但是,由于這種方式會產(chǎn)生大量的自連接操作,面對量級數(shù)據(jù)以及復(fù)雜關(guān)系的知識存儲造成了大量和空間浪費(fèi),其存儲和搜索性能不能滿足當(dāng)前大量數(shù)據(jù)存儲的需求。第二種就是基于圖數(shù)據(jù)庫的存儲方式,也是目前知識圖譜主要的存儲方式。圖數(shù)據(jù)庫是一種以圖結(jié)構(gòu)進(jìn)行存儲和查詢的數(shù)據(jù)庫,它應(yīng)用圖形理論存儲實體之間的關(guān)系信息。圖形數(shù)據(jù)庫是一種非關(guān)系型數(shù)據(jù)庫,可以更好地解決大數(shù)據(jù)存儲、計算、查詢等問題。一方面,采用圖或網(wǎng)的方式來表達(dá)現(xiàn)實世界的關(guān)系很直接、自然,易于建模。另一方面,圖數(shù)據(jù)庫提供了針對圖檢索的查詢語言,可以很高效的插入大量數(shù)據(jù)并查詢關(guān)聯(lián)數(shù)據(jù)。目前通用的圖數(shù)據(jù)庫有Neo4j、InfiniteGraph等數(shù)據(jù)庫,而現(xiàn)在用得較多的是Neo4j數(shù)據(jù)庫。3.基于自然語言處理的知識抽取隨著大數(shù)據(jù)時代的到來,海量的文本不斷產(chǎn)生,其中非結(jié)構(gòu)化的文本大多由中文自然語言句子或句子集合組成,如何從中抽取有價值的信息成為了當(dāng)前的研究熱點(diǎn)。人工抽取是指按照一定的規(guī)則收集相關(guān)信息并從中抽取知識的過程,自動抽取是利用統(tǒng)計方法、深度學(xué)習(xí)等相關(guān)技術(shù)從相關(guān)語料中自動提取相關(guān)信息,目前自動抽取成為了大多數(shù)學(xué)者的研究重點(diǎn)。將自然語言處理技術(shù)與專業(yè)領(lǐng)域相結(jié)合,可以顯著提高知識抽取的效率和質(zhì)量,其核心在于應(yīng)用自然語言處理的方法從大量文本語料中準(zhǔn)確的提取出關(guān)鍵信息,這就涉及到了命名實體識別、關(guān)系抽取等自然語言處理技術(shù)。本節(jié)針對氣胸這一應(yīng)急傷病情,從應(yīng)急醫(yī)療的需求出發(fā),一方面人工從專業(yè)醫(yī)學(xué)書籍中獲取相關(guān)數(shù)據(jù),另一方面應(yīng)用爬蟲技術(shù)從專業(yè)醫(yī)學(xué)網(wǎng)站獲取相關(guān)的醫(yī)療信息,并結(jié)合命名實體識別和依存句法分析的相關(guān)原理,應(yīng)用LTP平臺提供的自然語言處理模塊進(jìn)行知識抽取。3.1知識抽取要素分析將知識圖譜技術(shù)運(yùn)用在醫(yī)療領(lǐng)域,可以幫助醫(yī)生從病患的各項基本體征表現(xiàn)或臨床癥狀入手,通過經(jīng)驗知識初步判斷病患的患病狀況,尤其是在應(yīng)急醫(yī)療領(lǐng)域,在發(fā)生傷病情的第一時間,病患周圍可能往往沒有醫(yī)生,那么不具備醫(yī)療知識的人就可以通過應(yīng)急醫(yī)療知識圖譜對傷病患采取一些最基本的施救,而且就算醫(yī)生在場,在病患突然發(fā)生的地區(qū)往往缺乏專業(yè)的診斷工具。通過應(yīng)急醫(yī)療知識圖譜,將傷病患的大概特征與圖譜內(nèi)的知識進(jìn)行對比,也可以得到對傷病情的基本判斷。然而,現(xiàn)有的醫(yī)療知識圖譜無法滿足應(yīng)急醫(yī)療需求。目前市面上存在的醫(yī)療圖譜通常存在三種問題,不能為應(yīng)急醫(yī)療領(lǐng)域的研究提供數(shù)據(jù)方面的支持。第一,早些年的圖譜由醫(yī)生使用人工的方法,手動從文本資料中進(jìn)行知識抽取,需要花費(fèi)大量的專家時間和精力,而且隨著時間的推移,難以適應(yīng)新的疾病或臨床環(huán)境。再者,存儲這些數(shù)據(jù)的介質(zhì)比較老舊,不再適合現(xiàn)階段基于數(shù)據(jù)的再研究,如果強(qiáng)行使用,并且保持?jǐn)?shù)據(jù)的互通性,則需要大批量導(dǎo)庫,十分繁瑣。第二,近些年雖然也有對于醫(yī)療方面的知識圖譜構(gòu)建研究,但在構(gòu)建過程中缺少或者是沒有相關(guān)醫(yī)生在旁進(jìn)行指導(dǎo),準(zhǔn)確性與科學(xué)性不能保證。第三目前已有的醫(yī)療領(lǐng)域的知識圖譜要么力求全面,試圖將所有傷病情知識全部囊括,這樣做的缺點(diǎn)是大而不精。所以綜合來看這兩種類型的醫(yī)療圖譜都不能滿足應(yīng)急醫(yī)療的需求,需要另行建立專門服務(wù)于應(yīng)急醫(yī)療的知識圖譜。本文通過專業(yè)醫(yī)生提供的應(yīng)急醫(yī)療手冊,以其中氣胸這一應(yīng)急傷情為例,進(jìn)行了知識圖譜的構(gòu)建。因為醫(yī)學(xué)知識的復(fù)雜性與專業(yè)性,本文通過分析ICD-10醫(yī)學(xué)標(biāo)準(zhǔn)數(shù)據(jù)集,對氣胸知識獲取的實體進(jìn)行了規(guī)定,主要圍繞氣胸的屬性、流行病學(xué)、病理生理、臨床表現(xiàn)、診斷依據(jù)、治療措施、預(yù)防七大實體進(jìn)行圖譜的構(gòu)建工作,并在數(shù)據(jù)整理過程中通過與專家溝通對關(guān)系的分類標(biāo)準(zhǔn)進(jìn)行了界定。此外,因為研究面向應(yīng)急醫(yī)療,因此本文從應(yīng)急醫(yī)療的需求出發(fā),在圖譜的建立過程中重點(diǎn)關(guān)注臨床表現(xiàn)、輔助檢查、治療幾個方面的知識。3.2數(shù)據(jù)來源基于醫(yī)學(xué)知識的專業(yè)性,一方面從醫(yī)生推薦的幾本醫(yī)療書籍(《內(nèi)科學(xué)第九版》、《黃家駟外科學(xué)》、《急診手冊第四版》)進(jìn)行氣胸知識的獲取,并初步對所研究氣胸這一病情相關(guān)知識進(jìn)行系統(tǒng)性學(xué)習(xí),結(jié)果發(fā)現(xiàn)現(xiàn)有醫(yī)療手冊上大多為對氣胸疾病病因、生理病理等的專業(yè)性描述知識,數(shù)據(jù)類型為非結(jié)構(gòu)化數(shù)據(jù)。因此,經(jīng)過與專家的討論,決定對現(xiàn)有的第三方醫(yī)療網(wǎng)站尋醫(yī)問藥上的知識進(jìn)行爬取,以對氣胸數(shù)據(jù)進(jìn)行知識補(bǔ)充。本文采用了八爪魚對尋醫(yī)問藥網(wǎng)站上的數(shù)據(jù)進(jìn)行爬取,新建網(wǎng)頁采集,并將其名稱設(shè)置為氣胸,對氣胸疾病介紹頁面內(nèi)的病因、預(yù)防、并發(fā)癥、癥狀、檢查、診斷鑒別、治療等進(jìn)行爬取,對醫(yī)院醫(yī)生頁面的科室、醫(yī)院、醫(yī)生內(nèi)容進(jìn)行爬取,獲得了帶有實體及標(biāo)簽的半結(jié)構(gòu)化數(shù)據(jù)。3.3知識抽取及三元組融合3.3.1基于詞典的實體識別通過對尋醫(yī)問藥網(wǎng)站有關(guān)氣胸數(shù)據(jù)的爬取以及《內(nèi)科學(xué)第九版》《黃家駟外科學(xué)》等專業(yè)醫(yī)學(xué)書籍中有關(guān)氣胸資料的整理,獲得了氣胸疾病相關(guān)的原始數(shù)據(jù)。在這些文本中,需要對疾病屬性、癥狀、流行病學(xué)、臨床表現(xiàn)、并發(fā)癥、輔助檢查等專有名詞進(jìn)行識別。中文分詞和詞性標(biāo)注是命名實體識別的基礎(chǔ),即將一段中文通過特定的方法將其切分為單獨(dú)的詞或短語并進(jìn)行詞性標(biāo)注,對于文本信息分析有重要意義。目前,基于條件隨機(jī)場(CRF)的分詞方法是當(dāng)前分詞的主流,但是這種根據(jù)序列標(biāo)注的分詞方法嚴(yán)重依賴語料庫,對于特定域的標(biāo)注,比如本文要研究的氣胸醫(yī)療領(lǐng)域,則需要人工進(jìn)行標(biāo)注,會耗費(fèi)大量的時間精力。因此本文選用了哈工大社會計算與信息檢索研究中心推出的語言技術(shù)LTP平臺,它提供了一個基于自定義詞典的通用領(lǐng)域訓(xùn)練的序列標(biāo)注模型,可以通過用戶自定義詞典對特定域的專有名詞進(jìn)行標(biāo)注。本文基于清華大學(xué)自然語言處理的社會人文計算實驗室推出的THUOCL醫(yī)學(xué)詞典,并與專業(yè)醫(yī)生溝通構(gòu)建了有關(guān)氣胸癥狀、部位等的專業(yè)詞典,并通過LTP平臺訓(xùn)練的MEMM統(tǒng)計和規(guī)則模型對文本進(jìn)行分詞、詞性標(biāo)注以及實體識別工作。3.3.2基于語義依存的關(guān)系抽取通過文本分詞、詞性標(biāo)注以及實體識別等步驟之后,可以得到一系列經(jīng)過標(biāo)注的離散的短語,為了得到文本間的語義信息,需要從相關(guān)的語料中提取出實體之間的關(guān)聯(lián)關(guān)系,通過關(guān)聯(lián)關(guān)系將實體聯(lián)系起來,才能夠形成網(wǎng)狀的知識結(jié)構(gòu)。因為本文的數(shù)據(jù)來源分為兩個方面,數(shù)據(jù)結(jié)構(gòu)也有所不同。對于在尋醫(yī)問藥網(wǎng)上爬取的半結(jié)構(gòu)化數(shù)據(jù),大多是以標(biāo)簽加文本的形式進(jìn)行表述,對于專業(yè)醫(yī)學(xué)書籍的數(shù)據(jù),大多為非結(jié)構(gòu)化的描述性數(shù)據(jù)。在這個基礎(chǔ)上,關(guān)系的抽取分為兩個方面,對于標(biāo)簽信息描述詳細(xì)的數(shù)據(jù),可以通過標(biāo)簽對實體及其描述信息進(jìn)行提取,比如流行病學(xué)中,標(biāo)簽為病因的文本中出現(xiàn)的疾病與該病因的關(guān)系就是病因。第二就是通過文本的語義關(guān)系確定實體與實體之間的關(guān)系。由于語言表達(dá)存在句法結(jié)構(gòu),比如主謂賓、動賓結(jié)構(gòu)、主從句結(jié)構(gòu)等,根據(jù)這些結(jié)構(gòu)可以分析出多個詞之間的關(guān)系。依存句法認(rèn)為謂語中的動詞是一個句子的中心,即在一個句子中,謂詞是對主語的陳述或說明,指出“做什么”、“是什么”或“怎么樣”,代表了一個事件的核心,其他成分與動詞直接或間接地產(chǎn)生聯(lián)系,跟謂詞搭配的詞語稱為論元。本文基于文本的語義依存關(guān)系進(jìn)行實體的關(guān)系抽取,其主要分為兩個部分,第一是通過依存句法分析定位到文本中的謂詞并研究句子中各成分與謂詞之間的關(guān)系,第二是通過語義角色標(biāo)注來描述這種關(guān)系。本文通過引入LTP平臺提供的依存句法分析和語義角色標(biāo)注模塊,其中,依存句法分析模型提供了主謂、動賓、定中等14種依存句法關(guān)系結(jié)構(gòu),詳見附錄1,語義角色標(biāo)注模型提供了23種語義角色類型,本文主要對A0-4五種語義角色進(jìn)行標(biāo)注,A0通常表示動作的施事,A1通常表示動作的受事等,A2-4根據(jù)謂語動詞不同會有不同的語義角色類型,比如客體、方式、狀態(tài)等。LTP平臺提供的自然語言處理模型可實現(xiàn)對句子中依存關(guān)系和語義角色的自動化標(biāo)記,其主要流程如下:(1)構(gòu)建一顆依存句法樹,對文本中元素的依存關(guān)系進(jìn)行分析。對于給定的句子“氣胸的典型癥狀為突發(fā)性的胸痛,繼之有胸悶和呼吸困難,并可有刺激性的咳嗽。”,下文記為s,其中每個元素間都存在依存關(guān)系,通過對文本的依存句法分析可得到一顆依存句法樹,如圖2所示。從分析結(jié)果中可以看出,每個短語之間都存在句法關(guān)系,其中主謂、動賓、并列等關(guān)系是文本關(guān)系抽取的關(guān)鍵。圖2依存句法樹(2)從依存句法樹上識別出謂詞的候選論元并進(jìn)行剪枝。一個句子中的候選論元可能很多,候選論元剪除就是從大量的候選項中剪除那些最不可能成為論元的候選項。以文本s為例,句子的核心謂詞是“為”以及兩個并列結(jié)構(gòu)關(guān)系的“有”。對于和謂詞有直接關(guān)系的論元,如“癥狀”與“為”之間是主謂關(guān)系,“胸痛”與“為”之間是動賓關(guān)系,這些論元對文本的表達(dá)起了重要性作用,因此予以保留并記為主論元,對于與謂詞之間有狀中等其他無關(guān)的論元,如“繼之”“并可”進(jìn)行剪枝。對于和謂詞無直接關(guān)系的論元,則分析其與主論元之間的關(guān)系,如“氣胸”和“典型”是“癥狀”這一主論元的修飾語,“突發(fā)性”是胸痛的修飾語,進(jìn)行保留,其余則進(jìn)行剪枝操作。(3)通過語義角色標(biāo)注為謂詞的論元進(jìn)行標(biāo)注。具體而言,對于給定的句子,語義角色標(biāo)注對剪枝操作完成后的論元進(jìn)行相應(yīng)的語義角色標(biāo)注。在句子s中,存在“為”“有”“有”三個謂詞,對于“為”而言,“癥狀”和“胸痛”分別標(biāo)記為謂詞的施事和受事,由于在剪枝過程中沒有對主論元的修飾詞進(jìn)行剪枝,因此可得到“氣胸的典型癥狀”—“為”—“突發(fā)性的胸痛”、“氣胸的典型癥狀”—“有”—“胸痛和呼吸苦難”、“氣胸的典型癥狀”—“有”—“刺激性的咳嗽”的關(guān)系,如圖3所示。圖3語義角色標(biāo)注3.3.3知識融合知識融合包括實體對齊、屬性對齊、沖突消解、規(guī)范化等,是知識圖譜構(gòu)建過程中的又一大難點(diǎn)。一方面,由于本文的數(shù)據(jù)來源兩個不同的數(shù)據(jù)源,因此對氣胸相關(guān)知識的描述存在一定的差異性。另一方面,由于醫(yī)學(xué)文本有著獨(dú)特的表述方式,通過自然語言處理的方式抽取的知識形式并不是十分標(biāo)準(zhǔn),比如對于“疾病”—“癥狀”這個關(guān)系,由于謂詞的表述方式不一樣,既會帶來不必要的冗余,也增加了理解的復(fù)雜性。因此,本文的知識融合主要分為了兩個方面。一方面對不同來源下的醫(yī)學(xué)實體概念、實體類型、實體屬性等在同一規(guī)范下進(jìn)行數(shù)據(jù)的整合、消歧和合并統(tǒng)一。另一方面針對實體關(guān)系進(jìn)行規(guī)范,通過對提取出的謂詞進(jìn)行分析比較并將其分類,然后根據(jù)利于理解的專有名詞對謂詞的表述方式進(jìn)行規(guī)范統(tǒng)一,并將其作為實體關(guān)系的類型。由于氣胸領(lǐng)域的專業(yè)性,本文通過與專家溝通的形式,整理出了一套規(guī)范化的抽取規(guī)則,并通過人工的方式按照抽取規(guī)則進(jìn)行了數(shù)據(jù)的消歧合并工作。首先,對氣胸的實體大類以及具體的實體類型進(jìn)行了劃分,分別從屬性、流行病學(xué)、病理生理、臨床表現(xiàn)、診斷依據(jù)、治療措施、預(yù)防七個大類進(jìn)行定義,在確定實體類型的基礎(chǔ)上,為了使知識圖譜呈現(xiàn)的內(nèi)容更加精準(zhǔn),本研究將實體大類劃分為更加具體的實體類型,如將診斷依據(jù)大類劃分為實驗室檢查、影像學(xué)檢查、體格檢查、其他輔助檢查、病史幾個實體類型,增加了知識圖譜的精確性,其詳細(xì)結(jié)果如表1所示。 表1實體及實體類型 實體大類實體類型舉例屬性傷病大類名稱氣胸傷病英文名稱PneumothoraxICD-10J93.901定義胸部積氣二級傷病名稱自發(fā)性氣胸三級傷病名稱閉合性氣胸醫(yī)院北醫(yī)三院科室胸外科流行病學(xué)易感人群男性易感年齡20-40歲病理生理風(fēng)險因素胸部損傷好發(fā)部位胸膜腔臨床表現(xiàn)癥狀呼吸困難體征叩診鼓音鑒別診斷哮喘并發(fā)癥膿胸診斷依據(jù)實驗室檢查肺功能檢查影像學(xué)檢查X線檢查體格檢查胸內(nèi)壓測定其他輔助檢查胸腔鏡檢查病史肺大皰治療措施急救措施清創(chuàng)術(shù)基礎(chǔ)治療充分休息藥物治療鎮(zhèn)靜鎮(zhèn)痛藥手術(shù)治療胸腔鏡手術(shù)其他療法支氣管內(nèi)封堵術(shù)預(yù)后表現(xiàn)復(fù)查以評估療效預(yù)防預(yù)防避免劇烈活動根據(jù)圖數(shù)據(jù)庫存儲的需求,在知識圖譜構(gòu)建的過程中,節(jié)點(diǎn)為對應(yīng)的醫(yī)療實體,標(biāo)簽為實體的類型,關(guān)系即實體間的關(guān)系描述。因此,除了需要明確實體所屬的類型,還要明確實體之間的關(guān)系類型,本研究確定了實體間的關(guān)系,如表2所示。表2實體關(guān)系類型定義源節(jié)點(diǎn)(示例)源節(jié)點(diǎn)類型目標(biāo)節(jié)點(diǎn)(示例)目標(biāo)節(jié)點(diǎn)類型關(guān)系類型自發(fā)性氣胸二級傷病名稱氣胸傷病大類名稱屬于閉合性氣胸三級傷病名稱自發(fā)性氣胸二級傷病名稱屬于氣胸傷病大類名稱胸外科科室就診胸外科科室中國人民解放軍總醫(yī)院第一醫(yī)學(xué)中心醫(yī)院推薦胸膜腔好發(fā)部位氣胸傷病大類名稱部位機(jī)械通氣壓力風(fēng)險因素氣胸傷病大類名稱導(dǎo)致胸骨后疼痛癥狀張力性氣胸三級傷病名稱癥狀叩診鼓音體征開放型氣胸三級傷病名稱體征氣胸傷病大類名稱哮喘鑒別診斷鑒別診斷氣胸傷病大類名稱皮下氣腫并發(fā)癥引發(fā)氣胸傷病大類名稱肺大皰病史檢查氣胸傷病大類名稱肺功能檢查其他輔助檢查檢查氣胸傷病大類名稱開胸手術(shù)手術(shù)療法治療氣胸傷病大類名稱阿拉坦五味丸藥物治療用藥4基于圖數(shù)據(jù)庫的的知識圖譜存儲知識圖譜是2012年由谷歌首次提出,是把語義網(wǎng)的知識庫形象化的表示出來,它吸收了語義網(wǎng)、本體在知識組織和表達(dá)方面的理念,使得知識在計算機(jī)之間和計算機(jī)與人之間交換、流通和加工。醫(yī)學(xué)知識圖譜是實現(xiàn)智能診斷的基石,能帶來更高效精準(zhǔn)的醫(yī)療服務(wù)。構(gòu)建可視化的知識圖譜可使得知識更加直觀的展示,能夠幫助醫(yī)生作出更加精確的診斷,同時也能夠幫助病人合理的控制病情。通過命名實體識別、關(guān)系抽取兩個子任務(wù),當(dāng)前我們已經(jīng)獲得了氣胸醫(yī)學(xué)實體與實體間的關(guān)系,關(guān)系中包含著大量的醫(yī)學(xué)信息,例如臨床表現(xiàn)與疾病間的關(guān)系,可輔助醫(yī)務(wù)人員可根據(jù)病人的臨床表現(xiàn)推斷疾病,本文采用了Neo4j圖數(shù)據(jù)庫構(gòu)建氣胸知識圖譜,并將之前抽取的氣胸醫(yī)學(xué)實體和氣胸實體間的關(guān)系批量導(dǎo)入到圖數(shù)據(jù)庫中,實現(xiàn)氣胸知識圖譜的構(gòu)建。4.1Neo4j圖數(shù)據(jù)庫介紹Neo4j是一款基于Java的可視化良好的開源NoSLQ非關(guān)系型數(shù)據(jù)庫,同時支持Ruby和Python編程語言,它可以通過高速便利工具快速檢索數(shù)據(jù),效率非常高,且使用Cypher語言,可以使數(shù)據(jù)的展示效果更加直觀。Neo4j是一種以圖數(shù)據(jù)結(jié)構(gòu)的形式來存儲和查詢數(shù)據(jù)的數(shù)據(jù)庫,不同于關(guān)系數(shù)據(jù)庫將數(shù)據(jù)存儲在表中,它將數(shù)據(jù)存儲在網(wǎng)絡(luò)中。存儲結(jié)構(gòu)為圖形結(jié)構(gòu),由節(jié)點(diǎn)、關(guān)系和屬性組成,以實體表示節(jié)點(diǎn),實體間的關(guān)系表示鏈接節(jié)點(diǎn)的有向邊,屬性為節(jié)點(diǎn)和關(guān)系提供具體信息。每個節(jié)點(diǎn)可擁有一個或多個關(guān)系和屬性,多個節(jié)點(diǎn)可以有相同關(guān)系。每個節(jié)點(diǎn)有一個或多個標(biāo)簽,用于對節(jié)點(diǎn)進(jìn)行分組,多個節(jié)點(diǎn)可以有相同的標(biāo)簽。Neo4j通過節(jié)點(diǎn)之間的關(guān)系發(fā)現(xiàn)數(shù)據(jù)間隱含的更多關(guān)系,具有可視化效果好、存儲效率高和數(shù)據(jù)遍歷速度快等優(yōu)勢。近年來,Neo4j圖數(shù)據(jù)庫近年來被廣泛應(yīng)用于金融、醫(yī)藥等領(lǐng)域,受到了越來越多學(xué)者的關(guān)注。因此,本文中使用Neo4j圖數(shù)據(jù)庫進(jìn)行氣胸醫(yī)療知識的存儲及可視化。4.2屬性圖模型知識圖譜的表示方法和存儲方式是多樣性的,需要根據(jù)自己知識圖譜的特點(diǎn),以及其應(yīng)用的場景來選擇存儲方式和表示方法。在本文中由于各實體之間存在大量的關(guān)系,且需要頻繁的查詢和訪問知識圖譜實體和關(guān)系,所以本文采用基于屬性圖模型的Neo4j圖數(shù)據(jù)庫。在屬性圖中存在節(jié)點(diǎn)、邊、屬性、標(biāo)簽幾個特征。節(jié)點(diǎn)(Nodes)是圖中的實體,用表示其類型的0到多個文本標(biāo)簽進(jìn)行標(biāo)記,相當(dāng)于實體。邊(Edges)是節(jié)點(diǎn)之間的定向鏈接,也稱為關(guān)系。其中對應(yīng)的“fromnode”稱為源節(jié)點(diǎn),“tonode”稱為目標(biāo)節(jié)點(diǎn)。邊是定向的且每條邊都有一個類型,它們可以在任何方向上導(dǎo)航和查詢,相當(dāng)于實體之間的關(guān)系。屬性(Properties)是一個鍵值對,頂點(diǎn)和邊都具有屬性。在氣胸知識圖譜中,節(jié)點(diǎn)為對應(yīng)的醫(yī)療實體,標(biāo)簽為實體的類別,即傷病名稱、癥狀、體征、檢查、并發(fā)癥等,屬性為實體的醫(yī)學(xué)描述信息,關(guān)系為實體間的關(guān)系。4.2知識圖譜構(gòu)建4.2.1實體及關(guān)系庫構(gòu)建通過命名實體識別和關(guān)系抽取兩項子任務(wù),可以獲取氣胸相關(guān)的醫(yī)療實體及關(guān)系的三元組結(jié)構(gòu)。因為本文選用了屬性圖的模式對知識圖譜進(jìn)行存儲,因此需要將數(shù)據(jù)按照實體和關(guān)系分別整理成相關(guān)的csv格式的文件進(jìn)行保存。實體庫如表3所示,下圖展示了氣胸的傷病分類實體,表中第一列為實體名稱,第二列為實體類型,實體共967個。表3部分實體庫實體名稱實體類型氣胸傷病大類名稱自發(fā)性氣胸二級傷病名稱外傷性氣胸二級傷病名稱醫(yī)源性氣胸二級傷病名稱月經(jīng)性氣胸二級傷病名稱妊娠合并氣胸二級傷病名稱老年人自發(fā)性氣胸二級傷病名稱高壓型氣胸二級傷病名稱原發(fā)性自發(fā)性氣胸三級傷病名稱繼發(fā)性自發(fā)性氣胸三級傷病名稱閉合性氣胸三級傷病名稱開放性氣胸三級傷病名稱張力性氣胸三級傷病名稱關(guān)系庫如表4所示,下表展示了疾病-并發(fā)癥的關(guān)系,包含相關(guān)的疾病名稱和類型,以及對應(yīng)的并發(fā)癥名稱和類型,及其兩者之間的關(guān)系類型,共包括1024條關(guān)系。表4部分關(guān)系庫源節(jié)點(diǎn)源節(jié)點(diǎn)類型目標(biāo)節(jié)點(diǎn)目標(biāo)節(jié)點(diǎn)類型關(guān)系類型肋骨骨折并發(fā)癥閉合性氣胸三級傷病名稱引發(fā)感染性休克并發(fā)癥開放性氣胸三級傷病名稱引發(fā)胸腔積液并發(fā)癥開放性氣胸三級傷病名稱引發(fā)膿氣胸并發(fā)癥開放性氣胸三級傷病名稱引發(fā)血?dú)庑夭l(fā)癥開放性氣胸三級傷病名稱引發(fā)慢性氣胸并發(fā)癥開放性氣胸三級傷病名稱引發(fā)縱膈氣腫并發(fā)癥張力性氣胸三級傷病名稱引發(fā)呼吸衰竭并發(fā)癥張力性氣胸三級傷病名稱引發(fā)循環(huán)衰竭并發(fā)癥張力性氣胸三級傷病名稱引發(fā)心力衰竭并發(fā)癥張力性氣胸三級傷病名稱引發(fā)皮下氣腫并發(fā)癥張力性氣胸三級傷病名稱引發(fā)4.2.2知識圖譜構(gòu)建知識圖譜構(gòu)建的過程主要是將實體表及關(guān)系表中各實體節(jié)點(diǎn)以及實體關(guān)系導(dǎo)入Neo4j數(shù)據(jù)庫的過程。首先在Neo4j本地數(shù)據(jù)庫下新建文件夾Project,用以存放知識圖譜構(gòu)建的主代碼build.py以及數(shù)據(jù)源實體庫、關(guān)系庫兩個csv文件,以下是構(gòu)建知識圖譜的具體流程。首先定義一個用來創(chuàng)建實體的函數(shù)defCreat(self),并根據(jù)實體庫對應(yīng)的屬性列表,對實體名稱NAMELIST、實體標(biāo)簽LABELLIST等屬性進(jìn)行定義。其次定義一個用來創(chuàng)建關(guān)系的函數(shù)defCreat_relation(self),根據(jù)關(guān)系庫對應(yīng)的關(guān)系列表,對頭實體列表RESOURCE_LIST、頭實體所屬類別列表RESOURCE_LIST_LABEL、尾實體列表TARGET_LIST、尾實體所屬類別列表TARGET_LIST_LABEl、對應(yīng)關(guān)系類別列表RELATION_NAME_LIST等進(jìn)行定義。在實體及關(guān)系導(dǎo)入過程中,引入Python的pandas庫,使用pd.read_csv()的方法讀取實體表及關(guān)系表中的數(shù)據(jù),并將其轉(zhuǎn)化為統(tǒng)一的DataFrame數(shù)據(jù)格式。在實體表導(dǎo)入過程中,定義一個for循環(huán)語句,遍歷實體庫中每一行的所有屬性進(jìn)行節(jié)點(diǎn)的導(dǎo)入。在關(guān)系表語句中,同樣定義一個for循環(huán)語句,遍歷關(guān)系表中的每一行關(guān)系,并通過querymatch查詢匹配語句對實體之間的關(guān)系進(jìn)行導(dǎo)入創(chuàng)建。4.2.3知識圖數(shù)據(jù)庫展示最終的氣胸知識圖譜存儲在Neo4J圖數(shù)據(jù)中,一個節(jié)點(diǎn)表示一個實體,實體與實體間的關(guān)系根據(jù)邊來連接。啟動Neo4j圖數(shù)據(jù)庫,并通過搭載服務(wù)器的ip地址連接目標(biāo)Neo4j數(shù)據(jù)庫,如下為氣胸知識圖譜在Neo4J中的存儲方式和展現(xiàn)形式。如圖4所示,顯示了知識圖譜中并發(fā)癥相關(guān)的實體,該示例只包含實體,不包含實體與實體之間的關(guān)系。
圖4實體節(jié)點(diǎn)實例如圖5所示,展示了與張力性氣胸疾病實體相關(guān)聯(lián)的癥狀、治療、并發(fā)癥、鑒別診斷相關(guān)的實體。圖5單個氣胸疾病節(jié)點(diǎn)與相關(guān)實體示例如圖6所示,展示了多個氣胸疾病節(jié)點(diǎn)和相關(guān)節(jié)點(diǎn)的關(guān)系圖。如有些癥狀屬于氣胸大類,有些癥狀與多個氣胸相關(guān)類型疾病有關(guān)聯(lián)。圖6多個氣胸疾病節(jié)點(diǎn)與相關(guān)實體示例如圖7所示,展示了完整氣胸醫(yī)學(xué)知識圖譜實體和關(guān)系的部分截圖。圖7完整氣胸知識圖譜部分示例5.結(jié)論本文以基于應(yīng)急醫(yī)療應(yīng)用的醫(yī)學(xué)知識圖譜為研究背景,主要針對氣胸這一應(yīng)急傷情對知識抽取及圖譜構(gòu)建進(jìn)行了研究。首先,本文介紹了知識圖譜和醫(yī)療知識圖譜的發(fā)展背景和意義,并詳細(xì)分析了知識抽取和知識圖譜構(gòu)建過程的相關(guān)技術(shù)和方法。其次,本文根據(jù)氣胸這一研究對象的基本背景,從應(yīng)急醫(yī)療的角度出發(fā),從多元渠道進(jìn)行了數(shù)據(jù)獲取工作。在實體識別階段,本文引入LTP平臺訓(xùn)練的MEMM統(tǒng)計和規(guī)則模型,并通過構(gòu)建氣胸相關(guān)實體的詞典進(jìn)行了醫(yī)療實體的識別工作。在關(guān)系抽取方面,采用了基于依存句法和語義角色標(biāo)注的模型,通過分析文本中短語的語義及角色關(guān)系,并結(jié)合python語言完成了構(gòu)建依存句法樹、剪枝、語義角色標(biāo)注等工作,實現(xiàn)了對謂詞(關(guān)系)及論元(實體)的標(biāo)注以及抽取工作。在知識融合階段,主要采用了與專家結(jié)合的方法,制定了一套實體類型以及實體關(guān)系的規(guī)則,并依據(jù)這套規(guī)則對不同來源下的氣胸醫(yī)學(xué)實體類型、屬性等進(jìn)行實體對齊、屬性對齊、沖突消解,對知識抽取的謂詞進(jìn)行規(guī)范統(tǒng)一。在構(gòu)建圖譜的階段,將知識抽取獲得的實體及實體關(guān)系交付醫(yī)生進(jìn)行數(shù)據(jù)的確認(rèn),并選用Neo4j作為圖數(shù)據(jù)庫進(jìn)行知識圖譜的構(gòu)建,并對該知識圖譜進(jìn)行了分析。目前,氣胸的知識圖譜已經(jīng)構(gòu)建完畢并實現(xiàn)了可視化。由于氣胸知識圖譜的構(gòu)建需要較強(qiáng)的專業(yè)知識,在實體識別詞典的構(gòu)建以及知識融合方面耗費(fèi)了大量的時間。對于未來的研究,一方面可以從知識抽取角度出發(fā),訓(xùn)練相關(guān)模型提高知識自動抽取的效率,另一方面可以從現(xiàn)有的氣胸知識圖譜出發(fā),以圖數(shù)據(jù)庫中的數(shù)據(jù)為基礎(chǔ)構(gòu)建相關(guān)的氣胸智能診療問答系統(tǒng),增加對氣胸知識圖譜的應(yīng)用,將氣胸知識圖譜更好地結(jié)合當(dāng)前應(yīng)急醫(yī)療的需求。參考文獻(xiàn)AMITS.IntroducingtheKnowledgeGraph[EB/OL].[2012-05-16].https://www.blog.google/products/search/introducing-knowledge-graph-things-not/FriedmanC,AldersonPO,AustinJH,etal.Ageneralnatural-languagetextprocessorforclinicalradiology[J].JournaloftheAmericanMedicalInformaticsAssociation,1994,1(2):161-174.鄭夢悅,秦春秀,馬續(xù)補(bǔ).面向中文科技文獻(xiàn)非結(jié)構(gòu)化摘要的知識元表示與抽取研究——基于知識元本體理論[J].情報理論與實踐,2020,43(02):157-163.張志申,王會勇,張曉明,艾青,孟明明.基于本體和語義距離的DBpedia領(lǐng)域知識抽取方法[J].現(xiàn)代電子技術(shù),2018,41(13):128-132+137.GoswamiR,ShahV,ShahN,etal.OntologicalApproachforKnowledgeExtractionfromClinicalDocuments[C]//2019IEEEInternationalConferenceonBioinformaticsandBiomedicine(BIBM).IEEE,2019:1487-1491.XuJ,YaoL,LiL,etal.Argumentationbasedreinforcementlearningformeta-knowledgeextraction[J].InformationSciences,2020,506:258-272.李濤,郭淵博,琚安康.融合對抗主動學(xué)習(xí)的網(wǎng)絡(luò)安全知識三元組抽取[J].通信學(xué)報,2020,41(10):80-91.SavovaGK,DanciuI,AlamudunF,etal.Useofnaturallanguageprocessingtoextractclinicalcancerphenotypesfromelectronicmedicalrecords[J].Cancerresearch,2019,79(21):5463-5470.Rodríguez-GonzálezA,Martínez-RomeroM,CostumeroR,etal.Diagnosticknowledgeextractionfrommedlineplus:anapplicationforinfectiousdiseases[C]//9thInternationalConferenceonPracticalApplicationsofComputationalBiologyandBioinformatics.Springer,Cham,2015:79-87.余小康,陳嶺,郭敬,等.結(jié)合從句級遠(yuǎn)程監(jiān)督與半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法[J].模式識別與人工智能,2017,30(1):54-63.DOI:10.16451/j.cnki.issn1003-6059.201701006.LAMPLEG,BALLESTEROSM,SUBRAMANIANS,etal.Neuralarchitecturesfornamedentityrecognition[C]//Proceedingsofthe2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.SanDiego:AssociationforComputationalLinguistics,2016:260–270.DOI:10.18653/v1/N16-1030.丁禹,尚學(xué)偉,米為民.基于深度學(xué)習(xí)的電網(wǎng)調(diào)控文本知識抽取方法[J].電力系統(tǒng)自動化,2020,44(24):161-168.江川,王東波.基于BERT的突發(fā)公共衛(wèi)生重大傳染病事件實體知識自動抽取研究[J].科技情報研究,2021,3(02):23-35.鄭光敏,易天源,唐東昕,賀松.基于BERT-BiLSTM-CRF模型的中國民族藥知識抽取[J/OL].武漢大學(xué)學(xué)報(理學(xué)版):1-10[2021-03-26]./10.14188/j.1671-8836.2020.0225.FazlicLB,HallawaA,SchmeinkA,etal.AnovelNLP-FUZZYsystemprototypeforinformationextractionfrommedicalguidelines[C]//201942ndInternationalConventiononInformationandCommunicationTechnology,ElectronicsandMicroelectronics(MIPRO).IEEE,2019:1025-1030.LiP,YuanZ,TuW,etal.Medicalknowledgeextractionandanalysisfromelectronicmedicalrecordsusingdeeplearning[J].ChineseMedicalSciencesJournal,2019,34(2):133-139.李濤,王次臣,李華康.知識圖譜的發(fā)展與構(gòu)建[J].南京理工大學(xué)學(xué)報,2017,41(01):22-34.黃恒琪,于娟,廖曉,席運(yùn)江.知識圖譜研究綜述[J].計算機(jī)系統(tǒng)應(yīng)用,2019,28(06):1-12.劉嶠,李楊,段宏,劉瑤,秦志光.知識圖譜構(gòu)建技術(shù)綜述[J].計算機(jī)研究與發(fā)展,2016,53(03):582-600.漆桂林,高桓,吳天星.知識圖譜研究進(jìn)展[J].情報工程,2017,3(01):4-25.PaulheimH.Knowledgegraphrefinement:Asurveyofapproachesandevaluationmethods[J].Semanticweb,2017,8(3):489-508.SuchanekFM,AbiteboulS,SenellartP.PARIS:probabilisticalignmentofrelations,instances,andschema[J].ProceedingsoftheVLDBEndowment,2011,5(3):157168.ChenS,WenJ,ZhangR.GRU-RNNBasedQuestionAnsweringOverKnowledgeBase[M].KnowledgeGraphandSemanticComputing:Semantic,Knowledge,andLinkedBigData.SpringerSingapore,2016:80-91.DrumondL,RendleS,Schmidt-ThiemeL.PredictingRDFTriplesinIncompleteKnowledgeBaseswithTensorFactorization[C]//ACMSymposiumonAppliedComputing.ACM,2012:326-331.OrenE,KotoulasS,AnadiotisG,etal.Marvin:DistributedReasoningoverLarge-scaleSemanticWebData[J].JournalofWebSemantics,2009:305-316.邢萌,楊朝紅,畢建權(quán).軍事領(lǐng)域知識圖譜的構(gòu)建及應(yīng)用[J].指揮控制與仿真,2020,42(04):1-7.劉津,杜寧,徐菁,劉雪瑩,宋鈺龍,邱麗萍,趙楊奧,孫夢園.知識圖譜在電力領(lǐng)域的應(yīng)用與研究[J].電力信息與通信技術(shù),2020,18(01):60-66.陸泉,謝祎玉,陳靜,張涵,崔浩冉,聶書源.臨床醫(yī)學(xué)課程知識主題圖譜構(gòu)建研究[J].圖書情報工作,2019,63(09):101-108.呂華揆,洪亮,馬費(fèi)成.金融股權(quán)知識圖譜構(gòu)建與應(yīng)用[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(05):27-37.曹明宇,李青青,楊志豪,王磊,張音,林鴻飛,王健.基于知識圖譜的原發(fā)性肝癌知識問答系統(tǒng)[J].中文信息學(xué)報,2019,33(06):88-93.AbdelazizI,FokoueA,Hassanzadeh0,etal.Large-scalestructuralandtextualsimilarity-basedminingofknowledgegraphtopredictdrug-drugin-teractions[J].WebSemanticsScienceServicesamp;AgentsontheWorldWideWeb,2017.YuT,LiJ,YuQ,etal.KnowledgegraphforTCMhealthpreservation:Design,construction,andapplications[J].ArtificialIntelligenceinMedicine,2017,77(Mar.):48-52.SimmonsRF.TechnologiesforMachineTranslation[J].FutureGenerationComputerSystems,1986,2(2):83-94.SimmonsRF.NaturalLanguageQuestionAnsweringSystems:1969[J].CommunicationsoftheACM,1970,13(1):15-30.YuYH,SimmonsRF.TrulyParallelUnderstandingofText[C]//NationalConferenceonArtificialIntelligence,July29-August3,1990,Boston,Massachusetts,USA.1990:996-1001.SowaJF.PrinciplesofSemanticNetworks:ExplorationintheRepresentationofKnowledge[J].FrameProbleminArtificialIntelligence,1991(2-3):135–157.FriedmanC,AldersonPO,AustinJH,etal.Ageneralnatural-languagetextprocessorforclinicalradiology[J].JournaloftheAmericanMedicalInformaticsAssociation,1994,1(2):161-174.龍光宇,徐云.CRF與詞典相結(jié)合的疾病命名實體識別[J].微型機(jī)與應(yīng)用,2017,36(21):51-53.潘璀然,王青華,湯步洲,姜磊,黃勛,王理.基于句子級Lattice-長短記憶神經(jīng)網(wǎng)絡(luò)的中文電子病歷命名實體識別[J].第二軍醫(yī)大學(xué)學(xué)報,2019,40(05):497-506.附錄附錄1依存句法關(guān)系類型關(guān)系類型TagDescription關(guān)系類型TagDescription主謂關(guān)系SBVsubject-verb狀中結(jié)構(gòu)ADVadverbial動賓關(guān)系VOB直接賓語,verb-object動補(bǔ)結(jié)構(gòu)CMPcomplement間賓關(guān)系IOB間接賓語,indirect-object并列關(guān)系COOcoordinate前置賓語FOB前置賓語,fronting-object介賓關(guān)系POBpreposition-object兼語DBLdouble左附加關(guān)系LADleftadjunct定中關(guān)系A(chǔ)TTattribute右附加關(guān)系RADrightadjunct獨(dú)立結(jié)構(gòu)ISindependentstructure核心關(guān)系HEDhead附錄2部分代碼示例frompy2neoimportGraph,Node,RelationshipimportpandasaspdclassBuildGragh(object):def__init__(self):try:self.g=Graph(host="",#neo4j搭載服務(wù)器的ip地址,ifconfig可獲取到http_port=7474,#neo4j服務(wù)器監(jiān)聽的端口號
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大數(shù)據(jù)治理法規(guī)的現(xiàn)狀與挑戰(zhàn)-全面剖析
- 微服務(wù)架構(gòu)下的開發(fā)與運(yùn)維質(zhì)量保障-全面剖析
- 事件檢測與HTML標(biāo)簽生成關(guān)聯(lián)研究-全面剖析
- CLO2在天然氣凈化中的經(jīng)濟(jì)性分析-全面剖析
- 珠寶生產(chǎn)加工培訓(xùn)課件
- 熱盛傷津與糖尿病并發(fā)癥-全面剖析
- 大數(shù)據(jù)驅(qū)動的消費(fèi)者行為預(yù)測-第1篇-全面剖析
- 分布式系統(tǒng)容錯基準(zhǔn)-全面剖析
- 木板瓦施工方案
- 交易信任度構(gòu)建與用戶忠誠培養(yǎng)-全面剖析
- 校長在高考動員大會上講話:高考不是獨(dú)木橋人生處處有航道
- 觀賞魚國際貿(mào)易的可持續(xù)發(fā)展策略
- 2025年浙江紡織服裝職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫新版
- 《園林微景觀設(shè)計與制作》課件-項目四 微景觀展示
- 2025年河南省安陽市安陽縣九年級中考一模數(shù)學(xué)試題(原卷版+解析版)
- 2025年貴州省交通廳及公路局事業(yè)單位歷年高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 2024年河北省普通高中學(xué)業(yè)水平選擇性考試物理試題含答案
- 大班爬山安全
- 生態(tài)農(nóng)業(yè)面源污染治理-深度研究
- 新版《醫(yī)療器械經(jīng)營質(zhì)量管理規(guī)范》(2024)培訓(xùn)試題及答案
- 二零二五年度工業(yè)電機(jī)維修、安裝、調(diào)試全方位服務(wù)合同2篇
評論
0/150
提交評論