




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2023/9/231
ChinaAcademyofChineseMedicalSciences數據挖掘在中醫藥研究中的應用中醫藥信息研究所數據挖掘的相關概念數據挖掘在中醫藥領域中的應用內容課容內程2產生數據挖掘的產生3什么激發了數據挖掘?
——“數據爆炸”但“知識貧乏”4信息社會迅猛發展sz-數據激增-發現隱藏信息-利用數據-獲取知識-為我所用大型數據庫涌現數據庫技術發展用戶不滿足于數據庫的查詢功能統計學機器學習模式識別信息科學數據庫可視化數據挖掘
數據挖掘的出現是數據庫技術發展的必然借用挖掘金礦的名稱數據知識數據挖掘希望利用數據挖掘技術解決“數據豐富”與“知識貧乏”之間的矛盾2023/9/237數據挖掘的歷史1989年11屆國際人工智能研討會
首次提出了基于數據挖掘的知識發現
由美國人工智能協會主辦的知識發現國際研討會已經召開了8次,規模由原來的專題討論會發展到國際學術大會國內:1993年國家自然科學基金首次支持該領域的研究項目。目前,國內的許多科研單位和高等院校競相開展知識發現的基礎理論及其應用研究,2010年國家自然基金資助數據挖掘研究66項目數據挖掘項目西醫:基于多模式序列超聲圖像識別系統診斷乳腺癌的方法學研究——田家瑋,哈爾濱醫科大學中醫:應用數據挖掘技術研究中醫藥治療再生障礙性貧血的組方規律——向陽,中國人民解放軍第210醫院基于智能計算的中醫方劑基礎治法模型的構建——任廷革,北京中醫藥大學基于數據挖掘的針灸法效應特異性基本規律及特點的研究——賈春生,河北醫科大學中藥新藥有效核心處方發現的隨機對照忙發設計方法研究——何麗云,中國中醫科學院中醫臨床基礎醫學研究所2023/9/2382023/9/239數據挖掘的概念數據挖掘:DataMining.
數據中發現有效的、新穎的、潛在有用的,并且最終可以被讀懂的模式的過程模式,即pattern。其實就是解決某一類問題的方法論。即把解決某類問題的方法總結歸納到理論高度,那就是模式。例如:比如:孫子說“至死地而后生”是戰爭模式三十六計“走為上”、“空城計”也是戰爭模式。2023/9/2310數據挖掘與其他概念數據挖掘和知識發現(KDDKNOWLEDGEDISCOVERYINDATABASE)有人認為是一樣的只是不同領域稱呼不同數據挖掘是知識發現的過程的一部分數據挖掘與數據分析數據挖掘是一個動態過程,能夠比數據分析更智能地使用數據倉庫數據挖掘與統計學統計學推斷是假設驅動的,即形成假設并在數據上驗證它。而數據挖掘是發現驅動的,即自動地從數據中提取模式和假定數據挖掘的數量常常很巨大
面臨的常常是大型數據庫,而且常常為其他目的而收集好的數據。
發現隱含的知識數據挖掘工作者不愿把先驗知識預先嵌入算法,是在沒有前提假設的情況下,從事信息的挖掘與知識的提取。2023/9/2311數據挖掘的特點關聯分析分類聚類分析……介紹上述功能的一些具體計算方法。2023/9/2312數據挖掘的基本功能關聯分析associationanalysis關聯分析是發現關聯規則。兩個或兩個以上變量的取值之間存在某種規律性,就稱為關聯。關聯分析的挖掘過程就是發現大量數據中項集之間有趣的關聯或相關聯系。
2023/9/2314請NCR公司構建數據倉庫記錄銷售數據——每一位顧客哪一天在哪一家連鎖店購買了哪些商品啤酒與尿布2023/9/2315購物籃分析:即分析哪些商品最有希望被顧客一起購買。每逢周末與尿布一起購買最多的商品是16——啤酒!原因:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。舉例:沃爾瑪:通過關聯分析這一數據挖掘方法,發現“啤酒”及“尿布”兩件物品總是一起被購買。此結果蘊含著巨大的商業價值:兩件商品間隔最遠兩件商品放在一起啤酒尿布如何完成?通過支持度和置信度高低來衡量關聯的強度。什么是支持度?如何計算?什么是置信度?如何計算?沃爾瑪超市為范例顧客買東西很多,有很多購買收據記錄。收據1:啤酒、面包、方便面、鹽、收據2:陳皮、可樂、米、面包、鹽收據3:面包、被子、枕頭、收據4:椅子、筆記本收據5:可樂、椅子、枕頭、面包收據6:面包、筆記本……收據1:啤酒、面包、方便面、鹽、
收據2:陳皮、可樂、米、面包、鹽
收據3:面包、被子、枕頭、
收據4:椅子、筆記本
收據5:可樂、椅子、枕頭、面包
收據6:面包、筆記本
支持度(support)計算公式A商品和B商品共同出現在一個收據次數——————————————————————總次數
2
SUPPORT(面包、枕頭)=——————=33.33%
6收據1:啤酒、面包、方便面、鹽、
收據2:陳皮、可樂、米、面包、鹽
收據3:面包、被子、枕頭、
收據4:椅子、筆記本
收據5:可樂、椅子、枕頭、面包
收據6:面包、筆記本
置信度(confidencet:A→B)=A商品和B商品共同出現在一個收據次數——————————————————————A商品出現次數
2SUPPORT(枕頭→面包)=—————=40%52023/9/2322置信度(congfidence:B→A)=A商品和B商品共同出現在一個收據次數——————————————————————B商品出現次數收據1:啤酒、面包、方便面、鹽、
收據2:陳皮、可樂、米、面包、鹽
收據3:面包、被子、枕頭、
收據4:椅子、筆記本
收據5:可樂、椅子、枕頭、面包
收據6:面包、筆記本
2SUPPORT(面包→枕頭)=—————=100%2頻繁子集篩選-------獲得挖掘結果置信度支持度商品1,商品290%80%商品1,商品370%40%商品4,商品580%89%商品6,商品840%50%商品7,商品930%20%…….有意義無意義關聯分析特點可以從大量數據中發現有趣的關聯2023/9/2324聚類分析clustering將異質總體分成為同質性的類別根據數據自動產生各個類別例如:作者群的自動聚類。2023/9/2325聚類如何實現:從復雜數據中提取簡單的分組結構26根據采集的與性別相關特征信息:衣著,頭發等自動聚成若干類2023/9/23272023/9/23相似度聚類,是把最相似的數據聚結在一起形成類別。通常最常用的計算方式就是“歐式距離”歐式距離表示多維空間的幾何距離:例如:2023/9/2328A人物像B人物像裙子10頭發41衣著鮮艷10歐式距離計算2023/9/2329裙子x頭發x衣著鮮艷zA人物像B人物像裙子10頭發41衣著鮮艷10歐式距離歐式距離計算----完成相似度度量公式:DISTANCE(A,B)===3.31注意的是最相近的值(一樣)一定是02023/9/2330A人物像B人物像裙子10頭發41衣著鮮艷10計算相似度后如何聚類?2023/9/23312023/9/23計算相似度后如何聚類?
(自下而上的層次聚類法)有了具體相似度量后,每兩個對象之間都形成一個相似度值。4*4的矩陣2023/9/233201011205340先把最相近的聚類到一起變成一簇和其他對象再進行相似度計算在數學上,矩陣是指縱橫排列的二維數據表格。matrix兩個合并在一起的簇怎么和其他對象比較?3*3的矩陣有很多計算方法:介紹單連接:D(c1,c2)=Min{d(o,O)}D(,)=Min{d(,
),d(,)}=22023/9/23330?0?40010112053402112023/9/2334有很多規定定義這種計算。單連接——取最近值完全連接——取最遠值。。。。020340聚類完成2023/9/2335030聚類分析特點是物以類聚的一種統計分析方法。用于對事物類別的面貌尚不清楚,甚至在事前連總共有幾類都不能確定的情況下進行分類。在中醫藥中應用:一組某病人,利用聚類,聚集成幾類,推斷出該病常見證型有哪些?2023/9/2336分類Classification即為按照分析對象的屬性分門別類加以定義,建立類別。例如:銀行貸款用戶:分為高風險、中風險、低風險三類用戶。如有申請貸款者,根據所填寫信息,利用數據挖掘方法,劃分其是三類用戶中那一類。2023/9/2337主要介紹關于分類的兩種方法貝葉斯模型決策樹2023/9/2338貝葉斯模型14天打網球情況。14天不同天氣情況下打網球的情況分類目的:根據新的一天天氣,決定是否打網球2023/9/2339天氣溫度濕度有風yesNoyesNoyesnoyesno晴23熱22高34否62多云40溫暖42正常61是33雨32涼爽31打網球YESNO95實例:根據以往打網球的情況,看看根據新一天的天氣情況,能否打網球?目的:給出新一天的氣候:看看是否打網球?貝葉斯模型利用概率的方式計算:就是在天氣(晴)=YES,氣溫(涼爽)=YES,濕度(高)=YES,有風=YES的條件下:打網球是否為YES?2023/9/2340天氣氣溫濕度有風晴涼爽高是計算過程轉換14天打網球情況為概率表14天不同天氣情況下打網球的情況
2023/9/2341天氣溫度濕度有風打網球yesNoyesNoyesnoyesnoyesNo晴23熱22高34否6295多云40溫暖42正常61是33雨32涼爽31天氣溫度濕度有風打網球yesNoyesNoyesnoyesnoyesNo晴2/93/5熱2/92/5高3/94/5否6/92/59/145/14多云4/90溫暖4/92/5正常6/91/5是3/93/5雨3/92/5涼爽3/91/5天氣溫度濕度有風打網球yesNoyesNoyesnoyesnoyesNo晴2/93/5熱2/92/5高3/94/5否6/92/59/145/14多云4/90溫暖4/92/5正常6/91/5是3/93/5雨3/92/5涼爽3/91/5YES的概率(紅色)=2/9*3/9*3/9*3/9*9/14=0.0053NO的概率(綠色)=3/5*1/5*4/5*3/5*5/14=0.0206YES+NO=1,經過歸一化處理YES=20.5%,NO=79.5%2023/9/2342貝葉斯模型特點所有條件變量對于分類均是有用的先驗知識的正確和豐富和后驗知識的豐富和正確,能直接影響分類的準確性在中醫藥醫學中范例應用于專家系統診斷。根據癥狀,推斷出診斷。2023/9/2343決策樹決策樹(decisiontree)每個決策或事件都可能引出兩個或多個事件,導致不同的結果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹例:根據表格情況形成分類樹2023/9/2344性別年齡血壓藥物1男20正常A2女73正常B3男37高A4男33低B5女48高A……藥物B血壓年齡藥物A藥物B藥物A高正常低≤40>40如何解讀決策樹信息如果血壓高,則采用藥物A如果血壓低,則采用藥物B如果血壓正常并且年齡小于等于40,則采用藥物A,否則采用藥物B.2023/9/2345藥物B血壓年齡藥物A藥物B藥物A高正常低≤40>40產生疑問如何計算節點如何劃分?
為什么先血壓,后年齡?分裂變量的界限為什么以40歲為界限?2023/9/2346藥物B血壓年齡藥物A藥物B藥物A高正常低≤40>40介紹其中一個ID3算法計算決策樹14天打網球情況。14天不同天氣情況下打網球的情況分類目的:根據新的一天天氣,決定是否打網球2023/9/2347天氣溫度濕度有風yesNoyesNoyesnoyesno晴23熱22高34否62多云40溫暖42正常61是33雨32涼爽31打網球YESNO9514天具體打網球情況:序號天氣氣溫濕度有風打網球1晴熱高無NO2晴熱高有NO3多云熱高無YES4雨溫暖高無YES5雨涼爽正常無YES6雨涼爽正常有NO7多云涼爽正常有YES8晴溫暖高無NO9晴涼爽正常無YES10雨溫暖正常無YES11晴溫暖正常有YES12多云溫暖高有YES13多云熱正常無YES14雨溫暖高有NO48每一個因素形成一個決策樹分支天氣yesNo晴23多云40雨322023/9/2349基于天氣劃分決策樹天氣1:NO2:NO8:NO9:YES11:YES3:YES7:YES12:YES13:YES4:YES5:YES6:NO10:YES14:NO晴多云雨其他因素也形成了一個樹的分支2023/9/2350氣溫1:NO2:NO8:YES13:YES4:YES8:NO10:YES11:YES12:YES14:NO5:YES6:NO7:YES9:YES熱溫暖涼爽有風1:YES3:NO4:YES5:YES8:YES9:NO10:YES13:YES2:NO6:NO7:YES11:YES12YES14:NOfalsetrue濕度1:NO2:NO3:YES4:YES8:NO12:YES14:NO5:YES6:NO7:YES10:YES11:YES13:YES高正常如何把多個因素合并成一個大的決策樹?天氣、氣溫、濕度、有風這四個因素誰為起點分支?在何處分支?在何處停止?越確定的在分支,越不確定的在主干。否則到了樹的支端無法做決定。但如何計算它們的確定性和不確定性?2023/9/2351藥物B血壓年齡藥物A藥物B藥物A高正常低≤40>40如何把小的分支合并成一棵大的決策樹?首先介紹一下信息的一個計算方法:信息熵的定義:無序性度量。(不確定性)
對值的無序的情況做一個量化的測量。例:信息熵=0信息熵=0信息熵最大當都是yes或都是NO時無序性很差,不確定性很弱,信息熵最小0當yes和no一樣多時無序性很強,不確定性很強,信息熵最大2023/9/23521:NO2:NO8:NO13:NO1:YES2:YES8:YES13:YES1:NO2:NO8:YES13:YES利用熵的計算方法計算決策樹越到樹的主干,不確定性越大,熵越大,越到樹的分支,確定性越大,熵越小以便決定YES或NO2023/9/2353熵大熵小確定性越大不確定性越大Yes和no越平均Yes和no越一致信息熵的計算公式Info[C1,C2]=ENTROPY(P1,P2)=-P1*LOG2P1—P2*LOG2P2
C1,C2代表發生事件的不同數量P1=C1/(C1+C2)發生事件的不同概率以YES與NO為例解釋:C1,代表發生yes的次數,P1,代表發生YES的概率C2,代表發生NO的次數,P2,代表發生NO的概率
2023/9/2354函數名稱,就像SUM一樣。Info[C1,C2]=ENTROPY(P1,P2)
=-P1*LOG2P1—P2*LOG2P2
C1,代表發生yes的次數,P1,代表發生YES的概率
C2,代表發生NO的次數,P2,代表發生NO的概率
例如:在一個節點上yes是2,no是3P1=2/5P2=3/5Info([2,3])=-2/5*LOG2(2/5)-3/5*LOG2(3/5)=(-0.4)*(-1.32)+(-0.6)*(-0.74)=0.971位2023/9/2355天氣1:NO2:NO8:NO9:YES11:YES晴比特,又叫Bit,是計量單位以天氣為例進行信息熵計算天氣yesNo晴23多云40雨32合計952023/9/2356Info(晴)=Info([2,3])=0.971位Info(多云)=Info([4,0])=0.0位Info(雨)=Info([3,2])=0.971位還是不能確定誰是主干:觀點就是天氣、氣溫、濕度、有風,誰建立了分支之后,信息的不確定性消除得越多,就當做主干。也就是看看以誰當主干,很快就達到了分支,很快信息就變得確定了。計算天氣下面建立分支后不確定性Gain(天氣)=info(天氣合計)-info(晴,多云,雨)=info([9,5])-info([2,3],[4,0],[3,2])=info([9,5])-(info([2,3]+info([4,0]+info([3,2])=0.2472023/9/2357天氣yesNo晴23多云40雨32合計95不確定性消除的值有一個名詞表示:信息增益gain平均信息值同理計算出其他三個因素下面建立分支后,信息不確定性消除了多少Gain(天氣)=0.247位Gain(氣溫)=0.029位Gain(濕度)=0.152位Gain(有風)=0.048位2023/9/2358選擇不確定性消除最大的作為第一級主分支天氣已經作為第一個主干了,那么下面該接著誰作為下一級主干?2023/9/23591:NO2:NO8:NO9:YES11:YES3:YES7:YES12:YES13:YES4:YES5:YES6:NO10:YES14:NO氣溫?濕度?有風?直接做決定需要參考其他因素需要參考其他因素14天具體打網球情況:序號天氣氣溫濕度有風打網球1晴熱高無NO2晴熱高有NO3多云熱高無YES4雨溫暖高無YES5雨涼爽正常無YES6雨涼爽正常有NO7多云涼爽正常有YES8晴溫暖高無NO9晴涼爽正常無YES10雨溫暖正常無YES11晴溫暖正常有YES12多云溫暖高有YES13多云熱正常無YES14雨溫暖高有NO60以天氣晴下面建立分支為例:以信息完全確定作為分支的結束2023/9/23612023/9/23611:NO2:NO8:NO9:YES11:YES氣溫1:no2:no8:no9:yes11:yes熱溫暖涼爽序號天氣氣溫打網球1晴熱NO2晴熱NO8晴溫暖NO9晴涼爽YES11晴溫暖YES以天氣晴下面建立分支為例:以信息完全確定作為分支的結束6262濕度1:no2:no8:no9:yes11:yes序號天氣濕度打網球1晴高NO2晴高NO8晴高NO9晴正常YES11晴正常YES高正常2023/9/2363序號天氣有風打網球1晴無NO2晴有NO8晴無NO9晴無YES11晴有YES有風1:no8:no9:yes2:no11:yes無有以天氣晴下面建立分支為例:以信息完全確定作為分支的結束2023/9/23642023/9/23641:NO2:NO8:NO9:YES11:YES氣溫濕度有風1:no2:no8:no9:yes11:yes1:no2:no8:no9:yes11:yes1:no8:no9:yes2:no11:yes2023/9/23651:NO2:NO8:NO9:YES11:YES3:YES7:YES12:YES13:YES4:YES5:YES6:NO10:YES14:NO1:no2:no8:no9:yes11:yes4:yes5:yes10:yes6:no14:no最終的決策樹結果人性化2023/9/2366決策樹的特點決策樹一般都是自上而下的來生成的。可以完成分類任務,而且因為是樹狀結構,比較容易被使用者理解。2023/9/2367第一步驟選擇第三步驟挖掘第二步驟處理第四步驟分析2023/9/2368數據挖掘步驟目標數據預處理及變換變換后的數據數據挖掘算法解釋/評估68清理篩選知識第一步驟:選擇收集數據
就是進行原始需要被挖掘的數據采集。例如:做肺癌處方的數據挖掘,要采集肺癌處方的信息,或原有的患者信息中導出,形成數據子集。原始數據的采集非常費時費力,通常在費用中占相當大的比重。可以采用較小規模的數據對問題的可行性進行初步研究。2023/9/2369第二步驟:處理數據預處理部分,把數據轉換成比較容易被數據挖掘的格式及內容。內容處理:年齡
六十歲60
有個還分組:老年、青年、等格式處理:年齡
出生日期1950年轉成61。
2023/9/2370第三步驟:挖掘運用工具和算法,進行挖掘,完成分類、關聯、聚類、估計、預測等功能,發現數據中的規律。例如:關聯分析中常用apriori算法,算法就是一種計算方法,例如:計算一個班上有多少人:可以用加法或乘法。加法和乘法就是算法。2023/9/2371第四步驟分析例如:預測信用卡欺詐行為。
通過算法分析信用卡用戶的購買習慣,根據結果認識客戶的模式,并分辨出偏離模式的信息卡盜用行為。2023/9/2372概念數據挖掘在中醫藥領域中應用73二、關聯分析在中醫領域應用情況
中醫領域及計算機領域均有深入研究中醫計算機中國中醫科學院南京中醫藥大學湖南中醫藥大學福建中醫學院北京中醫藥大學浙江大學計算機科學與技術學院廈門大學山西醫科大學山東師范大學南京理工大學南方醫科大學江蘇大學河南大學合肥工業大學哈爾濱工程大學廣東工業大學東北大學北京交通大學北京工業大學近3年的學位論文中醫癥狀病機實體識別及其關系挖掘研究絕經綜合征中醫藥臨床療效評價方法的數據挖掘研究中醫診療中挖掘算法的方法研究基于智能算法的醫學數據挖掘——特征權重優化方法研究及其應用中醫醫案數據挖掘技術研究基于數據挖掘技術的證素辨證方法研究中醫小兒肺炎療效評價系統的設計與實現基于數據挖掘對急性冠脈綜合征辨證論治規律的探索性研究中醫小兒肺炎辯證標準數據挖掘系統中的數據預處理技術基于數據挖掘的周仲瑛教授治療系統性紅斑狼瘡病案回顧性研究中醫臨床診療垂直搜索系統研究基于數據挖掘的中醫臟腑辨證系統研究中醫活血化瘀方數據庫及其數據挖掘基于數據挖掘的中醫方劑分析技術研究中醫婦科常見病醫案數據挖掘方法研究基于粒計算與完全圖的關聯規則算法研究中藥歸經(肺經)理論和肺系方劑配伍規律的解析及在海洋中藥研發中的應用基于聚類和BP網絡集成的中醫耳穴智能診斷儀研究應用信息技術探索我國高等中醫藥院校學術及科研發展趨勢基于分類關聯規則的仲景方挖掘研究田從豁教授治療痹證、癮疹、不寐的經驗挖掘分析基于貝葉斯網絡的中醫醫案數據挖掘特征選擇在中醫數據挖掘中的應用研究基于SVM與關聯規則中醫舌象數據挖掘技術初步研究數據挖掘中分類分析的策略研究及其生物醫學應用基于HMM的中醫臨床療效評價分析研究數據挖掘在中醫若干問題研究中的應用關聯規則挖掘在中醫辨證診斷中的應用研究數據挖掘模型的創建及其在中醫藥文獻中的應用研究關聯規則算法研究及其在中醫藥數據挖掘中的應用數據挖掘及其在中醫藥領域中的應用關聯分析在中醫數據挖掘中的應用研究脾虛證診斷信息數據挖掘的初步探討惡性腫瘤與脾虛證相關性數據挖掘的初步探討明清中醫疫病發病、癥狀與用藥相關性數據挖掘研究多路異質聚類在中醫臨床數據中的應用及其研究名老中醫經驗傳承中的數據挖掘技術研究粗糙集合屬性約簡方法研究與實現面向中醫胃病診療的數據挖掘技術SVM算法研究及其在中醫臟腑辨證中的應用慢性胃炎中醫診療中的數據挖掘研究DartSpora數據挖掘平臺的構建呂仁和教授治療糖尿病學術思想及其傳承方法的研究可擴展智能推理及其在中醫舌診中的應用絕經綜合征中醫證治規律的數據挖掘模型與系統架構設計
原始數據規范不足
挖掘領域局限性
結果評價不充分
存在問題研究目的:豐富婦科的臨床用藥理論探索:中藥與中藥之間癥狀與癥狀之間證型與證型之間中藥與癥狀之間中藥與證型之間癥狀與證型之間三、數據挖掘在中醫婦科醫案中的應用關系收集符合要求的醫案第一步數據采集第二步數據預處理第三步數據挖掘第四步結果評價分析把收集的婦科醫案數據統一★★★把統一好的數據進行數據挖掘把挖掘結果作一個綜合分析★★★研究流程
醫案采集病種選擇醫家選擇醫案時間醫案內容第一步:數據采集參考94中醫藥行業標準:確定婦科常見疾病共有14個通過檢索中醫藥信息研究所的中國中醫藥期刊文獻數據庫檢出這些疾病的期刊文章發表情況病種選擇
病種選擇選擇了前4個發表文獻數最多的病種,在醫案實際記錄中,有的病名很模糊,故醫案中信息診斷參考了國家中醫藥管理局1994年頒布了《中華人民共和國中醫藥行業標準-中醫病癥診斷療效標準》
醫案總況病種選擇醫家選擇醫案時間醫案內容痛經崩漏不孕閉經經驗豐富的醫師醫案出版時間1972-2005醫案就診時間1951-2003中醫診斷中藥處方證型癥狀采集醫案情況處方,癥狀,證候原文采集涉及醫案共2138例崩漏664例閉經408例不孕631例痛經435例期刊中醫案848例,專著中醫案1290例涉及醫家476位數據采集內容圍繞數據挖掘目的:尋找證-癥-藥關系。采集4種疾病醫案中證-癥-藥信息崩漏閉經不孕痛經證型癥狀處方中藥組成確定一些納入排出標準例如:在本課題收錄的醫案中,治療方法都是單純的中草藥內服治療。凡含有中成藥、針灸治療、外用治療、西藥治療、手術治療的醫案均被排除在外。這里特別要說明的是中成藥治療不予收錄。辨證必須含有病性和病位內容。一些醫案的辨證部分只含有病位如“肝脾為病”或只含有病性“虛”或“實”不予收錄。癥狀除主癥之外必須有兩個以上癥狀描述,采集醫案樣例1陳某43歲1976,12,14月經過多來則如崩,已十余年,血色鮮紅,夾有大血塊.無腹痛.頭面洪熱,此次經期將臨,舌胖,苔薄白,脈沉細氣血兩虧,沖任損傷黨參12g黃芪12g白術9g生貫眾30g花蕊石30g益母草9g升麻6g槐花12g生甘草4.5g炙甘草4.5g側柏葉30g山藥15川斷12g鉤藤12g崩漏沈仲理《近現代二十五位中醫名家婦科經驗》242頁癥狀\證型\中藥名稱都需要規范處理預處理內容總則盡量貼近臨床盡量忠于原意,不失或少失原意。中藥證型癥狀
數據預處理中藥部分
預處理名稱預處理冬術白術正異名的處理中藥正異名標準表正名是唯一的異名是唯一的紫背金盤草白毛夏枯草翻背白草管仲天水蟻草地膏藥毛大丁草根白葉不翻鹿茸草秋牡丹根根委陵菜翻白草白牛膽正異正異正異正異野丈人胡王使者白頭公《中華本草》中的正異名循環現象建表方式白頭翁……醫案中原文規范后木蔓頭→木饅頭青篙→青蒿肉從蓉→肉蓯蓉桑葚→桑椹…………錯別字省略字醫案原文中名稱規范后名稱龍牡→龍骨,牡蠣赤白芍→赤芍,白芍藿荷梗→藿梗,荷梗蒼白術→蒼術,白術…………凈制、切制對于藥物性味歸經改變很小,,就是凡見中藥名稱中含有“片”、“末”、“粉”、“鮮”、“嫩”、“凈”等凈制、切制方法的標志用詞,予以去除。例如:醫案處方中見“佛手片”,直接去除“片”字,被規范成“佛手”。炮制預處理凈制、切制凈制、切制、炮炙三種炮制方法中的炮炙法,對中藥的性味歸經等有很大影響,中藥這部分的炮炙方法給予保留在中藥炮制參考書籍中,每味藥的炮制內容中有這樣一個欄目——[處方應付],用以指導藥劑師處理臨床醫師的處方[36]。例如:大黃的[處方應付]:處方中寫大黃、川軍、生軍均付生大黃。寫酒大黃、酒軍付酒炒大黃,寫熟大黃、制大黃付熟大黃,其余各隨方付給。參考上述的中藥[處方應付],熟大黃、制大黃都合并為熟大黃。炮炙編號規范后名稱頻數原始中藥名稱101400白茅根《藥典》15白茅根《藥典》茅根《別冊》生白茅根《切》101600白術《藥典》642白術《藥典》土白術《別冊》冬術《別冊》土炒白術《切》炒白術《切》土白術《切》漂白術《切》曬白術《切》101601白術(焦)8焦白術焦冬術101602白術(生)18生白術101603白術(炭)2白術炭101604白術(煨)1煨白術101605白術(制)1制白術中藥規范表(部分)從結構上規范,把證型名稱規范成統一結構的主謂詞組,主語部分是病位,謂語部分是病性。結構主+謂??血+瘀證型部分預處理復合證型,涉及兩個臟器的盡量拆分,例如肝腎陰虛,可以拆分成肝陰虛+腎陰虛,如果難以拆分的,如肝脾不和,則保留原狀。內容復合證型沖任沖任失調的辨證幾乎出現在所有醫案中,成為一個非常強的干擾項,故把沖任失調的辨證去除對規范后的證型的選詞,一方面參考了《中國中醫藥學主題詞表》、《中醫診斷學》、《中華人民共和國中醫藥行業標準-中醫病證診斷療效標準》等專業書籍;另一方面把需要規范成同一證型的用詞作了頻數統計,選用了一個使用頻次最高的詞作為規范后證型。選詞頻次高證型標注表(部分)編號規范后證型詞頻次證型詞原文(后綴數字為醫案中出現的頻次)300905血瘀591血瘀349瘀血85血淤19血滯30血行不暢15血凝12氣血瘀滯10氣血運行不暢10血行瘀滯6氣血郁滯5氣血阻滯5氣血壅滯5血澀4血結4氣血澀滯3煉血成瘀3氣血凝滯3血阻3干血2氣血不暢2氣血瘀阻2血行不通2血結成瘀化熱1血行瘀阻1血行受阻1痰血互結1氣血奎滯1血滯不暢1血分有寒夾瘀1寒凝血泣著而成瘀1氣礙血行1血不得行1血運不暢1血有郁熱1結構主+謂??腹+痛副詞選詞頻次高癥狀部分預處理稍略微結構副詞選詞頻次高略微癥狀描述詳細程度不同同一個腹痛,有的僅寫腹痛,有的寫腹刺痛,有的寫小腹痛,有的寫小腹刺痛,用詞上深淺各不相同。需要對癥狀進行特殊處理,才能粗細概念均保留。癥狀部分用詞拆分下腹微刺痛醫案原文拆分下腹微刺痛下腹微刺痛下刺微腹微刺痛規范后腹痛下腹痛腹刺痛刺痛下腹刺痛規范后癥狀標注表(部分)編號規范后癥狀頻次醫案中原文癥狀用詞及使用頻次201105體瘦289體瘦93
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 客戶購房合同管理制度
- 壓鑄加工安全管理制度
- 切實可行的2025年行政組織理論試題及答案
- 危險作業日常管理制度
- 展廳工地現場管理制度
- 吉林大學本科管理制度
- 大廳疫情防控管理制度
- 婦產醫院分娩管理制度
- 行政組織的透明治理與網絡時代探討試題及答案
- 廠區草坪綠化管理制度
- 細胞培養技術的基礎試題及答案
- 2025年江蘇省蘇州市中考一模道德與法治試題(含答案)
- 直播分成合同協議
- 下肢深靜脈血栓的預防和護理新進展
- 國際壓力性損傷-潰瘍預防和治療臨床指南(2025年版)解讀
- 重慶市機動車維修工時定額標準
- 數字經濟下的稅收政策調整-全面剖析
- 新能源汽車傳動系統高端智能設備研發和生產項目環評資料環境影響
- 湖北省2024年本科普通批錄取院校(首選歷史)平行志愿投檔線
- GB/T 10810.1-2025眼鏡鏡片第1部分:單焦和多焦
- 鋁錠生產工藝流程
評論
0/150
提交評論