分子拓撲指數(shù)介紹課件_第1頁
分子拓撲指數(shù)介紹課件_第2頁
分子拓撲指數(shù)介紹課件_第3頁
分子拓撲指數(shù)介紹課件_第4頁
分子拓撲指數(shù)介紹課件_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、許祿中國科學(xué)院長春應(yīng)用化學(xué)研究所分子拓撲指數(shù)的介紹第1頁,共73頁。一. 圖論和化學(xué)圖圖論為數(shù)學(xué)中的一個分支,它與拓撲學(xué)和組合數(shù)學(xué)密切相關(guān)。圖論在化學(xué)中的應(yīng)用可粗略地歸為兩類:(1)結(jié)構(gòu)圖,即分子圖;(2)反應(yīng)圖圖論 結(jié)構(gòu)圖 反應(yīng)圖點 原子 化學(xué)試樣線 化學(xué)鍵 化學(xué)反應(yīng)路徑(path) 化學(xué)子結(jié)構(gòu) 反應(yīng)序列環(huán)圖 環(huán)狀化合物 度 原子價態(tài) 樹 非環(huán)結(jié)構(gòu) 第2頁,共73頁。二. 拓撲指數(shù)的基本概念 1. 拓撲指數(shù)的定義 拓撲指數(shù)是一種數(shù)學(xué)的量,這種數(shù)學(xué)的量是圖的不變量,它不隨圖中點的編序的改變而改變。準(zhǔn)確些,應(yīng)該稱為圖 論指數(shù),但習(xí)慣上常稱為拓撲指數(shù)。由分子圖所衍生的拓撲指數(shù)稱為分子拓撲指數(shù)。 2

2、. 對一個新拓撲指數(shù)的要求 (1)具有好的選擇性,即,由不同的結(jié)構(gòu)所衍生的拓撲 指數(shù)是不一樣的; (2)具有高的相關(guān)性,即,將之用于化合物性質(zhì)的預(yù)測,應(yīng)能得到好的數(shù)學(xué)模型。第3頁,共73頁。3. 拓撲指數(shù)的優(yōu)點和不足(1)優(yōu)點 易于獲得 如:分子中碳原子的個數(shù),N;分子中單原子的個數(shù),B1;分子 中雙鍵的個數(shù),B2;分子中環(huán)的個數(shù),C; 通常能夠得到好的數(shù)學(xué)模型第4頁,共73頁。如:y: 正烷烴分子的沸點;x:分子中碳原子的數(shù)目第5頁,共73頁。(2)拓撲指數(shù)的不足 它主要表征的是“圖”,即,拓撲指數(shù)由圖所衍生,因而,有時物理意義欠明確。 但是,我們的目的是對未知化合物進行預(yù)測,而拓撲指數(shù)常能

3、得到好的結(jié)果,所以,迄今為止,在化合物結(jié)構(gòu)性質(zhì)/活性相關(guān)性(QSPR/QSAR)研究中,拓撲指數(shù)是應(yīng)用最為廣泛的一類參數(shù)。第6頁,共73頁。三. 拓撲指數(shù)的計算步驟(1)分子的化學(xué)圖表示(2)從化學(xué)圖得到分子的矩陣表示(3)對矩陣實施數(shù)學(xué)運算第7頁,共73頁。例子:世界上第一個拓撲指數(shù),Wiener指數(shù),W(1947) 第8頁,共73頁。四. 幾個拓撲指數(shù)的介紹1. Randic 分子連接性指數(shù)(Connectivity index)(1)分子支化度指數(shù) 此化合物的C-C鍵為:(1,4), (1,4), (1,4), (4,2), (2,1)由此第9頁,共73頁。(2)ID指數(shù) 同時考慮通道數(shù)

4、和支化度兩個因素,以期更好地表征分子的特點。第10頁,共73頁。第11頁,共73頁。第12頁,共73頁。第13頁,共73頁。(3)分子連接性指數(shù) 由Kier和 Hall將支化度指數(shù)Con進行擴展,用希臘字母表示。在的計算中,將化合物的結(jié)構(gòu)劈裂成如下結(jié)構(gòu): 在圖論中,稱:(a)通道(路徑)(2階);(b)簇(3階);(c)通道/簇(4階);(d)鏈(5階)。其分子連接性指數(shù)分別表示為: 2p, 3c , 4pc, 5ch第14頁,共73頁。分子連接性指數(shù)的通式:其中,m 為階; t 為p, c, pc, ch; v為分子中原子的價態(tài)第15頁,共73頁。不同雜化狀態(tài)的一些原子的值示于下表:第16頁

5、,共73頁。例1:第17頁,共73頁。例2:第18頁,共73頁。例3:第19頁,共73頁。2. 拓撲指數(shù)Am第20頁,共73頁。如2甲基戊烷第21頁,共73頁。 將A, B, C矩陣分別擴展兩列:列1:原子支化 度開平方;列2:原子的 van der Waals 半徑開平方第22頁,共73頁。令Z1 = G1xG1; Z2 = G2xG2; Z3 = G3xG3第23頁,共73頁。拓撲指數(shù)定義為:其中,max1, max2, max3分別為Z1, Z2, Z3最大本征值。對于上述化合物: max110.455, max214.5953 max314.8237第24頁,共73頁。第25頁,共73

6、頁。五. 應(yīng)用舉例1. 化合物試樣集硝基苯類化合物第26頁,共73頁。 35 nitrobenzenes and their toxic activities第27頁,共73頁。2. 參數(shù)的計算 分子連接性指數(shù)mxt: 0 xp,1xp,2xp,3xp,4xp,5xp,6xp,3xch,6xch,3xc,4xc,5xc,6xc,4xpc, 5xpc,6xpc, 共計16個 Am指數(shù):Am1, Am2, Am3, 共計3個 -Ehomo, -Elumo, 偶極矩, 分子生成熱Hform及離子化能 Eip, 共計5個 指示變量綜合如上4類, 本工作中對于每一化合物所計算的參數(shù)共計25個. 第28頁

7、,共73頁。3. 變量的選擇Leaps and Bounds 回歸分析結(jié)果No.VariablesRF1130.8912227,130.917239,12,130.925941,9,12,130.934851,5,9,12,130.944461,5,9,10,12,130.943671,2,5,7,9,10,130.953281,2,5,6,7,9,10,130.953091,2,3,5,6,7,9,10,130.9525第29頁,共73頁。 4. 結(jié)果及討論 (1) 回歸分析結(jié)果樣本容量為N;變量數(shù)為M, 經(jīng)驗規(guī)則: N/M5. 因為N=35, 變量最多可選7個 -logLC50 = -0.

8、3017+0.1278*2xp- 0.04654*3xp+0.04619*3xc+0.04592*Am1 -0.2958*Ehomo+0.1164*Elumo+0.4237*I R=0.95, F=32, S=0.25, N=35 其中, R為相關(guān)系數(shù), F為顯著性檢驗, S為標(biāo)準(zhǔn)偏差, N為該類化合物數(shù)目(樣本容量).第30頁,共73頁。(2)人工神經(jīng)網(wǎng)絡(luò)法 算法:BFGS (Broyden-Fletcher-Goldfarb-Shanno)贗- Newton法 網(wǎng)絡(luò)結(jié)構(gòu):7:3:1 測試集:30 預(yù)測集:5 結(jié)果:R0.993;S=0.092;F=2188;N=35 第31頁,共73頁。六

9、. Methods for variable selection Classical methods a) Forward selection b) Backward elimination c) Stepwise regression Leaps-and-bounds regression Orthogonal descriptors Genetic algorithm第32頁,共73頁。 Since the three classical methods are known well and many papers on genetic algorithm have been publis

10、hed, thus, next I would want to only introduce the two methods as above mentioned: Leaps-and-bounds regression Orthogonal descriptors第33頁,共73頁。1. Leaps-and-bounds regression This method is based on the fundamental inequality,RSS (A) RSS (Ai) RSS: residual sum of squares; A: any set of independent va

11、riables; Ai: a subset of A. e.g.: set A1 contains 3 variables; RSS=596; set A2 contains 4 variables; RSS=605. Thus, all the subsets of A2 will be ignored, because of these subsets with RSS greater than that for A2, and also for A1.第34頁,共73頁。2. Orthogonal algorithm (cf. M. Randic, New J. Chem., 15(19

12、91)517) (Gram-Schmidt 正交法)若變量集X有N個變量按一定規(guī)則排序后為X1, X2, XN, 第一步, 取X1為第一個正交基1, 使X2, XN和X1正交. 以X2為例, 用X1作自變量, X2為因變量進行一元回歸, 得X21=X2 (實際值) X2(計算值), 和X2一樣由其它變量得到Xi1. 第二步, 取X21為正交基2, 使其它變量Xi1和2正交. 重復(fù)如上過程直到得到N個正交變量1, 2,N. 由于變量相互間彼此正交, 因而, 各變量作用可以單獨測試, 而不受其它變量的影響, 只要對正交變量1, 2,N和因變量Y進行一元回歸計算出回歸系數(shù)Ri, 即可以計算出它們之間

13、相互組合后的回歸系數(shù)R, 公式如下: 式中Ri 為正交化的變量i與性質(zhì)間的相關(guān)系數(shù)。即,首先將原變量正交化,并按與性質(zhì)相關(guān)系數(shù)大小排序,然后,很易于進行最優(yōu)變量子集的組合。第35頁,共73頁。We have data x1, x2, x3 and x4 (the raw data are not given here in detail). The following are the results of regressions. On the up half, the regressions are performed with x1, x2, x3 and x4. On the down

14、half, the regressions are performed with the orthogonal variables 1 , 2, 3, 4.-Coefficients of regression equations- x1 x2 x3 x4 constant 17.9661 40.4349 6.2334 -3.4705 6.4615 28.6314 3.0516 1.8745 -85.3786 22.0204 0.9347 1.0786 -0.5609 -57.1671 1 2 3 4 constant 17.9661 40.4349 17.9661 -3.4705 40.43

15、49 17.9661 -3.4705 1.8745 40.4349 17.9661 -3.4705 1.8745 -0.5609 40.4349- -第36頁,共73頁。 Once the descriptors are orthogonalized (as m ) variable selection will be very simple, because we have the following form: Therefore, it is easy to select variables (m ) based on the ordered m . (cf. B. Lucic et a

16、l., J. Chem. Inf. Comput. Sci., 39(1999)610)第37頁,共73頁。3. 比較實例 (1) 化合物試樣集硝基苯類化合物第38頁,共73頁。 35 nitrobenzenes and their toxic activities第39頁,共73頁。(2) Calculation of descriptors. Machine: Workstation Indigo2. Software: MOPAC : SYBYL version 6.1 Multiple statistical programs Quantum-chemical parameters:

17、7; Molecular connectivity indices mxt: 11; Topological indices Ami: 3 Indicative variable I: 1 Total: 22 Order (122): I, Hform, Ete, Eip, Er, -Ehomo, , - Elumo, 0 xp, 1xp, 2xp, 3xp, 4xp, 5xp, 6xp, 3xch, 5xc, 6xc, 4xpc, Am1, Am2, Am3.第40頁,共73頁。(3) Results and Discussion For saving space, we only give

18、 out 36 variable conmbinations. Results of variable selections_No.of vari. Method Variable R RMS _ 3 Forward selection 1, 2, 8 0.9098 0.316 Backward elimination 1, 10, 12 0.8895 0.348 Stepwise regression 1, 2, 8 0.9098 0.316 Genetic algorithm 1, 6, 21 0.9150 0.307 Leaps-and-bonds 1, 6, 21 0.9150 0.3

19、07 Orthogonal descriptor 1, 2, 20 0.9258 0.288 4 Forward selection 1,2,6,8 0.9126 0.312 Backward elimination 1,10,11,12 0.9164 0.305 Stepwise regression 1,2,6,21 0.9156 0.306 Genetic algorithm 1,10,11,17 0.9175 0.303 Leaps-and-bonds 1,10,11,17 0.9175 0.303 Orthogonal descriptor 1,2,20,13 0.9367 0.26

20、7 _第41頁,共73頁。 (Continued )_5 Forward selection 1,2,6,8,21 0.9156 0.301 Backward elimination 1,10,11,12,16 0.9188 0.301 Stepwise regression1) Genetic algorithm 1,5,12,17,19 0.9213 0.296 Leaps-and-bonds 1,5,12,17,19 0.9213 0.296 Orthogonal descriptor 1,2,20,13,8 0.9422 0.255 6 Forward selection 1,2,6,

21、7 8,21 0.9172 0.301 Backward elimination 1,10,11,12,16,20 0.9219 0.295 Stepwise regression 1,2,6,7,8,21 0.9172 0.301 Genetic algorithm 1,9,10,11,16,17 0.9279 0.284 Leaps-and-bonds 1,9,10,11,16,17 0.9279 0.284 Orthogonal descriptor 1,2,20,13,8,3 0.9470 0.245_第42頁,共73頁。 From above, we can see that: (1

22、) The results obtained by using three classical methods are very close; (2) Genetic algorithm achieves the same best combinations as leaps and bounds regression; (3) The best results obtained by using orthogonal descriptors. Next I would want to discuss these three points slightly in detail.第43頁,共73

23、頁。Result 1: _ The best one : orthogonal method Why ? The possible reason : the information contained in some descriptors is “condensed”._ Regression of molar refraction(MR) in heptanes against molecular connectivity indices mx. (cf.M.Randic, New J. Chem.,15(1991)517) 1x: R = 0.0241; 1: R = 0.0241; 2

24、x: R = 0.1635; 2: R = 0.9640; 1x + 2x: R = 0.9646; 1 + 2: R = 0.9646. “ purified 2x, 2, , is not duplicate by 1x.” M. Randic The information contained in 2x was “condensed”.第44頁,共73頁。 Number of variables Method of ordering R RMS_ 3 Based on Ri 0.9278 0.284 Forward selection 0.9256 0.288 Backward eli

25、mination 0.8896 0.348 4 Based on Ri 0.9373 0.265 Forward selection 0.9366 0.267 Backward elimination 0.9164 0.305 5 Based on Ri 0.9456 0.248 Forward selection 0.9420 0.256 Backward elimination 0.9301 0.280 6 Based on Ri 0.9538 0.230 Forward selection 0.9469 0.245 Backward elimination 0.9413 0.257 Bu

26、t orthogonal method is strongly based on the descriptor ordering for orthogonalisation.第45頁,共73頁。Result 2_ Genetic algorithm achieved the same combinations as the leaps-and-bounds regression. _ Genetic algorithm is as an optimization procedure to search a large space and to cope with local minima. B

27、ut this method is time consuming. Leaps-and-bounds has been used successfully for variable selection. Thus, genetic algorithm is an accepted procedure for variable selection. 第46頁,共73頁。Result 3_ The best subsets of descriptors obtained using three classical methods are not so good as the other metho

28、ds._ Forward selection(FS): once a variable has been entered into the model, it may not be removed. Backward elimination: once a variable has been deleted, it cannot be included again. Stepwise procedure is essential the FS, though the selected variable may be removed again. These may cause the resu

29、lts to close the sub-optimal solutions.第47頁,共73頁。 In addition, it should be pointed out that orthogonal method also depends on the structure of data set, i.e., the best results cannot be always obtained by using orthogonal descriptors.第48頁,共73頁。七. 幾個問題的討論 1. 關(guān)于相關(guān)性 對一個新拓撲指數(shù)的要求有兩點: (1)和化合物具有好的相關(guān)性 (2)對

30、于化合物具有好的選擇性 好的相關(guān)性不一定具有好的選擇性,如W指數(shù),它和化合物性質(zhì)的相關(guān)性通常較好,但選擇性較差;好的選擇性和化合物的性質(zhì)不一定好的相關(guān)性,如化合物在CAS的登錄號,其選擇性(唯一性)非常好,但和化合物的性質(zhì)不具有任何的相關(guān)性。 同時做到這兩點是比較困難的。第49頁,共73頁。 目前的拓撲指數(shù),以“無以數(shù)計”來說都不過分,但是,在構(gòu)效關(guān)系研究中,應(yīng)用最廣泛仍為分子連接性指數(shù)。此指數(shù)有如下特點: (1)根據(jù)需要,可以計算出不同“階”和子圖類型的一系 列參數(shù),這為構(gòu)造預(yù)測數(shù)學(xué)模型提供了良好的基礎(chǔ) t: (2)它易于被“改造”。在算法中,其關(guān)鍵環(huán)節(jié)是的取 值,改變的賦值方案,即可得到一

31、套新的參數(shù)。 (3)選擇性尚好第50頁,共73頁。 2. 關(guān)于選擇性 早年的時候人們作的比較多,其目的主要是試圖證明世界上所有的化合物是否可用一個數(shù)學(xué)的量來表征。 一般的做法是用飽和的鏈烷烴來進行驗證,因為鏈烷烴的異構(gòu)體易于窮舉。后來,人們發(fā)現(xiàn)提出高選擇性拓撲指數(shù)是一非常困難的事情,于是,其注意力主要放到了相關(guān)性方面。然而,近年來,我們卻取得了突破性進展。第51頁,共73頁。 目前世界上最好的拓撲指數(shù)BID (Balaban完成)可以唯 一地表征到含20個碳原子的鏈烷烴,其異構(gòu)體為366319個 BID的不足: 對含環(huán)體系適應(yīng)能力較差 不能用于含雜原子體系 我們的拓撲指數(shù)EAID 可以唯一地表

32、征含1-22個碳原子 的全部380多萬個異構(gòu)體(含23個碳以上的鏈烷烴尚未驗) 我們窮舉生成了一系列含8個原子的化合物共計40多萬個 異構(gòu)體,這些結(jié)構(gòu)含環(huán)且高度相似,但EAID均能很好區(qū)分 而不出現(xiàn)簡并。 進行高選擇性拓撲指數(shù)研究的基礎(chǔ)要有一個高效的“結(jié) 構(gòu)生成器”;結(jié)構(gòu)產(chǎn)生器是結(jié)構(gòu)解析專家系統(tǒng)的核心。 第52頁,共73頁。 結(jié)構(gòu)解析專家系統(tǒng) 實驗數(shù)據(jù)結(jié)構(gòu)片斷集結(jié)構(gòu)生成器結(jié)構(gòu)驗證結(jié)構(gòu)輸出約束 關(guān)鍵環(huán)節(jié) 結(jié)構(gòu)生成器 在結(jié)構(gòu)片斷 集基 的礎(chǔ)上 進行整體結(jié) (候選化合 物)對接 第53頁,共73頁。 對生成器的要求是: (1)窮舉性 如,含有20個碳原子的飽和鏈烷烴的異構(gòu)體為 366319。這些異構(gòu)體在生成中不能少一個。 (2)無冗余性 就是說,對于上述分子,它僅可生成366319個,不 能 多出一個 (3)高效性 非常重要: (i) 對于同一分子,異構(gòu)體數(shù)目非常龐大;(ii) 無效組合數(shù)量龐大, 如由2個CH3-, 18個-CH2-對接生成直 鏈二十烷烴, 由此可產(chǎn)生218!個無效組合。一般的機 器,由安裝到報廢也無法完成這樣的計算。第54頁,共73頁。要說明一個結(jié)構(gòu)產(chǎn)生器的窮舉性和非冗余性有兩種方法: 從數(shù)學(xué)上嚴(yán)格對其算法加以證明, 如著名的 DENDRAL系統(tǒng)就是如此 把一些分子式提交給結(jié)構(gòu)產(chǎn)生器進行窮舉生 成, 然后把其生成結(jié)果與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論