




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、LogP,LogD 對有機化合物的QSAR的研究摘要: 自從 20 世紀60 年代QSAR/QSP研究興起以來R, 人們研究有機化合物的脂水分配系數和溶解度的計算方法已經有近半個世紀.目前存在眾多方法用于計算有機化合物的脂水分配系數和溶解度.相對而言 , 脂水分配系數的計算方法更為成熟一些, 應用范圍更廣,效果也更好.關鍵詞:脂水分配系數; logP/logD; QSAR1. 基本概念1.1 脂水分配系數的定義有機化合物的脂水分配系數(P) 通常是指化合物在正辛醇和水兩相間的分配系數, 以其對數值來表示其大小,標記為其中 Coct 和 Cw分別為化合物在正辛醇和水兩相間達到平衡時的濃度 . l
2、ogP 在許多QSAR研究中都是用于衡量有機化合物疏水性的重要參數 . 當今各大制藥公司都已經將logP 列為活性化合物必測的標準參數之一. 通常 P 給出的是中性化合物在兩相間的分配系數. 對 于可電離的化合物, 情況則變得相當復雜, 這時使用分配率D(distributionrate) 來表示溶質在兩相間總的分配系數. 例如 , 對于可電離的溶質HA可有:. D 是與其中 HA, A- 分別代表溶質的中性狀態和離子狀態的濃度溶質的酸堿解離常數pKa 以及溶液的pH值相關的參數. 假設溶質HA是僅在水相電離的一元酸, 則有 :然而 , 如果溶質分子含有不止一個電離中心而且在正辛醇相中也是可以
3、電離的, 此時溶質在溶液中的存在形式就變得相當復雜像公式 (4) 這樣的簡單關系就已經不再成立. 對于含多個可電離基團的復雜溶質分子, D 的具體表達式可描述為:這里 表示溶質在溶液中的第i 種離子形式, 根據電離平衡關系,其在兩相間的濃度與溶液pH值以及可電離基團的pKa 都密切相關.1.2 、 QSAR研究的興起有機化合物的定量結構一活性相關(Quantitative Structure Activity Relationship) 最初是作為定量藥物設計的一個研究分支領域而發展起來的。早在 l9 世紀, 人們對化學結構有了初步口識后,就有人設法建立化合物的生物活性與結構的關系。后來發現,
4、當時歸納的所謂通用規則并不存在。到了20 世紀初,人們普遍認為化合物的生物效應主要取決于它們的物理性質,如溶解度、表面張力、分配系數等Hansch( 1962)和 Free Wilson( 1964) 運用統計方法并借助計算機建立起結構活性關系表達式標志著QSAR時代的開始,從此成為一個相當活躍的前沿領域。QSAR 之所以有如此令人振奮的發展,一方面是化學品評價的需要。據美國化學文摘(CA)統計,化學物質已達近千萬種而且已有約十萬種化學物質進入了人類環境。那么這些進入人類環境的化學物質中,哪些對環境中的生物和人類有危害,危害的程度如何怎樣控制和減少危害都需要對這些化學物質進行理化性質和生物活性
5、實驗。但是, 據估計僅每個化學物質的急性皮膚毒性、雙周吸入毒性和二年飲食毒性三個指標的測試費用即達2900 5000 萬美元。所以,要對所有化合物進行毒理學、生態學的全面測試,財力上不可能,人力上也無法傲到。必須找到一種行之有效的方法進行定量計算或近似估計,QSAR則可做到這一點。2. 現有主要的logP 計算方法簡介脂水分配系數的概念最早是由Hansch和 Fujita 提出的 , 同時他們也發展出了第一種logP 計算方法 . 隨后 Rekker等提出了第一種片段加合法模型. Broto 等進一步完善了Rekker 模型中的片段劃分策略 , 發展出第一種原子加合法模型. 一直以來研究者們對
6、改進和發展新的 logP 預測方法有著濃厚的興趣, 更多的 logP 預測模型相繼出現 , 方法的準確度也不斷提高. 現有的 logP 預測方法主要可以分成兩大類 : 片段加合法和基于描述符的方法.2.1 片段加合法在過去幾十年里, 許多基于片段加合法的logP 計算模型相繼被提出 , 有些還實現了商業化. 目前國際上比較流行的此類方法主要有:, 以及各種方法的基本信息總結于表 2 中 . 這些方法的主要區別在于片段劃分規則以及矯正項的設計 .2.1.1 CLOGPCLOGP 是由Hansch和 Leo最早發展起來的一種預測化合物logP的模型 , 也是目前應用最廣泛的logP 預測方法之一.
7、 在 CLOGP模型中最基本片段的貢獻值是由一些具有logP 精確實驗值的簡單化合物( 如甲烷等) 推導而來的. 然后其余片段的貢獻值在前面的基礎上由復雜化合物的logP 實驗數據推導而來. 最值得注意的是此方法在定義片段的規則中使用了 “孤立碳原子”的概念 . 這里一個孤立碳原子是指不與雜原子相連的碳原子, 或者與雜原子相連, 但是不是通過雙鍵或叁鍵相連的碳原子. 在較早期的CLOGP版本中使用了200種類型的片段和25 種矯正項 . 從最早被Chou和 Jurs 推廣應用到后來商業化的幾十年中, CLOGP在學術界以及工業界得到了廣泛的使用, 一直以來被作為有機化合物脂水分配系數計算方法的
8、標準.2.1.2 ACD/LogPACD/LogP 由 ACD/Labs公司研發, 也是目前最常用的計算有機化合物 logP 值的商業軟件之一.ACD/LogP 算法考慮基本原子類型、特征結構片段以及加入不同片段之間的相互作用矯正項.ACD/LogP所使用的片段分類規則與CLOGP有所不同, 定義的特征結構片段超過1200 個 . 分子內相互作用矯正項依據相互作用的末端基團類型及相互作用體系的片段長度和類別進行劃分, 包括超過2400 對基團的相互作用 . 以上每一項的貢獻值通過對ACD/Labs 內部數據庫(>18400個化合物 ) 的 logP 實驗值進行統計分析獲得.ACD/Log
9、P 的計算方法可用下述方程表示:其中 fi 表示提問分子第i 種片段的貢獻, Qj 表示提問分子第j 種特殊片段的貢獻, 和分別表示提問分子被k 個數目的脂肪類、乙烯基類和芳香類原子分隔的第i 種和第 j 種片段的相互作用矯正項貢獻值. ACD/LogP 的基本計算步驟如下: (1) 結構分割和計算f 值 , 缺失的片段使用原子加合法計算; (2) 計算 值 ,沒有相互作用的片段使用類似于Hammett 方程的方式計算; (3) 加合所有 f 和 值 . 目前 ACD/Labs還發展了計算可電離化合物logD值的功能 , 但是其具體算法未見公開報道.2.1.3 KOWWINKOWWIN 是由
10、Meylan 和 Howard發展的基于原子類型和特征片段加合法估算有機化合物logP 值的模型 . 模型中使用的13062個化合物的 logP 實驗數據中有9500個來自CLOGP方法所使用訓練集中較為可靠的數據. 這些數據劃分為一個訓練集, 包含 2473 個簡單的有機分子 ; 另一部分作為測試集, 包含 10589個簡單、 中等以及復雜的分子.在建立KOWWIN模型的過程中, 使用兩步多元線性回歸分析來給. 首先不考慮矯正項, 僅采用簡單化合物作為訓練集通過回歸分析得出每種特征片段的貢獻值. 其后再使用包含復雜化合物的訓練集, 在前一步結果的基礎上, 以僅由特征片段的貢獻值估算的logP
11、 值與實驗值的差值進行回歸分析, 得出每種矯正項的貢獻值.目前最新版本的KOWWI方法使用N150 種原子類型和特征片段以及 250 種矯正項 . 模型可表達為:其中分別是提問分子中第k 種原子或片段對logP 的貢獻值和數目 ; Fj, Nj 分別是提問分子中第j 種矯正項對logP 的貢獻值和出現次數 . 0.229 是多元線性回歸得出的常數. 最近 Meylan 等提出一 種 改 進 策 略 . 他 們 在KOWWIN方 法 中 應 用 了 “ experimentalvalueadjusted(EVA) ” 算法 , 其基本思想是: 對于提問分子, 可以使用一個 logP 實驗值已知的
12、類似物作為參考分子. 但是由于在他們的方法中參考分子必須由用戶自己指定, 使用起來很不方便.2.2 基于描述符的方法得出以下關系式:, 根據熱力學循環可以上式中代表溶質分子在兩相之間遷移的自由能變化 , 和 分別表示溶質在正辛醇相及水相中的溶劑化能.理論預測在溶液中的自由能變化相當難, 因此一般都是從形成這一過程的物理化學影響因素歸納出一些描述符來經驗地估算logP.自 Rogers 等提出第一個基于描述符的logP 計算模型至今, 此類方法已有多種見諸報道, 見表三, 使用的描述符主要包括經驗描述符、 拓撲描述符以及代表分子3D結構的描述符. 根據描述符的來源,這些方法又可分為多種類型.2.
13、2.1 BLOGP早期出現的一種基于描述符的方法是Bodor等發展的BLOGP方法.這種方法使用原子部分電荷、偶極矩和描述分子大小的參數等作為描述符 . 該種方法在建立模型時首先需要優化訓練集中化合物的三維結構 , 然后再使用AM1 法計算各描述符的取值, 最后采用線性回歸方法來獲得每個描述符對脂水分配系數的貢獻值. 其早期報道的結果僅適用于含有C、 H、O、 N原子的化合物, 具體的計算公式如下:其中各描述符分別為: S 表示分子的表面積; O 為分子橢圓度;是指烷烴指示變量(分子為烷烴數值為1, 否則為 0); MW為分子量 ; D為偶極矩估算值QON是分子中氮氧原子電荷絕對值的加合; Q
14、N是所有N原子上電荷平方和的均方根; QO是所有O原子上電荷平方和的均方根.該模型樣本數n 為 118 費舍指數F 為 115, 實驗值與預測值之間的相關系數 r 為 0.9388, 標準誤差SE為 0.296, 自由度 dof 大小為 104. 與片段加合法相比, 此種方法使用的描述符數量大大減少. 但是 BLOGP方法的計算效果不是很好, 可以適用的化合物非常有限. 另外 ,BLOG方法所采用的計算公式物理意義不明確, 為了提高統計結果引入了非線性項, 這種做法并不值得推薦2.2.2 MLOGP在目前計算logP 的方法中有一系列方法是基于分子結構的拓撲描述符 . 使用拓撲描述符的一大優點
15、是計算速度快, 對于處理較大的數據集非常有效. MLOGP是較早出現的此類方法, 由 Moriguch 等提出 . 在 MLOGP模型中親脂基團數目(CX,分子中碳原子和鹵素原子的總數) 和親水基團數(NO分子中所有氮氧原子數之和) 是兩個最基本的描述符 . 單獨使用CX和 NO描述符就可使所研究的1230個化合物中 73%的估算值處于可信范圍內. 此外再結合其它11 個矯正項, 估算值的可信范圍可覆蓋達91%.這些參數描述鄰位作用、分子不飽和度、 兩性特征以及其他官能團信息. MLOG模型的具體計算公式如下P:其中參數PRX用來描述氮氧原子的鄰近效應; UB為不飽和鍵總數; HB描述分子內氫
16、鍵的影響; POL 為芳環上的極性取代基數目; AMP 描述分子的兩性特征; ALK為描述烷烴、烯烴、 環烷烴或環烯烴的參數; RNG描述分子中所含的環結構; QN 為關于季胺的參數; NO2為分子中所含硝基的數目; NCS為硫氰基和異硫氰基的數目 ; BLM描述分子中存在的 -內酰胺結構. 該模型采用的樣本數n為 1230, 結果顯示實驗值與預測值之間的相關系數r 為 0.952, 標準偏差 s 為 0.411, 費舍指數F0(13, 1216) 達到 900.4, 表示在MLOGP研究范圍內 , 使用公式(17) 計算 logP 有相當高的精度. MLOGP方法也可用于估算有機化合物的水溶
17、解度, 目前此方法已被應用于某些軟件的 ADMET性質計算模塊中.2.2.3 SLIPPER考慮到分子尺度和氫鍵強度對分子logP 的重要性 , Raevsky 等發展的SLIPPER方法使用極化率琢和氫鍵受體強度移Ca 兩個描述符來估算2850 個簡單化合物的 logP 值 , 基 本 計 算 方 法 如下:但是使用以上公式計算多官能團化合物時碰到了問題, 主要是分子間相互作用存在影響. 于是 Raevsky 等使用結構相似的化合物的有關信息來矯正logP, 即 :這里 N 表示相似鄰近化合物數目,和 分別是第j 個類似化合物的logP 實驗值、極化率和氫鍵受體強度總和. 發展該模型所使用的
18、訓練集包括10937 個已知 logP 實驗值的化合物. SLIPPER同時也采用了類似的方法可以用于估算溶解度logS.2.2.4 ALOGPSALOGPS 方法由 Tetko 等提出 , 是目前基于描述符的logP 計算方法中的代表工作. 該方法使用電子狀態拓撲指數作為描述符 . 電子狀態拓撲指數考慮原子的價層電子狀態和化學拓撲環境,已被成功地用于建立研究有機化合物的物理化學性質以及生物活性等多種QSAR模型. 自從第一個ALOGPS模型在1999年提出以來, 該方法已經進行了多次改進. 第一個ALOGP模型建立時使用了S32種原子類型的描述符 , 使用了 345 種類藥化合物作為訓練集,
19、 使用線性回歸和神經網絡方法給出了相似的預測結果( 相關系數q2=0.83-0.84, 均方根誤差RMSLEOO=0.69-0.72 單位 ). 第二次改進對描述符進行了拓展以便能夠更好地描述氮、氧原子周圍的化學環境 , 另外還加入了如分子量等其他描述符. 訓練集也拓展為1754 個化合物. 最新版的ALOGPS方法使用PHYSPRO數據庫中的P12908 個化合物作為訓練集, 75 種描述符 , 使用神經網絡系統 , 從所用化合物中隨機選擇50%作為訓練集, logP 的平均預測精度可達 0.35 單位 . 最近ALOGPS方法也被拓展用于預測化合物的logD3. 總結與展望自從 20世紀
20、60年代QSAR/QSP研究興起以來R, 人們研究有機化合物的脂水分配系數和溶解度的計算方法已經有近半個世紀. 目前存在眾多方法用于計算有機化合物的脂水分配系數和溶解度. 相對而言 , 脂水分配系數的計算方法更為成熟一些, 應用范圍更廣, 效果也更好. 這是由于溶質的溶解過程相對于溶質在正辛醇與水兩種液相間的分配是更為復雜的物理化學過程, 它不僅包含溶質- 溶劑相互作用 , 還包含溶質分子間的相互作用. 對于固體溶質還需考慮相變過程 , 這也是計算溶解度所面臨的主要挑戰之一. 目前溶解度的計算方法對于結構比較簡單的有機化合物效果較好, 對于結構比較復雜的、 多官能團的化合物則較不適用. 對有機
21、化合物脂水分配系數的計算實際上在一定程度上也存在這一現象.對于有機化合物脂水分配系數和溶解度的計算, 近年來較少出現在方法上有較大創新而且效果比較好的模型, 主要仍是過去一些具有影響力的模型的持續改進工作. 筆者認為無論是片段加合法還是基于描述符的方法, 繼續向前發展似乎難有重大突破. 未來這種重大突破應該來自于對溶質在溶液中行為的基于第一性原理的基礎研究 . 近年來計算機的計算能力得到了大大提升, 相比之下各種基礎理論的發展似乎顯得滯后了. 希望這種基礎研究可以探討影響溶質在溶液中行為的關鍵因素, 從而對經驗方法的發展也有所指導. 此類研究也應該特別關注有機化合物脂水分配系數和溶解度實驗數據
22、的質量問題. 所謂 “巧婦難為無米之炊”, 高質量的數據對于發展和檢驗高質量的計算方法的重要性是不言而喻的. 在此方面需要提倡推廣規范化的實驗測量方法, 并且需要對現有的實驗數據進行認真的復核 . 另外一個需要關注的問題是: 目前公開報道的各種方法基本都是使用各自編輯的測試集, 自說自話, 各種方法的性能因此很難進行橫向比較. 為了公正地比較各種方法的準確度, 特別需要建立標準的測試集. 這樣的測試集最好包含有相當數量的、具有可靠實驗數據的化合物, 入選化合物的化學結構應該具有多樣性和代表性. 這是一件目前應該做而且也是可以做到的事情.參考文獻:卡米爾·喬治·維爾穆特 . 創新藥物化學M1 第 2版 1 廣州 : 廣東世界圖書出版公司, 2005:447- 4791王連生 (WangLS) , 韓朔睽 (Han SK) , 孔令仁 (KongLR) , 等 . 分子結構
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 繼承人合同協議書
- 全自動鋪布機項目可行研究報告
- 2025年重組腺病毒P53抗癌因子項目建議書
- 2025年鎢基高比重合金合作協議書
- 高端私人游艇碼頭泊位租賃與船舶租賃代理服務合同
- 抖音短視頻創作者信用評價與激勵措施合作協議
- 知識產權稅費減免效果評估合作協議
- 脊髓骨折的護理
- 生物檢測潔凈室租賃合同及設備維護協議
- 跨境貿易集裝箱GPS追蹤器租賃合同
- 材料科學基礎基礎知識點總結
- 數控銑工圖紙(60份)(共60頁)
- 新時達-奧莎(sigriner)iAStar-S32電梯專用變頻器使用說明書
- 《青年友誼圓舞曲》教案
- 馬清河灌區灌溉系統的規劃設計課程設計
- 惠州市出租車駕駛員從業資格區域科目考試題庫(含答案)
- 加工設備工時單價表
- 高脂血癥藥物治療ppt課件
- 單開、菱形及復式交分道岔的檢查方法帶圖解
- 瀝青拌和站管理制度匯編(正式版)
- 高層建筑等電位聯結安裝技術分析探討
評論
0/150
提交評論