




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能重塑科學與工程研究Recognition,
LEarning,
Reasoning提綱2科學研究方法以蛋白質結構預測為例AI驅動科學研究的全過程小結科學研究方法第一范式:經驗驅動——基于觀察和歸納的實驗研究以經驗主義和人的思考為主導的科學研究范式實驗是開展研究的主要手段起源可追溯至古希臘和中國的早期實驗方法數千年文明史中,人類絕大多數技術發展源于對自然現象的觀察和實驗總結察自然現象(如天氣、農作物生長、天象等),并進行記錄的做法。甲骨文反映了早期古人通過觀
亞里斯多德認為自由落體運動中,
伽利略的落體實驗:通過實驗物體越重,下落越快;物體越輕,
驗證物體落下速度與質量無關下落越慢。開普勒發現行星的移動遵守著三條定律科學研究方法第二范式:理論驅動——基于科學假設和邏輯演繹的理論研究當實驗條件不具備時,第一范式難以為繼不再局限于描述經驗事實,使用數學工具研究更精確的自然現象從“知其然”到“知其所以然”,對自然界規律做出背后原理性的解釋探索第一性原理(First
Principle),提供精確描述自然規律的語言,形成可分析的理論模型牛頓定律薛定諤方程歐幾里德《幾何原本》23個定義明確了點、線、面等基本幾何概念5條公設確立了幾何作圖的基本操作5條公理奠定了幾何推理的基礎規則科學研究方法第三范式:計算驅動——以計算和仿真為主導的科學研究肯尼斯·威爾遜博士(計算物理學家、諾貝爾獎獲得者)指出,計算是與理論和實驗并列的科學方法之一高性能計算機和大規模并行計算興起利用計算機精確、大規模求解方程組探索無法通過實驗和理論推導解決的復雜問題將量子力學方程轉換為計算機高效求解的形式處理復雜多電子體系問題密度泛函理論(DFT)原子結構電荷密度波函數哈密頓量有限元仿真的汽車碰撞測試超級計算機系統科學研究方法第四范式:數據驅動——數據密集型科學研究方法圖靈獎獲得者吉姆·格雷提出數據密集型科學研究利用海量數據采集取代傳統觀察,以機器學習、統計學等技術替代人類歸納大數據:例如,美國國家海洋和大氣管理局每天收集數十T的環境數據,包含衛星、雷達、船舶、氣象傳統模式(先提出假設再驗證)
vs.讓數據本身”說話”天文大數據大型強子對撞機(LHC)實驗數據統計科學研究方法第五范式:智能驅動(AI
for
Science)——人工智能驅動的科學研究計算驅動范式準但不夠快,擅長處理小規模的科學問題數據驅動范式中,AI主要作為數據分析工具;然而僅靠統計分析,難以在復雜系統的研究上實現突破第五范式中,AI驅動科學發現的全過程,包括提出假設、設計實驗等,應對計算復雜性高的組合爆炸問題,實現實驗、理論、計算和數據科研范式的融合科學發現是一個多方面的過程,包含幾個相互關聯的階段,包括假設形成、實驗設計、數據收集和分析。人工智能有望通過增強和加速研究過程的各個階段來重塑科學發現1。Scientific
discovery
in
the
age
of
artificial
intelligence,
Nature2024.A
New
Golden
Age
of
Discovery
|
Seizing
the
AI
for
Science
opportunity,
DeepMind知識:改變科學家獲取和傳遞知識的方式
數據:生成、提取和標注大規模科學數據集實驗:模擬、加速并指導復雜實驗模型:建模復雜系統及其組件的相互作用解決方案:為大規模搜索問題提供方案科學研究方法經驗驅動理論驅動計算驅動數據驅動觀察假設總結歸納建模仿真客觀現象數據分析海量數據關系挖掘智能驅動實驗無實驗數據收集無數據收集數據分析無自動收集AI數據精準采集AI
AI規則發現 實驗輔助AI數據輔助分析數學表達式生成...鉆木取火開普勒定律牛頓定律...天氣預測
模擬核試驗...瘟疫傳播規律交通改善...蛋白質結構預測藥物快速發明
快速天氣預測...方程加速求解....數據合成...粒子碰撞檢測科學方法科學成果比薩斜塔麥克斯韋爾方程易染-感染-免疫傳播模型模擬數據驅動機器學習應用:方程求解
9三維Maxwell方程二維Navier-Stokes方程標量場向量場二維Darcy
Flow方程二維Diffusion-Reaction方程地轉方程從左到右分別是地轉相對渦度、行星渦度和伸展渦度。斯托克斯方程氣壓梯度力的向量式湍流系統給定時間內在垂直于流動的方向上的熱通量和動量傳遞(由剪切應力τ表示)為應用:工程仿真
10湍流煙霧仿真機翼空氣流動仿真光聲成像仿真血管液體流動仿真塑形鍛造仿真應用:地球科學
11地球氣候狀態預測地球淺水狀態預測地下水流狀態預測應用:工程設計
12Ansys發布AnsysSimAI?,通過結合AI,將設計流程加速10-100倍雷諾集團利用AnsysSimAI,加速了汽車零部件的設計和測試過程,數分鐘內完成測試,減少了產品開發周期飛機機型設計的優化流程首先確定需要優化的設計參數,然后進行CFD分析評估氣動性能,確定多個優化目標,進行參數敏感性分析根據結果實施最優約束設計變更,通過形態變換調整機身外形,最終得到空氣動力學性能更優的機型設計應用:氣象預報
13華為云盤古氣象模型是首個精度超過傳統數值預報方法的AI模型,速度相比傳統數值預報提速10000倍以上氣象模型能夠提供全球氣象秒級預報,其氣象預測結果包括位勢、濕度、風速、溫度、海平面氣壓等Google
DeepMind的GraphCast:利用圖神經網絡,不到
1分鐘內生成10天全球預報,在90%的1380個驗證目標上優于傳統系統人工智能重塑科學與工程研究——以蛋白質結構預測為例14蛋白質結構預測:為什么蛋白質結構如此重要?
生命的基本構件和功能執行者結構決定功能主要結構(Primary
structure):由氨基酸殘基(Aminoacid
residue)通過肽鍵(Peptidebond)連接形成的多肽鏈(Polypeptide
chain)二級結構(Secondarystructures):多肽鏈局部折疊形成的規則結構,包括α螺旋(αhelix)和β折疊(βsheet)三級結構(Tertiary
structure):整個多肽鏈在三維空間中的折疊結構四級結構(Quaternarystructure):由多個蛋白質亞基組合在一起形成的復合蛋白質結構疾病與蛋白質結構異常藥物開發與蛋白質靶點蛋白質結構預測:蛋白質折疊問題
蛋白質折疊序列決定結構:蛋白質的氨基酸序列包含了所有必要的信息,決定了其最終三維結構。一條線性氨基酸鏈如何在水溶液中自發折疊成特定的三維結構?折疊機制的復雜性:蛋白質折疊涉及多種分子力的精確平衡:氫鍵形成、疏水相互作用(疏水核心的形
成)、范德華力、靜電相互作用、熵效應、溶劑效應實驗挑戰直接觀察蛋白質折疊過程極其困難建立完整的折疊理論困難計算挑戰從計算角度看,蛋白質折疊問題搜索空間巨大,需要模擬復雜的物理和化學過程頭計算折疊過程十分緩慢蛋白質結構預測:CASP競賽
早期挑戰與背景結構預測的可靠性問題:1980年代末到1990年代初,蛋白質結構預測領域處于混亂狀態。John
Moult和Jan
Pedersen的愿景完全透明、公正的“盲測”競賽CASP的建立與運作機制首屆CASP競賽(1994年)獨特的盲測機制CASP的演變與影響CASP1到CASP9(1994-2010):穩步進展CASP10-CASP13(2012-2018):深度學習興起CASP14(2020):AlphaFold2蛋白質結構預測:AlphaFold(2018年)
CASP132018年12月,AlphaFold在CASP13獲全球第一,平均得分明顯高于其他參賽者。技術方案使用多序列比對(MSA)收集同源蛋白質序列數據,通過分析序列變異模式找出蛋白質中的殘基對接觸可能性將這些信息輸入深度殘差神經網絡,預測蛋白質內各殘基之間的距離和角度約束使用梯度下降優化算法,將預測的距離和角度約束轉化為完整的三維結構引起轟動但尚未完全突破盡管AlphaFold表現出色,仍未達到實驗精度水平蛋白質結構預測:AlphaFold
2(2020年)
“AlphaFold時刻”:CASP14上的驚人表現2020年11月30日,在CASP14的線上會議上,DeepMind團隊公布了AlphaFold2的結果,平均GDT_TS得分達到92.4分(滿分100)在100個測試蛋白質中,有三分之二的預測達到了與實驗結構幾乎無法區分的精度水平(GDT_TS>90)《科學》雜志評為2021年度科學突破蛋白質結構預測:AlphaFold
2(2020年)
技術方案:采用端到端架構多序列比對(MSA)處理AlphaFold2首先對輸入蛋白質序列進行大規模數據庫搜索,找到同源蛋白質序列,并構建MSAEvoformer模塊Transformer變體:包含多個交替的行(序列)和列(殘基位置)注意力機制三角乘法更新操作維護殘基間距離和角度的幾何一致性結構模塊:將Evoformer處理的信息轉換為三維坐標預測每個氨基酸殘基的主鏈角度(φ,ψ,ω)和側鏈角度(χ)使用前饋網絡預測3D坐標框架采用等變神經網絡保持空間變換不變性損失函數設計LDDT(局部距離差異測試)損失:評估局部結構準確性TM-score(模板建模評分)損失:評估全局結構相似性幾何約束損失:確保蛋白質物理合理性2024年諾貝爾化學獎(2024年10月9日)
2024年諾貝爾化學獎聚焦于人工智能在蛋白質結構預測領域的突破性進展大衛·貝克(DavidBaker)表彰其在計算蛋白質設計領域的工作戴密斯·哈薩比斯(Demis
Hassabis)和約翰·朱姆珀(JohnM.Jumper)表彰其在使用人工智能進行蛋白質結構預測方面取得的進展。人工智能應用于基礎科學研究首次獲得諾貝爾獎,標志著計算方法在化學、生物學領域的重要性得到認可2024年諾貝爾物理學獎(2024年10月8日)
·
John
Hopfield,Neural
networks
and
physical
systems
withemergentcollectivecomputationalabilities(《具有涌現集體計算能力的神經網絡和物理系統》),1982,
PNAS1949年赫布(Hebbiantheory)提出:神經元之間持續重復經驗刺激可導致突觸傳遞效能增加(Neurons
that
fire
together,wire
together),即學習和記憶的本質是大腦結構在后期經驗刺激下改變神經元之間強弱聯結的權重的結果。Hopfield以能量最小這一物理學視角優化神經網絡而得到局部最優解。·
Ackley
David
H,
HintonGeoffrey
E,Sejnowski
Terrence
J,
A
learningalgorithm
for
Boltzmann
machines,
Cognitive
science,
Elsevier,
9
(1):147–169,1985Boltzmann機能夠達到全局優化原因在于基于統計物理所設計的MonteCarlo方法,以一定的概率重新設置神經元的值,選擇的概率保證網絡收斂于由“能量”完全確定的熱平衡態。從神經網絡的生物學機制闡釋到物理學可計算模擬小結
蛋白質結構預測:存在近50年的科學難題AlphaFold2(DeepMind)和RoseTTAFold(Baker實驗室)兩個系統的開發,將蛋白質結構預測精度從之前的40-50%提高到90%以上AI不只是大模型:專用AI系統AlphaFold是科學嗎?盡管AlphaFold2可以精確預測結構,但它并不能解釋蛋白質如何折疊或為何采取特定結構傳統研究試圖通過理解基本物理過程來解決蛋白質折疊問題,DeepMind通過關注結果而非過程,采取了不同路徑。如果你能治愈癌癥,你關心它是如何真正工作的嗎?蛋白質折疊只是“冰山一角”模擬整個細胞蛋白質復合物蛋白質設計蛋白質動力學蛋白質構象變化突變解釋…AI驅動科學研究的全過程24科學研究的主要挑戰
降水預測風速預測海洋溫度預測多尺度天小時分鐘秒1km100km5,000km宏觀介觀微觀空間40,000km時間周非線性耦合:不同尺度之間的相互作用并不是簡單的線性疊加,而往往是復雜的、非線性耦合某一尺度上的微小變化,可能會通過耦合機制對其他尺度產生巨大影響。數據量大、類型多,包括蛋白質序列、學術出版物、電子醫療記錄、基因測序和影像等領域。每種類別都具有獨特的屬性某些科學領域數據稀缺大數據/小數據任務多PDB(蛋白質數據庫)中的結構數量·
1982年有100個結構·
1993年有1,000個結構·
1999年有10,000個·
2014年有100,000個·
…環境科學領域航空航天領域醫療健康領域材料科學領域地質學與資源勘探領域…科學領域非常廣泛,知識體系復雜各學科發展出各自專業術語、研究方法和理論框架,導致跨學科交流困難學科壁壘和專業分化使得研究人員難以全面掌握相關領域知識,解決綜合性問題困難從聊天出發:Artificial
General
Intelligence(AGI)
26Stage
Level
5:
Organizations,AI
that
can
do
the
work
of
anorganization.Stage
Level
4:
Innovators,AI
that
can
aid
in
invention.Stage
Level
3:
Agents,systems
that
can
take
actions.Stage
Level
2:
Reasoners,human-level
problem
solving.Stage
Level
1:
Chatbots,AI
with
conversationallanguage.AI驅動科學研究的全過程知識:改變科學家獲取和傳遞知識的方式
數據:生成、提取和標注大規模科學數據集實驗:模擬、加速并指導復雜實驗27知識:改變科學家獲取和傳遞知識的方式
挑戰科學知識呈指數級增長,專業化程度不斷提高跨學科合作需求增加,但知識壁壘阻礙學習與交流自動文獻管理與分析Semantic
Scholar有超過2.14億篇論文圖表理解與信息提取結合圖像、表格、公式和文本,分析復雜科學文獻代碼輔助生成與優化使用大模型將難維護的代碼進行轉換與注釋推理->科研助手(Science
Copilot)陶哲軒:AI在數學和編程領域變得越來越有用,但人類的洞察力和創造力仍是關鍵/video/BV1c946eVEPu/29挑戰一:如何實現復雜科學任務的高效推理?挑戰1.2:獎勵難定義推理結論評估困難,難以定義獎勵標準推理模型消耗大量思考時間,計算資源需求大挑戰1.3:推理成本高復雜推理資源消耗大推理結論多樣且非唯一最優,
難以構建精準的獎勵函數評估推理結論質量問題:患者,男,45歲,出現胸痛、氣短和左
臂麻木,有高血壓和糖尿病史。思維鏈:首先分析癥狀組合:胸痛、氣短和左臂麻木
是心臟問題的典型信號,特別是左臂麻木常見
于冠狀動脈疾病評估風險因素:患者有高血壓和糖尿病史,
這兩種慢性病都是冠心病的高風險因素鑒別診斷考慮:需要立即的檢查:心電圖、心肌酶譜、胸部
影像初步診斷:急性冠脈綜合征可能性最大,需
要緊急治療方案答案:最可能是急性冠脈綜合征,建議立即進
行心電圖檢查和心肌酶譜檢測,同時啟動胸痛推理模型在輸出答案之前需要花費大量時間思考,導致實時性差。并且難度越大的問題思考時間越長,因此消耗更多的推理資源。中心流程。醫療診斷示例醫療診斷的正確性難以給出基于規則的
評估標準,無法直接由程序自動化評估。行業知識更新快專業領域知識迭代頻繁,
模型難以及時學習新推理鏈條挑戰1.1:數據更新快訓練數據更新慢:基于2023年12月前數據的DeepSeekR1無法獲取最新知識,導致在介紹“GaN充電器發展”時,無法結合更新的行業知識。更新知識成本高:模型需要額外的訓練學習更新的內容,需要額外的算力資源和時間成本。30挑戰二:如何實現復雜科研流程的智能執行Deepresearch以OpenAIo3推理模型作為支撐,能夠獨立完成聯網資料查詢,海量信息處理,綜合報告生成。依托其強大的搜索分析能力,在金融、政策、工程等領域都能提供可靠的幫助。幫我查找過去10年,GDP前十的發達國家的的iOS和Android市場占有率,將這些信息整理成表格。國家iOS市場占有率Android市場占有率美國58%42%日本69%31%………GDP排名前10的發達經濟體手機OS市場份額modelAccuracy(%)GPT-4o3.3Grok-23.8Claude
3.5
Sonnet4.3Gemini
Thinking6.2OpenAI
o19.1DeepSeek-R1*9.4OpenAI
o3-mini(medium)*10.5OpenAI
o3-mini(high)*13.0OpenAI
deep
research**26.6*模型不是多模態的,僅在文本子集上進行評估**聯網檢索信息+python工具OpenAI
Deep
Research
(2025年2月2日,目前僅供Pro訂閱用戶使用,每月200美元)Deep
research在Humanity’s
LastExam數據集上和其他模型的對比推理模型OpenAI
o1和DeepSeek-R1相比GPT-4o等,具有更高的性能Deep
research以OpenAI
o3作為基礎,通過合理的工作流在復雜任務上取得了當前最好性能3031挑戰三:如何抑制推理大模型的幻覺現象當前推理大模型知識邊界不確定,難以把握知識覆蓋范圍和可靠程度,推理幻覺嚴重DeepSeek
R1的幻覺問題相對嚴重問:8,8,3,4算24點已深度思考(用時312秒)嗯,今天老師布置了一個算24點的題目,四個數字是8、8、3、4。我得好好想想怎么用這四個數字通過加減乘除來得到24。首先,我應該回憶一下算24點的基本方法,通常是先嘗試用乘法或者除法來得到較大的數,或者組合出能夠相互抵消的情況,比如3×8=24這樣的組合。不過這里有兩個8,一個3和一個4,可能需要結合其他運算。首先,我先把這四個數字列出來:8、8、3、4。我需要用每個數字各一次,通過加減乘除以及可能的括號來組合它們得到24。讓我嘗試不同的組合方式。首先,我注意到如果有兩個8的話,或許可以先用這兩個8進行某種運算。比如
8+8=16,不過這樣的話剩下的3和4要怎么處理呢?16加上3和4的話,16+3+4=23,不夠。或者16乘以(4-3)=16×1=16,還是不夠。或者16乘以3再除以4的話,16×3=48,48÷4=12,還是不夠。或者16×(4+3)/某個數,但這樣可能也不太行。......或者,用減法來調整,比如8×4=32,然后用剩下的8和3來減,比如32-8=24,但這樣用了三個數字,剩下的3沒用上。或者32-(8-3)=32-5=27,也不對。再試試其他的組合方式,比如用8、8、4這三個數先組合,比如8+8+4=20,然后20+3=23,不夠。或者8×8=64,64÷4=16,然后16+3=19,還是不夠。或者考慮用除法來結合,例如,(8×(4-3))×8,這樣就是8×1×8=64,不對。或者8×(4-(8/3)),不過這樣會涉及到分數,可能比較復雜,而且結果可能不是整數。比如8×(4-8/3)=8×(4/1-8/3)=8×(12/3-8/3)=8×(4/3)=32/3≈10.666,不是24。有沒有可能用加減乘除混合運算?比如,8×3=24,然后剩下的8和4如何組合成
0,這樣24+0=24。但如何用8和4得到0呢?比如8-8=0,但這里已經用了兩個8,剩下的還有3和4。不對,因為題目中每個數字只能用一次。所以,這樣的話,可
能不行。再想想,可能用減法來調整。例如,8×4=32,然后32減去(8-3)=5,得到
32-5=27,還是不對。或者8×3=24,然后用剩下的8和4組成0,但同樣的問題,無法用剩下的兩個數得到0。….每個數字均被使用一次,符合規則。最終答案為:
8
*
3
*(8/4-(4-3))=24思考長度達6672,最終答案仍有錯誤AI驅動科學研究的全過程知識:改變科學家獲取和傳遞知識的方式
數據:生成、提取和標注大規模科學數據集實驗:模擬、加速并指導復雜實驗32數據:生成、提取和標注大規模科學數據集
[1]
Scaling
deep
learning
for
materials
discovery,
Nature
2023基于主動學習的數據清洗與合成1基于已知的穩定材料生成候選結構對候選結構進行篩選基于密度泛函理論驗證穩定性將新材料放到GNoME數據集,重復迭代提供了超過220萬種無機材料AlphaFoldDB由DeepMind與歐洲生物信息學研究所合作開發的大型蛋白質結構數據庫超過200萬用戶來自190個國家使用高準確度:提供的結構預測在多數情況下接近實驗確定的結構包含超過2.14億個蛋白質結構數據:生成、提取和標注大規模科學數據集
V3R1階段0通過拒絕采樣蒸餾強化學習模型的推理能力,數學、代碼等領域的樣本基于規則進行篩選,其他領域則使用大模型提供反饋的方式進行篩選DeepSeek
V3
BaseR1-ZeroR1-SFT
a強化學習:GRPO基于規則獎勵R1-SFT
cDeepSeek
V3
Base監督微調強化
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CSIQ 1012-2015藝術品鑒證質量溯源驗證規程書畫類
- T/CSBME 057-2022血液(血漿)灌流器用吸附樹脂
- T/CRIA 11006-2023汽車輪胎低碳產品評價規范
- T/CQAP 3007-2023大興安嶺地產中藥材五味子質量規范
- T/CNLIC 0025-2021綠色設計產品評價技術規范酵母制品
- T/CNFIA 144-2022明綠香型白酒
- T/CMA HG030-2021雪地壓實指數的測量方法
- T/CIS 17001-2016激光拉曼珠寶玉石檢測儀
- T/CHTS 20024-2022公路交通數碼打印反光膜
- T/CHES 105-2023 T/CHAS 090-2023醫院節水管理規范
- GB/T 8177-2004兩點內徑千分尺
- 第四章 流域產流與匯流計算
- GB/T 28799.2-2020冷熱水用耐熱聚乙烯(PE-RT)管道系統第2部分:管材
- GB/T 1048-2019管道元件公稱壓力的定義和選用
- GA 1283-2015住宅物業消防安全管理
- 施工現場監控設備安裝驗收單
- 鋰電池隔膜技術工藝專題培訓課件
- 績效考核流程及流程說明(典型模板)
- 詢價小組簽到表
- 養老院流動資產管理制度
- 《聊齋志異》原文及翻譯
評論
0/150
提交評論