




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
考試題型選擇題 20題 共40分名詞解釋題 10題 共10分簡答題 3題 共30分計算題 1題 共20分(4小問)考試知識點整理人工智能ArtificialIntelligence,簡記為AI,是當前科學技術迅速發(fā)展及新思想、新理論、新技術不斷涌現(xiàn)的形勢下產(chǎn)生的一個學科,也是一門涉及數(shù)學、計算機科學、哲學、認知心理學和心理學、信息論、控制論等學科的交叉和邊緣學科。智能的定義智能是知識和智力的總和,知識是一切智能行為的基礎,智力是獲取知識并運用知識求解問題的能力。智能特征感知能力記憶和思維能力學習和自適應能力行為能力機器學習機器學習(MachineLearning,ML)是機器獲取知識的根本途徑,也是機器具有智能的重要標志,是人工智能研究的核心問題之一。機器學習是使計算機無需明確編程就能學習的研究領域。人工智能的主要學派符號主義連接主義行為主義人工智能的主要研究內(nèi)容知識表示:實際上是對知識的一種描述,或者是一組約定,是機器可以接受的用于描述知識的數(shù)據(jù)結(jié)構。推理:指按照某種策略,從已知事實出發(fā),利用知識推出所需結(jié)論的過程。搜索與規(guī)劃:搜索是指為了達到某個目標,不斷尋找推理路線,以引導和控制推理,使問題得以解決的過程。規(guī)劃是一種重要的問題求解技術,是從某個特定問題狀態(tài)出發(fā),尋找并建立一個操作序列,直到求得目標狀態(tài)為止的一個行動過程的描述。機器學習:是機器獲取知識的根本途徑,也是機器具有智能的重要標志,是人工智能研究的核心問題之一。機器學習分類監(jiān)督式學習無監(jiān)督學習強化學習監(jiān)督學習與非監(jiān)督學習區(qū)別原理不同:監(jiān)督學習是指利用一組已知類別的樣本調(diào)整分類器的參數(shù),使其達到所要求性能的過程。無監(jiān)督學習指根據(jù)類別未知(沒有被標記)的訓練樣本解決模式識別中的各種問題的過程。算法不同:監(jiān)督學習的算法是通過分析已知類別的訓練數(shù)據(jù)產(chǎn)生的。無監(jiān)督學習的算法主要有主成分分析方法、等距映射方法、局部線性嵌入方法、拉普拉斯特征映射方法、黑塞局部線性嵌入方法和局部切空間排列方法等。適用條件不同:監(jiān)督學習適用于樣本數(shù)據(jù)已知的情況。非監(jiān)督學習適用于無類別信息的情況。監(jiān)督學習與強化學習區(qū)別監(jiān)督學習有兩個主要任務,即回歸和分類,而強化學習則具有不同的任務,例如開發(fā)或探索,馬爾可夫的決策過程,政策學習,深度學習和價值學習。在監(jiān)督學習中,存在各種數(shù)量的算法,它們的優(yōu)缺點適合于系統(tǒng)要求。在強化學習中,馬爾可夫的決策過程為建模和決策情況提供了數(shù)學框架。監(jiān)督學習意味著名稱本身就表示它是高度監(jiān)督的,而強化學習則受到較少的監(jiān)督,并且依賴學習代理來通過確定不同的可能方式來確定輸出解決方案,以實現(xiàn)最佳解決方案。過擬合與欠擬合過擬合:當學習器把訓練樣本學得太好了的時候,很可能已經(jīng)把訓練樣本自身的一些特點當作了所有潛在樣本都會具有的一般性質(zhì),這樣就會導致泛化性能下降。欠擬合:指對訓練樣本的一般性質(zhì)尚未學好。模型評估的關鍵在于如何獲得測試集,且測試集應該與訓練集互斥。常見的模型評估方法留出法保持數(shù)據(jù)分布一致性(舉例:分層采樣)多次重復劃分(舉例:100次隨機劃分)測試集不能太大也不能太小(舉例:1/5~1/3)交叉驗證法自助法調(diào)參與最終模型算法參數(shù)由人工設定,模型參數(shù)由學習確定調(diào)參過程相似:先產(chǎn)生若干模型,然后基于某種評估方法進行選擇算法參數(shù)選定后,要用“訓練集+驗證集”重新訓練最終模型
性能度量是衡量模型泛化能力的評價標準,反映了任務需求,使用不同的性能度量往往會導致不同的評判結(jié)果,回歸任務最常用的性能度量是均方誤差。常用的性能度量錯誤率與精度查準率、查全率與F1ROC與AUC代價敏感錯誤率與代價曲線比較檢驗(在某種度量下取得評估結(jié)果后,是否可以直接比較以評判優(yōu)劣?)在某種度量下取得評估結(jié)果后,不可以直接比較以評判優(yōu)劣,因為測試性能不等于泛化性能,測試性能會隨著測試集的變化而變化,并且很多機器學習算法本身有一定的隨機性。比較檢驗的常用方法假設檢驗交叉驗證t檢驗McNemar檢驗Friedman檢驗與Nemenyi后續(xù)檢驗偏差-方差分解泛化性能是由學習算法的能力、數(shù)據(jù)的充分性以及學習任務本身的難度共同決定,偏差-方差分解是解釋學習算法泛化性能的一種重要工具。偏差-方差窘境訓練不足時,學習器擬合能力不強,偏差主導隨著訓練程度加深,學習器擬合能力逐漸增強,方差逐漸主導訓練充足后,學習器的擬合能力很強,方差主導參數(shù)與超參數(shù)參數(shù):從模型中學習得到的變量。超參數(shù):在開始學習過程之前設置其值的參數(shù),而不是通過訓練獲得的參數(shù)數(shù)據(jù)。參數(shù)與超參數(shù)區(qū)別獲取信息的方式不同通過模型訓練獲得參數(shù)。超參數(shù)是手動設置的。不同的影響因素超參數(shù)來自人類經(jīng)驗,并將受到硬件的限制。參數(shù)主要受模型的影響。不同模型的訓練效果不同。不同的影響因素超參數(shù)是人工設定的,具有很高的可控性。參數(shù)與模型相關,結(jié)果有時達不到預期,可控性差。
強化學習強化學習問題可以描述為一個智能體從與環(huán)境的交互中不斷學習以完成特定目標(比如取得最大獎勵值)。強化學習就是智能體不斷與環(huán)境進行交互,并根據(jù)經(jīng)驗調(diào)整其策略來最大化其長遠的所有獎勵的累積值。智能體(Agent):感知外界環(huán)境的狀態(tài)(State)和獎勵反饋(Reward),并進行學習和決策。智能體的決策功能是指根據(jù)外界環(huán)境的狀態(tài)來做出不同的動作(Action),而學習功能是指根據(jù)外界環(huán)境的獎勵來調(diào)整策略。環(huán)境(Environment):智能體外部的所有事物,并受智能體動作的影響而改變其狀態(tài),并反饋給智能體相應的獎勵。強化學習和監(jiān)督學習的區(qū)別強化學習是試錯學習,由于沒有直接的指導信息,智能體要以不斷與環(huán)境進行交互,通過試錯的方式來獲得最佳策略。延遲回報,強化學習的指導信息很少,而且往往是在事后才給出的,這就導致了一個問題,就是獲得正回報或者負回報以后,如何將回報分配給前面的狀態(tài)。馬爾科夫決策過程(MDP)MDP組成一組狀態(tài)s動作a一個過渡分布期待下一次獎勵r決策許多隨機過程可以在MDP框架內(nèi)建模。這個過程是通過在每個狀態(tài)下選擇行動來控制的,試圖獲得最大的長期回報。如何找到最優(yōu)策略
示例(回收機器人)
強化學習基本方法動態(tài)規(guī)劃:發(fā)展良好,但需要完整準確的環(huán)境模型;蒙特卡羅方法:不需要模型,概念上非常簡單,但不適合逐步增量計算;時差學習:時差法不需要模型,而且是完全增量的,但分析起來更復雜;Q-Learning動態(tài)規(guī)劃(DP)可以用來計算最優(yōu)策略的一組算法給出了一個完美的環(huán)境模型。(例如MDP)動態(tài)規(guī)劃是理解其他方法的必要基礎。其他方法試圖實現(xiàn)與DP幾乎相同的效果,只是計算量較少,并且沒有假設環(huán)境的完美模型。動態(tài)規(guī)劃方法政策評估政策改進策略迭代價值迭代異步DP異步DP不使用掃描,它是重復此步驟,直到滿足收斂條件然后隨機選擇一個狀態(tài)并應用適當?shù)膫浞莓惒紻P仍然需要大量計算,但不會陷入無望的長掃描蒙特卡羅方法(隨機搜索法)蒙特卡羅方法是求解基于平均樣本收益的強化學習問題的方法。為了確保定義良好的返回是可用的,我們只對情景任務定義蒙特卡羅方法。蒙特卡羅(MC)方法與動態(tài)規(guī)劃(DP)之間的區(qū)別和聯(lián)系MC可以直接從與環(huán)境的交互中學習;MC不需要完整的模型;MC違規(guī)造成的傷害較小;MC方法提供了另一種策略評估過程;與DP相反,MC沒有引導。時差學習(TD)結(jié)合了MC和DP的思想。與MC一樣,TD方法可以直接從原始經(jīng)驗中學習,而無需環(huán)境動力學模型。與DP一樣,TD方法在一定程度上基于其他學習到的估計值來更新估計值,而無需等待最終結(jié)果。
為什么TD更擅長在批量更新中推廣MC易受不良狀態(tài)采樣和怪異事件的影響;TD較少受到怪異事件和抽樣的影響,因為與其他狀態(tài)相關的估計可能會得到更好的抽樣;對于環(huán)境的最大似然模型,TD收斂于修正值函數(shù)。SarsaQ-Learning
公式策略的狀態(tài)值函數(shù)V的貝爾曼方程s:狀態(tài)a:行為r:獎勵γ:折扣因子貝爾曼最優(yōu)方程Q蒙特卡羅方法(MC)動態(tài)規(guī)劃(DP)時差學習(TD)
計算題1考慮以下帶有折扣因子的馬爾可夫決策過程(MDP),大寫字母A、B、C代表狀態(tài),弧代表狀態(tài)轉(zhuǎn)換,小寫字母ab,ba,bc,ca,cb代表動作,有符號整數(shù)代表獎勵,分數(shù)代表轉(zhuǎn)移概率。定義折扣MDP的狀態(tài)值函數(shù)Vπ(s)【回答】寫出狀態(tài)值函數(shù)的貝爾曼期望方程【答案】考慮統(tǒng)一隨機策略π1(s,a),它以相等的概率從狀態(tài)s采取所有行動。從初始值函數(shù)V1(A)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 一年級道德與法治下冊 第三單元 綠色生活真美好 第7課《清清家鄉(xiāng)水》教學設計 粵教版
- 1 尊重他人 表格式公開課一等獎創(chuàng)新教案-統(tǒng)編版道德與法治八年級上冊
- 維吾爾民間舞蹈的風格特點
- 幼兒舞蹈教學的原則
- 生產(chǎn)企業(yè)三級安全教育培訓課件
- 舞蹈劇場租賃合作合同
- 購買原材料合同樣本
- 2025標準雇傭版合同
- 企業(yè)融資顧問合同
- 交換機銷售合同模板
- 【MOOC】中國傳統(tǒng)藝術-篆刻、書法、水墨畫體驗與欣賞-哈爾濱工業(yè)大學 中國大學慕課MOOC答案
- 菜鳥驛站轉(zhuǎn)讓合同協(xié)議書范本
- 多物理場模擬仿真
- 常見職業(yè)病危害和預防基礎知識
- 山東省2024年夏季普通高中學業(yè)水平合格考試地理試題02(解析版)
- 人教版八年級下冊-中考生物必背知識復習提綱
- 預包裝食品標簽審核表
- 《高等教育學》歷年考試真題試題庫(含答案)
- 汽車修理店維修管理制度
- 給孩子一生的安全感閱讀記錄
- 小兒海姆立克急救法課件
評論
0/150
提交評論