




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
畢業設計(論文)--文獻綜述綜述題目機器學習之邏輯斯蒂回歸專業信息與計算科學姓名學號指導教師機器學習之邏輯斯蒂回歸摘要:二十一世紀,我們已經步入人工智能的時代,所以機器學習,已經漸漸深入到我們的日常生活中了,而且起到至關重要的作用,在生活中的許多領域,我們已經在使用機器學習給我帶來的便利,就像你淘寶購物,淘寶給你的推薦,你最近瀏覽的商品,你在醫院所留下的數據,醫院也會對你的身體健康狀態的有個數值哦,本文介紹機器學習,以及邏輯斯蒂回歸模型,學習它們,讓技術更豐富我們的生活。關鍵詞:機器學習,算法,邏輯斯蒂回歸YuanJiankang(Hefei,AnhuiUniversityofArchitectureandArchitecture)Abstract:Inthetwenty-firstcentury,wehaveenteredtheeraofartificialintelligence,somachinelearninghasgraduallypenetratedintoourdailylife,andplayedavitalroleinmanyareasoflife,wehaveUsethemachinetolearntobringmetheconvenience,asyouTaobaoshopping,Taobaotoyourrecommendation,yourecentlybrowsethegoods,youleftinthehospitaldata,thehospitalwillbeonyourhealthstatusofavalueOh,thisarticledescribesmachinelearning,aswellastheLogisticregressionmodel,learningthem,makingtechnologyricherourlives.Keywords:machinelearning,algorithm,logicalregression一 機器學習1.一個故事說明機器學習定義這個例子來源于我真實的生活經驗,我在思考這個問題的時候突然發現它的過程可以被擴充化為一個完整的機器學習的過程,因此我決定使用這個例子作為所有介紹的開始。這個故事稱為“等人問題”【1】。我相信大家都有跟別人相約,然后等人的經歷。現實中不是每個人都那么守時的,于是當你碰到一些愛遲到的人,你的時間不可避免的要浪費。我就碰到過這樣的一個例子。對我的一個朋友小Y而言,他就不是那么守時,最常見的表現是他經常遲到。當有一次我跟他約好3點鐘在某個麥當勞見面時,在我出門的那一刻我突然想到一個問題:我現在出發合適么?我會不會又到了地點后,花上30分鐘去等他?我決定采取一個策略解決這個問題。要想解決這個問題,有好幾種方法。第一種方法是采用知識:我搜尋能夠解決這個問題的知識。但很遺憾,沒有人會把如何等人這個問題作為知識傳授,因此我不可能找到已有的知識能夠解決這個問題。第二種方法是問他人:我去詢問他人獲得解決這個問題的能力。但是同樣的,這個問題沒有人能夠解答,因為可能沒人碰上跟我一樣的情況。第三種方法是準則法:我問自己的內心,我有否設立過什么準則去面對這個問題?例如,無論別人如何,我都會守時到達。但我不是個死板的人,我沒有設立過這樣的規則。事實上,我相信有種方法比以上三種都合適。我把過往跟小Y相約的經歷在腦海中重現一下,看看跟他相約的次數中,遲到占了多大的比例。而我利用這來預測他這次遲到的可能性。如果這個值超出了我心里的某個界限,那我選擇等一會再出發。假設我跟小Y約過5次,他遲到的次數是1次,那么他按時到的比例為80%,我心中的閾值為70%,我認為這次小Y應該不會遲到,因此我按時出門。如果小Y在5次遲到的次數中占了4次,也就是他按時到達的比例為20%,由于這個值低于我的閾值,因此我選擇推遲出門的時間。這個方法從它的利用層面來看,又稱為經驗法。在經驗法的思考過程中,我事實上利用了以往所有相約的數據。因此也可以稱之為依據數據做的判斷【2】。2.機器學習的定義從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用數據,訓練出模型,然后使用模型預測的一種方法。3.機器學習的范圍其實,機器學習跟模式識別,統計學習,數據挖掘,計算機視覺,語音識別,自然語言處理等領域有著很深的聯系。從范圍上來說,機器學習跟模式識別,統計學習,數據挖掘是類似的,同時,機器學習與其他領域的處理技術的結合,形成了計算機視覺、語音識別、自然語言處理等交叉學科。因此,一般說數據挖掘時,可以等同于說機器學習。同時,我們平常所說的機器學習應用,應該是通用的,不僅僅局限在結構化數據,還有圖像,音頻等應用【3】。4.算法4.1回歸算法在大部分機器學習課程中,回歸算法都是介紹的第一個算法。原因有兩個:一.回歸算法比較簡單,介紹它可以讓人平滑地從統計學遷移到機器學習中。二.回歸算法是后面若干強大算法的基石,如果不理解回歸算法,無法學習那些強大的算法。回歸算法有兩個重要的子類:即線性回歸和邏輯回歸【4】。線性回歸就是我們前面說過的房價求解問題。如何擬合出一條直線最佳匹配我所有的數據?一般使用“最小二乘法”來求解。“最小二乘法”的思想是這樣的,假設我們擬合出的直線代表數據的真實值,而觀測到的數據代表擁有誤差的值。為了盡可能減小誤差的影響,需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優問題轉化為求函數極值問題。函數極值在數學上我們一般會采用求導數為0的方法。但這種做法并不適合計算機,可能求解不出來,也可能計算量太大。
邏輯回歸是一種與線性回歸非常類似的算法,但是,從本質上講,線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數值問題,也就是最后預測出的結果是數字,例如房價。而邏輯回歸屬于分類算法,也就是說,邏輯回歸預測結果是離散的分類,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會點擊此廣告等等。實現方面的話,邏輯回歸只是對對線性回歸的計算結果加上了一個Sigmoid函數,將數值結果轉化為了0到1之間的概率(Sigmoid函數的圖像一般來說并不直觀,你只需要理解對數值越大,函數越逼近1,數值越小,函數越逼近0),接著我們根據這個概率可以做預測,例如概率大于0.5,則這封郵件就是垃圾郵件,或者腫瘤是否是惡性的等等。4.2神經網絡神經網絡(也稱之為人工神經網絡,ANN)算法是80年代機器學習界非常流行的算法,不過在90年代中途衰落。現在,攜著“深度學習”之勢,神經網絡重裝歸來,重新成為最強大的機器學習算法之一。讓我們看一個簡單的神經網絡的邏輯\o"大型網站架構知識庫"\t"/baidu_24256693/article/details/_blank"架構。在這個網絡中,分成輸入層,隱藏層,和輸出層。輸入層負責接收信號,隱藏層負責對數據的分解與處理,最后的結果被整合到輸出層。每層中的一個圓代表一個處理單元,可以認為是模擬了一個神經元,若干個處理單元組成了一個層,若干個層再組成了一個網絡,也就是"神經網絡"[5]。在神經網絡中,每個處理單元事實上就是一個邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預測結果作為輸出傳輸到下一個層次。通過這樣的過程,神經網絡可以完成非常復雜的非線性分類。進入90年代,神經網絡的發展進入了一個瓶頸期。其主要原因是盡管有BP算法的加速,神經網絡的訓練過程仍然很困難。因此90年代后期支持向量機(SVM)算法取代了神經網絡的地位。4.3SVM(支持向量機)支持向量機算法是誕生于統計學習界,同時在機器學習界大放光彩的經典算法。支持向量機算法從某種意義上來說是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴格的優化條件,支持向量機算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數技術,則支持向量機算法最多算是一種更好的線性分類技術。但是,通過跟高斯“核”的結合,支持向量機可以表達出非常復雜的分類界線,從而達成很好的的分類效果。“核”事實上就是一種特殊的函數,最典型的特征就是可以將低維的空間映射到高維的空間[6]。4.4聚類算法前面的算法中的一個顯著特征就是我的訓練數據中包含了標簽,訓練出的模型可以對其他未知數據預測標簽。在下面的算法中,訓練數據都是不含標簽的,而算法的目的則是通過訓練,推測出這些數據的標簽。這類算法有一個統稱,即無監督算法(前面有標簽的數據的算法則是有監督算法)。無監督算法中最典型的代表就是聚類算法。4.5降維算法降維算法也是一種無監督學習算法,其主要特征是將數據從高維降低到低維層次。在這里,維度其實表示的是數據的特征量的大小,例如,房價包含房子的長、寬、面積與房間數量四個特征,也就是維度為4維的數據。可以看出來,長與寬事實上與面積表示的信息重疊了,例如面積=長×寬。通過降維算法我們就可以去除冗余信息,將特征減少為面積與房間數量兩個特征,即從4維的數據壓縮到2維。于是我們將數據從高維降低到低維,不僅利于表示,同時在計算上也能帶來加速。4.6推薦算法推薦算法是目前業界非常火的一種算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運用。推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益[7]。
二.邏輯斯蒂回歸模型1.簡介Logit模型(Logitmodel,也譯作“評定模型”,“分類評定模型”,又作Logisticregression,“邏輯回歸”)是離散選擇法模型之一,屬于多重變量分析范疇,是社會學、生物統計學、臨床、數量心理學、計量經濟學、市場營銷等統計實證分析的常用方法。邏輯分布(Logisticdistribution)公式P(Y=1│X=x)=exp(x'β)/(1+exp(x'β))其中參數β常用極大似然估計[8]。Logit模型是最早的離散選擇模型,也是目前應用最廣的模型。Logit模型是Luce(1959)根據IIA特性首次導出的;Marschark(1960)證明了Logit模型與最大效用理論的一致性;Marley(1965)研究了模型的形式和效用非確定項的分布之間的關系,證明了極值分布可以推導出Logit形式的模型;McFadden(1974)反過來證明了具有Logit形式的模型效用非確定項一定服從極值分布。此后Logit模型在心理學、社會學、經濟學及交通領域得到了廣泛的應用,并衍生發展出了其他離散選擇模型,形成了完整的離散選擇模型體系,如Probit模型、NL模型(NestLogitmodel)、MixedLogit模型等。模型假設個人n對選擇枝j的效用由效用確定項和隨機項兩部分構成:Logit模型的應用廣泛性的原因主要是因為其概率表達式的顯性特點,模型的求解速度快,應用方便。當模型選擇集沒有發生變化,而僅僅是當各變量的水平發生變化時(如出行時間發生變化),可以方便的求解各選擇枝在新環境下的各選擇枝的被選概率。根據Logit模型的IIA特性,選擇枝的減少或者增加不影響其他各選擇之間被選概率比值的大小,因此,可以直接將需要去掉的選擇枝從模型中去掉,也可將新加入的選擇枝添加到模型中直接用于預測[9]。Logit模型這種應用的方便性是其他模型所不具有的,也是模型被廣泛應用的主原因之一。2.相比其他模型的優點
(1)模型考察了對兩種貨幣危機定義情況下發生貨幣危機的可能性,即利率調整引起的匯率大幅度貶值和貨幣的貶值幅度超過了以往的水平的情形,而以往的模型只考慮一種情況。(2)該模型不僅可以在樣本內進行預測,還可以對樣本外的數據進行預測。(3)模型可以對預測的結果進行比較和檢驗,克服了以往模型只能解釋貨幣危機的局限。3.相比其他模型的缺點
雖然Logit模型能夠在一定程度上克服模型事后預測事前事件的缺陷,綜合了FR模型中FR概率分析法和KLR模型中信號分析法的優點,但是,它只是在利率、匯率等幾個主要金融資產或經濟指標的基礎上預警投機沖擊性貨幣危機,與一般貨幣危機預警還有所差異。所以僅用幾個指標來定義貨幣危機從而判斷發生貨幣危機的概率就會存在一定問題,外債、進出口、外匯儲備、不良貸款等因素對貨幣危機的影響同樣非常重要。
三.總結機器學習是目前業界最為Amazing與火熱的一項技術,從網上的每一次淘寶的購買東西,到自動駕駛汽車技術,以及網絡攻擊抵御系統等等,都有機器學習的因子在內,同時機器學習也是最有可能使人類完成AIdream的一項技術,各種人工智能目前的應用,如微軟小冰聊天機器人,到計算機視覺技術的進步,都有機器學習努力的成分。作為一名當代的計算機領域的開發或管理人員,以及身處這個世界,使用者IT技術帶來便利的人們,最好都應該了解一些機器學習的相關知識與概念,因為這可以幫你更好的理解為你帶來莫大便利技術的背后原理,以及讓你更好的理解
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《深入理解課件制作原則》課件
- 初一語文上冊《春》解析
- 審計理論與實務考試模擬題+答案(附解析)
- 高等教育學模擬題與參考答案解析
- 2025年1月通信初級工考試題及答案(附解析)
- 自然遺跡保護與國際法律公約考核試卷
- 環境監測與海洋資源合理利用考核試卷
- 老年人休閑活動與康復鍛煉考核試卷
- 淀粉產品的質量安全與食品安全管理考核試卷
- 《J采購管理策略培訓》課件
- 中考數學二元一次方程專題訓練100題(含答案)
- 【教師共享】《羽毛球》教學評價及評價建議
- DB13-T 5742-2023醇基燃料使用安全規范
- 尾礦庫安全生產風險監測預警系統運行管理辦法
- 特殊教育:康復訓練課程標準(年版)
- 南京秦淮外國語學校新初一分班英語試卷含答案
- 醫院陪護服務投標方案(技術標 )
- 醫院四風問題自查報告及整改措施
- (完整)雙控體系管理制度
- 野外生存優秀課件
- 《內心強大 誰都傷不了你》讀書筆記思維導圖PPT模板下載
評論
0/150
提交評論