




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
分類與回歸預測算法ArtificialIntelligence,2024關于分類現實生活中我們常常需要給不同的對象貼上一定的標簽,以區別于其他數據對象數據標簽:顏色、地域、性別、語言等靜態標簽:數據對象的固有屬性決定的(人的膚色、年齡)v.s.動態標簽關于分類關于回歸預測的例子氣象預測二手車價格預測關于分類與回歸預測的幾個問題在分類和預測之前都有標簽嗎?分類任務和回歸預測任務的區別是什么?分類和預測模型要如何設計,如何選擇最合適的算法?如何評估分類和回歸預測的效果?Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經網絡和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標08模型調優分類vs.回歸預測分類使用離散的類標號來表示分類結果,類標號之間無固有的序列關系經典應用:信貸審批、目標營銷、圖形目標識別回歸預測使用連續的數值來表示回歸結果經典應用:價格預測、氣象預測、股市預測分類模型—兩步過程:建立模型和訓練:對一組預先確定類別的數據進行監督學習假設每個元組/樣本都屬于一個預定義的類,由類標簽(y)確定用于模型構建的元組集是訓練集(X)分類模型可以表示一種映射關系y=f(X),即將訓練集屬性X映射到具體的類標簽y上使用模型:用于對未知對象進行分類評估準確率將測試樣本的標簽與模型的分類結果進行比較準確率是指測試集中的樣本被模型正確分類的百分比測試集獨立于訓練集,否則會出現過度擬合如果準確率可以接受,則使用該模型對類標簽未知的數據元組進行分類分類模型
監督vs.無監督學習監督學習(分類)監督:類標簽已知根據訓練集對新數據進行分類無監督學習(聚類)類標簽未知給定一組測量、觀測等,目的是確定數據中是否存在類或簇Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經網絡和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標08模型調優決策樹進化信用卡申請審批案例輸入:訓練集用戶基本信息表用戶id年齡教育層次是否有房收入類標號1青年本科無房153153通過2中年博士無房121934通過3老年本科無房107237未通過4中年高中無房85735未通過5老年博士有房206037通過6中年高中有房27976未通過7老年專科無房195792未通過8青年本科有房127709通過………………輸出:關于“信用卡申請審批”的決策樹決策樹提供模擬決策過程來預測數據的分類結果決策樹由一個根節點和一系列內部節點分支及若干葉節點構成決策樹容易轉化為分類規則決策樹歸納基本算法(貪心法)開始,所有的訓練樣本都在根部生成內部子節點,并在當前結點選擇“局部最優”特征進行屬性劃分重復第二步,不斷生成分支節點,直至生成整棵決策樹停止劃分的條件給定節點的所有樣本都屬于同一類沒有剩余的屬性可供進一步劃分沒有剩余樣本以自頂向下遞歸的分治方法來構造樹“局部最優”特征通過屬性選擇度量算法選取基于屬性類型的屬性選擇度量屬性選擇度量是一種分裂準則,是將給定類別的訓練元組數據集D“最佳”地劃分成個體類的啟發式方法,是構造決策樹分類器的關鍵選擇的標準是要使每個非葉節點進行屬性測試時,使被測元組的類別信息最大化,保證非葉結點到達各后代葉節點平均路徑最短、速度最快屬性有離散值和連續值兩種表示形式,這兩種屬性使用不同的度量標準來評估其作為分割標準的有效性。離散值屬性度量方法:信息增益、增益率連續值屬性度量方法:基尼(Gini)指數屬性選擇度量:信息增益(ID3)動機:選擇具有最高信息增益的屬性首先,計算整個訓練數據D的熵,即總體熵最后,計算原始數據總體熵與分割后期望信息之差,來得到信息增益指標
信息增益越大,說明它在分類過程中越有效,分割后的子集“純度”也越高屬性選擇度量:增益率(C4.5)分裂信息值增益率衡量了每單位分裂信息所獲得的信息增益動機:以規范化方式解決信息增益對具有多個值屬性(用戶id)的偏好問題Gini指標(CART,IBMIntelligentMiner)基尼指數:衡量在沒有任何屬性劃分的情況下,數據集D的不純度有多大
動機:在決策樹算法中,處理連續數值屬性通常涉及選擇一個或多個合適的閾值來將數據集分割成兩部分
通過計算初始數據集的基尼指數與分割后基尼指數的差來評估每個分割點的效果,最后選取不純度變化量最大的屬性:決策樹構建算法的應用過程使用機器學習庫scikit-learn中的DecisionTreeClassifier類來構建決策樹,配合matplotlib對構建好的決策樹進行繪制importnumpyasnpfromsklearn.treeimportDecisionTreeClassifierfromsklearnimporttreeimportmatplotlib.pyplotaspltdata=np.array([[1,3,30000,0],#有房,高教育,高收入,通過[1,1,15000,0],#有房,低教育,低收入,未通過[0,2,18000,1],#無房,中教育,中收入,未通過[0,3,24000,0],#無房,高教育,高收入,通過[0,1,12000,1],#無房,低教育,低收入,未通過])X=data[:,:3]#特征:有房,教育,收入y=data[:,3]#標簽:通過與否clf=DecisionTreeClassifier(max_depth=3)#創建決策樹模型,限制樹的深度為3clf.fit(X,y)#使用matplotlib繪制決策樹plt.figure(figsize=(12,8))tree.plot_tree(clf,eature_names=["house","education","income"],class_names=["notapproved","approved"],filled=True,rounded=True)
plt.show()Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經網絡和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標08模型調優貝葉斯定理設X是類標簽未知的數據元組設Y是某種假設,例如數據元組X屬于特定類Y條件X下Y的后驗概率:P(Y|X),對于給定元組X,假設Y成立的概率。Y的先驗概率
:P(Y)(根據以往經驗和分析得到的概率,反映了背景知識)邊緣概率:P(X),元組X被觀測到的概率。似然概率:P(X|Y),假設Y成立的條件下,樣本X被觀測到的概率。給定訓練數據X,假設Y的后驗概率P(Y|X)服從貝葉斯定理,計算公式:P(Y|X)樸素貝葉斯分類前提假設:屬性之間相互獨立
在處理離散型屬性時,樸素貝葉斯分類器通過計算每個屬性值在特定類別下的條件概率來進行分類對于數值型屬性,樸素貝葉斯通常采用一種分布假設來估計條件概率,其中常見的假設是屬性遵循高斯分布訓練集類別:Y1:‘通過’;Y2:‘未通過’數據樣本:X=(年齡=中年,教育層次=本科,是否有房=有房,收入=27976)樸素貝葉斯分類:一個例子
樸素貝葉斯分類器:評論優勢易于實現
在大多數情況下能都獲得較好的分類準確率劣勢類條件獨立性假設實際上,變量之間存在依賴關系,例如,醫院:患者;檔案:年齡、家族史;癥狀:發熱、咳嗽等;疾病:肺癌、癌癥、糖尿病等這些之間的依賴關系不能用樸素貝葉斯分類器建模如何處理屬性之間的依賴關系呢?貝葉斯信念網絡貝葉斯信念網絡貝葉斯信念網絡允許在變量子集之間定義類條件獨立性一種提供因果關系的圖模型表示變量之間的依賴關系確定聯合概率分布YZPX結點:隨機變量邊:依賴關系X,Y是Z的雙親,且Y是P的雙親Z和P之間沒有依賴關系無環Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經網絡和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標08模型調優2025/3/20SVM—支持向量機描述:支持向量機(SVM)是一種卓越的二分類監督學習模型,其主要目標是在特征空間中尋找一個最優超平面,以此超平面最大化不同類別數據之間的間隔,從而實現優越的分類效果和泛化能力一種新的針對線性和非線性數據的分類方法2025/3/20數據線性可分的情況數據集D表示(X1,y1),…,(X|D|,y|D|),其中
Xi
對應類標簽yi有無限條線(超平面)將這兩個類分開,但想找到最好的一個(最大限度地減少看不見數據的分類誤差的一個)2025/3/20線性支持向量機二維空間中的線性可分數據:
幾何間隔一個樣本點到決策邊界的距離支持向量幾何間隔最大時的兩個異類樣本間隔這些支持向量到超平面的距離之和2025/3/20線性支持向量機支持向量小間隔大間隔2025/3/20線性支持向量機求解分離超平面H分離超平面“側面”的超平面
聯立兩個不等式,得到:
接下來需要使用拉格朗日乘子進行候選求解2025/3/20非線性支持向量機動機:在實際應用中,經常遇到的數據集特征關系復雜,遠超過簡單線性關系所能描述的范圍,可以將線性SVM擴展為非線性SVM實現步驟:1.通過非線性映射原始數據轉換到一個更高維的特征空間2.在這個新的空間中數據變成線性可分,使用線性支持向量機進行分類2025/3/20一個例子2025/3/20核技巧及常見核函數
Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經網絡和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標08模型調優神經網絡人工神經網絡的設計靈感源自于對生物神經系統的深入模擬當神經元接受到外界刺激時,會沿著軸突傳導電信號,實現從一個神經元到另一個神經元的信號轉移。神經元的細胞體通過樹突與其他神經元的軸突相連,而這些連接點被稱為神經突觸。1959年,FrankRosenblatt首次提出感知器,感知器學習規則通過逐步改變權重以學習產生目標輸出,為具有固定輸入的單個神經元訓練目標輸出值單層感知機單層感知機數學表達式:
原理:通過輸入和權重的標量乘積,并結合一個非線性函數映射,目標是將n維輸入向量x映射到輸出到1維變量y上單層感知機參數更新算法反向傳播技術:迭代調整權重w和偏置項t以最小化分類錯誤數學表達式:
終止條件:1.到達預設的迭代次數上限;2.滿足誤差閾值;3.在連續幾輪迭代中誤差變化極小或者達到一個非常低的特定值更新算法的最終目標
得到一組權重w和偏置項t,使得訓練集中的元組分類誤差盡可能小訓練過程隨機初始化權重和偏置項將訓練集中的元組逐個輸入給感知機模型中,對于每個輸入元祖計算預測結果和分類誤差基于參數更新公式更新權重和偏置項多層感知機單個感知器僅能表示線性決策面,多層感知機能夠表示種類繁多的非線性曲面來作為非線性決策面多層感知機引入更多種類激活函數,使得模型可以逼近任何非線性函數輸入層隱藏層輸出層…………………激活函數a)ReLU激活函數b)tanh激活函數激活函數需要具備以下幾點性質:連續并可導(允許少數點上不可導)的非線性函數激活函數的導數值域應適中,避免過大或過小,以免影響訓練的效率和穩定性激活函數及其導數應盡可能簡單,以提高網絡的計算效率文本分類算法文本分類是數據挖掘和自然語言處理領域的一項基本任務,它涉及將文本文檔分類到一個或多個預定義的類別中。文本表示方法One-Hot編碼:假設詞匯表為{"cat","dog","bird","fish"},則每個詞可以表示為一個4維向量:"cat"為[1,0,0,0],"dog"為[0,1,0,0]TF-IDF方法:TF-IDF方法通過結合詞頻(TF)和逆文檔頻率(IDF)來加權詞匯的重要性。詞頻衡量一個詞在單個文檔中的出現頻率,而逆文檔頻率則反映一個詞在整個文檔集中的獨特性,用來降低常見詞的權重并提升罕見詞的影響力。最終,TF-IDF分數通過將TF與IDF相乘得到。詞嵌入:詞嵌入是一種先進的文本表示方法,它將每個詞映射到一個連續的向量空間中,以捕捉詞語間的語義和語法關系。基于深度學習的模型介紹基于深度學習的先進分類模型,這些模型特別適用于捕獲文本中的長距離依賴關系和復雜的語義信息。循環神經網絡(RNN)是一類用于處理序列數據的神經網絡。優點:RNN通過內部狀態的循環傳遞來處理輸入序列中的時間動態特征缺點:傳統的RNN在處理長序列時常常面臨梯度消失或梯度爆炸的問題,這限制了其在某些應用場景中的效能基于深度學習的模型長短期記憶網絡(LSTM):設計獨特的門控機制有效地解決了長期記憶的挑戰,該機制涉及三個核心組件:輸入門、遺忘門和輸出門。輸入門決定新輸入的信息中哪些需要更新到單元狀態遺忘門判斷單元中的哪些信息應當被舍棄,以避免信息過載和模型的過擬合輸出門控制從單元狀態到輸出狀態的信息流,決定哪些信息是重要的,應當被用于預測或影響下一個隱藏狀態基于深度學習的模型門控循環單元(GRU):GRU通過合并LSTM中的輸入門和遺忘門為一個統一的更新門,并添加了一個重置門來簡化模型結構。更新門在GRU中的功能是決定在每個時間步驟中,應該保留多少之前的狀態信息,以此幫助模型抓取長期依賴關系。重置門的作用則是在計算當前的候選狀態時,決定應該忽略多少過去的狀態信息,從而使模型能夠根據新的輸入靈活調整響應。基于LSMT的情感分析案例數據集選擇和導入:使用IMDb電影評論數據集作為案例數據集,通過torchtext庫下載該數據集.LSTM模型定義:定義一個情感分析的LSTM模型類SentimentAnalysisLSTM,該類繼承自nn.Module,包含嵌入層、一個或多個LSTM層、一個全連接層、以及一個Sigmoid激活函數。模型實例化和損失函數定義:設置好LSTM模型參數后創建模型實例(model),并定義二元交叉熵損失函數(nn.BCELoss)和Adam優化器模型訓練過程:通過10個訓練周期迭代訓練數據。在每個周期內,模型對每個樣本進行預測,計算損失,并通過反向傳播更新權重,優化器在每次迭代后重置梯度。模型評估:在測試集上評估模型性能,計算模型的準確率。通過比較模型的預測和真實標簽來統計正確預測的數量,最終計算出整體的準確率。Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經網絡和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標08模型調優回歸分析的基本概念
回歸預測算法類別(根據具體的數據分析需求):線性回歸非線性回歸線性回歸線性回歸通過最佳擬合直線(也稱為回歸線)來描述自變量和因變量之間的線性關系。線性回歸模型假設條件:線性關系:假定二手車的價格主要由車齡決定,并預設這種影響呈現線性關系。獨立性:獨立性假設要求數據中每一項(如每輛車的價格和車齡)必須是彼此獨立的,意味著任何一輛車的價格都不應受到其他車輛的影響。簡單的線性回歸模型表達式(假設單個自變量x和因變量y之間存在線性依賴關系):
線性回歸模型擬合
線性回歸模型擬合
多元線性回歸模型擬合
多元線性回歸模型的表達式:
使用最小二乘法估計回歸系數β,最終回歸系數β的解為:
多元線性回歸模型擬合-一個例子實際應用中,通常不會對回歸系數β進行手動運算,而是直接使用集成了最小二乘法的現有工具來直接求解β,以下是使用sklearn庫求解二手車價格的具體例子#簡單二手車價格預測案例fromsklearn.linear_modelimportLinearRegressionX=np.array([[2104,5,1,45],#面積,臥室數量,樓層數,房齡[1416,3,2,40],[1534,3,2,30],[852,2,1,36]])Y=np.array([460,232,315,178])#價格model=LinearRegression()#創建線性回歸模型model.fit(X,Y)#使用觀測樣本擬合模型print('截距:',ercept_)#輸出訓練得到的截距非線性回歸非線性回歸模型適用情況:自變量與因變量之間的關系可能遵循一些已知的非線性函數非線性回歸模型的一般表達式:非線性回歸模型因變量y的期望函數表達為:非線性回歸模型的另一個顯著特點是,期望函數關于回歸系數β的導數至少會有一個導數要取決于至少一個回歸系數。
非線性回歸模型擬合
非線性回歸模型擬合常見的非線性函數導線性函的變換關系Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經網絡和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標08模型調優邏輯回歸邏輯回歸模型可以被認為就是一個被Sigmoid函數所歸一化后的線性回歸模型,邏輯回歸實際上是一種分類技術Sigmoid函數:將線性回歸模型的輸出值轉換為介于0和1之間的概率值邏輯回歸和線性/非線性回歸的不同線性/非線性回歸模型的因變量是連續變量邏輯回歸模型則是二元分類變量二分類任務的邏輯回歸模型
Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經網絡和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標08模型調優Accuracy(準確率),Precision(精確率)andRecall(召回率)Accuracy(準確率,針對所有類別而言,平均分類效果)Precision(精確率,針對某個類別而言)Recall(召回率,針對某個類別而言)F1Score(精確率與召回率的調和平均)分類準確度:估計誤差率分類準確度:ROC曲線和AUC值ROC曲線:一種通過描繪不同閾值下的真正例率(TPR)與假正例率(FPR)之間關系的圖形工具。AUC值:ROC曲線下的面積,用以度量分類模型區分正負樣本能力的統計指標例子:案例:假設有一個數據集,包括患者是否患有某種疾病的實際情況及模型預測的概率。數據情況:分類準確度:ROC曲線和AUC值案例分析:以有疾病類為感興趣正元組,可以計算在不同閾值下的真正類率(TPR)和假正類率(FPR)的值。通過連接每個閾值下(FPR,TPR)的點來繪制ROC曲線,通過計算ROC曲線與FPR坐標的面積得到AUC的值。實踐:使用sklearn庫中的roc_curve和roc_auc_score輔助matplotlib庫繪制ROC曲線和計算AUC的值。Python代碼和繪制結果如下所示:importnumpyasnpfromsklearn.metricsimportroc_curve,roc_auc_scoreimportmatplotlib.pyplotasplty_true=np.array([1,0,0,1,1,0,1,0,1,0])#數據準備y_scores=np.array([0.90,0.85,0.78,0.65,0.60,0.55,0.52,0.40,0.38,0.30])#模型預測概率#使用roc_curve函數計算ROC曲線的各個點fpr,tpr,thresholds=roc_curve(y_true,y_scores)auc=roc_auc_score(y_true,y_scores)#計算AUC值#使用matplotlib繪制ROC曲線……回
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 青島小學一年級科學課外活動計劃
- 景觀生態評估方法-全面剖析
- 生物基化學品發展趨勢-全面剖析
- 太陽能發電效率提升-全面剖析
- 智能咖啡機語音交互系統-全面剖析
- 物資部年度采購計劃
- 汽配企業成本控制策略-全面剖析
- 太陽能光伏并網技術-全面剖析
- 人際溝通效率的優化策略-全面剖析
- 古箏社團資源整合計劃
- GB/T 16823.3-2010緊固件扭矩-夾緊力試驗
- 《生活中的會計學》課程教學大綱
- 2023年高考英語試題及答案(江蘇卷)(直接打印Word)無錯版
- 硬筆書法全冊教案共20課時
- DB44-T 2198-2019城鄉社區協商工作規范-(高清現行)
- 資源環境信息系統(gis)課件
- 股東身份證明
- 本科大學生勞動教育理論與實踐教程第三章 教學課件
- 近代以來廣州外貿產業的發展歷程
- 29《馬說》2022中考語文文言文閱讀復習精選真題匯編(原卷版+解析版)
- 國內外鋼結構焊接標準體系及國標鋼結構焊接規范介紹劉景鳳PPT教案
評論
0/150
提交評論