



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、經過數據 探索與數據預處理,得到了可以直接建模的數據。根據 挖掘目標和數據形式可以建立模型,包括:分類與預測、聚類分析、 關聯規則、時序模式和偏差檢測等。分類與預測分類和預 測是預測問題的兩種主要類型,分類 主要是預測分類標 號(離散屬性),而預測主要是建立連續信函數模型,預測給定自變 量對應的因變量的值。分類分類是構造一個分類模型,輸入樣本的屬性值,輸出對應的類 別,將每個樣本映射到預先定義好的類別。分類模型建立在已有類標 記的數據集上,模型在已有樣本上的準確率可以方便的計算,所以分 類屬于有監督的學習。分類算法分兩步:第一步是學習,通過歸納分析訓練樣本集來建 立分類模型得到分類規則;第二步
2、是分類,先用已知的測試樣本集評 估分類規則的準確率,如果可以接受,則用該模型對未知標號的待測 樣本集進行預測。預測預測是指 建立兩種或兩種以上變量間相互依賴的函數模 型,然后 進行預測或控制。預測模型也分兩步,第一步是通過訓練集建立預測屬性的函數模 型;第二步在模型通過檢驗后進行預測或控制。常用分類與預測算法算法名稱算法描述回歸分析回歸分析是確定預測屬性與其他變量間相互依賴的定量關系最常用 的統 計學方法。包括線性回歸、非 線性回歸、Logistic 回歸、嶺回 歸、主成分回歸、偏最小二乘回歸等模型決策樹決策樹米用自頂向下的遞歸方式,在內部節點進行屬性值的比較, 并根據不同的屬性值從該節點可下
3、分支,最終得到的葉節點是學習 劃分的類人工神經網 絡人工神經網絡是一種模仿大腦神經網絡結構和功能而建立的信息處 理系統,表示神經網絡的輸入與輸出變量之間關系的模型貝葉斯網絡貝葉斯網絡又稱信度網絡,是Bayes方法的擴展,是目前不確定知 識表達和推理領域最肩效的理論模型之一支持向量機是一種通過某種非線性映射,把低維的非線性可分轉化 支持向量機 為高維的線性可分,在高維空間進行線性分析的算法聚類分析與分類不同,聚類分析是在沒有給定劃分類別的情況下,根據數 據相似度進行樣本分組的一種方法。與分類模型需要使用有類標記樣 本構成的訓練數據不同,聚類模型可以建立在無類標記的數據上,是 一種非監督的學習方法
4、。聚類的輸入是一組未被標記的樣本,聚類根據數據自身的距離或 相似度將其劃分為若干組,劃分的原則是組內距離最小化而組間(外 部)距離最大化。常用聚類方法類別主要算法劃分(分裂)方法K-Means算法(K-平均)、K-MEDOIDS算法(K-中心點)、CLARANSB法(基于選擇的算法)層次分析方法BIRCH算法(平 衡迭代規約和聚類)、CURE算法(代表點 聚類)、CHAMELEONS法(動態模型)基于密度的方法DBSCANB法(基于高密度連接區域)、DENCLU國法(密 度分布函數)、OPTICS算法(對象排序識別)基于網絡的方法STING算法(統計信息網絡)、CLIOUE算法(聚類高維空 間
5、)、WAVE-CLUSTERf法(小波變換)基于模型的方法統計學方法、神經網絡方法常用聚類分析算法算法名稱算法描述K-MeansK-均值聚類也稱為快速聚類法,在最小化誤差函數的基礎 上將數據劃分為預定的類數Ko該算法原理簡單并便于處理大量數據K-中心點系統聚類K-均值算法對孤立點的敏感性,K-中心點算法不采用簇中 對象的平均值作為簇中心,而選用簇中離平均值最近的對 象作為簇中心系統聚類也稱為多層次聚類,分類的單位由高到低呈樹形 結構,且所處的位置越低,其所包含的對象就越少,但這 些對象間的共同特征越多。該聚類方法只適合在小數據量 的時候使用,數據量大的時候速度會非常慢關聯規則關聯規則分析是數據
6、挖掘中最活躍的研究方法之一,目的是在一 個數據集中找出各項之間的關聯關系,而這種關系并沒有在數據中直 接表小出來。比如一個常見的例子,在美國,一般都是男士下班后順便去買尿 布,而他們通常會順帶買啤酒,那么超市就把啤酒擺放在靠近嬰兒尿 布的位置,滿足了客戶的體驗,更提高了業績。就是通過大量的歷史 數據的分析,得到這兩種商品之前的密切關聯,因而做出上面的決 給 o常用關聯規則算法算法名稱算法描述Apriori關聯規則最常用也是最經典的挖掘頻繁項集的算法,其核心思 想是通過連接產生候選項及其支持度然后通過剪枝生成頻繁項 集FP-Tree針對Apriori 算法的固有的多次掃描事務數據集的缺陷,提出
7、的不產生候選頻繁項集的方法。Apriori 和FP-Tree都是尋找頻 繁項集的算法Eclat 算法Eclat算法是一種深度優先算法,采用垂直數據表示形式,在概 念格理論的基礎上利用基于前綴的等價關系將搜索空間劃分為 較小的子空間灰色關聯法分析和確定各因素之間的影響程度或是若干子因素對主因素的 貝獻度而進仃的一種分析方法時序模式對于時間序列,首先要進行預處理,拿到一個觀測值序列,首先 要對它的純隨機性和平穩性進行檢驗。根據檢驗結果可以將序列分為 不同的類型,對不同類型的序列會采取不同的分析方法。總的來說, 時間序列分析,就是給定一個已被觀測了的時間序歹I,預測該序列的 未來值。常用的時間序列模
8、型有:平滑法、趨勢擬合法、組合模式、AR模 型、MA模型、ARMA1型、ARIMA模型等。離群點檢測離群點檢測是數據挖掘中重要的一部分,它的任務是發現與大部 分其他對象顯著不同的對象。大部分數據挖掘方法都將這種差異信息 視為噪聲而丟棄,然而在一些應用中,罕見的數據可能蘊含著更大的 研究價值。因為離群點的屬性值明顯偏離期望的或常見的屬性值,所 以離群點檢測也稱偏差檢測。離群點檢測已經被廣泛應用于電信和信用卡的詐騙檢測、貸款審 批、電子商務、網絡入侵和天氣預報等領域。離群點分類?數據范圍:全局離群點和局部離群點從整體來看,某些對象沒有離群特征,但是從局部來看,卻顯示了一 定的離群性。?數據類型:數值型離群點和分類型離群點 這是以數據集的屬性類型進行劃分的。?屬性個數:一維離群點和多維離群點 一個對象可能有一個或多個屬性。離群點檢測方法離群點檢測方 法方法描述基于統計大部分的基于統計的離群點檢測方法是構建一個概率分布模型, 并計算對象符合該模型的概率,把具有低概率的對象視為離群點基于鄰近度通常可以在數據對象之間定義鄰近性度量,把遠離大部分點的對 象視為離群點基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025聯想硬件購銷合同樣本
- 民事調解糾紛協議書范本
- 2025船舶股份轉讓合同
- 2025屆湖南省高三下學期“一起考”二模聯考物理試題及答案
- 2025合同解除范文
- 2025合同期滿解除勞動合同協議書
- 保密和不競爭協議
- 2025年青島貨運上崗證考試題
- 2025yy委托生產合同書
- 建筑工程咨詢服務合同
- 2025年中國電子產品租賃行業市場占有率及投資前景預測分析報告
- 工程師評審代辦合同協議
- (二模)2025年深圳市高三年級第二次調研考試物理試卷(含標準答案)
- 小班健康活動:我會吃魚
- 專利代理師考試題庫含答案2024
- 湖北省武漢市2025屆高中畢業生四月調研考試物理試題及答案(武漢四調)
- 珠寶并購策略優化-全面剖析
- DB12 T1230-2023 政務信息資源共享 總體框架
- 管道拆除專項施工方案
- 廣西壯族自治區馬山縣實驗高中-雙休背后:從“要我學”到“我要學”的轉變-高三家長會【課件】
- AI時代職業院校財會類專業課程教學改革探討
評論
0/150
提交評論