




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Top10MostCommonDataMiningAlgorithms
Unit
6TextBContents
NewWords
Abbreviations
Phrases參考譯文NewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA十大最常見(jiàn)的數(shù)據(jù)挖掘算法1.C4.5算法C4.5是頂級(jí)數(shù)據(jù)挖掘算法之一,由RossQuinlan開(kāi)發(fā)。C4.5用于根據(jù)已分類的一組數(shù)據(jù)以決策樹的形式生成分類器。這里的分類器是指一種數(shù)據(jù)挖掘工具,該工具獲取我們需要分類的數(shù)據(jù)并嘗試預(yù)測(cè)新數(shù)據(jù)的類別。每個(gè)數(shù)據(jù)點(diǎn)將具有自己的屬性。由C4.5創(chuàng)建的決策樹提出了有關(guān)屬性值的問(wèn)題,并根據(jù)這些值對(duì)新數(shù)據(jù)進(jìn)行分類。標(biāo)記訓(xùn)練數(shù)據(jù)集,使C4.5成為監(jiān)督學(xué)習(xí)算法。決策樹始終易于解釋和說(shuō)明,與其他數(shù)據(jù)挖掘算法相比,這使C4.5快速且流行。2.K-均值算法K-均值是最常見(jiàn)的聚類算法之一。它的工作方式是根據(jù)對(duì)象之間的相似性從一組對(duì)象中創(chuàng)建k個(gè)組。也許不能保證組成員將完全相似,但是與非組成員相比,組成員將更加相似。按照標(biāo)準(zhǔn)實(shí)現(xiàn),K-均值是一種無(wú)監(jiān)督學(xué)習(xí)算法,因?yàn)樗鼰o(wú)需任何外部信息即可自行學(xué)習(xí)聚類。參考譯文3.支持向量機(jī)就任務(wù)而言,支持向量機(jī)(SVM)的工作方式類似于C4.5算法,但支持向量機(jī)根本不使用任何決策樹。支持向量機(jī)學(xué)習(xí)數(shù)據(jù)集并定義一個(gè)超平面以將數(shù)據(jù)分為兩類。超平面是一條線的方程,看起來(lái)像“y=mx+b”。支持向量機(jī)會(huì)把數(shù)據(jù)擴(kuò)展映射到更高的維度。一旦映射,支持向量機(jī)便定義了最佳的超平面,將數(shù)據(jù)分為兩個(gè)類別。4.先驗(yàn)算法先驗(yàn)算法通過(guò)了解關(guān)聯(lián)規(guī)則來(lái)工作。關(guān)聯(lián)規(guī)則是一種數(shù)據(jù)挖掘技術(shù),用于了解數(shù)據(jù)庫(kù)中變量之間的相關(guān)性。一旦了解了關(guān)聯(lián)規(guī)則,就將其應(yīng)用于包含大量事務(wù)的數(shù)據(jù)庫(kù)。先驗(yàn)算法用于發(fā)現(xiàn)有趣的模式和相互關(guān)系,因此被視為無(wú)監(jiān)督學(xué)習(xí)方法。盡管該算法是高效的,但它會(huì)消耗大量?jī)?nèi)存、占用大量磁盤空間并花費(fèi)大量時(shí)間。參考譯文參考譯文5.期望最大化算法期望最大化(EM)用作聚類算法,就像用于知識(shí)發(fā)現(xiàn)的K-均值算法一樣。EM算法以迭代方式工作,以更好地查看觀測(cè)數(shù)據(jù)。接下來(lái),它估計(jì)帶有未觀察到的變量的統(tǒng)計(jì)模型的參數(shù),從而生成一些觀察到的數(shù)據(jù)。EM算法也是無(wú)監(jiān)督學(xué)習(xí)方法,因?yàn)槲覀冊(cè)诓惶峁┤魏螛?biāo)記的類信息的情況下使用它。6.PageRank算法PageRank通常被像谷歌等搜索引擎使用。它是一種鏈接分析算法,可確定對(duì)象網(wǎng)中鏈接的對(duì)象的相對(duì)重要性。鏈接分析是一種探索對(duì)象之間關(guān)聯(lián)的網(wǎng)絡(luò)分析。谷歌搜索通過(guò)了解網(wǎng)頁(yè)之間的反向鏈接來(lái)使用此算法。PageRank是谷歌用來(lái)確定網(wǎng)頁(yè)的相對(duì)重要性并將其在谷歌搜索引擎上排名更高的方法之一。PageRank商標(biāo)是谷歌的專有商標(biāo),PageRank算法由斯坦福大學(xué)獲得專利。PageRank被視為一種無(wú)監(jiān)督學(xué)習(xí)方法,因?yàn)樗鼉H通過(guò)考慮鏈接即可確定相對(duì)重要性,而無(wú)需任何其他輸入。7.Adaboost算法Adaboost是用于構(gòu)建分類器的提升算法。分類器是一種數(shù)據(jù)挖掘工具,可獲取數(shù)據(jù)并根據(jù)輸入預(yù)測(cè)數(shù)據(jù)的類別。提升算法是一種集成學(xué)習(xí)算法,可運(yùn)行多種學(xué)習(xí)算法并將其組合。提升算法吸收一組弱學(xué)習(xí)法,并將它們組合成一個(gè)單一的強(qiáng)學(xué)習(xí)法。弱學(xué)習(xí)法對(duì)數(shù)據(jù)進(jìn)行分類的準(zhǔn)確性較低。弱算法的最佳示例是決策樹樁算法,它基本上是一個(gè)單步?jīng)Q策樹。Adaboost是完美的監(jiān)督學(xué)習(xí),因?yàn)樗梢砸缘绞焦ぷ鳎⑶以诿看蔚校际褂脴?biāo)記的數(shù)據(jù)集訓(xùn)練較弱的學(xué)習(xí)法。Adaboost是一種簡(jiǎn)單且非常直接的算法。在用戶指定輪數(shù)之后,每次連續(xù)的Adaboost迭代都會(huì)為每個(gè)最佳學(xué)習(xí)法重新定義權(quán)重。這使Adaboost成為自動(dòng)調(diào)整分類器的絕佳方式。Adaboost具有靈活性、多功能性和簡(jiǎn)潔性,因?yàn)樗梢院喜⒋蠖鄶?shù)學(xué)習(xí)算法并可以處理大量數(shù)據(jù)。
參考譯文8.KNN算法KNN是一種用作分類算法的消極學(xué)習(xí)算法。消極學(xué)習(xí)法在訓(xùn)練過(guò)程中除了存儲(chǔ)訓(xùn)練數(shù)據(jù)外不會(huì)做任何事情。消極學(xué)習(xí)法僅在輸入新的未標(biāo)記數(shù)據(jù)作為輸入時(shí)才開(kāi)始分類。另一方面,C4.5、SVN和Adaboost是積極學(xué)習(xí)法,它們?cè)谟?xùn)練過(guò)程中就開(kāi)始建立分類模型。由于為KNN提供了標(biāo)記的訓(xùn)練數(shù)據(jù)集,因此將其視為監(jiān)督學(xué)習(xí)算法。9.樸素貝葉斯算法樸素貝葉斯不是單個(gè)算法,盡管可以將其視為單個(gè)算法。樸素貝葉斯是一組分類算法。該算法家族使用的假設(shè)是,要分類的數(shù)據(jù)的每個(gè)特征都獨(dú)立于該類中給出的所有其他特征。樸素貝葉斯用提供給自己的帶有標(biāo)簽的訓(xùn)練數(shù)據(jù)集來(lái)構(gòu)造表格。因此,它被視為監(jiān)督學(xué)習(xí)算法。參考譯文參考譯文10.CART算法CART代表分類樹和回歸樹。它是一種決策樹學(xué)習(xí)算法,可將回歸樹或分類樹作為輸出。在CART中,決策樹節(jié)點(diǎn)將恰好具有2
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 煤礦安全知識(shí)
- 沃森徳吊籃施工方案
- 西安交通大學(xué)《大學(xué)數(shù)學(xué)(一)》2023-2024學(xué)年第二學(xué)期期末試卷
- 《江畔獨(dú)行劉禹錫》課件
- 天津現(xiàn)代職業(yè)技術(shù)學(xué)院《普通化學(xué)Ⅱ》2023-2024學(xué)年第二學(xué)期期末試卷
- 長(zhǎng)江職業(yè)學(xué)院《中國(guó)民族民間舞》2023-2024學(xué)年第二學(xué)期期末試卷
- 西南大學(xué)《醫(yī)學(xué)機(jī)能學(xué)實(shí)驗(yàn)(Ⅱ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 預(yù)分支電纜施工方案
- 美術(shù)輪滑寫生課件
- 2025至2031年中國(guó)微型光刷治療儀行業(yè)投資前景及策略咨詢研究報(bào)告
- 中國(guó)普通食物營(yíng)養(yǎng)成分表(修正版)
- 江蘇省建筑與裝飾工程計(jì)價(jià)定額(2014)電子表格版
- 常用建筑材料容重表
- 智慧樹知到《求職那點(diǎn)兒事-大學(xué)生就業(yè)指導(dǎo)》章節(jié)測(cè)試答案
- 土方工程投標(biāo)文件
- 酒店流水單模版
- XR-WS1600型乳化液箱隨機(jī)圖冊(cè)
- 《優(yōu)化營(yíng)商環(huán)境條例》學(xué)習(xí)研討發(fā)言材料
- SartoriusPB10pH計(jì)校正方法
- 本科畢業(yè)論文氯化聚氯乙烯樹脂的工藝研究及其供需現(xiàn)狀
- 在產(chǎn)業(yè)鏈建設(shè)調(diào)度推進(jìn)會(huì)議上的講話稿
評(píng)論
0/150
提交評(píng)論