基于幾類機(jī)器學(xué)習(xí)模型預(yù)測(cè)肥胖成因的分析比較_第1頁(yè)
基于幾類機(jī)器學(xué)習(xí)模型預(yù)測(cè)肥胖成因的分析比較_第2頁(yè)
基于幾類機(jī)器學(xué)習(xí)模型預(yù)測(cè)肥胖成因的分析比較_第3頁(yè)
基于幾類機(jī)器學(xué)習(xí)模型預(yù)測(cè)肥胖成因的分析比較_第4頁(yè)
基于幾類機(jī)器學(xué)習(xí)模型預(yù)測(cè)肥胖成因的分析比較_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于幾類機(jī)器學(xué)習(xí)模型預(yù)測(cè)肥胖成因的分析比較目錄TOC\o"1-3"\h\u223351引言 摘要:本研究旨在利用幾類機(jī)器學(xué)習(xí)模型對(duì)個(gè)體肥胖成因進(jìn)行分析預(yù)測(cè),并探索其在健康管理和疾病預(yù)防中的應(yīng)用。通過收集個(gè)體的健康數(shù)據(jù),包括生活方式、遺傳信息、身體指標(biāo)等,進(jìn)行數(shù)據(jù)處理和特征工程,建立了XGBoost、隨機(jī)森林、決策樹及GBDT四類預(yù)測(cè)模型。并使用上述模型預(yù)測(cè)個(gè)體的肥胖成因,并揭示了影響肥胖的關(guān)鍵因素。通過模型分析比較,發(fā)現(xiàn)幾類模型對(duì)肥胖成因預(yù)測(cè)的準(zhǔn)確度等。此外,模型還能夠?yàn)閭€(gè)體提供個(gè)性化的健康管理建議,為公共衛(wèi)生政策制定提供科學(xué)依據(jù)。這為深入理解肥胖病因和預(yù)防提供了新的視角和方法,對(duì)于改善公眾健康具有重要意義。關(guān)鍵詞:XGBoost模型、隨機(jī)森林、決策樹、GBDT、肥胖成因1引言1.1研究背景肥胖問題已經(jīng)成為全球范圍內(nèi)的重大公共衛(wèi)生挑戰(zhàn)REF_Ref13073\n\h[1]。隨著生活方式的改變、工作環(huán)境的變化以及飲食結(jié)構(gòu)的調(diào)整,肥胖率在全球范圍內(nèi)呈現(xiàn)出不斷上升的趨勢(shì)。據(jù)世界衛(wèi)生組織(WHO)的數(shù)據(jù)顯示,全球成年人口中超過三分之一(約39%)患有超重和肥胖問題REF_Ref13190\n\h[2]。肥胖不僅與心血管疾病、糖尿病、高血壓等慢性疾病密切相關(guān),還增加了許多其他疾病的風(fēng)險(xiǎn),包括某些癌癥、骨關(guān)節(jié)疾病和精神健康問題。此外,肥胖還對(duì)個(gè)體的生活質(zhì)量和壽命造成了負(fù)面影響,導(dǎo)致了巨大的醫(yī)療費(fèi)用和經(jīng)濟(jì)負(fù)擔(dān)。面對(duì)肥胖問題,預(yù)防和管理變得至關(guān)重要。然而,由于肥胖的發(fā)病機(jī)制復(fù)雜,受到遺傳、環(huán)境、生活方式等多種因素的影響,傳統(tǒng)的預(yù)防和管理方法往往效果有限。因此,基于數(shù)據(jù)驅(qū)動(dòng)的精準(zhǔn)健康管理成為了解決肥胖問題的一種重要途徑。在這種背景下,借助機(jī)器學(xué)習(xí)技術(shù)對(duì)肥胖程度進(jìn)行分析預(yù)測(cè)具有重要意義。傳統(tǒng)的肥胖程度分析方法往往基于BMI(身體質(zhì)量指數(shù))等簡(jiǎn)單指標(biāo),這些方法往往無法全面考慮個(gè)體的生理、生活方式和遺傳等多方面因素的影響。而XGBoost、隨機(jī)森林、決策樹、GBDT四類模型REF_Ref13288\n\h[3]都?xì)w屬于機(jī)器學(xué)習(xí)算法REF_Ref13530\n\h[4],因其在處理結(jié)構(gòu)化數(shù)據(jù)和高維特征方面等優(yōu)勢(shì)而備受關(guān)注。因此,基于幾類機(jī)器學(xué)習(xí)模型預(yù)測(cè)肥胖成因REF_Ref13585\n\h[5]具有重要的研究意義和實(shí)際應(yīng)用價(jià)值。通過綜合考慮個(gè)體的多種特征,利用上述四類模型進(jìn)行肥胖成因的預(yù)測(cè)進(jìn)行對(duì)比分析,有助于提高預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性,為個(gè)性化健康管理和精準(zhǔn)醫(yī)療提供了新的方法和思路。此外,深入研究肥胖與健康之間的關(guān)系,可以為肥胖防治和相關(guān)政策制定提供科學(xué)依據(jù)和數(shù)據(jù)支持。1.2研究意義1.2.1理論意義首先,這些模型能夠有效地捕捉肥胖發(fā)生的復(fù)雜性和多因素影響。通過分析特征重要性,可以確定對(duì)肥胖發(fā)生具有關(guān)鍵作用的因素,從而深入理解肥胖的發(fā)生機(jī)制。其次,這些模型具有不同的優(yōu)勢(shì)和適用性。XGBoost模型REF_Ref13687\w\h[6]通過集成多個(gè)決策樹來擬合復(fù)雜的非線性關(guān)系,具有較高的預(yù)測(cè)性能和泛化能力;隨機(jī)森林模型能夠綜合考慮多種因素對(duì)肥胖的影響,具有較強(qiáng)的魯棒性和泛化能力;決策樹模型簡(jiǎn)單直觀,易于理解和解釋,適用于簡(jiǎn)單場(chǎng)景或需要可解釋性較強(qiáng)的情況;GBDT模型在捕獲數(shù)據(jù)復(fù)雜關(guān)系方面較為強(qiáng)大,但訓(xùn)練速度可能較慢,需要更多的調(diào)參工作。通過比較分析,可以選擇最適合實(shí)際應(yīng)用的模型,為肥胖成因的預(yù)測(cè)和干預(yù)提供更有效的手段。最后,利用這些模型進(jìn)行肥胖成因的預(yù)測(cè)和分析,可以為肥胖防控工作提供科學(xué)決策支持。根據(jù)模型的預(yù)測(cè)結(jié)果,可以及時(shí)發(fā)現(xiàn)和干預(yù)患者,減少肥胖相關(guān)的健康問題和醫(yī)療成本,促進(jìn)公眾健康和社會(huì)穩(wěn)定。1.2.2現(xiàn)實(shí)意義1、對(duì)比這四類模型擇優(yōu)可以幫助醫(yī)生和健康專家更準(zhǔn)確地評(píng)估個(gè)體的肥胖成因,從而制定更有效的健康管理計(jì)劃。通過對(duì)個(gè)體的肥胖狀態(tài)進(jìn)行及時(shí)監(jiān)測(cè)和干預(yù),可以減少肥胖相關(guān)疾病的風(fēng)險(xiǎn),提高個(gè)體的生活質(zhì)量。2、可以更好的深入了解肥胖問題的流行趨勢(shì)和影響因素,為制定科學(xué)的公共衛(wèi)生政策提供重要支持。有針對(duì)性地實(shí)施干預(yù)措施可以有效地遏制肥胖率的增長(zhǎng),減少肥胖相關(guān)疾病的發(fā)病率,從而降低醫(yī)療開支并減輕社會(huì)負(fù)擔(dān)。3、能夠根據(jù)個(gè)體的特征數(shù)據(jù)進(jìn)行個(gè)性化的肥胖成因預(yù)測(cè),為個(gè)體提供量身定制的健康管理建議。這有助于提高個(gè)體對(duì)健康管理的參與度和滿意度,促進(jìn)健康行為的形成和堅(jiān)持。4、通過預(yù)測(cè)肥胖成因,可以及時(shí)發(fā)現(xiàn)高風(fēng)險(xiǎn)人群,合理分配醫(yī)療資源,優(yōu)先保障高風(fēng)險(xiǎn)人群的健康需求。這有助于提高醫(yī)療資源的利用效率,降低醫(yī)療服務(wù)的成本。因此,基于幾類機(jī)器學(xué)習(xí)模型來預(yù)測(cè)肥胖成因的研究具有重要的現(xiàn)實(shí)意義和社會(huì)價(jià)值,有助于提升健康管理水平、改善公共衛(wèi)生政策、促進(jìn)產(chǎn)業(yè)發(fā)展和推動(dòng)科學(xué)研究。1.3國(guó)內(nèi)外研究現(xiàn)狀國(guó)內(nèi)研究現(xiàn)狀:目前,國(guó)內(nèi)研究針對(duì)基于XGBoost模型、隨機(jī)森林模型、決策樹模型和GBDT預(yù)測(cè)肥胖成因展開了初步探索。部分研究?jī)A向于應(yīng)用這些機(jī)器學(xué)習(xí)模型于國(guó)內(nèi)肥胖?jǐn)?shù)據(jù),以探究其預(yù)測(cè)效果和適用性。雖然這些研究還處于起步階段,但初步結(jié)果顯示XGBoost模型在肥胖成因預(yù)測(cè)中表現(xiàn)出良好的性能和可行性。隨機(jī)森林模型也受到關(guān)注,其在處理多因素影響和非線性關(guān)系方面顯示出一定的優(yōu)勢(shì)。決策樹模型因其簡(jiǎn)單直觀的特點(diǎn),在一些國(guó)內(nèi)研究中得到應(yīng)用,但尚未深入探索其在肥胖成因預(yù)測(cè)中的優(yōu)勢(shì)。GBDT模型的應(yīng)用也逐漸受到關(guān)注,但仍需進(jìn)一步的國(guó)內(nèi)研究來驗(yàn)證其在肥胖預(yù)測(cè)中的效果和適用性。因此,國(guó)內(nèi)對(duì)于這些機(jī)器學(xué)習(xí)模型在預(yù)測(cè)肥胖成因方面的研究還需要進(jìn)一步加強(qiáng)和深化。國(guó)外研究現(xiàn)狀:國(guó)外的研究已經(jīng)廣泛探索了基于XGBoost模型、隨機(jī)森林模型、決策樹模型和GBDT預(yù)測(cè)肥胖成因的分析比較。這些研究主要集中在利用大規(guī)模健康數(shù)據(jù)庫(kù)進(jìn)行模型驗(yàn)證和性能比較方面,發(fā)現(xiàn)XGBoost模型在預(yù)測(cè)肥胖風(fēng)險(xiǎn)方面表現(xiàn)出較高的準(zhǔn)確性和泛化能力。隨機(jī)森林模型因其處理多維特征和非線性關(guān)系的能力而受到關(guān)注,適用于復(fù)雜的肥胖成因分析。決策樹模型由于其簡(jiǎn)單直觀的特點(diǎn),被廣泛用于解釋特征之間的關(guān)系,為肥胖成因的理解提供了可解釋性。而GBDT模型在捕捉數(shù)據(jù)復(fù)雜關(guān)系和處理大規(guī)模數(shù)據(jù)集方面具有顯著優(yōu)勢(shì)。這些研究結(jié)果表明,這些機(jī)器學(xué)習(xí)模型在預(yù)測(cè)肥胖成因方面具有潛力,為未來肥胖預(yù)防和干預(yù)提供了有益的指導(dǎo)和理論支持。綜上所述,國(guó)內(nèi)外學(xué)者們對(duì)基于這幾類機(jī)器學(xué)習(xí)模型的肥胖成因分析預(yù)測(cè)比較REF_Ref13755\n\h[7]都表現(xiàn)出濃厚的興趣,并在該領(lǐng)域取得了一定的研究進(jìn)展。隨著技術(shù)的不斷進(jìn)步和研究的深入開展,相信基于這幾類機(jī)器學(xué)習(xí)模型的肥胖成因預(yù)測(cè)將會(huì)在未來發(fā)揮更加重要的作用。1.4研究?jī)?nèi)容和方法1.4.1研究?jī)?nèi)容首先,研究需要收集個(gè)體的相關(guān)數(shù)據(jù),包括身高、體重、年齡、性別、飲食習(xí)慣REF_Ref13755\n\hREF_Ref13814\n\h[8]等特征數(shù)據(jù)。接著對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括處理缺失值、識(shí)別和處理異常值,并進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化或歸一化等操作,以確保模型的穩(wěn)定性和準(zhǔn)確性。然后,在構(gòu)建這四種機(jī)器學(xué)習(xí)模型之前,需要對(duì)特征進(jìn)行選擇和工程處理,以提高模型的預(yù)測(cè)能力和泛化性能。通過特征選擇方法,篩選出與肥胖程度相關(guān)性較高的特征;同時(shí),進(jìn)行特征工程,如特征組合、特征轉(zhuǎn)換等,提取出與肥胖程度相關(guān)的有效特征,并將其轉(zhuǎn)換為模型可以處理的形式。然后,使用這四類機(jī)器學(xué)習(xí)算法建立肥胖程度預(yù)測(cè)模型。在模型建立過程中,需要將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,并對(duì)模型進(jìn)行訓(xùn)練和調(diào)優(yōu),以提高模型的性能和泛化能力。完成模型訓(xùn)練后,對(duì)其進(jìn)行評(píng)估和驗(yàn)證。通常采用交叉驗(yàn)證或留出驗(yàn)證等方法來評(píng)估模型的泛化能力和預(yù)測(cè)性能,以確保模型在未知數(shù)據(jù)上的準(zhǔn)確性和穩(wěn)定性。最后對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行解釋和實(shí)際應(yīng)用。可以分析模型對(duì)于肥胖程度預(yù)測(cè)的重要特征,探索個(gè)體肥胖的影響因素,并根據(jù)預(yù)測(cè)結(jié)果制定個(gè)性化的健康管理方案,幫助個(gè)體改善健康狀況。1.4.2研究方法對(duì)結(jié)構(gòu)化的肥胖相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理、特征工程和模型訓(xùn)練。在預(yù)處理階段進(jìn)行數(shù)據(jù)清洗、缺失值處理和特征標(biāo)準(zhǔn)化等步驟,以確保數(shù)據(jù)質(zhì)量和一致性。接著,特征工程通過選擇、組合和轉(zhuǎn)換特征,提高模型的性能和泛化能力。然后,將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,并使用交叉驗(yàn)證等技術(shù)來評(píng)估模型的性能。最后,比較不同模型在預(yù)測(cè)肥胖成因方面的效果,通過評(píng)估指標(biāo)如準(zhǔn)確率、召回率和F1值等來進(jìn)行客觀的比較和分析,以尋找最佳的預(yù)測(cè)模型。2幾類機(jī)器學(xué)習(xí)模型2.1XGBoost模型XGBoost是一種機(jī)器學(xué)習(xí)算法,它利用梯度提升決策樹(GradientBoostingDecisionTree)的原理。通過組合多個(gè)弱分類器(通常是決策樹),構(gòu)建出一個(gè)強(qiáng)大的分類器,能夠有效地處理復(fù)雜數(shù)據(jù)的分類任務(wù)。XGBoost采用加法模型進(jìn)行訓(xùn)練,即通過將多個(gè)基分類器(決策樹)的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)求和,以獲得最終的分類結(jié)果。在訓(xùn)練過程中,XGBoost使用梯度提升策略,不斷地?cái)M合殘差,逐步優(yōu)化模型。每次迭代中,XGBoost都會(huì)構(gòu)建一個(gè)新的決策樹,用來擬合當(dāng)前的殘差。在構(gòu)建決策樹時(shí),XGBoost采用了CART(ClassificationandRegressionTrees)算法,通過貪心策略選擇最佳的劃分特征和劃分點(diǎn)。同時(shí),XGBoost引入了正則化項(xiàng)和剪枝策略,以防止模型過擬合。通過不斷地迭代、擬合殘差,并結(jié)合加法模型和梯度提升策略,以及引入正則化和剪枝,來訓(xùn)練出一個(gè)強(qiáng)大而泛化能力強(qiáng)的集成模型,用于解決各種分類和回歸問題。2.2隨機(jī)森林模型隨機(jī)森林模型是一種集成學(xué)習(xí)方法,用于解決分類和回歸問題。它由多個(gè)決策樹組成,每個(gè)決策樹都是獨(dú)立訓(xùn)練的,且通過隨機(jī)選擇樣本和特征進(jìn)行訓(xùn)練。在分類問題中,隨機(jī)森林通過投票或取平均值的方式匯總每棵樹的結(jié)果,最終確定樣本的類別;在回歸問題中,隨機(jī)森林則通過取平均值的方式匯總每棵樹的結(jié)果,來預(yù)測(cè)目標(biāo)變量的值。隨機(jī)森林具有良好的泛化能力,對(duì)于高維數(shù)據(jù)和大量訓(xùn)練樣本表現(xiàn)出色,同時(shí)也能有效處理特征之間的相關(guān)性和非線性關(guān)系。由于其魯棒性和易于實(shí)現(xiàn)的特點(diǎn),隨機(jī)森林在實(shí)際應(yīng)用中被廣泛使用,尤其在醫(yī)學(xué)診斷、金融風(fēng)險(xiǎn)評(píng)估和客戶行為預(yù)測(cè)等領(lǐng)域取得了顯著成果。2.3決策樹模型決策樹模型是一種基于樹狀結(jié)構(gòu)的機(jī)器學(xué)習(xí)模型,用于解決分類和回歸問題。在決策樹中,每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)特征屬性的測(cè)試,每個(gè)分支代表測(cè)試結(jié)果的一個(gè)可能性,而每個(gè)葉節(jié)點(diǎn)表示最終的類別標(biāo)簽或數(shù)值。決策樹的構(gòu)建過程主要包括特征選擇、樹的生成和修剪等步驟。特征選擇階段根據(jù)某個(gè)準(zhǔn)則(如信息增益、基尼指數(shù))選擇最優(yōu)的特征進(jìn)行數(shù)據(jù)劃分。樹的生成階段遞歸地將數(shù)據(jù)集劃分為子集,直到數(shù)據(jù)集中的樣本屬于同一類別或達(dá)到停止條件。修剪階段用于防止過擬合,通過剪枝策略去除一些不必要的節(jié)點(diǎn)或分支。決策樹模型易于理解和解釋,適用于處理離散型和連續(xù)型特征的數(shù)據(jù),也能自動(dòng)處理特征之間的關(guān)聯(lián)關(guān)系。2.4GBDT模型GBDT(GradientBoostingDecisionTrees)模型是一種集成學(xué)習(xí)方法,通過串行訓(xùn)練多個(gè)決策樹來完成回歸或分類任務(wù)。在GBDT中,每個(gè)決策樹都是基于前一個(gè)樹的殘差來進(jìn)行訓(xùn)練的,以逐步改進(jìn)模型的預(yù)測(cè)性能。具體地,GBDT通過梯度提升算法,根據(jù)損失函數(shù)的負(fù)梯度方向逐步優(yōu)化模型,使得每棵新樹擬合前面樹的殘差。最終,所有樹的預(yù)測(cè)結(jié)果累加起來,得到最終的模型預(yù)測(cè)結(jié)果。GBDT模型通常采用回歸樹來構(gòu)建,但也可以用于分類問題,通過改變損失函數(shù)來適應(yīng)不同的任務(wù)。GBDT模型在處理非線性關(guān)系、高維數(shù)據(jù)和缺失值等方面表現(xiàn)出色,因此在各種實(shí)際應(yīng)用中都取得了良好的效果,例如搜索排名、推薦系統(tǒng)和風(fēng)險(xiǎn)評(píng)估等領(lǐng)域。3數(shù)據(jù)處理3.1數(shù)據(jù)來源數(shù)據(jù)來源于UCL機(jī)器學(xué)習(xí)知識(shí)庫(kù),數(shù)據(jù)集包含2111條記錄,每條記錄有17個(gè)屬性。這些記錄標(biāo)有肥胖等級(jí),分為體重不足、正常、超重一級(jí)、超重二級(jí)、肥胖一級(jí)、肥胖二級(jí)和肥胖三級(jí)七個(gè)分類。3.2數(shù)據(jù)說明數(shù)據(jù)共17個(gè)屬性,如表1所示:表SEQ表\*ARABIC1屬性含義及取值說明表屬性含義取值A(chǔ)ge年齡取整數(shù)Gender性別Female、MaleHeight身高取小數(shù)點(diǎn)后兩位(m)Weight體重取整數(shù)(kg)CALC飲酒No,Sometimes,Frequently,AlwaysFAVC經(jīng)常吃高熱量的食物Yes、NoFCVC食用蔬菜的頻率No(0)、Sometimes(1)、Frequently(2)、Always(3)NCP正餐次數(shù)1-2、3、>3SCC消耗監(jiān)測(cè)Yes、NoSMOKE抽煙Yes、NoCH2O每日飲水量1(alittle),2(1-2L),3(>2L)FAF運(yùn)動(dòng)頻率0(No),1(1-2天),2(2-4天),3(4-5天)TUE使用設(shè)備時(shí)間0(0-2h),1(3-5h)、2(>5h)CAEC兩餐內(nèi)食用食物No,Sometimes,Frequently,AlwaysMTRANS使用的交通工具Automobile,Motorbike,Bike,Public,Transportation,WalkingNobeyesdad肥胖等級(jí)BasedontheWHOClassificationFamily_history_with_overweight家庭肥胖史Yes、No3.3數(shù)據(jù)預(yù)處理對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)數(shù)據(jù)未出現(xiàn)缺失值,不需處理,但包含重復(fù)值,在去除重復(fù)值后剩余2087條數(shù)據(jù)。分別以Age、Gender、CALC、FAVC、FCVC、NCP、SCC、SMOKE、CH2O、FAF、TUE、CAEC、Family_history_with_overweight為特征,根據(jù)給定的標(biāo)簽N0beyesdad,計(jì)算出每個(gè)個(gè)體的體重指數(shù)REF_Ref13964\n\h[9]后,并根據(jù)世界衛(wèi)生組織(WHO)所提供的表2,確定其肥胖水平。對(duì)所得數(shù)據(jù)進(jìn)行肥胖程度分類(計(jì)算方法如下)。Massbodyindex=表SEQ表\*ARABIC2體重指數(shù)分類表標(biāo)準(zhǔn)等級(jí)MBI<18.5體重不足18.5≤MBI≤24.9正常25.0≤MBI≤29.9超重30.0≤MBI≤34.9肥胖一級(jí)35.0≤MBI≤39.9肥胖二級(jí)MBI≥40肥胖三級(jí)3.4可視化分析對(duì)各肥胖程度人數(shù)進(jìn)行可視化分析(圖1),發(fā)現(xiàn)不同肥胖程度的人數(shù)相差不大。圖1各肥胖程度人數(shù)匯總圖按照'NObeyesdad'和'Gender'兩個(gè)列進(jìn)行分組,并使用'Gender'列的計(jì)數(shù)方法count()統(tǒng)計(jì)每個(gè)分組的數(shù)量,然后將結(jié)果保存在變量sex_group中,繪制不同類別下性別的數(shù)量分布柱狀圖。分析不同性別在肥胖肥胖等級(jí)中的分布情況(圖2),發(fā)現(xiàn)在體重不足的人中,女性體重不足的人數(shù)遠(yuǎn)高于男性;在體重正常、超重、肥胖一級(jí)中,男女人數(shù)比例幾乎一致;在肥胖二級(jí)中,男性人數(shù)遠(yuǎn)高于女性;在肥胖三級(jí)中,女性人數(shù)遠(yuǎn)高于男性。圖2不同肥胖程度男女占比圖按照'NObeyesdad'和'family_history_with_overweight'兩個(gè)列進(jìn)行分組,并使用'family_history_with_overweight'列的計(jì)數(shù)方法count()統(tǒng)計(jì)每個(gè)分組的數(shù)量,然后將結(jié)果保存在變量family_group中,繪制不同類別下家族肥胖史與超重的數(shù)量分布柱狀圖。分析家家族肥胖史與超重在肥胖等級(jí)中的分布情況(圖3),可以看出超重一、二級(jí)和肥胖一、二、三級(jí)的人幾乎都有家族肥胖史,說明家族肥胖史具有遺傳性,可被遺傳給后代。圖3家族肥胖史對(duì)肥胖的影響圖4模型構(gòu)建4.1建立模型4.1.1建立XGBoost模型首先選取數(shù)據(jù)集中的特征,看哪些特征適合用于模型訓(xùn)練。然后,選擇一些初始的模型參數(shù)。減少參數(shù)對(duì)模型的性能和泛化能力的影響。接下來,構(gòu)建的第一個(gè)樹模型。根據(jù)數(shù)據(jù)和初始參數(shù)建立一個(gè)簡(jiǎn)單的樹模型,作為模型的起點(diǎn),然后計(jì)算每個(gè)樣本的損失函數(shù)的梯度和二階導(dǎo)數(shù),來調(diào)整模型。計(jì)算出了梯度和二階導(dǎo)數(shù)后,對(duì)新的樹模型進(jìn)行擬合。使用梯度提升算法來減少當(dāng)前模型的殘差,以改善模型的性能。每次迭代后,添加一個(gè)新的樹模型,以減少殘差,并逐步優(yōu)化模型。同時(shí)在每次迭代之后,更新模型參數(shù),包括樹的權(quán)重和葉子節(jié)點(diǎn)的輸出值。這些參數(shù)的更新將有助于優(yōu)化模型,使其更好地?cái)M合數(shù)據(jù)。在整個(gè)訓(xùn)練過程中,應(yīng)用正則化處理,以防止模型過度擬合,并增強(qiáng)其泛化能力。模型訓(xùn)練完成后,我們將數(shù)據(jù)輸入已訓(xùn)練好的模型中,即可獲得所需的結(jié)果。4.1.2建立隨機(jī)森林模型對(duì)數(shù)據(jù)進(jìn)行清洗、處理缺失值和異常值,并將數(shù)據(jù)劃分為特征(自變量)和目標(biāo)變量(肥胖成因)。通過特征選擇方法選擇對(duì)肥胖成因有影響的重要特征。將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。使用Python中的機(jī)器學(xué)習(xí)庫(kù)(scikit-learn)來建立隨機(jī)森林模型,通過訓(xùn)練集擬合模型。使用測(cè)試集評(píng)估模型的性能,常用指標(biāo)包括準(zhǔn)確率、精確率、召回率、F1值等。根據(jù)評(píng)估結(jié)果進(jìn)行模型調(diào)優(yōu),調(diào)整模型參數(shù)、增加訓(xùn)練數(shù)據(jù)、進(jìn)行特征工程等方法來優(yōu)化模型性能。使用優(yōu)化后的模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè),從而預(yù)測(cè)肥胖成因。4.1.3建立決策樹模型使用Python中的機(jī)器學(xué)習(xí)庫(kù)(scikit-learn)來建立決策樹模型,并通過訓(xùn)練集擬合模型。隨后,使用測(cè)試集評(píng)估模型的性能,根據(jù)評(píng)估結(jié)果進(jìn)行模型調(diào)優(yōu)。最后使用優(yōu)化后的模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè),從而預(yù)測(cè)肥胖成因。4.1.4建立GBDT模型使用Python中的機(jī)器學(xué)習(xí)庫(kù)(scikit-learn)來建立GBDT模型,通過訓(xùn)練集擬合模型。使用測(cè)試集評(píng)估模型的性能,根據(jù)評(píng)估結(jié)果進(jìn)行模型調(diào)優(yōu),調(diào)整模型參數(shù)(樹的數(shù)量、樹的深度等)來優(yōu)化模型性能。使用優(yōu)化后的模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè),從而預(yù)測(cè)肥胖成因。4.2模型對(duì)比使用XGBoost模型、隨機(jī)森林模型、決策樹模型及GBDT(梯度提升樹)這四類模型進(jìn)行預(yù)測(cè),可得出如圖所示結(jié)果,XGBoost模型準(zhǔn)確率為0.9665,隨機(jī)森林模型準(zhǔn)確率為0.9665,決策樹模型準(zhǔn)確率為0.9641,GBDT模型準(zhǔn)確率為0.9545。XGBoost模型和隨機(jī)森林模型在準(zhǔn)確度上表現(xiàn)相近,對(duì)肥胖程度分析預(yù)測(cè)有較高的可行性(圖4)。圖4準(zhǔn)確度及混淆矩陣對(duì)比圖對(duì)上述模型模型預(yù)測(cè)進(jìn)行進(jìn)一步分析,得到下表(表3)所示的模型結(jié)果評(píng)估圖,由表可以看出XGBoost模型的的準(zhǔn)確率與隨機(jī)森林的各項(xiàng)指標(biāo)都相接近,可以達(dá)到較好的預(yù)測(cè)效果,而決策樹及GBDT模型準(zhǔn)確率略低于上述兩個(gè)模型,預(yù)測(cè)效果有所欠缺。從召回率、精確率及F1來看XGBoost模型、隨機(jī)森林、決策樹模型相接近。所以對(duì)此肥胖分析預(yù)測(cè)我們優(yōu)先選取XGBoost模型和隨機(jī)森林模型來進(jìn)行預(yù)測(cè),預(yù)計(jì)達(dá)到較好的效果,結(jié)合這兩種模型進(jìn)行肥胖分析預(yù)測(cè)可以更全面地挖掘數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,提高預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性,為肥胖防控工作提供更有力的支持。表SEQ表\*ARABIC3模型評(píng)估結(jié)果對(duì)比圖準(zhǔn)確率召回率精確率F1XGBoost0.9660.9660.9650.965隨機(jī)森林0.9660.9660.9650.965決策樹0.9650.9660.9650.965GBDT0.9540.9540.9520.953圖5四類模型特征重要性評(píng)分圖6影響肥胖的因素重要性為進(jìn)一步判斷模型中各個(gè)因素對(duì)肥胖的影響程度,通過特征重要性分析(圖6),發(fā)現(xiàn)影響肥胖程度與體重關(guān)系最大,其次是身高、飲食習(xí)慣REF_Ref13964\n\h[10]、日常使用的交通工具等,但無論使用哪一種模型,抽煙對(duì)肥胖的影響度都很低。5總結(jié)通過收集大規(guī)模健康調(diào)查數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理和特征工程,我們構(gòu)建了適合以上四種模型訓(xùn)練的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果顯示,我們的模型在測(cè)試集上取得了較高的準(zhǔn)確率,并在交叉驗(yàn)證中表現(xiàn)穩(wěn)定。通過對(duì)多個(gè)影響因子進(jìn)行多分類標(biāo)簽獲取得到各個(gè)影響因子與肥胖水平之間的權(quán)值,得出肥胖家族史與肥胖水平、年齡、是否經(jīng)常食用高熱量的食物呈現(xiàn)出正相關(guān)關(guān)系,即年齡更大,經(jīng)常使用高熱量食物并且具有家族肥胖史的人群更易肥胖;而是否進(jìn)行卡路里消耗監(jiān)測(cè)和是否經(jīng)常活動(dòng)與肥胖水平呈現(xiàn)出負(fù)相關(guān)關(guān)系,即使用卡路里檢測(cè)并且經(jīng)常進(jìn)行運(yùn)動(dòng)有助于人們降低肥胖機(jī)率。這為個(gè)體健康管理和公共衛(wèi)生政策制定提供了重要啟示REF_Ref14030\n\h[11]。總的來說,基于XGBoost模型和隨機(jī)森林模型的肥胖成因分析預(yù)測(cè)具有良好的性能和實(shí)用性,為未來的健康管理和疾病預(yù)防提供了新的研究方向。因此,根據(jù)分析結(jié)果,給肥胖人群提出以下建議;定制飲食計(jì)劃:建議控制攝入高熱量、高脂肪、高糖的食物,增加攝入蔬菜、水果、全谷物和健康蛋白質(zhì)的量。選擇低GI(血糖指數(shù))的食物,避免過度進(jìn)食或饑餓。控制飲食量和進(jìn)食頻率:制定合適的飲食量和進(jìn)食頻率。建議采用小份量、多餐制的飲食方式,避免過量進(jìn)食和晚餐過量。制定個(gè)性化運(yùn)動(dòng)計(jì)劃:根據(jù)模型預(yù)測(cè)的分析結(jié)果,制定個(gè)體的運(yùn)動(dòng)計(jì)劃。建議挑選適合個(gè)人身體狀況和興趣愛好的運(yùn)動(dòng)方式REF_Ref14261\n\h[12],比如散步、游泳、瑜伽等,并每周保持適量的運(yùn)動(dòng)時(shí)間。監(jiān)測(cè)生活習(xí)慣和行為:利用技術(shù)手段(如智能手環(huán)、健康A(chǔ)pp等)監(jiān)測(cè)個(gè)體的生活習(xí)慣和行為,如睡眠質(zhì)量、活動(dòng)量、飲水量等。根據(jù)監(jiān)測(cè)結(jié)果調(diào)整生活方式,逐步改善健康狀況。雖然以上建議可以幫助肥胖人群改善健康狀況,但要有效控制肥胖人口數(shù)量仍然需要多方面的努力和持續(xù)的關(guān)注。要有效控制肥胖人口數(shù)量,需要采取綜合的策略,只有通過社會(huì)各界的共同努力,才能有效控制肥胖問題,提高人民健康水平。參考文獻(xiàn)\o"López-SuárezA.Burdenofcancerattributabletoobesity,type2diabetesandassociatedriskfactors.Metabolism,2019,92:136-146."López-SuárezA.Burdenofcancerattributabletoobesity,type2diabetesandassociatedriskfactors.Metabolism,2019,92:136-146.\o"BessellE,MarkovicTP,FullerNR,etal.Howtoprovideastructuredclinicalassessmentofapatientwithoverweightorobesity.DiabetesObesMetab,2021,23:36-49."BessellE,MarkovicTP,FullerNR,etal.Howtoprovideastructuredclinicalassessmentofapatientwithoverweightorobesity.DiabetesObesMetab,2021,23:36-49.LiL,SunJ,WangH,etal.1991-2018年中國(guó)成年人超重肥胖的時(shí)空分布及BMI的相關(guān)影響因素分析(英文)[C]//亞洲營(yíng)養(yǎng)學(xué)會(huì)聯(lián)合會(huì),中國(guó)營(yíng)養(yǎng)學(xué)會(huì).AbstractBookofthe14thAsianCongressofNutrition--PublicNutrition&Health.[出版者不詳],2023:1.DOI:10.26914/kihy.2023.076592.洪晨悅.基于數(shù)據(jù)挖掘技術(shù)的高血壓患病因素研究[D].華東師范大學(xué),2022.DOI:10.27149/ki.ghdsu.2021.001563.趙冉冉,鄧志杰,楊榕桂,等.基于機(jī)器學(xué)習(xí)算法的超重/肥胖患者減重效果預(yù)測(cè)模型構(gòu)建及影響因素分析[J].廣西醫(yī)學(xué),2023,45(16):1969-1976.周潔.基于機(jī)器學(xué)習(xí)的老年人高血壓并發(fā)癥預(yù)測(cè)研究[D].山東財(cái)經(jīng)大學(xué),2022.DOI:10.27274/ki.gsdjc.2020.000082.董文靜,王雅萱,宇克莉.3種肥胖指標(biāo)對(duì)涼山彝族中心性肥胖的預(yù)測(cè)[J].天津師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,37(01):76-80.張玲玲,熊家豪,王紀(jì)川,李宛洋,楊翊,任國(guó)峰.長(zhǎng)沙市大學(xué)生外賣食品消費(fèi)現(xiàn)狀及其與超重肥胖的關(guān)聯(lián)[J].中華疾病控制雜志,2020,24(09):1027-1031.崔寶月.上海和香港大學(xué)生靜態(tài)行為、體力活動(dòng)和BMI的比較研究及相關(guān)性分析[D].上海師范大學(xué),2019.李亞茹,王婧,趙麗云,等.中國(guó)成年人飲酒習(xí)慣及影響因素[J].中華流行病學(xué)雜志,2018,39(07):898-903.黃暉明,王人衛(wèi),李森,繆愛琴,許浩,湯強(qiáng).體重指數(shù)與體脂率指標(biāo)評(píng)價(jià)肥胖:基于診斷試驗(yàn)的比較研究[J].中國(guó)運(yùn)動(dòng)醫(yī)學(xué)雜志,2017,36(03):218-225.張瀚月,紹文娟,孫婷婷,等.預(yù)測(cè)我國(guó)7-18歲城市學(xué)生2030年超重肥胖流行趨勢(shì)的研究[C]//中國(guó)體育科學(xué)學(xué)會(huì).第十三屆全國(guó)體育科學(xué)大會(huì)論文摘要集——專題報(bào)告(體質(zhì)與健康分會(huì)).[出版者不詳],2023:3.DOI:10.26914/kihy.2023.065358.附錄部分?jǐn)?shù)據(jù)運(yùn)行代碼importpandasaspdimportnumpyasnpimportxgboostasxgbimportmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_splitimportseabornassnsfromsklearn.linear_modelimportLogisticRegressionfromsklearn.treeimportDecisionTreeClassifierfromsklearn.naive_bayesimportGaussianNBfromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsimportconfusion_matrix,accuracy_scoreimportwarningswarnings.filterwarnings('ignore')plt.rcParams['font.sans-serif']=['SimHei']#顯示中文標(biāo)簽plt.rcParams['axes.unicode_minus']=False#導(dǎo)入數(shù)據(jù)data=pd.read_csv('ObesityDataSet_raw_and_data_sinthetic.csv')data.head()print(data)#查看數(shù)據(jù)大小data.shape#查看數(shù)據(jù)集的基本信息print(())#查看數(shù)據(jù)集的統(tǒng)計(jì)摘要print(data.describe())#查看數(shù)據(jù)類型data.dtypes#查看非數(shù)值型數(shù)據(jù)描述data.describe(include=np.object)#查看缺失值data.isnull().sum()#查看重復(fù)值any(data.duplicated())#刪除重復(fù)行data.drop_duplicates(inplace=True)data.shape#各肥胖程度人數(shù)進(jìn)行可視化分析data['NObeyesdad'].value_counts().plot.barh()#不同性別在肥胖的中的占比#sex_group=data.groupby(['NObeyesdad','Gender'])['Gender'].count()sex_groupsex_group.plot(kind='bar')#家族肥胖史對(duì)肥胖程度的影響family_group=data.groupby(['NObeyesdad','family_history_with_overweight'])['family_history_with_overweight'].count()family_groupfamily_group.plot.bar()#將NObeyesdad肥胖等級(jí)用0-6來表示data.NObeyesdad.replace(to_replace={'Insufficient_Weight':0,'Normal_Weight':1,'Overweight_Level_I':2,'Overweight_Level_II':3,'Obesity_Type_I':4,'Obesity_Type_II':5,'Obesity_Type_III':6},inplace=True)data['NObeyesdad'].value_counts()#將CAEC、CALC的值用1-4表示data.CAEC.replace(to_replace={'no':1,'Sometimes':2,'Frequently':3,'Always':4},inplace=True)data.CALC.replace(to_replace={'no':1,'Sometimes':2,'Frequently':3,'Always':4},inplace=True)#將MTRANS值用1-5表示data.MTRANS.replace(to_replace={'Bike':1,'Motorbike':2,'Walking':3,'Automobile':4,'Public_Transportation':5},inplace=True)#將family_history_with_overweight、FAVC、SMOKE、SCC、Gender的值用0,1表示data['family_history_with_overweight']=data['family_history_with_overweight'].apply(lambdax:0ifx=='no'else1)data['FAVC']=data['FAVC'].apply(lambdax:0ifx=='no'else1)data['SMOKE']=data['SMOKE'].apply(lambdax:0ifx=='no'else1)data['SCC']=data['SCC'].apply(lambdax:0ifx=='no'else1)data['Gender']=data['Gender'].apply(lambdax:0ifx=='Female'else1)#劃分訓(xùn)練集和測(cè)試集,隨機(jī)數(shù)種子控制每次劃分訓(xùn)練集和測(cè)試集的模式一致x=data.drop('NObeyesdad',axis=1)y=data['NObeyesdad']x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=42)#XGBoost訓(xùn)練模型#數(shù)據(jù)預(yù)處理#將分類特征進(jìn)行編碼le=LabelEncoder()data['Gender']=le.fit_transform(data['Gender'])data['family_history_with_overweight']=le.fit_transform(data['family_history_with_overweight'])data['FAVC']=le.fit_transform(data['FAVC'])data['SMOKE']=le.fit_transform(data['SMOKE'])data['SCC']=le.fit_transform(data['SCC'])data['CALC']=le.fit_transform(data['CALC'])data['MTRANS']=le.fit_transform(data['MTRANS'])data['NObeyesdad']=le.fit_transform(data['NObeyesdad'])#劃分特征和標(biāo)簽X=data.drop('NObeyesdad',axis=1)y=data['NObeyesdad']#劃分訓(xùn)練集和測(cè)試集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)#訓(xùn)練XGBoost模型model=xgb.XGBClassifier()model.fit(X_train,y_train)#使用測(cè)試集進(jìn)行預(yù)測(cè)y_pred=model.predict(X_test)#評(píng)估模型性能accuracy=accuracy_score(y_test,y_pred)print("模型準(zhǔn)確率:",accuracy)#打印混淆矩陣conf_matrix=confusion_matrix(y_test,y_pred)print("混淆矩陣:")print(conf_matrix)#打印特征重要性評(píng)分feat_labels=x_train.columns[0:]importances=rfc.feature_importances_indices=np.argsort(importances)[::-1]forf,jinzip(range(x_train.shape[1]-1),indices):print(f+1,feat_labels[j],importances[j])#隨機(jī)森林訓(xùn)練模型rfc=RandomForestClassifier(n_estimators=1000)rfc.fit(x_train,y_train)y_pred=rfc.predict(x_test)print('模型準(zhǔn)確率',accuracy_score(y_test,y_pred))#打印混淆矩陣conf_matrix=confusion_matrix(y_test,y_pred)print("混淆矩陣:")print(conf_matrix)#決策樹訓(xùn)練模型rfc=RandomForestClassifier(n_estimators=1000)rfc.fit(x_train,y_train)y_pred=rfc.predict(x_test)print('模型準(zhǔn)確率',accuracy_score(y_test,y_pred))print(confusion_matr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論