




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1 / 49本本 科科 畢畢 業(yè)業(yè) 設(shè)設(shè) 計(jì)(論文)計(jì)(論文) 題目題目: : 基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 姓姓 名名 張宇恒張宇恒 學(xué)學(xué) 院院 軟件學(xué)院軟件學(xué)院 專專 業(yè)業(yè) 軟件工程軟件工程 班班 級(jí)級(jí) 2010211503 學(xué)學(xué) 號(hào)號(hào) 10212099 班內(nèi)序號(hào)班內(nèi)序號(hào) 01 指導(dǎo)教師指導(dǎo)教師 牛琨牛琨 2014 年年 5 月月基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)摘摘 要要隨著科技的不斷發(fā)展和中國(guó)教育制度的日趨完善,各大高校對(duì)教務(wù)管理工作提出了越來(lái)越高的要求。各大高校不
2、再滿足于傳統(tǒng)的成績(jī)管理方式,開(kāi)始運(yùn)用數(shù)據(jù)挖掘領(lǐng)域的先進(jìn)方法對(duì)學(xué)生成績(jī)進(jìn)行分析和研究。教務(wù)工作人員使用關(guān)聯(lián)規(guī)則挖掘算法分析課程間的內(nèi)在聯(lián)系,可為學(xué)校的改進(jìn)教學(xué)工作提供依據(jù),并為學(xué)生的選課和學(xué)業(yè)規(guī)劃提供指導(dǎo);對(duì)學(xué)生進(jìn)行分類,讓學(xué)生能夠?qū)ψ约涸谛F陂g所學(xué)課程的成績(jī)有一個(gè)全面而清晰的了解,方便學(xué)生揚(yáng)長(zhǎng)避短選擇選修課程,及時(shí)對(duì)可能在學(xué)習(xí)上遇到困難的學(xué)生進(jìn)行預(yù)警;運(yùn)用聚類算法對(duì)學(xué)生進(jìn)行聚類,找出具有共同特征的學(xué)生,并對(duì)不同學(xué)生群體分別采取不同的教學(xué)方法,初步體現(xiàn)因材施教的教育理念,最終探索出適合中國(guó)國(guó)情和教育制度的個(gè)性化培養(yǎng)模式。本系統(tǒng)采用 Eclipse 作為開(kāi)發(fā)平臺(tái),以 Java 作為開(kāi)發(fā)語(yǔ)言。通過(guò)對(duì)
3、高校學(xué)生成績(jī)分析系統(tǒng)的需求分析,本系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)了可以使用關(guān)聯(lián)規(guī)則挖掘算法分析課程間的內(nèi)在聯(lián)系,使用分類算法對(duì)學(xué)生進(jìn)行分類,使用聚類算法對(duì)學(xué)生進(jìn)行聚類。希望本系統(tǒng)能對(duì)今后高校學(xué)生成績(jī)分析系統(tǒng)的開(kāi)發(fā)提供一定的參考價(jià)值。關(guān)鍵詞關(guān)鍵詞 成績(jī)分析 關(guān)聯(lián)規(guī)則 分類 聚類Design and implementation of student achievement analysis system based on data mining technologyABSTRACTWith the continuous development of technology and the Chinese educa
4、tion system maturing, Universities have put higher requirements to their academic administration. Universities are no longer satisfied with traditional performance management, began to apply advanced data mining methods to analyze and study students achievement. Staff of academic affairs use associa
5、tion rule mining algorithm to analysis intrinsic link between courses, which can provide the basis for improving the teaching of the school and guidance for the students enrollment and academic planning. Using classification algorithm to classify the students, so that students can have a clear under
6、standing in their academic performance, and facilitate students in selecting courses. Warning students who probably face difficulties in the academic. Using clustering algorithm to cluster the students to identify students with common characteristics, so that teachers can teach different students in
7、 different way, embodies the concept of individualized education, finally discover a personalized education model, which is suitable for Chinas national conditions and education system.The system was developed in Eclipse, with java as a development language. By analyzing the need of student achievem
8、ent analysis system, this system uses association rule mining algorithm to analysis intrinsic link between courses, uses classification algorithm to classify the students, uses clustering algorithm to cluster the students to identify students. I hope this system can provide some reference value to t
9、he future development of college students achievement analysis system.KEY WORDS achievement analysis association rules classification clustering目錄目錄第一章第一章 引言引言.11.1 選題的背景和意義 .11.2 個(gè)性化培養(yǎng)的重要意義 .11.3 國(guó)內(nèi)外個(gè)性化培養(yǎng)的現(xiàn)狀 .21.3.1 國(guó)外個(gè)性化培養(yǎng)現(xiàn)狀 .21.3.2 國(guó)內(nèi)個(gè)性化培養(yǎng)現(xiàn)狀 .31.4 成績(jī)分析系統(tǒng)的現(xiàn)狀和存在的問(wèn)題 .31.4.1 成績(jī)分析系統(tǒng)開(kāi)發(fā)使用的現(xiàn)狀 .31.4.2 成績(jī)分
10、析系統(tǒng)建設(shè)存在的問(wèn)題 .4第二章第二章 相關(guān)技術(shù)相關(guān)技術(shù).42.1 相關(guān)數(shù)據(jù)挖掘知識(shí)理論 .42.1.1 數(shù)據(jù)挖掘 .42.1.2 關(guān)聯(lián)規(guī)則 .52.1.3 分類 .62.1.4 聚類 .62.2 開(kāi)發(fā)工具的選擇 .72.2.1 Eclipse 簡(jiǎn)介.72.2.2 Eclipse 的優(yōu)勢(shì).7第三章第三章 系統(tǒng)分析系統(tǒng)分析.83.1 軟件過(guò)程模型 .83.2 需求分析 .93.2.1 用例圖 .93.2.2 需求的結(jié)構(gòu)化描述 .10第四章第四章 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).144.1 系統(tǒng)概要設(shè)計(jì) .144.1.1 系統(tǒng)體系結(jié)構(gòu) .144.1.2 系統(tǒng)數(shù)據(jù)結(jié)構(gòu) .154.2 系統(tǒng)詳細(xì)設(shè)計(jì) .1
11、64.2.1 文件導(dǎo)入數(shù)據(jù) .164.2.2 數(shù)據(jù)預(yù)處理 .164.2.3 關(guān)聯(lián)規(guī)則 .184.2.4 分類 .194.2.5 聚類 .204.2.6 導(dǎo)出文件 .224.3 系統(tǒng)實(shí)現(xiàn) .234.3.1 文件導(dǎo)入數(shù)據(jù) .234.3.2 數(shù)據(jù)預(yù)處理 .234.3.3 關(guān)聯(lián)規(guī)則 .234.3.4 分類 .244.3.5 聚類 .244.3.6 導(dǎo)出文件 .254.4 系統(tǒng)應(yīng)用 .26第五章第五章 結(jié)論結(jié)論.30參考文獻(xiàn)參考文獻(xiàn).31致致 謝謝.32第一章第一章 引言引言1.11.1 選題的背景和意義選題的背景和意義進(jìn)入新世紀(jì)以來(lái),我國(guó)的高等教育事業(yè)正在快速發(fā)展,各個(gè)領(lǐng)域的重大科研成果不斷涌現(xiàn),各知
12、名院校的國(guó)際排名和知名度也不斷攀升。然而在這些光鮮靚麗的學(xué)術(shù)成果之下,各大高校對(duì)學(xué)生的管理工作卻并沒(méi)有跟上時(shí)代的步伐。其實(shí)對(duì)于給大高校來(lái)說(shuō),學(xué)生的考試成績(jī)是一筆非常寶貴的財(cái)富。學(xué)生的成績(jī)是反映學(xué)校教學(xué)水平的最直接的第一手資料,這些數(shù)據(jù)可以為學(xué)校改進(jìn)招生和教學(xué)工作提供重要依據(jù)。然而,學(xué)生成績(jī)的管理工作并沒(méi)有引起高校足夠的重視,尤其是在對(duì)學(xué)生成績(jī)的分析處理方面,絕大部分高校還停留在較為原始的數(shù)據(jù)庫(kù)管理和查詢階段,沒(méi)有對(duì)學(xué)生的成績(jī)進(jìn)行橫向和縱向的對(duì)比研究,也缺乏對(duì)各學(xué)科之間成績(jī)內(nèi)在聯(lián)系的挖掘。學(xué)科成績(jī)間的內(nèi)在聯(lián)系是廣泛存在于各個(gè)專業(yè)的各門課程中的,學(xué)科成績(jī)間內(nèi)在聯(lián)系的分析和研究對(duì)對(duì)學(xué)生和學(xué)校都有著十
13、分重要的意義。通過(guò)了解學(xué)科成績(jī)間存在的內(nèi)在聯(lián)系,學(xué)生可以清楚地認(rèn)識(shí)到基礎(chǔ)課程、先導(dǎo)課程的重要性,并且在選擇選修課的時(shí)候,做到揚(yáng)長(zhǎng)避短,通過(guò)更多地選擇與自己優(yōu)勢(shì)課程成績(jī)正相關(guān)的課程來(lái)幫助提高成績(jī)。而對(duì)于學(xué)校來(lái)說(shuō),分析學(xué)科成績(jī)間的內(nèi)在聯(lián)系可以為各個(gè)專業(yè)的課程設(shè)置提供重要的參考依據(jù)。在教務(wù)工作人員進(jìn)行排課工作時(shí),可參考對(duì)往屆學(xué)生成績(jī)的分析結(jié)果來(lái)調(diào)整課程的排布順序,達(dá)到不斷優(yōu)化課程設(shè)置的目的。個(gè)性化培養(yǎng)和發(fā)展是當(dāng)今高等教育發(fā)展的主流方向,以往填鴨式、工廠式的教學(xué)方式已經(jīng)被先進(jìn)的教育理念所替代,而中國(guó)教育制度中流水線式的培養(yǎng)模式一直是一個(gè)被廣泛詬病、急需解決的問(wèn)題。在這一方面,我們可以借鑒發(fā)達(dá)國(guó)家的先進(jìn)
14、經(jīng)驗(yàn),結(jié)合我國(guó)高等教育發(fā)展現(xiàn)狀,探索并逐步建立由中國(guó)特色的、適合我國(guó)國(guó)情的個(gè)性化培養(yǎng)體系。目前可以通過(guò)對(duì)學(xué)生的成績(jī)進(jìn)行挖掘和分析,對(duì)學(xué)生進(jìn)行分群,為具有一定共同特征的學(xué)生制定個(gè)性化培養(yǎng)方案。基于上述情況,本題目以完善高校培養(yǎng)制度和制定學(xué)生個(gè)性化培養(yǎng)方案為背景,通過(guò)運(yùn)用數(shù)據(jù)挖掘及相關(guān)專業(yè)技術(shù),設(shè)計(jì)并實(shí)現(xiàn)學(xué)生成績(jī)分析系統(tǒng)。1.21.2 個(gè)性化培養(yǎng)的重要意義個(gè)性化培養(yǎng)的重要意義個(gè)性化培養(yǎng)其實(shí)并不是一個(gè)新穎的概念,2000多年前,我國(guó)著名教育家孔子就提出了因材施教的教育理念,并且身體力行地用因材施教的方法教育自己的弟子。在2000多年后的今天,多元化人才培養(yǎng)是高等教育發(fā)展的必然趨勢(shì)。個(gè)性化培養(yǎng)不僅是實(shí)
15、現(xiàn)多元化人才培養(yǎng)最重要的方式,更是我國(guó)建立創(chuàng)新型國(guó)家戰(zhàn)略對(duì)高等教育提出的必然需求。只有摒棄傳統(tǒng)的流水線式培養(yǎng)模式,在高等院校中全面推行個(gè)性化培養(yǎng),我國(guó)高等教育才能真正完成人才培養(yǎng)方式的革命。(1)個(gè)性化培養(yǎng)是高等教育發(fā)展的現(xiàn)實(shí)需要個(gè)性化教育,是社會(huì)對(duì)大學(xué)生的預(yù)期變化的結(jié)果。在當(dāng)今時(shí)代,社會(huì)要求每個(gè)人都能發(fā)揮自己獨(dú)特而不可替代的作用,教育的使命也悄然轉(zhuǎn)變?yōu)榧ぐl(fā)每一名學(xué)生的內(nèi)在潛能。在高等院校推行個(gè)性化教育是中國(guó)高等教育的發(fā)展方向,更是世界大多數(shù)國(guó)家的共識(shí)。隨著大學(xué)的擴(kuò)招,原本曲高和寡的高等教育已經(jīng)走進(jìn)了普羅大眾的生活。但是大眾化的高等教育不等于流水線式的培養(yǎng),相反普及高等教育的意義正在于讓更多的
16、人進(jìn)入大學(xué),按照自己的興趣和自身特點(diǎn)選擇專業(yè)進(jìn)行學(xué)習(xí),成為獨(dú)特的人才。(2)個(gè)性化培養(yǎng)是創(chuàng)新型國(guó)家戰(zhàn)略的必然要求2006 年,國(guó)家制定了建設(shè)創(chuàng)新型國(guó)家的重大決策。增強(qiáng)自主創(chuàng)新能力是建設(shè)創(chuàng)新型國(guó)家戰(zhàn)略中最重要的一環(huán),而作為高端人才培養(yǎng)基地的眾多高等院校毫無(wú)疑問(wèn)成為了自主創(chuàng)新的排頭兵。受制于特殊的國(guó)情和幾千年的科舉傳統(tǒng),我國(guó)目前的教育模式仍然是以死記硬背為主要學(xué)習(xí)手段,以分?jǐn)?shù)作為評(píng)價(jià)學(xué)生優(yōu)劣的主要甚至是唯一標(biāo)準(zhǔn)。在這種教育模式中培養(yǎng)出來(lái)的學(xué)生中,相當(dāng)一部分是與社會(huì)脫節(jié)的、毫無(wú)創(chuàng)新能力可言的“考試機(jī)器”。現(xiàn)有的人才培養(yǎng)模式明顯滯后于經(jīng)濟(jì)社會(huì)的發(fā)展,更是與建設(shè)創(chuàng)新型國(guó)家戰(zhàn)略相違背的。只有立即轉(zhuǎn)變?nèi)瞬排?/p>
17、養(yǎng)模式,真正實(shí)現(xiàn)以人為本的個(gè)性化培養(yǎng),才能使高等院校成為培養(yǎng)創(chuàng)新型人才的土壤。因此,以培養(yǎng)多元化人才為主導(dǎo)的個(gè)性化培養(yǎng)模式是我國(guó)高等教育發(fā)展的必然趨勢(shì)。1.31.3 國(guó)內(nèi)外個(gè)性化培養(yǎng)的現(xiàn)狀國(guó)內(nèi)外個(gè)性化培養(yǎng)的現(xiàn)狀1.3.11.3.1 國(guó)外個(gè)性化培養(yǎng)現(xiàn)狀國(guó)外個(gè)性化培養(yǎng)現(xiàn)狀隨著高等教育的不斷發(fā)展,在發(fā)達(dá)國(guó)家學(xué)生個(gè)性化發(fā)展的理念已經(jīng)深入人心。其中高等教育最為發(fā)達(dá)同時(shí)也是中國(guó)留學(xué)生首選目的地的美國(guó)毫無(wú)疑問(wèn)走在了世界的前列。以常青藤聯(lián)盟為代表的美國(guó)知名大學(xué)在新生錄取時(shí)并不會(huì)給新生確定專業(yè),而是根據(jù)學(xué)生的意愿將學(xué)生分進(jìn)不同的基礎(chǔ)學(xué)院,允許學(xué)生在學(xué)院內(nèi)自由地選擇課程。在完成一到兩年的基礎(chǔ)學(xué)習(xí)后,學(xué)生可以根據(jù)所
18、學(xué)的課程和個(gè)人興趣愛(ài)好自由選擇自己的專業(yè)。這是一種非常人性化的人才培養(yǎng)模式。學(xué)生在入學(xué)時(shí)往往對(duì)自己所選擇的專業(yè)并不十分了解,有的甚至是一無(wú)所知,僅憑一時(shí)興起做出了選擇。在這種情況下確定學(xué)生的專業(yè)顯然不是最合理選擇的。當(dāng)學(xué)生完成了一段時(shí)間的學(xué)習(xí)后,無(wú)論是對(duì)所學(xué)的專業(yè),還是對(duì)自身的學(xué)術(shù)能力和興趣愛(ài)好都有了一個(gè)更深層次的認(rèn)識(shí)。在這個(gè)時(shí)候?qū)W生對(duì)專業(yè)的選擇往往會(huì)更加理性,這無(wú)論對(duì)學(xué)生還是對(duì)學(xué)校來(lái)說(shuō)都是大有裨益的。而國(guó)際知名的布朗大學(xué)更是敢為天下先地取消了必修課制度,學(xué)生可以完全根據(jù)自己的興趣選擇學(xué)校提供的任何課程,修滿學(xué)校要求的學(xué)分后即可畢業(yè)。學(xué)校根據(jù)學(xué)生選擇的課程來(lái)給學(xué)生頒發(fā)不同專業(yè)的畢業(yè)證書。布朗大
19、學(xué)認(rèn)為:沒(méi)有人會(huì)告訴學(xué)生應(yīng)該上什么課或怎樣做,只要有興趣,學(xué)生可以自由的發(fā)展。但是這種教學(xué)模式一度受到了美國(guó)教育界的廣泛非議。相比布朗大學(xué),其他常青藤盟校顯得保守了許多,或是設(shè)置了一些必修課,或是對(duì)學(xué)生可以選擇的課程做出了一系列規(guī)定,總而言之,布朗大學(xué)超前的教育理念并沒(méi)有被其他大學(xué)所廣泛接受。1.3.21.3.2 國(guó)內(nèi)個(gè)性化培養(yǎng)現(xiàn)狀國(guó)內(nèi)個(gè)性化培養(yǎng)現(xiàn)狀國(guó)內(nèi)的高等院校仍然遵循著傳統(tǒng)的人才培養(yǎng)模式,在當(dāng)今的時(shí)代中已經(jīng)暴露出了諸如學(xué)科專業(yè)結(jié)構(gòu)的設(shè)置缺乏整體思考、缺少系統(tǒng)設(shè)計(jì);課程體系不夠綜合、開(kāi)設(shè)比例不夠合理;考核評(píng)價(jià)體系知識(shí)記憶、輕創(chuàng)新實(shí)踐等方面的問(wèn)題。在高校中探索并發(fā)展個(gè)性化培養(yǎng)模式已經(jīng)成為了絕大
20、多數(shù)教育界人士的共識(shí)。相比較國(guó)外已經(jīng)比較成熟的個(gè)性化培養(yǎng)方案而言,國(guó)內(nèi)的個(gè)性化培養(yǎng)方案尚處在起步摸索階段,絕大多數(shù)國(guó)內(nèi)高校的課程設(shè)置都已必修課程為主,輔以少量與專業(yè)相關(guān)的選修課程供學(xué)生選擇,離真正的個(gè)性化培養(yǎng)還有比較大的差距。學(xué)生的專業(yè)也都是在招生是就已經(jīng)確定了,為學(xué)生提供的更改專業(yè)的機(jī)會(huì)也比較少,與高等教育比較發(fā)達(dá)的國(guó)家還有較大差距。1.41.4 成績(jī)分析系統(tǒng)的現(xiàn)狀和存在的問(wèn)題成績(jī)分析系統(tǒng)的現(xiàn)狀和存在的問(wèn)題1.4.11.4.1 成績(jī)分析系統(tǒng)開(kāi)發(fā)使用的現(xiàn)狀成績(jī)分析系統(tǒng)開(kāi)發(fā)使用的現(xiàn)狀對(duì)于高校來(lái)說(shuō),教務(wù)管理是他的核心工作之一,而成績(jī)分析能力的高低是衡量教務(wù)管理水平的一個(gè)關(guān)鍵指標(biāo)。教務(wù)管理的水平對(duì)高
21、校教學(xué)水平的進(jìn)步和發(fā)展有著至關(guān)重要的意義。在當(dāng)今社會(huì),隨著教育改革的逐步深入,和科學(xué)技術(shù)的發(fā)展 社會(huì)對(duì)高校的成績(jī)分析管理提出了許多新的要求, “規(guī)范化、信息化、網(wǎng)絡(luò)化”是學(xué)校教學(xué)管理的必然選擇。建立并應(yīng)用一套優(yōu)秀的成績(jī)分析系統(tǒng)是提升教務(wù)管理水平的關(guān)鍵所在。目前,各高校普遍建立了教務(wù)信息管理系統(tǒng),其中很多高校還根據(jù)自身需求建有成績(jī)分析系統(tǒng)。此類系統(tǒng)一般采用關(guān)系型數(shù)據(jù)模型, 數(shù)據(jù)庫(kù)中主要包括學(xué)生的姓名、學(xué)號(hào)、專業(yè)、考試成績(jī)的個(gè)人信息。而每個(gè)信息又與其它信息相關(guān)聯(lián),形成了龐大的、涵蓋整個(gè)教務(wù)管理過(guò)程的數(shù)據(jù)信息網(wǎng)。教務(wù)管理信息系統(tǒng)實(shí)現(xiàn)了教務(wù)信息的集中管理、分散操作、信息共享,使傳統(tǒng)的教務(wù)管理向數(shù)字化、
22、無(wú)紙化、智能化、綜合化及多元化的方向發(fā)展。借助現(xiàn)代信息技術(shù),不同形式的成績(jī)分析系統(tǒng)正在利用網(wǎng)絡(luò)優(yōu)勢(shì)實(shí)現(xiàn)資源的共享、權(quán)限的信息錄入、查詢及修改等,改變了傳統(tǒng)教務(wù)管理模式下信息數(shù)據(jù)層層傳達(dá)及存儲(chǔ)的模式,提高了信息的實(shí)效性,實(shí)現(xiàn)了真正意義上的信息交換與互動(dòng)。1.4.21.4.2 成績(jī)分析系統(tǒng)建設(shè)存在的問(wèn)題成績(jī)分析系統(tǒng)建設(shè)存在的問(wèn)題然而需要正視的是,我國(guó)高校的學(xué)生成績(jī)分析系統(tǒng)仍然存在著一定問(wèn)題,主要表現(xiàn)在:(1) 功能需求不明確,設(shè)計(jì)不盡完善各所高校間教務(wù)管理的流程有所不同,教務(wù)管理人員如何根據(jù)自身學(xué)校的特點(diǎn)建立成績(jī)分析系統(tǒng)是一個(gè)具有普遍性問(wèn)題。目前建成的成績(jī)分析系統(tǒng),大多都沒(méi)有嚴(yán)格遵循軟件項(xiàng)目開(kāi)發(fā)流
23、程,對(duì)功能需求的分析做的不夠徹底,設(shè)計(jì)也不夠完善,難以達(dá)到理想的效果。其中一個(gè)最主要的原因是使用者和設(shè)計(jì)者沒(méi)能進(jìn)行充分的溝通,設(shè)計(jì)人員對(duì)教務(wù)管理流程并不熟悉,和教學(xué)效果體現(xiàn)的理解也不透徹,使得現(xiàn)今的成績(jī)分析系統(tǒng)大多不盡如人意。(2) 沒(méi)有運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)成績(jī)進(jìn)行分析當(dāng)今大部分高校對(duì)學(xué)生成績(jī)管理的理解還停留在較為原始的數(shù)據(jù)庫(kù)管理和查詢階段,對(duì)學(xué)生成績(jī)的分析多以簡(jiǎn)單地求平均分、中位數(shù)、計(jì)算方差和標(biāo)準(zhǔn)差、統(tǒng)計(jì)優(yōu)秀率及格率等方式進(jìn)行。對(duì)于很多教務(wù)工作者來(lái)說(shuō),數(shù)據(jù)挖掘技術(shù)是一個(gè)更多的運(yùn)用在商業(yè)領(lǐng)域的、離教務(wù)管理很遙遠(yuǎn)的東西。其實(shí)在美國(guó)等發(fā)達(dá)國(guó)家,數(shù)據(jù)挖掘技術(shù)早已走進(jìn)了教務(wù)工作,成為了教務(wù)工作人員對(duì)學(xué)生
24、成績(jī)進(jìn)行分析的重要手段。有一些名校甚至擁有一支數(shù)據(jù)挖掘技術(shù)方面的專業(yè)團(tuán)隊(duì)來(lái)對(duì)學(xué)生成績(jī)進(jìn)行分析。這些專業(yè)的分析結(jié)果不僅為學(xué)校改進(jìn)教學(xué)工作提供了重要的參考依據(jù),也為學(xué)生選擇選修課和今后的發(fā)展方向提供了極大的便利。第二章第二章 相關(guān)技術(shù)相關(guān)技術(shù)2.12.1 相關(guān)數(shù)據(jù)挖掘知識(shí)理論相關(guān)數(shù)據(jù)挖掘知識(shí)理論2.1.12.1.1 數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge-Discovery in Databases, KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通
25、過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘是目前人工智能技術(shù)和數(shù)據(jù)庫(kù)領(lǐng)域的研究前沿。數(shù)據(jù)挖掘是指從海量數(shù)據(jù)中發(fā)現(xiàn)出隱含在表象之下的、不為人所知的并有一定價(jià)值的信息的過(guò)程。數(shù)據(jù)挖掘的實(shí)質(zhì)是一種決策支持過(guò)程,它主要基于人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)等相關(guān)技術(shù),分析規(guī)模龐大的數(shù)據(jù),從中找出某種規(guī)律并做出歸納性的推理,幫助決策者提高決策的準(zhǔn)確性。數(shù)據(jù)準(zhǔn)備、尋找規(guī)律和規(guī)律表示是數(shù)據(jù)挖掘的三個(gè)基本步驟。數(shù)據(jù)準(zhǔn)備是指從數(shù)據(jù)源中選取相關(guān)的數(shù)據(jù)并生成可用于數(shù)據(jù)挖掘工作的數(shù)據(jù)集;尋找規(guī)律是指通過(guò)一定方法將數(shù)據(jù)集中所隱含的規(guī)律挖掘出來(lái);規(guī)律表示是
26、指以用戶容易理解的方式(尤其是那些并不熟悉數(shù)據(jù)挖掘技術(shù)的用戶)將挖掘出的規(guī)律呈現(xiàn)給用戶。數(shù)據(jù)挖掘有填補(bǔ)缺失值,過(guò)濾噪聲點(diǎn)、關(guān)聯(lián)規(guī)則挖掘、分類、聚類、異常分析等任務(wù)。近年來(lái),“大數(shù)據(jù)”成為了一個(gè)非常流行的詞匯,這意味著數(shù)據(jù)挖掘技術(shù)已經(jīng)進(jìn)入了我們生活的方方面面。這其中最為主要的原因是我們身處在信息爆炸的時(shí)代,全世界每天產(chǎn)生的信息都以指數(shù)級(jí)增長(zhǎng),我們每天所接觸的信息甚至超過(guò)幾百年前一個(gè)人一生所能接觸到的信息的總和。如果不對(duì)數(shù)據(jù)進(jìn)行處理,如此海量的數(shù)據(jù)對(duì)于人類來(lái)說(shuō)就是電子垃圾。通過(guò)數(shù)據(jù)挖掘技術(shù),人們可以將原本無(wú)法處理的海量數(shù)據(jù)轉(zhuǎn)變?yōu)橛杏们矣邢薜男畔⒑椭R(shí),充分發(fā)揮信息的價(jià)值。2.1.22.1.2 關(guān)聯(lián)
27、規(guī)則關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是指大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的研究課題,一直是業(yè)界的研究熱點(diǎn)。“啤酒與尿布”的故事是對(duì)關(guān)聯(lián)規(guī)則挖掘的生動(dòng)闡釋。世界著名的沃爾瑪超市在一次對(duì)原始銷售數(shù)據(jù)的分析中意外發(fā)現(xiàn):和尿布一起銷售最多的商品竟然是啤酒!按照人們的常規(guī)思維,和尿布一起銷售的應(yīng)該是奶粉奶瓶一類的嬰兒用品,尿布和啤酒可謂風(fēng)馬牛不相及。但沃爾瑪超市的工作人員在運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)銷售信息進(jìn)行分析后,成功揭示了 “啤酒與尿布”的內(nèi)在聯(lián)系:在美國(guó),很多男士下班之后經(jīng)常要遵照太太的指示去超市去
28、給孩子購(gòu)買尿布。而他們其中三到四成的人會(huì)在同時(shí)為自己購(gòu)買一些啤酒。若不是借助了數(shù)據(jù)挖掘技術(shù),很難想象沃爾瑪能夠在海量的銷售信息中發(fā)現(xiàn)這一規(guī)律。Apriori 算法是一種應(yīng)用最為廣泛的統(tǒng)計(jì)關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心是基于兩階段頻集思想的遞歸算法。在 Apriori 算法中,所有大于最小支持度的集都稱為頻繁項(xiàng)集。該算法的基本思想是:首先找出所有的頻繁項(xiàng)集,然后由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,而這些規(guī)則必須同時(shí)滿足最小支持度和最小置信度。由于采用了遞歸的方法,Apriori 算法有兩個(gè)主要的缺點(diǎn):會(huì)產(chǎn)生大量的候選集,以及需要對(duì)數(shù)據(jù)進(jìn)行多次掃描。在數(shù)據(jù)量大于一定規(guī)模時(shí),Apriori 算法的時(shí)間復(fù)雜度會(huì)
29、比較驚人。2.1.32.1.3 分類分類分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要的數(shù)據(jù)類的模型。這種模型稱為分類器,預(yù)測(cè)分類的類標(biāo)號(hào)。分類可用于預(yù)測(cè),從歷史數(shù)據(jù)記錄中自動(dòng)推導(dǎo)出給定數(shù)據(jù)的推廣描述,從而對(duì)未來(lái)的數(shù)據(jù)進(jìn)行類預(yù)測(cè)。分類具有廣泛的應(yīng)用,例如醫(yī)療診斷、信用卡系統(tǒng)的信用分級(jí)、圖像模式識(shí)別等。決策樹(shù)算法是一種非常典型的算法。在決策樹(shù)算法中,首先要對(duì)數(shù)據(jù)進(jìn)行處理,生成可讀的規(guī)則和決策樹(shù),然后使用決策對(duì)其他數(shù)據(jù)進(jìn)行分析和判斷。從本質(zhì)上說(shuō),決策樹(shù)算法是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程。決策樹(shù)算法在 20 世紀(jì) 60 年代被首次提出,到了 70 年代末,J Ross Quinlan 提出了 I
30、D3 算法,此算法的目的在于減少樹(shù)的深度,但是忽略了葉子數(shù)目的研究。C4.5 算法是其改進(jìn)算法,在缺值處理、剪枝技術(shù)和派生規(guī)則等方面作了較大改進(jìn)。使其既適用于分類問(wèn)題,又適用于回歸問(wèn)題。構(gòu)造的決策樹(shù)是否精度足夠高、規(guī)模足夠小是評(píng)價(jià)一個(gè)決策樹(shù)算法是否優(yōu)秀的關(guān)鍵標(biāo)準(zhǔn)。決策樹(shù)構(gòu)造可以分為兩個(gè)步驟。首先是由訓(xùn)練樣本集生成決策樹(shù)的過(guò)程。在大多數(shù)情況下,訓(xùn)練樣本數(shù)據(jù)集是根據(jù)實(shí)際需要有歷史的、有一定綜合程度的,用于數(shù)據(jù)分析處理的數(shù)據(jù)集。然后是對(duì)決策樹(shù)的剪枝,其本質(zhì)是對(duì)決策樹(shù)進(jìn)行檢驗(yàn)和校正的過(guò)程,主要方法是用新數(shù)據(jù)校驗(yàn)決策樹(shù)生成過(guò)程中得出的規(guī)則,并將影響準(zhǔn)確性的分枝剪除。2.1.42.1.4 聚類聚類將物理或
31、抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,與其他簇中的對(duì)象相異。“物以類聚,人以群分”,在自然科學(xué)和社會(huì)科學(xué)中,存在著大量的分類問(wèn)題。聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問(wèn)題的一種統(tǒng)計(jì)分析方法。聚類分析起源于分類學(xué),但是聚類不等于分類。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等。K-means 算法是很典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相
32、似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。k 個(gè)初始類聚類中心點(diǎn)的選取對(duì)聚類結(jié)果具有較大的影響,因?yàn)樵谠撍惴ǖ谝徊街惺请S機(jī)的選取任意 k 個(gè)對(duì)象作為初始聚類的中心,初始地代表一個(gè)簇。該算法在每次迭代中對(duì)數(shù)據(jù)集中剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇中心的距離將每個(gè)對(duì)象重新賦給最近的簇。當(dāng)考察完所有數(shù)據(jù)對(duì)象后,一次迭代運(yùn)算完成,新的聚類中心被計(jì)算出來(lái)。如果在一次迭代前后,J 的值沒(méi)有發(fā)生變化,說(shuō)明算法已經(jīng)收斂。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個(gè)比較有代表
33、性的基于密度的聚類算法。與劃分和層次聚類方法不同,它將簇定義為密度相連的點(diǎn)的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類。DBSCAN 需要二個(gè)參數(shù): 掃描半徑和最小包含點(diǎn)數(shù)。 任選一個(gè)未被訪問(wèn)的點(diǎn)開(kāi)始,找出與其距離在最小半徑之內(nèi)的所有附近點(diǎn)。如果 附近點(diǎn)的數(shù)量大于等于最小包含點(diǎn)數(shù),則當(dāng)前點(diǎn)與其附近點(diǎn)形成一個(gè)簇,并且出發(fā)點(diǎn)被標(biāo)記為已訪問(wèn)。 然后遞歸,以相同的方法處理該簇內(nèi)所有未被標(biāo)記為已訪問(wèn)的點(diǎn),從而對(duì)簇進(jìn)行擴(kuò)展。如果 附近點(diǎn)的數(shù)量小于最小包含點(diǎn)數(shù),則該點(diǎn)暫時(shí)被標(biāo)記作為噪聲點(diǎn)。如果簇充分地被擴(kuò)展,即簇內(nèi)的所有點(diǎn)被標(biāo)記為已訪問(wèn),然后用同樣的算法去處理未
34、被訪問(wèn)的點(diǎn)。2.22.2 開(kāi)發(fā)工具的選擇開(kāi)發(fā)工具的選擇2.2.12.2.1 Eclipse 簡(jiǎn)介簡(jiǎn)介Eclipse 是一個(gè)開(kāi)源的、基于 Java 技術(shù)的可擴(kuò)展開(kāi)發(fā)平臺(tái)。就 Eclipse 本身而言,它只是一個(gè)框架和一組服務(wù),主要用于通過(guò)插件組件構(gòu)建開(kāi)發(fā)環(huán)境。Eclipse 附帶了一個(gè)標(biāo)準(zhǔn)的插件集,包括 Java 開(kāi)發(fā)工具(JDK)。雖然對(duì)于絕大多數(shù)用戶來(lái)說(shuō), Eclipse 只是一個(gè) Java 集成開(kāi)發(fā)環(huán)境(IDE),但 Eclipse 的目標(biāo)卻不僅限于此。Eclipse 還包括插件開(kāi)發(fā)環(huán)境(Plug-in Development Environment,PDE),這個(gè)組件主要針對(duì)希望擴(kuò)展 E
35、clipse 的軟件開(kāi)發(fā)人員,因?yàn)樗试S他們構(gòu)建與 Eclipse 環(huán)境無(wú)縫集成的工具。由于 Eclipse 中的每樣?xùn)|西都是插件,對(duì)于給 Eclipse 提供插件,以及給用戶提供一致和統(tǒng)一的集成開(kāi)發(fā)環(huán)境而言,所有工具開(kāi)發(fā)人員都具有同等的發(fā)揮場(chǎng)所。這種平等和一致性并不僅限于 Java 開(kāi)發(fā)工具。盡管 Eclipse 是使用 Java 語(yǔ)言開(kāi)發(fā)的,但它的用途并不限于 Java 語(yǔ)言;例如,支持諸如 C/C+、COBOL、PHP 等編程語(yǔ)言的插件已經(jīng)可用,或預(yù)計(jì)將會(huì)推出。Eclipse 框架還可作為與軟件開(kāi)發(fā)無(wú)關(guān)的其他應(yīng)用程序類型的基礎(chǔ),比如內(nèi)存管理系統(tǒng)。2.2.22.2.2 Eclipse 的優(yōu)
36、勢(shì)的優(yōu)勢(shì)Eclipse 是開(kāi)源軟件。這表明 Eclipse 不僅不收取使用者的任何費(fèi)用,而且使用者還可以通過(guò)研究網(wǎng)絡(luò)上、尤其是各大編程論壇上公開(kāi)的源代碼進(jìn)行學(xué)習(xí)。對(duì)于使用者尤其是初學(xué)者來(lái)說(shuō),世界一流軟件工程師的代碼是一筆非常寶貴的財(cái)富,學(xué)習(xí)他們優(yōu)秀的編程風(fēng)格可以幫助初學(xué)者迅速提高自己的編程能力。Eclipse 采用插件機(jī)制,這意味著 Eclipse 是真正可擴(kuò)展并可配置的。對(duì)于使用者來(lái)說(shuō) Eclipse 就好象一間倉(cāng)庫(kù),你可以隨時(shí)在倉(cāng)庫(kù)里存放任何東西,也可以很方便地將不再需要的東西從倉(cāng)庫(kù)中取出來(lái)。在互聯(lián)網(wǎng)上有大量免收費(fèi)和免費(fèi)的插件,使用者可以通過(guò)合理使用插件極大地簡(jiǎn)化編程工作。雖然絕大多數(shù)開(kāi)發(fā)
37、者僅僅把 Eclipse 作為一個(gè) Java 開(kāi)發(fā)系統(tǒng),但實(shí)際上 Eclipse 支持多種類的開(kāi)發(fā)語(yǔ)言。從本質(zhì)上講,Eclipse 只提供了一個(gè)能夠擴(kuò)展系統(tǒng)功能的最小核心,只要安裝相應(yīng)語(yǔ)言的插件,Eclipse 就可以支持不同的開(kāi)發(fā)語(yǔ)言。目前,Eclipse 已經(jīng)可以支持 C/C+、 COBOL、PHP、Perl、Python 等多種語(yǔ)言。這顯著降低了多語(yǔ)言程序開(kāi)發(fā)和程序移植的難度。Eclipse 支持多種開(kāi)發(fā)環(huán)境,這使得開(kāi)發(fā)者可以選擇自己最熟悉的平臺(tái)來(lái)進(jìn)行開(kāi)發(fā)工作。主流的操作系統(tǒng)都得到了支持,如 Windows、MacOS 和 Linux 等。Eclipse 對(duì)每個(gè)平臺(tái)都有不同的圖形工具包,
38、這使得在 Eclipse 上開(kāi)發(fā)的程序可以最大限度地適應(yīng)不同開(kāi)發(fā)環(huán)境的特性。Eclipse 基于業(yè)界領(lǐng)先的 OSGi 規(guī)范。1999 年,Sun Microsystems、IBM、愛(ài)立信等等公司首先推出了 OSGi 規(guī)范。其服務(wù)涵蓋:服務(wù)網(wǎng)關(guān)、汽車、移動(dòng)電話、工業(yè)自動(dòng)化、建筑物自動(dòng)化、PDA 網(wǎng)格計(jì)算、 娛樂(lè)、IDE 等眾多領(lǐng)域。OSGi 規(guī)范以微內(nèi)核形式運(yùn)行,故可以實(shí)現(xiàn)熱插拔、動(dòng)態(tài)改變行為等軟件從業(yè)者夢(mèng)寐以求的功能。從 3.1 版本開(kāi)始,Eclipse 果斷放棄了原本已經(jīng)獲得業(yè)界廣泛認(rèn)可的框架,采用 OSGi 作為其架構(gòu)。從 3.2版本開(kāi)始,Eclipse 提供了基于 OSGi 開(kāi)發(fā)的支持,
39、開(kāi)發(fā)者可以利用其開(kāi)發(fā)基于 OSGi 的系統(tǒng)了。Eclipse 堪稱業(yè)界人機(jī)的標(biāo)桿之作。Eclipse 提供了全新的 SWT/JFace API 界面,全面取代了以往 SWT/Swing 單調(diào)、沉悶的風(fēng)格。方便使用者開(kāi)發(fā)基于本地的具有豐富圖形界面的應(yīng)用程序,備受廣大軟件開(kāi)發(fā)工作者的贊譽(yù)。Eclipse 基金會(huì)吸收了大量學(xué)術(shù)研究機(jī)構(gòu)、商業(yè)組織,領(lǐng)導(dǎo) Eclipse 的長(zhǎng)遠(yuǎn)規(guī)劃和發(fā)展,其先進(jìn)理念使得 Eclipse 始終處于業(yè)界領(lǐng)先地位。綜合這些原因,我選用了 Eclipse 作為開(kāi)發(fā)工具。第三章第三章 系統(tǒng)系統(tǒng)分析分析3.13.1 軟件過(guò)程模型軟件過(guò)程模型在選擇軟件過(guò)程模型時(shí),首先考慮本系統(tǒng)的需求
40、較為明確且不易發(fā)生變更,因此在開(kāi)發(fā)初期選擇了瀑布模型作為過(guò)程模型。瀑布模型廣泛應(yīng)用于軟件項(xiàng)目的開(kāi)發(fā)中,該模型將軟件開(kāi)發(fā)過(guò)程劃分成描述、設(shè)計(jì)、開(kāi)發(fā)有效性驗(yàn)證等界限分明且獨(dú)立的過(guò)程階段,適用于需求明確且不易變更的軟件項(xiàng)目。但在開(kāi)發(fā)的過(guò)程中,由于本人的需求分析能力有限,對(duì)任務(wù)書的需求分析工作做得不夠充分,需要經(jīng)常和導(dǎo)師討論需求,導(dǎo)致需求變更較為頻繁,需求分析階段過(guò)分拉長(zhǎng)。而且在學(xué)院和導(dǎo)師需要經(jīng)常檢查進(jìn)度的情況下,瀑布模型顯然是不適當(dāng)?shù)模虼烁挠昧嗽隽渴介_(kāi)發(fā)模型。增量式開(kāi)發(fā)的優(yōu)點(diǎn)是可以很快開(kāi)發(fā)出一個(gè)具有部分功能的、可使用的版本,而且適應(yīng)需求變更的成本也比較低,比較適合本系統(tǒng)的開(kāi)發(fā)工作。結(jié)合本系統(tǒng)的任務(wù)
41、目標(biāo)和學(xué)校的進(jìn)度要求,我將本系統(tǒng)的開(kāi)發(fā)工作分為 4 個(gè)版本來(lái)進(jìn)行。第一個(gè)最初始的版本實(shí)現(xiàn)了對(duì)數(shù)據(jù)的預(yù)處理和關(guān)聯(lián)規(guī)則的挖掘功能。第二個(gè)版本即中期檢查的版本在第一個(gè)版本的基礎(chǔ)上實(shí)現(xiàn)了分類功能和文件導(dǎo)入數(shù)據(jù)功能。第三個(gè)版本在之前版本的基礎(chǔ)上增加了聚類功能,截止到此版本,主要的功能算法已經(jīng)實(shí)現(xiàn)。第四個(gè)版本也就是最終的版本,為系統(tǒng)設(shè)計(jì)了交互界面。圖 3-1 增量式開(kāi)發(fā)模型圖在系統(tǒng)開(kāi)發(fā)的過(guò)程中,描述和開(kāi)發(fā)工作交織在一起。每完成一個(gè)模塊或一個(gè)版本,都會(huì)進(jìn)行有概要描述開(kāi)發(fā)有效性驗(yàn)證描述并行活動(dòng)版本 2版本 3版本 4版本 1效性驗(yàn)證。通過(guò)驗(yàn)證后才會(huì)進(jìn)入下一個(gè)模塊或版本的開(kāi)發(fā)3.23.2 需求分析需求分析3.2
42、.13.2.1 用例圖用例圖圖 3-2 系統(tǒng)用例圖系統(tǒng)的使用者教務(wù)管理人員對(duì)系統(tǒng)有包括導(dǎo)入文件、數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則挖掘、分類、聚類和導(dǎo)出文件在內(nèi)的六大需求3.2.23.2.2 需求的結(jié)構(gòu)化描述需求的結(jié)構(gòu)化描述使用結(jié)構(gòu)化自然語(yǔ)言來(lái)描述需求,保留了自然語(yǔ)言在表達(dá)能力和易懂性方面的優(yōu)勢(shì),讓沒(méi)有專業(yè)背景的用戶也能比較容易的理解需求;同時(shí)也約束了描述的一致性,降低了產(chǎn)生歧義的可能性。表 3-1 文件導(dǎo)入用例用例 1名稱文件導(dǎo)入功能將數(shù)據(jù)從文件導(dǎo)入系統(tǒng)中以備各算法調(diào)用描述將文件中的數(shù)據(jù)存入系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)中輸入學(xué)生的姓名,各門課程的成績(jī)來(lái)源數(shù)據(jù)文件輸出學(xué)生的姓名,各門課程的成績(jī)目的地系統(tǒng)的所定義的數(shù)據(jù)結(jié)構(gòu)
43、行動(dòng)系統(tǒng)為每一個(gè)學(xué)生初始化一個(gè)結(jié)構(gòu)體,分別讀取每個(gè)學(xué)生的姓名和成績(jī)數(shù)據(jù),并存儲(chǔ)到結(jié)構(gòu)體中對(duì)應(yīng)的成員里前置條件結(jié)構(gòu)體已被定義,文件內(nèi)數(shù)據(jù)的數(shù)據(jù)類型和順序合法后置條件數(shù)據(jù)被完整存入結(jié)構(gòu)體中此用例屬于文件導(dǎo)入需求表 3-2 數(shù)據(jù)預(yù)處理用例用例 2名稱數(shù)據(jù)預(yù)處理功能對(duì)導(dǎo)入系統(tǒng)的學(xué)生數(shù)據(jù)進(jìn)行預(yù)處理描述將每門課程的最高分和最低分拉平,并對(duì)其他成績(jī)進(jìn)行等比例縮放輸入學(xué)生各門課程的成績(jī)來(lái)源結(jié)構(gòu)體輸出學(xué)生各門課程的新成績(jī)目的地結(jié)構(gòu)體行動(dòng)系統(tǒng)從數(shù)據(jù)結(jié)構(gòu)中讀取全體學(xué)生各門課程的成績(jī),通過(guò)算法找出其中的最高分和最低分。分別將其他每一門課程的最高分和最低分乘以一個(gè)比例系數(shù),使之與該最高分和最低分相等,并對(duì)該門課程內(nèi)的其
44、他成績(jī)均進(jìn)行乘以該比例系數(shù)的操作。前置條件數(shù)據(jù)已被成功導(dǎo)入結(jié)構(gòu)體中后置條件輸出新的學(xué)生成績(jī)到結(jié)構(gòu)體中此用例屬于數(shù)據(jù)預(yù)處理需求表 3-3 判斷相關(guān)性用例用例 3名稱相關(guān)性功能計(jì)算學(xué)生成績(jī)間的相關(guān)性描述將學(xué)生各門功課的成績(jī)轉(zhuǎn)化為每?jī)砷T課程成績(jī)的相關(guān)性輸入學(xué)生各門課程的成績(jī)來(lái)源結(jié)構(gòu)體輸出成績(jī)相關(guān)課程的序號(hào)目的地關(guān)聯(lián)統(tǒng)計(jì)數(shù)組行動(dòng)對(duì)比學(xué)生每?jī)砷T課程的成績(jī),按照一定標(biāo)準(zhǔn)判斷成績(jī)是否相關(guān)。若相關(guān)則將這兩門課程的編號(hào)輸入到相應(yīng)的數(shù)據(jù)結(jié)構(gòu)中存儲(chǔ)起來(lái)前置條件數(shù)據(jù)預(yù)處理完畢后置條件生成課程相關(guān)性數(shù)據(jù)此用例屬于關(guān)聯(lián)規(guī)則需求表 3-4 統(tǒng)計(jì)頻繁項(xiàng)用例用例 4名稱頻繁項(xiàng)功能找出相關(guān)性數(shù)據(jù)中的頻繁項(xiàng)描述統(tǒng)計(jì)相關(guān)性數(shù)據(jù)中各項(xiàng)
45、的重復(fù)次數(shù)輸入課程相關(guān)性數(shù)據(jù)來(lái)源結(jié)構(gòu)體輸出成績(jī)相關(guān)聯(lián)的課程目的地關(guān)聯(lián)規(guī)則數(shù)組行動(dòng)記錄相關(guān)性數(shù)據(jù)中各項(xiàng)的重復(fù)次數(shù),用重復(fù)次數(shù)除以學(xué)生數(shù)得到每個(gè)相關(guān)性的置信度,輸出大于最小置信度的數(shù)據(jù)前置條件課程相關(guān)性數(shù)據(jù)已生成后置條件生成關(guān)聯(lián)規(guī)則并輸出此用例屬于關(guān)聯(lián)規(guī)則需求表 3-5 判斷高風(fēng)險(xiǎn)學(xué)生用例用例 5名稱掛科學(xué)生功能輸出掛科風(fēng)險(xiǎn)較高的學(xué)生描述分析學(xué)生現(xiàn)有成績(jī)(平均分,是否掛科),輸出掛科風(fēng)險(xiǎn)較高的學(xué)生輸入學(xué)生的姓名,各門課程的成績(jī)來(lái)源結(jié)構(gòu)體輸出學(xué)生的姓名目的地高風(fēng)險(xiǎn)學(xué)生數(shù)組行動(dòng)統(tǒng)計(jì)學(xué)生是否有過(guò)掛科經(jīng)歷,計(jì)算沒(méi)有掛科經(jīng)歷學(xué)生的平均分,輸出有掛科經(jīng)歷和平均分小于一定值的學(xué)生前置條件數(shù)據(jù)已被成功導(dǎo)入結(jié)構(gòu)體中
46、后置條件學(xué)生被成功分類并輸出掛科風(fēng)險(xiǎn)較高的學(xué)生此用例屬于分類需求表 3-6 判斷高風(fēng)險(xiǎn)課程用例用例 6名稱高風(fēng)險(xiǎn)課程功能輸出掛科風(fēng)險(xiǎn)較高的課程描述分析所有課程的掛科風(fēng)險(xiǎn),輸出掛科風(fēng)險(xiǎn)較高的課程輸入學(xué)生各門課程的成績(jī)來(lái)源結(jié)構(gòu)體輸出課程名目的地高風(fēng)險(xiǎn)課程數(shù)組行動(dòng)計(jì)算所有課程的掛科率,若某課程的掛科率高于一定值,則認(rèn)定該課程為高風(fēng)險(xiǎn)課程,輸出所有高風(fēng)險(xiǎn)課程前置條件數(shù)據(jù)已被成功導(dǎo)入結(jié)構(gòu)體中后置條件課程被成功分類并輸出高風(fēng)險(xiǎn)課程此用例屬于分類需求表 3-7 聚類用例用例 7名稱聚類功能對(duì)學(xué)生進(jìn)行聚類描述識(shí)別出噪聲點(diǎn),將學(xué)生劃入不同的簇,輸出聚類結(jié)果輸入學(xué)生的姓名,各門課程的成績(jī)來(lái)源結(jié)構(gòu)體輸出學(xué)生各門課程
47、的新成績(jī)目的地聚類數(shù)組行動(dòng)系統(tǒng)依次讀取每個(gè)學(xué)生的信息,通過(guò)聚類算法判斷其是否為噪聲點(diǎn),對(duì)不是噪聲點(diǎn)的學(xué)生判斷其應(yīng)該被歸入哪一個(gè)簇,直到所有學(xué)生都判斷完畢前置條件數(shù)據(jù)已被成功導(dǎo)入結(jié)構(gòu)體中后置條件學(xué)生被成功聚類并輸出聚類結(jié)果此用例屬于聚類需求表 3-8 導(dǎo)出文件用例用例 8名稱導(dǎo)出文件功能將挖掘結(jié)果導(dǎo)出至文件描述將各數(shù)組中存儲(chǔ)的挖掘結(jié)果導(dǎo)出至文件輸入文件地址,挖掘結(jié)果來(lái)源各數(shù)組輸出挖掘結(jié)果目的地文件行動(dòng)系統(tǒng)創(chuàng)建文件,依次讀取每個(gè)數(shù)組內(nèi)的信息,輸出到文件前置條件挖掘結(jié)果成功存入數(shù)組內(nèi)后置條件文件成功生成并寫入數(shù)據(jù) 此用例屬于導(dǎo)出文件需求第四章第四章 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)4.14.1 系統(tǒng)概要
48、設(shè)計(jì)系統(tǒng)概要設(shè)計(jì)4.1.14.1.1 系統(tǒng)體系結(jié)構(gòu)系統(tǒng)體系結(jié)構(gòu)本系統(tǒng)使用容器體系結(jié)構(gòu)。當(dāng)一個(gè)系統(tǒng)需要生成大量數(shù)據(jù)并持久保存時(shí),一般使用容器體系結(jié)構(gòu)。容器體系結(jié)構(gòu)的優(yōu)點(diǎn)是各個(gè)功能組件是相互獨(dú)立的,它們無(wú)需知道其他組件的存在,在運(yùn)行時(shí)也不會(huì)受到其他組件的影響。一個(gè)組件的變更可以傳播到其他所有的組件,所有數(shù)據(jù)可以得到一致的管理。具體到本系統(tǒng)來(lái)說(shuō),采用容器體系結(jié)構(gòu)可以使挖掘結(jié)果持久保存,可以比較方便的管理學(xué)生信息,各組件之間交互性不強(qiáng),可避免因一個(gè)組件發(fā)生錯(cuò)誤影響到其他組件的功能。圖 4-1 學(xué)生成績(jī)分析系統(tǒng)體系結(jié)構(gòu)圖系統(tǒng)包括導(dǎo)入數(shù)據(jù)、數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則、分類和聚類五個(gè)組件,組件間相互平行互不干涉。
49、所有組件共享的學(xué)生信息和各組件生成的挖掘結(jié)果存放在項(xiàng)目容器中,這提高了數(shù)據(jù)傳輸?shù)男省8鹘M件下有若干子功能模塊 4.1.24.1.2 系統(tǒng)數(shù)據(jù)結(jié)構(gòu)系統(tǒng)數(shù)據(jù)結(jié)構(gòu)采用結(jié)構(gòu)體數(shù)組記錄學(xué)生信息,每一個(gè)結(jié)構(gòu)體代表一個(gè)學(xué)生。每個(gè)結(jié)構(gòu)體內(nèi)有用字符串?dāng)?shù)組存儲(chǔ)的學(xué)生姓名,用一維整數(shù)數(shù)組存儲(chǔ)的學(xué)生成績(jī)(若學(xué)生成績(jī)保留小數(shù)可改用浮點(diǎn)數(shù)數(shù)組) ,用整數(shù)存儲(chǔ)的平均分。還可根據(jù)各學(xué)校的具體需求加入性別、學(xué)號(hào)、學(xué)院、專業(yè)等信息。采用二維整數(shù)數(shù)組記錄關(guān)聯(lián)規(guī)則,二維數(shù)組的行數(shù)和列數(shù)與課程數(shù)相等,數(shù)組中的每個(gè)元素代表其行標(biāo)和列標(biāo)所對(duì)應(yīng)的兩門課程的關(guān)聯(lián)。項(xiàng)目容器交互器聚類器分類器關(guān)聯(lián)規(guī)則挖掘器數(shù)據(jù)預(yù)處理器導(dǎo)入文件生成規(guī)則分析關(guān)聯(lián)計(jì)
50、算最值縮放數(shù)據(jù)計(jì)算縮放比例學(xué)生分類課程分類識(shí)別噪聲點(diǎn)生成簇學(xué)生信息關(guān)聯(lián)規(guī)則分類結(jié)果聚類結(jié)果人機(jī)交互導(dǎo)出文件采用一維整數(shù)數(shù)組記錄高風(fēng)險(xiǎn)課程的編號(hào)。采用二維字符串?dāng)?shù)組記錄高風(fēng)險(xiǎn)學(xué)生和和聚類結(jié)果,每一行對(duì)應(yīng)一名學(xué)生。4.24.2 系統(tǒng)系統(tǒng)詳細(xì)設(shè)計(jì)詳細(xì)設(shè)計(jì)4.2.14.2.1 文件導(dǎo)入數(shù)據(jù)文件導(dǎo)入數(shù)據(jù)圖 4-2 文件導(dǎo)入數(shù)據(jù)時(shí)序圖首先用戶將導(dǎo)入數(shù)據(jù)文件的請(qǐng)求和數(shù)據(jù)文件的地址發(fā)送給 openfile,openfile 對(duì)系統(tǒng)中已經(jīng)定義的結(jié)構(gòu)體進(jìn)行初始化。初始化完成后,openfile 打開(kāi)文件并開(kāi)始從文件中讀取數(shù)據(jù),并存入結(jié)構(gòu)體中。循環(huán)這一過(guò)程,直到所有的數(shù)據(jù)都被存入了結(jié)構(gòu)體中,openfile 關(guān)閉文
51、件,并向用戶輸出“成功導(dǎo)入文件”4.2.24.2.2 數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理本系統(tǒng)所采用的數(shù)據(jù)為大學(xué)生各門課程的考試成績(jī),均為百分制,數(shù)據(jù)的準(zhǔn)確性、完整性、一致性和可信性都比較高,無(wú)需涉及填補(bǔ)缺失值和過(guò)濾噪聲點(diǎn)等處理,數(shù)據(jù)預(yù)處理的工作較為簡(jiǎn)單。考慮到不同課程間難易程度存在區(qū)別和閱卷教師存在主觀差異,需對(duì)數(shù)據(jù)做出一定處理。例如全體學(xué)生中課程 A 的最高分為 95 分,最低分為 55 分,課程 B 的最高分為 85 分,最低分為 35 分,應(yīng)對(duì)課程 A 和課程 B 的成績(jī)進(jìn)行一定處理,使得 A 和 B 的最高分處在同一成績(jī)區(qū)間,最低分也處在同一成績(jī)區(qū)間。按照一些教育領(lǐng)域中用百分比(即排名)替代分?jǐn)?shù)來(lái)
52、表述成績(jī)是一個(gè)可行的辦法,但這種方法有其一定的局限性。對(duì)于選拔性考試來(lái)說(shuō),這種辦法是非常合理的,因?yàn)檫x拔性考試只按照成績(jī)高低排序擇優(yōu)錄取,而無(wú)需考慮這些成績(jī)之間差距的大小。但對(duì)于本系統(tǒng)涉及到的算法來(lái)說(shuō),成績(jī)間的差值顯然是不能忽略的。若采用排名的方式代替分?jǐn)?shù)表述成績(jī),在一些特定情況下會(huì)對(duì)產(chǎn)生較大誤差。如某一門課程中,有 5 名學(xué)生得分 82 分,10 名學(xué)生得分 81 分,1 名學(xué)生得分 80 分。則得到 82 分的學(xué)生和得到 80 分的學(xué)生之間的相差 15 個(gè)名次,顯然遠(yuǎn)大于兩者之間 2 分的分?jǐn)?shù)差。故對(duì)成績(jī)的預(yù)處理采用的方法為選取一門課程的最高分和最低分為標(biāo)準(zhǔn),將其他課程所有學(xué)生的成績(jī)等比例
53、放大或縮小,使得所有課程的最高分與最低分一致,消除課程難度的客觀因素和閱卷教師的主觀因素對(duì)成績(jī)的影響。一些國(guó)外大學(xué)用 ABCD 的方式取代百分制對(duì)學(xué)生進(jìn)行評(píng)價(jià),當(dāng)學(xué)生成績(jī)中存在不同評(píng)價(jià)標(biāo)準(zhǔn)的成績(jī)時(shí),應(yīng)對(duì)成績(jī)進(jìn)行處理,統(tǒng)一標(biāo)準(zhǔn)。考慮到絕大部分國(guó)內(nèi)大學(xué)所有課程均采用百分制對(duì)學(xué)生進(jìn)行評(píng)價(jià),故本系統(tǒng)不再進(jìn)行成績(jī)轉(zhuǎn)換功能的開(kāi)發(fā)。圖 4-3 數(shù)據(jù)預(yù)處理時(shí)序圖用戶向 pretreatment 發(fā)出數(shù)據(jù)預(yù)處理請(qǐng)求,pretreatment 從結(jié)構(gòu)體中讀取學(xué)生成績(jī)信息并進(jìn)行預(yù)處理,預(yù)處理結(jié)束后將新的成績(jī)?cè)俅嫒虢Y(jié)構(gòu)體中4.2.34.2.3 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則功能模塊的關(guān)鍵點(diǎn)有兩個(gè),一是用什么樣的標(biāo)準(zhǔn)判斷兩門
54、課程是否存在關(guān)聯(lián),二是如何挖掘各門課程的關(guān)聯(lián)規(guī)則。對(duì)于如何判斷兩門課程存在關(guān)聯(lián)的問(wèn)題,從現(xiàn)有的數(shù)據(jù)來(lái)看,用兩門課程成績(jī)的接近程度來(lái)判斷是否存在關(guān)聯(lián)是一個(gè)比較合理的方式。判斷兩門課程的成績(jī)是否接近有等寬和等深兩種方式。等寬的方式為將所有學(xué)生各門課程的成績(jī)按照一定的寬度分為若干個(gè)區(qū)間(根據(jù)大多數(shù)高校的計(jì)分制度,本系統(tǒng)按照每 10 分一個(gè)區(qū)間將成績(jī)分為10 個(gè)區(qū)間),處在一個(gè)成績(jī)區(qū)間內(nèi)的課程即認(rèn)為成績(jī)足夠接近存在關(guān)聯(lián)。但這種判斷標(biāo)準(zhǔn)有一定缺陷,在一些特定情況下會(huì)產(chǎn)生較大的誤差。例如某學(xué)生課程 A 的成績(jī)?yōu)?1 分,課程 B 的成績(jī)?yōu)?89 分,課程 C 的成績(jī)?yōu)?81 分。按照等寬的判斷標(biāo)準(zhǔn),課程
55、B和課程 C 存在關(guān)聯(lián),課程 A 與課程 B 和 C 均無(wú)關(guān)聯(lián)。但是按照我們的常識(shí)來(lái)講,毫無(wú)疑問(wèn)課程 A 和課程 B 的成績(jī)更為接近,二者僅相差 2 分,應(yīng)該認(rèn)定為存在關(guān)聯(lián)。導(dǎo)致這種現(xiàn)象的原因是衡量?jī)砷T課程是否接近應(yīng)該依據(jù)兩門課程成績(jī)的差值,無(wú)需考慮成績(jī)的絕對(duì)值。而采用等寬方式判斷成績(jī)是否接近的方法無(wú)疑會(huì)受到成績(jī)絕對(duì)值的影響。之后我嘗試采用等深的方式判斷課程關(guān)聯(lián),在一定程度上避免絕對(duì)值影響判斷的問(wèn)題,但是又帶來(lái)了新的問(wèn)題,即如何劃定深度。由于各高校在計(jì)算考試成績(jī)時(shí)無(wú)需考慮成績(jī)差值,所以在這方面無(wú)經(jīng)驗(yàn)和先例可循。若采用動(dòng)態(tài)劃定深度的方式(即根據(jù)每個(gè)學(xué)生最高分和最低分之間的差值劃定不同的深度)可在
56、一定程度上得到比較合理的結(jié)果,但此種方法缺乏教育學(xué)理論的支持,僅作為參考。綜上所述,本系統(tǒng)采取應(yīng)用較為廣泛、能為大多數(shù)人所接受的等寬的方式判斷兩門課程的成績(jī)是否接近。本系統(tǒng)采用 Apriori 算法挖掘各門課程的關(guān)聯(lián)規(guī)則。Apriori 算法是應(yīng)用最為廣泛的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。Apriori 算法也有一定的缺陷,主要表現(xiàn)在可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù)。但是對(duì)于應(yīng)用于普通高校的學(xué)生成績(jī)分析系統(tǒng)來(lái)說(shuō),其課程數(shù)和學(xué)生數(shù)都是很有限的,現(xiàn)代高性能計(jì)算機(jī)可以迅速完成上述工作。因此對(duì)于本系統(tǒng)來(lái)說(shuō),Apriori 算法的一些固有缺陷是完全可以接受的。圖 4-4 關(guān)聯(lián)規(guī)則挖掘時(shí)序
57、圖用戶向 associationrules 發(fā)出挖掘關(guān)聯(lián)規(guī)則請(qǐng)求,associationrules 從結(jié)構(gòu)體中讀取學(xué)生成績(jī)信息并進(jìn)行分析關(guān)聯(lián),處理完成后將關(guān)聯(lián)數(shù)據(jù)存入關(guān)聯(lián)數(shù)組,然后統(tǒng)計(jì)關(guān)聯(lián)數(shù)組中的頻繁項(xiàng),生成關(guān)聯(lián)規(guī)則并存入關(guān)聯(lián)規(guī)則數(shù)組4.2.44.2.4 分類分類本系統(tǒng)采用決策樹(shù)算法來(lái)實(shí)現(xiàn)分類預(yù)測(cè)功能,主要預(yù)測(cè)全體在校學(xué)生是否有掛科風(fēng)險(xiǎn),以及掛科風(fēng)險(xiǎn)比較高的課程。在現(xiàn)有數(shù)據(jù)條件下,決策樹(shù)選取該學(xué)生已經(jīng)完成學(xué)習(xí)的課程中是否有掛科和所有已經(jīng)完成學(xué)習(xí)的課程的平均成績(jī)是否低于一個(gè)特定值來(lái)作為測(cè)試屬性。如果某學(xué)生有過(guò)掛科經(jīng)歷,說(shuō)明該學(xué)生在學(xué)習(xí)態(tài)度、學(xué)習(xí)方法或?qū)W習(xí)能力方面存在一定問(wèn)題,那么他在今后學(xué)習(xí)其他
58、課程的過(guò)程中會(huì)比其他學(xué)生掛科的可能性更大,這種因果聯(lián)系符合一般人的認(rèn)知,因此選擇是否有掛科經(jīng)歷作為一個(gè)測(cè)試屬性。若某學(xué)生各門課程的成績(jī)較低(平均分低于某一特定值),他顯然比其他成績(jī)更好的學(xué)生要承擔(dān)更多的掛科風(fēng)險(xiǎn),因此選擇平均成績(jī)是否低于一個(gè)特定值來(lái)作為另一個(gè)測(cè)試屬性。本算法將某一課程以畢業(yè)學(xué)生的掛科率作為衡量該課程是否為高風(fēng)險(xiǎn)課程的測(cè)試屬性,將掛科率高于某一特定值的課程作為高風(fēng)險(xiǎn)課程,此參數(shù)可由教務(wù)工作人員根據(jù)本專業(yè)的課程難度和生源水平等實(shí)際情況進(jìn)行調(diào)整。圖 4-5 分類時(shí)序圖用戶向 classify 發(fā)出分類請(qǐng)求,classify 從結(jié)構(gòu)體中讀取學(xué)生成績(jī)信息并進(jìn)行分析處理,將高風(fēng)險(xiǎn)學(xué)生的姓名
59、存入高風(fēng)險(xiǎn)學(xué)生數(shù)組中并輸出給用戶。學(xué)生分類完成后,classify 對(duì)課程進(jìn)行分析,將高風(fēng)險(xiǎn)課程的名字存入高風(fēng)險(xiǎn)課程數(shù)組中并輸出給用戶4.2.54.2.5 聚類聚類本系統(tǒng)使用聚類算法對(duì)學(xué)生進(jìn)行聚類,根據(jù)聚類結(jié)果分析學(xué)生在校表現(xiàn)和成績(jī)之間的關(guān)聯(lián)性。K-means 算法是數(shù)據(jù)挖掘領(lǐng)域應(yīng)用最為廣泛的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。從這些方面來(lái)看,K-means 算法是比較符合本系統(tǒng)對(duì)于聚類算法的要求的。但 K-means 算法同樣有一些固有缺點(diǎn)。首先是 K-means 算法需
60、要不斷地進(jìn)行樣本分類調(diào)整,不斷地計(jì)算調(diào)整后的新的聚類中心,因此當(dāng)數(shù)據(jù)量非常大時(shí),算法的時(shí)間開(kāi)銷是非常大的。不過(guò)出于和采用 Apriori 算法同樣的理由,時(shí)間復(fù)雜度高的缺點(diǎn)可以忽略。其次,在 K-means 算法中 K 是事先給定的,這個(gè) K 值的選定是非常難以估計(jì)的。很多時(shí)候,事先并不知道給定的數(shù)據(jù)集應(yīng)該分成多少個(gè)類別才最合適。在本系統(tǒng)中,被聚類的對(duì)象是學(xué)生,即使對(duì)于同一所高校甚至是同一專業(yè)的學(xué)生來(lái)說(shuō),學(xué)生間的個(gè)體差異也是很大的,因此無(wú)法事先估算出 K 值。而且在使用 K-means 算法時(shí),首先需要根據(jù)初始聚類中心來(lái)確定一個(gè)初始劃分,然后對(duì)初始劃分進(jìn)行優(yōu)化,且初始聚類中心的選擇對(duì)聚類結(jié)果的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025劇院區(qū)域獨(dú)家代理合同
- 湖面景觀噴泉施工方案
- 天津財(cái)經(jīng)大學(xué)珠江學(xué)院《中醫(yī)診斷學(xué)技能》2023-2024學(xué)年第二學(xué)期期末試卷
- 《西湖別墅幻燈》課件
- 2025至2031年中國(guó)建筑塑鋼行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年的場(chǎng)地租賃合同模板
- 《兒童情感的培育》課件
- 2025年“1+N”全景式假期成長(zhǎng)實(shí)踐作業(yè)實(shí)施方案
- 2025至2030年中國(guó)風(fēng)機(jī)盤管空調(diào)器數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)鏡鋁立體滴膠標(biāo)牌數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2023年水利部珠江水利委員會(huì)直屬事業(yè)單位招聘工作人員考試真題及答案
- 2024年3月四川省考公務(wù)員面試題及參考答案
- 戰(zhàn)略性新興產(chǎn)業(yè)政府引導(dǎo)基金發(fā)展策略與模式
- 豬場(chǎng)的生物安全工作總結(jié)
- 財(cái)政基礎(chǔ)知識(shí)培訓(xùn)課件
- 春季朋友聚餐邀請(qǐng)函
- 胸腔推注給藥的護(hù)理
- 監(jiān)控系統(tǒng)改造方案
- 第6章 輸電線路和繞組中的波過(guò)程
- 離婚協(xié)議書完整版Word模板下載
- 機(jī)床數(shù)控技術(shù)及應(yīng)用-數(shù)控機(jī)床的機(jī)械結(jié)構(gòu)
評(píng)論
0/150
提交評(píng)論