教育大數(shù)據(jù)分析:方法與探索-2019年精選教育文檔_第1頁
教育大數(shù)據(jù)分析:方法與探索-2019年精選教育文檔_第2頁
教育大數(shù)據(jù)分析:方法與探索-2019年精選教育文檔_第3頁
教育大數(shù)據(jù)分析:方法與探索-2019年精選教育文檔_第4頁
教育大數(shù)據(jù)分析:方法與探索-2019年精選教育文檔_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、教育大數(shù)據(jù)分析:方法與探索一、大數(shù)據(jù)與大數(shù)據(jù)分析概述隨著數(shù)據(jù)獲取、存儲等技術(shù)的不斷發(fā)展,以及人們對數(shù)據(jù)的重視程度不斷提高,大數(shù)據(jù)得到了廣泛的重視,不僅僅在IT 領(lǐng)域,包括經(jīng)濟學(xué)領(lǐng)域、醫(yī)療領(lǐng)域、營銷領(lǐng)域等等。例如,在移動社交網(wǎng)絡(luò)中,用戶拍照片、上網(wǎng)、評論、點贊等信息積累起來都構(gòu)成大數(shù)據(jù);醫(yī)療系統(tǒng)中的病例、醫(yī)學(xué)影像等積累起來也構(gòu)成大數(shù)據(jù);在商務(wù)系統(tǒng)中,顧客購買東西的行為被記錄下來,也形成了大數(shù)據(jù)。時至今日,大數(shù)據(jù)并沒有特別公認的定義。有三個不同角度的定義:(1)“大數(shù)據(jù)”指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時間內(nèi)達到截取、管理、 處理并整理成為人類所能解讀的信息1 。 ( 2)“大數(shù)據(jù)

2、”指不用隨機分析法(抽樣調(diào)查) 這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理的方法的數(shù)據(jù)2 。 ( 3) “大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。通常把大數(shù)據(jù)的特點歸納為4 個 V, 即數(shù)據(jù)量大( Volume) 、數(shù)據(jù)類型多(Varity )、數(shù)據(jù)的價值密度低(Value)以及數(shù)據(jù) 產(chǎn)生和處理的速度非常快(Velocity )。對大數(shù)據(jù)進行分析可以產(chǎn)生新的價值。數(shù)據(jù)分析的概念誕生于大數(shù)據(jù)時代之前,但傳統(tǒng)的數(shù)據(jù)分析和大數(shù)據(jù)分析是不同的。傳統(tǒng)的數(shù)據(jù)分析往往是由客戶提出一個問題,分析者圍繞該問題建立一個系統(tǒng),進而基于該系統(tǒng)解釋這個問題;

3、而大數(shù)據(jù)分析有時候并沒有明確的問題,而是通過搜集數(shù)據(jù),瀏覽數(shù)據(jù)來提出問題。另一方面,傳統(tǒng)的數(shù)據(jù)分析是在可用的信息上進行抽樣,大數(shù)據(jù)分析則是對數(shù)據(jù)進行不斷的探索,通過全局分析連接數(shù)據(jù),達到數(shù)據(jù)分析的目的。傳統(tǒng)的數(shù)據(jù)分析的方法,往往是大膽假設(shè)小心求證,先做出假設(shè),再對數(shù)據(jù)進行分析,從而驗證先前的假設(shè);而大數(shù)據(jù)分析則是對大數(shù)據(jù)進行探索來發(fā)現(xiàn)結(jié)果,甚至發(fā)現(xiàn)錯誤的結(jié)果,之后再通過數(shù)據(jù)驗證結(jié)果是否正確。因此, 傳統(tǒng)的數(shù)據(jù)分析可以看成一種靜態(tài)的分析,大數(shù)據(jù)分析可以看成一種動態(tài)的分析。盡管如此,大數(shù)據(jù)分析和傳統(tǒng)數(shù)據(jù)分析也并非是涇渭分明的,傳統(tǒng)數(shù)據(jù)分析的方法是大數(shù)據(jù)分析的基礎(chǔ),在很多大數(shù)據(jù)分析的工作中仍沿用了傳

4、統(tǒng)數(shù)據(jù)分析的方法。基于上述討論,我們給出“大數(shù)據(jù)分析”的定義: 用適當?shù)慕y(tǒng)計分析方法對大數(shù)據(jù)進行分析,提取有用信息并形成結(jié)論,從而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。大數(shù)據(jù)分析分為三個層次3 ,即描述分析、預(yù)測分析和規(guī)范分析。 描述分析是探索歷史數(shù)據(jù)并描述發(fā)生了什么(分析已經(jīng)發(fā)生的行為),預(yù)測分析用于預(yù)測未來的概率和趨勢(分析可能發(fā)生的行為),規(guī)范分析根據(jù)期望的結(jié)果、特定場景、資源以及對過去和當前事件的了解對未來的決策給出建議(分析應(yīng)該發(fā)生的行為)。例如,對于學(xué)生學(xué)習(xí)成績的分析,描述分析是通過分析描述學(xué)生的行為,如是否成績高的同學(xué)回答問題較多;預(yù)測分析是根據(jù)學(xué)生的學(xué)習(xí)行為數(shù)據(jù)對其分數(shù)進行預(yù)測,

5、如根據(jù)學(xué)生回答問題的次數(shù)預(yù)測其成績;而規(guī)范分析則是根據(jù)學(xué)生的數(shù)據(jù)得到學(xué)生下一步的學(xué)習(xí)計劃,如對學(xué)生回答問題的最優(yōu)次數(shù)提出建議。大數(shù)據(jù)分析的過程可以劃分為如下7 個步驟:(1)業(yè)務(wù)調(diào)研,即明確分析的目標;(2)數(shù)據(jù)準備,收集需要的數(shù)據(jù);(3)數(shù)據(jù)瀏覽,發(fā)現(xiàn)數(shù)據(jù)可能存在的關(guān)聯(lián);(4)變量選?瘢 ?找出自變量與因變量;(5)定義模式,確定模型;(6)計算模型的參數(shù);(7)模型評估。我們以預(yù)測學(xué)生學(xué)習(xí)成績?yōu)槔忉屔鲜鲞^程。首先, 我們的目的是根據(jù)學(xué)生的行為預(yù)測學(xué)習(xí)成績。接下來, 對于傳統(tǒng)的方法來說, 通過專家的分析確定需要什么數(shù)據(jù),比如專家提出對學(xué)生成績有影響的數(shù)據(jù),包括出勤率、作業(yè)的完成率等,可以從

6、數(shù)據(jù)源獲取這樣的數(shù)據(jù);大數(shù)據(jù)分析的方法有所不同,是找到所有可能相關(guān)的數(shù)據(jù),甚至包括血型等,這些數(shù)據(jù)與成績之間的關(guān)系未必有影響,就算發(fā)現(xiàn)了關(guān)系也未必可以解釋,但是獲取盡可能多的數(shù)據(jù)有可能發(fā)現(xiàn)未知的關(guān)聯(lián)關(guān)系。上面的步驟包括了很多因素,下面確定哪些因素會體現(xiàn)在模型中,可以通過可視化等方法發(fā)現(xiàn)哪些因素和我們的分析目標相 關(guān),也可以通過特征工程的方法選擇包含在模型中的變量,并排除一些相關(guān)的自變量,比如學(xué)生的起床時間和吃早飯的時間存在 關(guān)聯(lián),在模型中可以只考慮其中之一,加快計算速度。再接下來是定義模型的模式,比如可以把上述問題定義為線 性回歸,再通過一些算法確定模型中的參數(shù), 從而得到最后的模 型。然后對

7、模型進行評估,檢驗這個模型是不是真的有效,以及 是否是可解釋的。有些有用的模型并不見得可解釋, 例如發(fā)現(xiàn)了 血壓對成績有影響,這個是有用的,但是未必有一個明確的解釋。二、在線教育大數(shù)據(jù)分析研究現(xiàn)狀在線教育大數(shù)據(jù)為教育研究的進行提供了非常好的途徑和 機會,它構(gòu)成了一個跨國家、跨文化、跨職業(yè)、跨階層的平臺, 學(xué)習(xí)者的每個行為都為研究者貢獻了數(shù)據(jù)。而通過研究這些數(shù) 據(jù),我們可以發(fā)現(xiàn)新的規(guī)律,或是指導(dǎo)學(xué)習(xí)者的行為,例如預(yù)測 學(xué)生的學(xué)習(xí)情況、課程的受歡迎程度以及發(fā)現(xiàn)新的學(xué)習(xí)方法等。 利用平臺得到的數(shù)據(jù),預(yù)測并回饋給平臺,從而可以達到改進平 臺的目的,還可以為平臺發(fā)現(xiàn)新的業(yè)務(wù)。當前在線教育大數(shù)據(jù)的研究已經(jīng)

8、開始,但是研究成果并不 多,主要的研究對象是學(xué)生,集中在對學(xué)生學(xué)習(xí)行為的研究,而 授課人員的行為和平臺的行為這兩個方面的研究比較少。我們將現(xiàn)有的主流研究內(nèi)容進行歸類,分為多個方面,包括:( 1)學(xué)習(xí)者行為分析與預(yù)測;( 2)學(xué)習(xí)者學(xué)習(xí)效果分析與預(yù)測;( 3)平臺供應(yīng)商數(shù)據(jù)分析。學(xué)習(xí)者行為分析與預(yù)測的研究指的是,通過學(xué)習(xí)者在MOOC平臺上產(chǎn)生并積累的行為數(shù)據(jù),采用量化學(xué)習(xí)者行為特征的方式,對其學(xué)習(xí)行為進行分析與預(yù)測。具體而言,文獻4 研究了在MOO印臺上有退課風險的學(xué)習(xí)者的早期預(yù)警問題,他們基于回歸分析的方法,提出了兩種遷移學(xué)習(xí)算法,通過增添正則項最小化連續(xù)不間斷學(xué)習(xí)周中的失敗概率。文中提出了三

9、個方法,分別是LR-SEQ LR-SIM與LR-MOV其中在 AUCJ旨標上LR-SIM與LR-MOVt果更好,LR-SIM在開課前兩周的預(yù)測相對于其他方法更為出色。文獻5 采用了機器學(xué)習(xí)的方法研究了學(xué)習(xí)者退課率的預(yù)測方法,他們僅利用了網(wǎng)頁瀏覽流數(shù)據(jù),提出了基于支持向量機的機器學(xué)習(xí)模型以預(yù)測學(xué)習(xí)者的退課情況。他們的方法隨著課程的進行,預(yù)測準確率逐漸上升,但在開課前幾周的預(yù)測效果不夠理想。文獻6 同樣研究了學(xué)習(xí)者退課預(yù)測的問題,他們采用的方法是構(gòu)建精確的預(yù)測模型與數(shù)據(jù)的時態(tài)與非時態(tài)表達,得到了較為良好的AUU旨標。文獻7則是采用了隱形馬爾科夫模型對學(xué)習(xí)者課程滯留情況進行了預(yù)測,他們通過簡單交叉乘

10、積的方法,將連續(xù)特征編碼為單一離散可觀察狀態(tài)。文獻8 同樣研 究了退課問題,他們構(gòu)建了時序模型,通過標簽的方法,采用了LST麗元的RNNg型。他們得到的結(jié)果說明了在此問題上使用LST麗元要比普通的 RNNt果更好。文獻9研究了在MOO序臺上的學(xué)習(xí)者行為預(yù)測模型的遷移學(xué)習(xí),他們提出了學(xué)習(xí)者預(yù)測的實時方法,并提出了對于同一個預(yù)測問題,建立表達式以改變這些方法的參數(shù)設(shè)置,實驗證明了遷移學(xué)習(xí)可以使得兩種方法的效果等價。文獻10則首次針對中文 MOO中學(xué)習(xí)行為的特點將學(xué)習(xí)者分類以考察學(xué)習(xí)行為與效果之間的關(guān)系,這項工作使得人們可以有效判別一個學(xué)習(xí)者是否能夠或潛在能夠完成學(xué)習(xí)任務(wù)。文獻11通過學(xué)習(xí)者積累的作

11、業(yè)文章與MOO瀏覽流數(shù)據(jù)對學(xué)習(xí)行為進行了分析與預(yù)測。文獻12 對學(xué)習(xí)者高風險退課進行預(yù)警。4 He J, Bailey J, Rubinstein B I P,et al.Identifying At-Risk Students in Massive Open Online CoursesJ. Aaai , 2015.5 Kloft M,StiehlerF,Zheng Z,et al. PredictingMOOCDropout over WeeksUsing Machine Learning MethodsA. EMNLP 2014 Workshop on Analysis of Large

12、 Scale Social Interaction in Moocs. 2014: 60-65.6 Taylor C, Veeramachaneni K,O Reilly U M. Likelyto stop ? Predicting Stopout in Massive Open Online CoursesJ. Computer Science , 2014.7 Balakrishnan G , Coetzee D. Predicting student retention in massive open online courses using hidden markov modelsJ

13、. Electrical Engineering and Computer2013.Sciences University of California at Berkeley8 Fei M , Yeung D Y. Temporal Models for Predicting Student Dropout in Massive Open Online CoursesA. IEEE International Conference on Data Mining Workshop. IEEE , 2015: 256-263.9 Boyer S,Veeramachaneni K. Transfer

14、 Learning forPredictive Models in Massive Open Online CoursesM/ Artificial Intelligence in Education. Springer International Publishing , 2015 : 54-63.10 Tang S , Peterson J C , Pardos Z A. Deep Neural Networks and HowThey Apply to Sequential Education DataA. Proceedings of the Third ( 2016) ACMConf

15、erence on Learning Scale. ACM , 2016: 321-324.11 ?Y卓軒,張巖,李曉明.基于MOO敏據(jù)的學(xué)習(xí)行為分析與預(yù)測J. 計算機研究與發(fā)展,2015 , 52( 3) : 614-628.12 Halawa S , Greene D , Mitchell J. Dropout prediction in MOOCs using learner activity featuresJ.Experiences and best practices in and around MOOC, s 2014 , 7.13 Brinton C G , Chiang M.

16、 Mooc performance prediction via clickstream data and social learningnetworksA. Computer Communications ( INFOCO),M2015IEEE Conference on. IEEE2015 : 2299-2307.14 Brinton C G , Buccapatnam S , Chiang M , et al. Mining MOOC Clickstreams : Video-Watching Behavior vs. In-Video Quiz PerformanceJ. IEEE T

17、ransactions on Signal Processing , 2016, 64( 14):3677-3692.15 Toscher A , Jahrer M. Collaborative filtering applied to educational data miningJ. KDD cup,2010.16 KDDCup 2010: Educational Data Mining Challenge - PSLC DataShopEB/OL. https ://KDDCup/.17 Meier Y , Xu J , Atan O ,

18、et al. Predicting gradesJ. IEEE Transactions on Signal Processing , 2016 , 64( 4):959-972.18 Sanchez-SantillanM, Paule-Ruiz MP, Cerezo R,et al. Predicting Students Performance : Incremental Interaction ClassifiersA. Proceedings of the Third( 2016)ACM Conference on Learning Scale. ACM , 2016 :217-220.19 Ruiperez-Valiente J A , Alexandron G , Chen Z , et al. Using multiple accounts for harvesting solutions in moocsA. Proceedings of the Third ( 2016) ACMConference on Learning Scale. ACM ,2016: 63-70.20 Pang Y , Wang T, Wang N. MOOC Data fromProvidersA. Enterprise Systems

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論