



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、實用文案教育大數(shù)據(jù)分析:方法與探索一、大數(shù)據(jù)與大數(shù)據(jù)分析概述隨著數(shù)據(jù)獲取、 存儲等技術(shù)的不斷發(fā)展,以及人們對數(shù)據(jù)的重視程度不斷提高,大數(shù)據(jù)得到了廣泛的重視,不僅僅在 IT 領(lǐng)域,包括經(jīng)濟學(xué)領(lǐng)域、醫(yī)療領(lǐng)域、營銷領(lǐng)域等等。例如,在移動社交網(wǎng)絡(luò)中,用戶拍照片、上網(wǎng)、評論、點贊等信息積累起來都構(gòu)成大數(shù)據(jù); 醫(yī)療系統(tǒng)中的病例、 醫(yī)學(xué)影像等積累起來也構(gòu)成大數(shù)據(jù);在商務(wù)系統(tǒng)中,顧客購買東西的行為被記錄下來,也形成了大數(shù)據(jù)。時至今日,大數(shù)據(jù)并沒有特別公認(rèn)的定義。 有三個不同角度的定義:( 1)“大數(shù)據(jù)”指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時間內(nèi)達到截取、 管理、處理并整理成為人類所能解讀的信息 1
2、 。(2)“大數(shù)據(jù)”指不用隨機分析法(抽樣調(diào)查)這樣的捷徑, 而采用所有數(shù)據(jù)進行分析處理的方法的數(shù)據(jù)2 。(3)“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、 高增長率和多樣化的信息資產(chǎn)。通常把大數(shù)據(jù)的特點歸納為 4 個 V,即數(shù)據(jù)量大 ( Volume)、數(shù)據(jù)類型多( Varity )、數(shù)據(jù)的價值密度低( Value )以及數(shù)據(jù)產(chǎn)生和處理的速度非常快( Velocity )。對大數(shù)據(jù)進行分析可以產(chǎn)生新的價值。 數(shù)據(jù)分析的概念誕生文案大全實用文案于大數(shù)據(jù)時代之前,但傳統(tǒng)的數(shù)據(jù)分析和大數(shù)據(jù)分析是不同的。傳統(tǒng)的數(shù)據(jù)分析往往是由客戶提出一個問題, 分析者圍繞該問題建
3、立一個系統(tǒng), 進而基于該系統(tǒng)解釋這個問題; 而大數(shù)據(jù)分析有時候并沒有明確的問題, 而是通過搜集數(shù)據(jù), 瀏覽數(shù)據(jù)來提出問題。另一方面,傳統(tǒng)的數(shù)據(jù)分析是在可用的信息上進行抽樣, 大數(shù)據(jù)分析則是對數(shù)據(jù)進行不斷的探索,通過全局分析連接數(shù)據(jù),達到數(shù)據(jù)分析的目的。傳統(tǒng)的數(shù)據(jù)分析的方法, 往往是大膽假設(shè)小心求證, 先做出假設(shè),再對數(shù)據(jù)進行分析,從而驗證先前的假設(shè);而大數(shù)據(jù)分析則是對大數(shù)據(jù)進行探索來發(fā)現(xiàn)結(jié)果, 甚至發(fā)現(xiàn)錯誤的結(jié)果, 之后再通過數(shù)據(jù)驗證結(jié)果是否正確。因此,傳統(tǒng)的數(shù)據(jù)分析可以看成一種靜態(tài)的分析, 大數(shù)據(jù)分析可以看成一種動態(tài)的分析。 盡管如此, 大數(shù)據(jù)分析和傳統(tǒng)數(shù)據(jù)分析也并非是涇渭分明的, 傳統(tǒng)數(shù)據(jù)
4、分析的方法是大數(shù)據(jù)分析的基礎(chǔ),在很多大數(shù)據(jù)分析的工作中仍沿用了傳統(tǒng)數(shù)據(jù)分析的方法。基于上述討論, 我們給出“大數(shù)據(jù)分析”的定義:用適當(dāng)?shù)慕y(tǒng)計分析方法對大數(shù)據(jù)進行分析,提取有用信息并形成結(jié)論,從而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。大數(shù)據(jù)分析分為三個層次3 ,即描述分析、預(yù)測分析和規(guī)范分析。描述分析是探索歷史數(shù)據(jù)并描述發(fā)生了什么(分析已經(jīng)文案大全實用文案發(fā)生的行為),預(yù)測分析用于預(yù)測未來的概率和趨勢(分析可能發(fā)生的行為),規(guī)范分析根據(jù)期望的結(jié)果、特定場景、資源以及對過去和當(dāng)前事件的了解對未來的決策給出建議(分析應(yīng)該發(fā)生的行為)。例如,對于學(xué)生學(xué)習(xí)成績的分析,描述分析是通過分析描述學(xué)生的行為, 如
5、是否成績高的同學(xué)回答問題較多;預(yù)測分析是根據(jù)學(xué)生的學(xué)習(xí)行為數(shù)據(jù)對其分?jǐn)?shù)進行預(yù)測,如根據(jù)學(xué)生回答問題的次數(shù)預(yù)測其成績;而規(guī)范分析則是根據(jù)學(xué)生的數(shù)據(jù)得到學(xué)生下一步的學(xué)習(xí)計劃,如對學(xué)生回答問題的最優(yōu)次數(shù)提出建議。大數(shù)據(jù)分析的過程可以劃分為如下7 個步驟:( 1)業(yè)務(wù)調(diào)研,即明確分析的目標(biāo);(2)數(shù)據(jù)準(zhǔn)備,收集需要的數(shù)據(jù);( 3)數(shù)據(jù)瀏覽,發(fā)現(xiàn)數(shù)據(jù)可能存在的關(guān)聯(lián);( 4)變量選 ?瘢?找出自變量與因變量;( 5)定義模式,確定模型;( 6)計算模型的參數(shù);( 7)模型評估。我們以預(yù)測學(xué)生學(xué)習(xí)成績?yōu)槔忉屔鲜鲞^程。 首先,我們的目的是根據(jù)學(xué)生的行為預(yù)測學(xué)習(xí)成績。 接下來,對于傳統(tǒng)的方法來說,通過專家的分
6、析確定需要什么數(shù)據(jù), 比如專家提出對學(xué)生成績有影響的數(shù)據(jù),包括出勤率、作業(yè)的完成率等,可以從數(shù)據(jù)源獲取這樣的數(shù)據(jù); 大數(shù)據(jù)分析的方法有所不同, 是找到所有可能相關(guān)的數(shù)據(jù), 甚至包括血型等, 這些數(shù)據(jù)與成績之間的關(guān)系未必有影響, 就算發(fā)現(xiàn)了關(guān)系也未必可以解釋, 但是獲取盡可能多的數(shù)據(jù)有可能發(fā)現(xiàn)未知的關(guān)聯(lián)關(guān)系。文案大全實用文案上面的步驟包括了很多因素, 下面確定哪些因素會體現(xiàn)在模型中,可以通過可視化等方法發(fā)現(xiàn)哪些因素和我們的分析目標(biāo)相關(guān),也可以通過特征工程的方法選擇包含在模型中的變量, 并排除一些相關(guān)的自變量, 比如學(xué)生的起床時間和吃早飯的時間存在關(guān)聯(lián),在模型中可以只考慮其中之一,加快計算速度。再
7、接下來是定義模型的模式,比如可以把上述問題定義為線性回歸,再通過一些算法確定模型中的參數(shù),從而得到最后的模型。然后對模型進行評估,檢驗這個模型是不是真的有效,以及是否是可解釋的。 有些有用的模型并不見得可解釋,例如發(fā)現(xiàn)了血壓對成績有影響, 這個是有用的,但是未必有一個明確的解釋。二、在線教育大數(shù)據(jù)分析研究現(xiàn)狀在線教育大數(shù)據(jù)為教育研究的進行提供了非常好的途徑和機會,它構(gòu)成了一個跨國家、跨文化、跨職業(yè)、跨階層的平臺,學(xué)習(xí)者的每個行為都為研究者貢獻了數(shù)據(jù)。而通過研究這些數(shù)據(jù),我們可以發(fā)現(xiàn)新的規(guī)律,或是指導(dǎo)學(xué)習(xí)者的行為,例如預(yù)測學(xué)生的學(xué)習(xí)情況、課程的受歡迎程度以及發(fā)現(xiàn)新的學(xué)習(xí)方法等。利用平臺得到的數(shù)據(jù)
8、, 預(yù)測并回饋給平臺, 從而可以達到改進平臺的目的,還可以為平臺發(fā)現(xiàn)新的業(yè)務(wù)。當(dāng)前在線教育大數(shù)據(jù)的研究已經(jīng)開始,但是研究成果并不多,主要的研究對象是學(xué)生,集中在對學(xué)生學(xué)習(xí)行為的研究,而授課人員的行為和平臺的行為這兩個方面的研究比較少。 我們將現(xiàn)有的主流研究內(nèi)容進行歸類,分為多個方面,包括:文案大全實用文案(1)學(xué)習(xí)者行為分析與預(yù)測;(2)學(xué)習(xí)者學(xué)習(xí)效果分析與預(yù)測;(3)平臺供應(yīng)商數(shù)據(jù)分析。學(xué)習(xí)者行為分析與預(yù)測的研究指的是,通過學(xué)習(xí)者在MOOC平臺上產(chǎn)生并積累的行為數(shù)據(jù),采用量化學(xué)習(xí)者行為特征的方式,對其學(xué)習(xí)行為進行分析與預(yù)測。具體而言,文獻4 研究了在 MOOC平臺上有退課風(fēng)險的學(xué)習(xí)者的早期預(yù)
9、警問題,他們基于回歸分析的方法, 提出了兩種遷移學(xué)習(xí)算法, 通過增添正則項最小化連續(xù)不間斷學(xué)習(xí)周中的失敗概率。 文中提出了三個方法, 分別是 LR-SEQ,LR-SIM 與 LR-MOV,其中在 AUC指標(biāo)上 LR-SIM 與LR-MOV效果更好, LR-SIM 在開課前兩周的預(yù)測相對于其他方法更為出色。文獻 5 采用了機器學(xué)習(xí)的方法研究了學(xué)習(xí)者退課率的預(yù)測方法, 他們僅利用了網(wǎng)頁瀏覽流數(shù)據(jù),提出了基于支持向量機的機器學(xué)習(xí)模型以預(yù)測學(xué)習(xí)者的退課情況。他們的方法隨著課程的進行, 預(yù)測準(zhǔn)確率逐漸上升, 但在開課前幾周的預(yù)測效果不夠理想。文獻 6 同樣研究了學(xué)習(xí)者退課預(yù)測的問題,他們采用的方法是構(gòu)建
10、精確的預(yù)測模型與數(shù)據(jù)的時態(tài)與非時態(tài)表達,得到了較為良好的 AUC指標(biāo)。文獻 7則是采用了隱形馬爾科夫模型對學(xué)習(xí)者課程滯留情況進行了預(yù)測,他們通過簡單交叉乘積的方法,將連續(xù)特征編碼為單一離散可觀察狀態(tài)。文獻8 同樣研究了退課問題,他們構(gòu)建了時序模型,通過標(biāo)簽的方法,采用了LSTM單元的 RNN模型。他們得到的結(jié)果說明了在此問題上使用文案大全實用文案LSTM單元要比普通的RNN效果更好。文獻 9 研究了在 MOOC平臺上的學(xué)習(xí)者行為預(yù)測模型的遷移學(xué)習(xí), 他們提出了學(xué)習(xí)者預(yù)測的實時方法, 并提出了對于同一個預(yù)測問題, 建立表達式以改變這些方法的參數(shù)設(shè)置, 實驗證明了遷移學(xué)習(xí)可以使得兩種方法的效果等價
11、。文獻 10 則首次針對中文 MOOC中學(xué)習(xí)行為的特點將學(xué)習(xí)者分類以考察學(xué)習(xí)行為與效果之間的關(guān)系,這項工作使得人們可以有效判別一個學(xué)習(xí)者是否能夠或潛在能夠完成學(xué)習(xí)任務(wù)。文獻 11通過學(xué)習(xí)者積累的作業(yè)文章與MOOC瀏覽流數(shù)據(jù)對學(xué)習(xí)行為進行了分析與預(yù)測。文獻12 對學(xué)習(xí)者高風(fēng)險退課進行預(yù)警。4 He J, Bailey J, RubinsteinB I P, et al.Identifying At-Risk Students in Massive Open OnlineCoursesJ. Aaai , 2015.5Kloft M, StiehlerF, Zheng Z, etal.Predict
12、ingMOOCDropout over Weeks Using Machine LearningMethodsA.EMNLP 2014 Workshop on Analysis of Large Scale SocialInteraction in Moocs. 2014:60-65.6Taylor C, VeeramachaneniK, OReillyU M. Likelyto stop? Predicting Stopout in Massive Open OnlineCoursesJ. Computer Science, 2014.7 Balakrishnan G , Coetzee D
13、. Predicting student retention in massive open online courses using hidden markov modelsJ. Electrical Engineering and Computer文案大全實用文案Sciences University of California at Berkeley, 2013.8 Fei M , Yeung D Y. Temporal Models for Predicting Student Dropout in Massive Open Online CoursesA. IEEEInternati
14、onal Conference on Data Mining Workshop. IEEE,2015:256-263.9 Boyer S, Veeramachaneni K. Transfer Learning for Predictive Models in Massive Open Online CoursesM/Artificial Intelligence in Education. SpringerInternational Publishing, 2015 :54-63.10 Tang S , Peterson J C, Pardos Z A. Deep NeuralNetwork
15、s and HowThey Apply to SequentialEducationDataA.Proceedingsof the Third (2016)ACMConference on LearningScale. ACM , 2016 : 321-324.11 ?Y 卓軒, 張巖, 李曉明 . 基于 MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測 J. 計算機研究與發(fā)展, 2015 ,52(3):614-628.12 Halawa S , Greene D , Mitchell J. Dropoutprediction in MOOCs using learner activity featuresJ
16、.Experiences and best practices in and around MOOCs, 2014 , 7.13 Brinton C G , Chiang M. Mooc performance prediction via clickstream data and social learningnetworksA. Computer Communications(INFOCOM), 2015文案大全實用文案IEEE Conference on. IEEE, 2015 : 2299-2307.14 Brinton C G , Buccapatnam S , Chiang M ,
17、 et al. Mining MOOC Clickstreams : Video-Watching Behavior vs.In-VideoQuiz PerformanceJ.IEEE Transactionson SignalProcessing , 2016 , 64 ( 14): 3677-3692.15 Toscher A, Jahrer M. Collaborative filteringapplied to educational data miningJ. KDD cup, 2010.16KDDCup 2010: EducationalData Mining Challenge-
18、 PSLC DataShopEB/OL. https://KDDCup/.17 Meier Y, Xu J , Atan O , et al. PredictinggradesJ.IEEE Transactionson SignalProcessing , 2016 ,64( 4): 959-972.18Sanchez-SantillanM, Paule-RuizM P, Cerezo R,et al. Predicting Students Performance :IncrementalInteraction ClassifiersA. Pr
19、oceedings of the Third(2016) ACM Conference on Learning Scale. ACM, 2016 :217-220.19 Ruiperez-Valiente J A, Alexandron G , Chen Z ,et al.Using multipleaccountsforharvestingsolutionsinmoocsA. Proceedingsof the Third( 2016) ACMConferenceon Learning Scale. ACM, 2016 : 63-70.文案大全實用文案20 Pang Y, Wang T, W
20、ang N. MOOC Data fromProvidersA.EnterpriseSystems Conference (ES), 2014.IEEE, 2014 : 87-90.21 Williams JJ, Kim J , RaffertyA, etal.Axis :Generatingexplanationsat scale with learnersourcingandmachine learningA.Proceedingsof the Third( 2016) ACMConference on Learning Scale. ACM, 2016 : 379-388.22 McBride E,VitaleJ M,Gogel H,etal.Predicting
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護理安全培訓(xùn) 2
- 2-7邏輯運算的基本規(guī)則
- 統(tǒng)編版語文五年級下冊第23課《童年的發(fā)現(xiàn)》精美課件
- 新鄉(xiāng)學(xué)院《傅里葉分析與小波分析》2023-2024學(xué)年第一學(xué)期期末試卷
- 聊城大學(xué)東昌學(xué)院《混凝土結(jié)構(gòu)原理與設(shè)計》2023-2024學(xué)年第一學(xué)期期末試卷
- 樂山師范學(xué)院《信息檢索與科技寫作》2023-2024學(xué)年第二學(xué)期期末試卷
- 四川省江油市2024-2025學(xué)年第二學(xué)期初三第一次模擬考試化學(xué)試題含解析
- 天津市職業(yè)大學(xué)《隸書技法》2023-2024學(xué)年第二學(xué)期期末試卷
- 濰坊科技學(xué)院《建筑安裝工程概預(yù)算》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海市寶山區(qū)上海交大附中2025屆高三下5月第一次質(zhì)量檢測試題物理試題試卷含解析
- 幼兒園幼兒小籃球活動體能測試表
- 福建省普通高中學(xué)生綜合素質(zhì)學(xué)期評價表
- 五年級下冊數(shù)學(xué)課件 -4.1 用數(shù)對確定位置 ︳青島版 (共20張PPT)
- 柏拉圖分析案例
- 巖棉項目申報書_參考模板
- 二襯帶模注漿施工方案
- 《英語委婉語與忌語》PPT課件.ppt
- ISO9001-14001-2015內(nèi)部審核檢查表
- 風(fēng)險和機遇應(yīng)對措施有效性評審記錄表副本
- 調(diào)查問卷設(shè)計-課件PPT
- 照金參觀學(xué)習(xí)心得
評論
0/150
提交評論