【基于差分隱私保護的學生成績應用探究(論文)8000字】_第1頁
【基于差分隱私保護的學生成績應用探究(論文)8000字】_第2頁
【基于差分隱私保護的學生成績應用探究(論文)8000字】_第3頁
【基于差分隱私保護的學生成績應用探究(論文)8000字】_第4頁
【基于差分隱私保護的學生成績應用探究(論文)8000字】_第5頁
已閱讀5頁,還剩11頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

摘要伴隨著互聯網時代的到來,數據和數據之間的價值變得日益重要。同時,隨著國家相關政策的出臺以及經濟的迅猛增長,教育成為人們密切關注的領域。因此,本文旨在研究學期課程之間的聯系,為學校優化課程安排作出更合理的選擇。首先,針對學生學期末各課程的測試成績,運用關聯規則挖掘中的Apriori算法進行分析,得到各個課程之間的關聯性。得出各課程成績最高分布區間及課程間存在強關聯性等結論。但與此同時,運用學生成績得到分析結果意味著學生個人信息可能會遭到泄露。因此,為了保護學生的隱私,本文采用拉普拉斯機制進行差分隱私保護,并引入了服從隨機分布的噪聲干擾值,使除學生本人以外,隱私攻擊者無法獲取學生的個人信息,起到良好的隱私保護的作用。得出在存在強關聯規則的前提下,學生也無法通過已知的應用統計學成績獲取到離散數學的成績的結論。關鍵詞:學生成績分析;差分隱私;關聯規則挖掘;Apriori挖掘算法1緒論1.1研究背景與意義近年來,隨著數據信息的深入研究,數據之間的關聯規則的挖掘已迅速發展成為所有研究領域甚至各國政府的熱門話題。挖掘數據相關性的算法數不勝數,其中關聯規則挖掘算法得到了最為廣泛的應用。同時,在關聯規則挖掘算法的眾多分支發展中,Apriori算法最早被人提出來,且以其原理簡單、結果更易實現的特點成為實用性最強的算法。研究數據相關性的方法層出不窮的同時,如何在已有數據相關性結論之下,對隱私數據進行保護顯得更為重要。差分隱私保護可以有效地保護數據:首先,隱私攻擊者不論有多少相關的已知信息,也不能推斷出信息所有者的其余重要隱私信息;其次,統計模型的嚴謹性使得在使用差分隱私時可以更好地得出準確的分析結論。在教育領域中,挖掘學生各學科成績之間的關聯性,有助于學校更深入了解課程之間的關系以更好的為學生定制課程,同時有利于學生有針對性地查漏補缺,強化優勢學科,彌補弱勢學科。然而,在得到各課程相關性結果的同時,學生的各科成績信息存在被泄露的風險。因此,針對此類問題,可采用差分隱私保護學生個人隱私,拉普拉斯機制中的服從隨機分布的噪聲值干擾可以使學生只能獲得自己的學習成績信息,而不能推斷他人的信息。綜上所述,教育領域中,對于學生各科成績進行基于差分隱私保護的關聯規則挖掘非常有意義。因此,本文先是通過關聯規則挖掘出課程之間的聯系,以便學校更好的優化課程安排,后通過差分隱私引入噪聲值保護學生的成績隱私免于暴露。1.2國內外研究現狀2010年,Enrique等人[1]提出了一種基于關聯規則挖掘的協同教育數據挖掘工具。旨在幫助老師改善教學課程。2012年,王冬秀等人[2]為了提高Apriori算法在交通事故分析中的效率,提出了一種改進的Apriori算法來分析大量的交通事故記錄并查找頻繁因素的組合。2013年,Aher[3]在課程推薦系統中,使用k-means聚類算法對學生進行分類。在同一集群中,使用Apriori算法分析學習記錄并推薦系統。2015年,楊財英[4]在已經優化過的Apriori算法基礎上再次進行改進,生成Apriori33算法,此算法應用于學生成績數據挖掘中。該算法可以更好地開展教學工作以及提高教學質量,也可以為教學和相關管理提供強有力的決策支持。2017年SongShaoyun[5]等人利用sqlserver關聯規則挖掘算法,通過關聯規則挖掘建立學生成績預警模型。并分析了學生第一次課程考試的關聯規則。2018年SungSik[6]等人使用Apriori算法對數學成績與解題思路進行關聯分析,提高學生成績中有價值的信息。2018年,馬天昊[7]等人使用經典的Apriori算法,挖掘每個學科之間的潛在關聯關系,并獲得一系列關聯規則。在此基礎上,我們可以對如何提高學生的學習成績提出建議。2020年余弦[8]等人提出了一種大數據背景下基于Apriori算法的學生成績與就業流向研究。為高校就業管理工作提供理論指導。2013年,MarcoGaboardi等人[9]證明了DFuzz增強的表達能力,證明了一大類迭代算法的差異隱私性,通常而言這些迭代算法以前是無法鍵入的。2014年,熊平[10]等人分析了差異隱私保護模型相對于傳統安全模型的優勢。本文綜述了差異隱私的基本理論及其在數據發布和數據挖掘中的應用。2015年,Hong,Y等人[11]提出了一種高效的協議-協作搜索日志消毒(CELS),以滿足這兩個隱私要求。除了安全/隱私和成本分析外,作者還通過實際數據集演示了該方法的實用性和效率。2016年,ChiLin等人[12]提出了一種基于差分隱私保護的車身傳感器網絡大數據保密方案。與以往方法相比,該方案將提供更高的可用性和可靠性的隱私保護。并引入動態噪聲閾值的概念,使該方案更適合于處理大數據。2017年,葉青青[13]等人介紹了局部差分隱私的原理和特點,并總結了該技術的最新研究工作。最后,作者重點分析了該技術的研究熱點:局部差分隱私下的頻率統計和均值統計,以及滿足局部差分隱私的干擾機制的設計。2021年,WangDi等人[14]通過研究局部屬性差分隱私模型下的真值推斷問題部分地解決了這些問題。并在經典Dawid-Skene方法的基礎上提出了一種新的算法private-Dawid-Skene。1.3研究方法本篇畢業設計主要采用兩種研究方法,包括文獻研究法、定量分析法。文獻研究法:文獻研究法是根據所選擇的相應研究方向與主題,對已發表的文獻進行資料的歸納與積累的過程。旨在對所研究方向有更為深入細致的了解。文獻研究法被廣泛應用于各類研究中。定量分析法:定量分析法是指在科學研究中,通過一定的計算及編程工具使所研究內容更精確的量化,以便更精準的掌握科學規律,參透本質,從而進一步正確預測發展趨勢。1.4研究內容互聯網時代下,挖掘數據之間的關聯規則愈來愈重要,而在學生所學習過的多門課程中,某些課程存在較強的關聯性,影響學生的學習情況。而如何挖掘出學生各學科成績間的關聯規則,日益成為值得研究的課題。基于以上討論,本文決定使用關聯規則挖掘算法Apriori算法來分析和挖掘學校課程之間的相關性,為學校優化課程安排提供更好的選擇。此外,數據之間的關聯性越來越多的被挖掘,同時,學生對未知事物的獵奇心理更重,在得到個人的成績數據后,存在較大概率想要推算出其他同學相對應學科的分數。導致學生成績隱私存在較大的被泄露風險。因此,迫切需要一種合理、正確的方法來保護學生的學科成績數據不被泄露。基于此,本文采用差分隱私保護機制,引入噪聲值,使得學生無法反推出其他同學的成績,從而保護好學生的成績隱私。2理論基礎2.1關聯規則挖掘關聯是指存在兩個及以上的變量相互聯系,則稱此兩類變量存在關聯。關聯分析是指在大量數據集中存在某種數據關聯,然后使用某種技術或算法來挖掘數據屬性之間的規則和關系,這種分析技術的特點是實用、簡單。關聯規則挖掘技術在數據挖掘和分析中的應用旨在挖掘數據集中信息之間的某些關系和關聯規則。值得注意的是,關聯不是人為預先預測的,而是通過收集數據和挖掘關聯規則來獲得的。首次提出運用數據挖掘分析數據相關性的是沃爾瑪連鎖超市,根據啤酒、牛奶、尿布等的商品營銷組合,發掘出尿布與啤酒為最佳銷售組合,以此打開了數據相關性分析即關聯規則挖掘的大門,同時為沃爾瑪帶來不低的利潤。由此可知,關聯挖掘規則對商業營銷決策具有不可忽視的價值,常用于實體店商品捆綁售賣、線上門店商品聯合推薦以及貨物陳列等,為商業營銷帶來業績增長,達到尋找高潛力消費者的目的。2.2差分隱私保護隱私是指當事人不愿意或者不愿暴露自己的個人信息提供給公眾。差分隱私保護是指根據隨機算法對特定數據集的結果進行隨機化。該算法輸出的統計結果的概率變化不大。隱私攻擊者無法根據算法運行的統計結果推斷出一定的數據記錄是否存在于原始數據集中。拉普拉斯機制和指數機制為差分隱私的兩類實現機制。上世紀九十年代中后期,為促進公共醫學研究的發展,馬薩諸塞州集團保險委員會發布一批醫院導出數據。而這些醫療數據,為防止別有用心人士盜取醫療患者信息挪作他用,刪除了所有醫療患者的姓名、住址等隱私信息。但一位在卡內基梅隆大學修學的博士LatanyaSweeney,將保險委員會公布的數據與選民公開記錄對比后,挖掘出醫療患者被刻意隱藏掉的私人信息,因此,形成影響力巨大的隱私泄露事件。此事件發生之后,研究人士開始陸續提出差分隱私保護的概念,并著手研究。3基于AprioriDP算法的研究3.1問題描述項與項集:令,其中,。每一個稱為項。項所組成的集合稱為項集。其中,包含個項的項集稱為項集。事務(事件)與事務集:一個事務集可屬于一個項集。也就是說事務集是項集的一個子集。任何一個可標識符都存在一個相對應的事務。支持度:是一個比值,即事務庫中具有一組特定項集的事務數。其中,既包括特定項集項又包括項集的事務計數可表示為,事務的計數可表示為。公式如下所示:可信度:置信度為一個比值,即支持度與支持度的比值,表示含有特定項集的數量,公式如下所示:頻繁項集:如果項集的支持度超過定義的最小支持閾值,則稱為頻繁項目集。3.2算法實現原理及步驟3.2.1算法實現原理找出所有的頻繁項集(如圖1所示):每個項集都包含在候選1項的集合中。該算法將掃描每個事務以獲取所有項目,然后生成的集合。之后,計算所有項目的總數。對于不符合條件(小于最小支持閾值)的項,刪除該項集,并獲得頻繁項集。經過重復操作后,通過修剪策略進行自身連接并應用于頻繁項集生成的集合,以獲得候選項集。然后,重復步驟(1)以掃描交易,并計算集合中的項目總數。最后,通過刪除不滿足最小支持規則的項來獲得頻繁項目集。計算強關聯規則:根據之前計算的頻繁項集,可以通過公式獲得強關聯規則。因此,不難看出關聯規則挖掘的效率在很大程度上取決于頻繁項集搜索。圖SEQ圖\*ARABIC1頻繁項集生成步驟3.2.2AprioriDP算法實現算法輸入:數據集,最小支持度,最小可信度輸出:頻繁項集defgenerateLk_Ck(dataset,Ck,min_support,support_data):

2.Lk=set()//根據Ck,通過最小支持度生成Lk

3.i_count={}

4.forjindataset:

5.foriinCk:

6.ifi.issubset(t):

7.ifinotini_count:

8.i_count[i]=1

9.else:

10.i_count[i]+=1

11.j_num=float(len(dataset))

12.foriini_count:

13.if(i_count[item]/j_num)>=min_support:

14.Lk.add(i)

15.support_data[i]=i_count[i]/j_num

16.returnLk4基于差分隱私保護的研究4.1問題描述查詢:查詢是指數據集中定義的各種映射函數。用來表示。兄弟數據集:存在兩數據集屬性相同,兩數據集的對稱差可表示為,兩數據集的數據差數值可表示為。若,則稱兩數據集為兄弟數據集。靈敏度:靈敏度是指數據集中的某條數據刪除后對最終結果的影響,常用作測試噪聲量大小。包括兩種方式,一種為全局靈敏度,一種為局部靈敏度。差分隱私:將一個隨機算法中全部的輸出結果整合到一起,形成的集合用表示。假設存在和兩個兄弟數據集,以及的任何子集,表示事件發生概率。那么,算法能夠滿足:通常而言,越小,數據的可用程度越低,數據的保密程度越高。越大,數據的可用程度越高,數據的保密程度越低。因此,確定恰當的為重中之重。4.2算法實現原理及步驟4.2.1Laplace機制實現原理數值類查詢結果通常使用差分隱私保護機制,而非數值類查詢結果通常使用指數性機制進行差異隱私保護。基于本篇畢業設計中學生學科成績為數值類數據。所以,采用差分隱私保護中的機制。對于某一給定的數據集,設定映射函數為:,映射函數的敏感度可用表示,隨機噪聲可用表示,其中,隨機噪聲的參數服從保護機制。對隨機算法加入隱私保護,則。函數:,其中,表示參數,表示期望。4.2.2Laplace算法步驟算法輸入:噪聲值,最大差值輸出:差分隱私后的數據defset_noisy(epsilon,value):

2.w=np.random.random()-0.5

3.noisy=0.0-value/epsilon*np.sign(w)*np.log(1.0-2*np.abs(w))

4.returnnp.rint(noisy)5.foriingrade:

6.noisy_grade[i]=(noisy_grade[i]+set_noisy(epsilon,value))

7.print('原始的數據如下:{}'.format(grade))

8.print('差分隱私后的數據如下:{}'.format(noisy_grade))5基于差分隱私保護的學生成績應用通過關聯規則挖掘學生的學業成績之間的相關性時,有可能會泄露學生的學業成績。因此,研究人員需要采取某些措施來保護學生的個人隱私信息。在發送挖掘結論時,如何使得學生不能通過所發送的成績結果推斷出其他學生的成績數據,同時保證保護學生自身的成績不被他人推斷出來。全體學生成績相關性挖掘結果公示時,應當確保學生個人的成績信息不被直接或間接攻擊泄露。在采取一定措施保護學生個人信息后,應保證只有學生本人或其任課老師可獲得學生的學科成績。同時,該名學生無法通過自身信息獲知其他同學的相關信息。因此,將算法應用到學生成績分析中去。通過本校商學院2017級工程管理專業學生學習《離散數學》、《計算機網絡與應用》、《戰略管理》、《管理學》、《應用統計學》、《概率論與數理統計》等十五門課程的學習數據進行實驗分析。通過實驗結果分析出學生各學科成績之間的關聯性強弱。通過基于算法對學生各學科成績進行分析,在保護學生個體隱私下,挖掘學生各學科成績背后隱藏的價值信息。5.1實驗數據集5.1.1數據來源本文首先收集本校商學院工程管理2017級學生學習《離散數學》等十五門課程的成績數據,主要包括學期末十五門學科的測試成績。原始數據集一共包括69名學生的成績信息。研究使用的信息包括學生學科成績,姓名,學號等幾部分,部分數據顯示如圖2所示:圖SEQ圖\*ARABIC2原始數據學生成績信息5.1.2數據預處理數據清理:旨在刪除重復值、處理缺省值并對數據進行標準化處理的過程成為數據清理。收集的學生學科成績中,存在部分學生未選修所測試學科。因此,學科測試成績殘缺值以平均值進行填充。5.1.3數據轉換將數據轉換為應用算法適用格式的過程成為數據的轉換。學生的學科測試成績為離散化數值,雖滿足了算法的輸入為離散化的數值信息這一要求。但成績的數值間隔微小,并且僅以學生成績這一單一維度作為測試數據挖掘各學科間的關聯關系,會導致算法執行過程中效率低下且算法結果會使得后期的分析過程繁雜化,無法得到準確的關聯情況。此外,所選中學科的學習成績是百分制的數值型數據。基于此,對學生的各學科學習成績按照成績區間段劃分為A~E五段,劃分規則如表1所示。表1學生成績區間劃分學習成績所屬類別[90,100]A[80,90)B[70,80)C[60,70)D[0,60)E此外,將十五門學科的名稱用序號1~9表示。對數據進行轉換與處理后,所匯總得到的數據如圖3所示圖3處理后學生成績信息5.2實驗結果與分析5.2.1學生成績相關性分析在對學生學科成績進行數據挖掘后,可得到單門學科成績所處分類級別及對應支持度,如表2。在所統計的15們學科中,B(即區間為80~90)為七門學科中占比例最高的分類級別,A(即分數區間90~100)為五門學科中占比例最高的分類級別。分類級別最高占比無D與E分類,表明十五門學科的學生成績大都高于70分。計算機網絡與應用中,存在96%的人數獲得了90分以上的成績,表明學生對該學科掌握較好。而在概率論與數理統計中,B為最高占比區間,但比例僅為29%,表明該學科對應的學生成績分布較為均勻。表2單門學科學生成績支持度學科得分最高區間得分區間占比學科得分最高區間得分區間占比離散數學A0.80數據庫系統概論C0.36計算機網絡與應用A0.96體育B0.52戰略管理A0.65應用統計學B0.45馬克思主義基本原理概論C0.62機器學習C0.36管理學A0.55運籌學A0.87營銷學概論B0.83體育B0.52概率論與數理統計B0.29毛澤東思想概論B0.48電子商務B0.59可得到雙門學科重復出現同一區間的情況及對應支持度,僅統計占比>0.70,如表3。運籌學與計算機網絡與應用最高區間均為A(即90~100),且所占比例高達83%,表明大多數學生在學習此兩門課程中,較易理解,得分都較高。而營銷學與計算機網絡與應用的組合中,營銷學分類級別為B與計算機網絡分類為A的所占比例最高,表明大多數學生在學習兩門課程時得分高于80分。表3雙門學科學生成績支持度學科區間占比運籌學,計算機網絡與應用A,A0.83營銷學,計算機網絡與應用B,A0.78離散數學,計算機網絡與應用A,A0.77運籌學,概率論A,B0.75可獲得三門學科重復出現同一區間的情況及相應的支持度,僅統計占比>0.60,如表4。在運籌,計算機網絡與營銷學的組合中,存在71%的學生運籌學與計算機網絡同時獲得90分以上的成績,同時運籌學獲得80~90分的成績。表4三門學科學生成績支持度學科區間占比運籌學,計算機網絡與應用,營銷學A,A,B0.71運籌學,離散數學,計算機網絡與應用A,A,A0.65計算機網絡與應用,離散數學,營銷學A,A,B0.62可獲得學科間的強關聯規則部分如表5。由表中數據可知,大多數數據都可與計算機網絡與應用形成強關聯規則。由上文分析可知,計算機網絡存在96%的學生該學科測試成績在90分及以上,因此可分析出多數學科數據易與計算機網絡形成關聯規則。概率論與數理統計的成績區間在80~90之間的學生所獲得的運籌學成績一定在90分以上。同時,機器學習的成績區間在80~90之間的學生所測試的運籌學成績也一定在90分以上。毛澤東思想概論的成績區間在70~80之間的學生有0.77的概率在馬克思的成績中同樣得到70~80的成績。表5學科成績置信度強關聯規則置信度強關聯規則置信度A10=>A21.001.00B11=>A10.87C10=>A2A7=>A30.85B7=>A131.00A7=>A50.80B12=>A131.00B7=>C40.80B11=>A130.97C10=>B80.78A7=>B60.95C15=>C40.77B7=>B60.9A8=>A50.76C15=>A10.88B10=>B140.72C4=>B60.88A8=>B140.72A1=>A130.85A8=>B100.72A1=>B60.81C12=>A30.72A2=>A130.86A5=>A30.71A2=>B60.81A1=>A30.705.2.2學生成績隱私保護在存在強關聯規則的前提下,以B11=>A1為例,假設學生B得知學生A的應用統計學成績在80~90的區間內,則學生B較為容易推斷出學生A的離散數學成績。為保護學生隱私不受侵犯,本篇畢業設計以對離散數學進行差分隱私為例,對于每名學生的離散數學的測試成績給予不同的隱私保護參數,之后觀察不同隱私對隱私安全度的影響。圖5-3給出的四個折線圖分別表示不同的隱私保護參數下得到的學生離散數學被保護后的結果。其中,圖4(a)為學生測試成績的原始數據;圖4(b)為當時生成的學生成績結果;圖4(c)為當時生成的成績;圖4(d)為當時生成的推薦結果。可以看出,當隱私保護預算參數不為零時,的不同值會使原始數據有一定程度的失真,從而起到隱私保護的作用。同時,設置不同的隱私保護預算參數可以獲得不同的數據組。(a)原始數據(b)(c)(d)圖4不同噪聲值下學生學科成績根據圖5易看出,隱私參數設值不同的情況下,噪聲值的波動范圍也會不斷發生變化。的值越小,越有可能偏離原始建議值,使得學生的成績范圍波動變大,最值擴大,并且其可用性變差。但是會使得隱私保護程度更高。因此,在今后的研究中,對于隱私保護級別的區分可以通過設置不同的值來實現,并且可以實現數據可用性與不同隱私保護級別兩者的平衡。圖5不同隱私保護參數對比6總結與展望本文對基于差分隱私保護的學生成績分析進行了一系列的研究。首先,對目前國內外研究相關方向的文獻進行了總結,得出進行成績分析對學校優化課程安排的重要性。其次,對于學生各學科成績采用Apriori算法進行關聯規則挖掘,旨在分析出學校各學科相互之間的影響,以對今后的學校課程安排上提出合理的建議。再次,由于挖掘結果的公布,可能會導致學生的個人信息存在泄露的風險。并且公布數據越多,學生信息遭泄露的概率越高,風險越大。因此,提出利用差分隱私保護,調整隱私參數來控制隱私保護程度,使得隱私攻擊者無法根據已知信息推導出信息所有者的相關數據。在本篇畢業設計中,僅針對單門學科之間的置信度進行隱私保護,希望在未來的研究中,在已知多門學科的相關關系中進行差分隱私擾動,更好的確保學生個人信息受到保護。參考文獻EnriqueGarcia,CristobalRomero,SebastianVentura,etal.Acollaborativeeducationalassociationruleminingtool[J].Internet&HigherEducation,2010,14(02):77-88.王冬秀.關聯規則挖掘的Apriori算法的改進與應用[J].廣西工學院學報,2012,23(04):27-31.AherSB,LoboLMRJ.CombinationofmachinelearningalgorithmsforrecommendationofcoursesinE-LearningSystembasedonhistoricaldata[J].Knowledge-BasedSystems,2013,519(otc):1-14.楊財英.Apriori算法及其在學生成績分析中的應用研究[D].湖南大學,2016.SongShaoyun.TheResearchonAssociationRulesMiningTechnologyinStudentAchievementEarlyWarning[P].Proceedingsofthe20177thInternationalConferenceonSocialNetwork,CommunicationandEducation(SNCE2017),2017.arkS,ParkYB.Analysisof

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論