




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
SEQ表\*ARABIC\s15隨機森林算法進行二分類的結果統計(續)TableSTYLEREF\s1級標題3SEQTable\*ARABIC\s15theresultsofRandomForestforbinaryclassification(continued)機器學習算法標簽源原始數據維度數據選擇最終數據維度準確率criterion=ginimax_dep=7estimators=100Delbouys25avg2065.91%criterion=ginimax_dep=15estimators=700Delbouys25avg+cov257.89%criterion=ginimax_dep=15estimators=300Delbouys30avg2857.30%criterion=entropymax_dep=7estimators=300Delbouys30avg+cov3160.44%criterion=entropymax_dep=15estimators=1000Bhavika24avg1665.28%criterion=giniestimators=1000Bhavika24avg+cov2465.37%criterion=entropymax_dep=12estimators=100Bhavika25avg1364.89%criterion=ginimax_dep=15estimators=700Bhavika25avg+cov3266.76%criterion=giniestimators=300Bhavika30avg2468.66%criterion=entropymax_dep=7estimators=1000Bhavika30avg+cov1562.68%表3-5顯示,隨機森林模型在本文的回歸預測問題當中表現出來的性能比支持向量機模型的性能較差一些,性能最好的隨機森林模型見表3-5第九行,該模型使用Lastfm官網發布的happy與sad標簽進行訓練,可以達到73%的二分類準確率。對比表3-4與表3-5可以看出:最高的兩個準確率75.47%和73.33%都來自于使用了高斯核函數的支持向量機模型,隨機森林算法的最高準確率只能達到73.00%。雖然高斯型核函數的支持向量機模型無法利用遞歸特征消除法進行進一步優化,但該算法在音樂情感二分類問題上的表現依然優于隨機森林算法。二分類算法在Lastfm官網發布的happy與sad標簽下的效果最好,在BhavikaTekwani等人發布的快樂/悲傷二分類標簽次之,這兩組標簽單獨訓練二分類算法的效果都比把三組標簽混合在一起訓練算法的效果好。本章小結本章主要進行了基于支持向量機模型和隨機森林算法的音樂情感二分類以及回歸,對不同的標簽集、數據預處理方法都進行了不同的嘗試,同時也進行了超參數的搜索,對于特征維度小于100的情況還采用了遞歸特征消除法進行特征選擇。基于深度神經網絡進行音樂情感預測本章主要利用了深度神經網絡進行對音樂的情感分析,實現了使用連續情感標簽的回歸預測和使用離散情感標簽的快樂/悲傷情感二分類。接下來將會從本文使用的數據預處理算法以及神經網絡結構開始,介紹一下回歸以及二分類的具體實現過程。數據預處理數據預處理主要是解決第3章中討論過的不同歌曲的片段數量不同的問題。由于本文采用的卷積神經網絡適合較大量的二維數據輸入,因此本文并沒有選擇第3章中使用的分段聚合的技術來解決這個問題。由于不同歌曲的片段數量不同,本文決定設置一個固定的片段數量,例如256段。數據集當中,片段數量小于256段的音樂將會被丟棄,片段數量大于256段的音樂將會以每份256段為標準拆分為多份數據,這樣也可以增多訓練數據條數,提高模型的泛化性能。與此同時,不足256段的部分將會被丟棄。之后使用數據維度和片段數量分別作為輸入神經網絡的二維數組的兩個維度。同時,在特征數據輸入神經網絡之前對數據進行標準化處理。并且采用留出法將數據集劃分為60%的訓練集、20%的驗證集和20%的測試集。深度神經網絡結構本章中本文對四個不同的神經網絡結構進行了嘗試,最終發現net0的效果最好,部分結果見表4-1不同神經網絡回歸結果對比、表4-2不同神經網絡二分類結果對比。表4-1不同神經網絡回歸結果對比Table4-1Comparisonofbinaryclassificationresultsofdifferentneuralnetworks網絡數據集來源訓練集Loss
(最后一輪)訓練集R2
(最后一輪)驗證集Loss
(最后一輪)驗證集R2
(最后一輪)測試集R2net0Delbouys0.57080.45880.3259-0.49920.2203net1Delbouys0.62620.42740.3837-0.76490.0054net2Delbouys0.46940.58260.385-0.7711-0.0614net3Delbouys0.34930.68440.3722-0.71210.1744表4-1顯示,net0的回歸性能最好,r2score可以達到0.2203,高于net3的0.1744以及其他神經網絡net1、net2的結果。表4-2不同神經網絡二分類結果對比Table4-2Comparisonofbinaryclassificationresultsofdifferentneuralnetworks網絡情感標簽來源訓練集Loss
(最后一輪)訓練集準確率
(最后一輪)驗證集Loss
(最后一輪)驗證集準確率
(最后一輪)測試集準確率net0Lastfm0.08190.89570.36890.416768.66%net1Lastfm0.11210.87920.49940.301660.29%net2Lastfm0.04890.90520.61820.554139.62%net3Lastfm0.07660.92680.44180.311563.89%表4-2顯示,net0的二分類性能最好,準確率可以達到68.66%,高于net3的63.89%以及其他神經網絡net1、net2的結果。經過嘗試和分析比對,本文最終選擇的神經網絡結構如圖4-1神經網絡結構示意圖所示:圖4-1神經網絡結構示意圖Figure4-1Neuralnetworkstructurediagram圖4-1顯示出,本文的神經網絡主要包含兩層卷積層、兩層池化層,其中卷積層為一維卷積,卷積核大小為8,步長為1;池化層為一維池化,池化窗口為大小4,步長為4。同時,在兩個池化層的輸出之后還進行了批量標準化(BatchNormalization)。最后連接三層全連接層,其中一層全連接層的激活函數為tanh,并且進行了節點的隨機失活(Dropout)以降低過擬合風險。輸出層可以設置一個或者兩個輸出節點。輸出層設置一個輸出節點時用于回歸,設置兩個輸出節點時用于二分類。回歸本文使用了python庫porch搭建神經網絡,優化器采用了torch.optim.SGD,損失函數采用了常用的交叉熵損失函數torch.nn.CrossEntropyLoss。同時本文還采用了torch.optim.lr_scheduler中的ReduceLROnPlateau算法進行每輪動態的學習率優化調整,初始學習率設為0.01。本章對不同的數據特征組合、設定不同的片段數量,以及SGD優化器當中不同的weight_decay參數都進行了嘗試。本章對第3章提到的不同數據特征組合進行了嘗試,最后發現在本文的神經網絡下進行回歸時,將12維的音色數據和12維的音高數據組合為24維的數據,再加入每分鐘節拍數BPM組成的25維數據效果最好。本章還嘗試了在數據預處理是設定不同的片段數量,最后發現在256、512、1024,三種片段數量當中,片段數量設為512在做回歸時效果最好。同時,為了解決神經網絡出現的過擬合問題,本章還對幾種不同的weight_decay參數進行了嘗試,具體情況見表4-3。部分神經網絡回歸嘗試的結果見表4-3深度神經網絡進行回歸預測的部分結果統計,測試集r2score結果見表4-3最后一列。表43深度神經網絡進行回歸預測的部分結果統計Table43thepartialresultsofDeepNeuralNetworkforregression數據集來源weight_decay訓練集Loss
(最后一輪)訓練集R2
(最后一輪)驗證集Loss
(最后一輪)驗證集R2
(最后一輪)測試集R2Delbouys00.57080.45880.3259-0.49920.2203Delbouys1.00E-060.89390.21950.3759-0.7291-0.1444Delbouys3.20E-060.45870.57450.3214-0.4786-0.2665Delbouys1.00E-050.69290.35120.327-0.5044-0.0061Delbouys1.60E-050.73010.29860.3546-0.6313-0.0651Delbouys8.00E-050.62850.39940.3099-0.4255-0.0127Delbouys1.00E-040.32740.70140.3353-0.5423-0.139Delbouys2.00E-040.5520.47920.3163-0.45490.32Delbouys4.00E-040.50310.54220.2902-0.3350.157二分類本文使用了python庫porch搭建神經網絡,采用的優化器以及損失函數與4.3相同。同時也采用了ReduceLROnPlateau算法進行每輪動態的學習率優化調整,初始學習率設為0.01。本章對不同的數據特征組合、設定不同的片段數量,以及SGD優化器當中不同的weight_decay參數都進行了嘗試。本章對第3章提到的不同數據特征組合進行了嘗試,最后發現在本文的神經網絡下進行二分類時,將12維的音色數據和12維的音高數據組合為的24維數據效果最好。本章還嘗試了在數據預處理是設定不同的片段數量,最后發現在256、512、1024,三種片段數量當中,片段數量設為256在做二分類時效果最好。同時,為了解決神經網絡出現的過擬合問題,本章還對幾種不同的weight_decay參數進行了嘗試,具體情況見表4-4。部分神經網絡二分類嘗試的結果見表4-4深度神經網絡進行二分類的部分結果統計。測試集的r2score結果見表4-4最后一列。表44深度神經網絡進行二分類的部分結果統計Table44thepartialresultsofDeepNeuralNetworkforbinaryclassification情感標簽來源weight_decay訓練集Loss
(最后一輪)訓練集準確率
(最后一輪)驗證集Loss
(最后一輪)驗證集準確率
(最后一輪)測試集準確率Bhavika0.040.51650.77060.60280.657566.11%Bhavika0.10.56360.72760.58890.663166.43%Bhavika0.110.59710.70190.59660.658667.94%Lastfm0.110.12170.93530.47660.636957.52%Lastfm0.250.42990.85040.46940.692375.62%Lastfm0.10.19070.95940.44690.555670.3%分析表4-4的結果可以得出以下結論:本章當中最高的二分類準確率就是表4-4第5行的深度神經網絡在Lastfm官網發布的happy與sad標簽下達到的75.62%的二分類準確率。二分類算法在Lastfm官網發布的happy與sad標簽下的效果最好,在BhavikaTekwani等人發布的快樂/悲傷二分類標簽次之,這兩組標簽單獨訓練二分類算法的效果都比把三組標簽混合在一起訓練算法的效果好。Lastfm的279條數據訓練出來的二分類算法,測試集準確率最高可達75.62%;而BhavikaTekwani等人發布的1690條數據訓練出來的二分類算法測試集準確率最高只有67.94%,原因可能是由于情感是比較主觀的,不同情感標簽來源,標簽的準確度也不同。本章小結本章主要利用了本文所搭建的神經網絡進行音樂情感的回歸和二分類,回歸的最低驗證集Loss可達0.2902,最高測試集r2score可達0.32;二分類的最低驗證集Loss可達0.4469,最高準確率可達75.62%。本章對不同的神經網絡、標簽集、數據預處理方法、超參數都進行了不同的嘗試,較好的結果都展示在表4-3與表4-4當中,同時還通過適當增大SGD優化器當中的weight_decay參數,有效地調節了過擬合的問題。總結及展望本章是對本文所做工作的總結和歸納,詳細闡述了論文所做的工作,并列舉了論文取得的重要成果,對本文相關方向工作的展望。本章分析了目前實驗中存在的問題,并據此對本文研究內容的發展方向進行了展望。論文工作總結本文首先經過大量工作,整理合并一組較大規模的音頻情感數據集,然后嘗試不同的數據特征選擇、數據預處理方式、以及不同的機器學習算法,實現了音樂的快樂/悲傷情感二分類,以及積極/消極程度的回歸預測模型。具體貢獻如下:音頻數據集收集與構建:獲取音頻數據特征,尋找音頻對應情感標簽,構建合適的數據集:因為目前還沒有適合音樂情感分析的公開數據集,所以需要進行音頻以及對應情感標簽的收集。由于版權原因,無法下載到帶有大量音頻的公開數據集,只能獲取公開數據集“百萬歌曲數據集MSD”發布的,經過算法提取的音頻特征,以及尋找MSD數據對應的情感標簽,制作成合適的數據集用于訓練。本文收集了來自MSD數據集的分段音高、分段音色、每分鐘節拍數等多種音頻特征,并為音頻特征找到三組不同來源的情感標簽,得到了三組可用特征標簽對數據,一共2193條。音樂的快樂/悲傷情感二分類,以及積極/消極程度的回歸預測模型:嘗試了不同的機器學習算法、不同的數據特征、不同的數據預處理以及不同的超參數進行了音樂情感的回歸預測和快樂/悲傷情感二分類,以尋找情感回歸和快樂/悲傷情感二分類效果較好的算法、數據特征以及數據預處理方式:為了發揮不同算法的特點,設計了不同的數據預處理方式:i)針對隨機森林和支持向量機模型采用了兩種不同的分片聚合方式;ii)對于數據維度較多的協方差矩陣采用了PCA主成分分析進行降維,同時針對兩種機器學習算法的特點設計了不同的PCA特征壓縮比例;iii)針對深度神經網絡采用了固定分片數量的方式進行數據處理;iv)同時對輸入深度神經網絡和支持向量機的數據還進行了數據標準化。對于積極/消極程度的回歸預測,最終實驗結果表明:本文設計的深度神經網絡模型的效果比支持向量機以及隨機森林表現得更好:使用12維的音色數據和12維的音高數據,再加入每分鐘節拍數BPM組成的25維數據,在調整SGD優化器當中的weight_decay參數提高泛化性能后,r2score可達0.32。對于音樂的快樂/悲傷情感二分類,實驗結果表明:支持向量機模型和深度神經網絡模型表現的效果較好。具體性能如下:在BhavikaTekwani等人發布的一共1690條情感標簽數據集上,使用12維的音色數據和12維的音高數據組成的24維數據,支持向量機模型能達到69.21%的準確率,在加入了更多音頻特征,構成30維數據,能達得到71.23%的準確率。在MSDLastfm官方網站發布的279條情感標簽數據集上,使用12維的音色數據和12維的音高數據組成的24維數據能達得到75.47%的準確率,而利用深度神經網絡訓練可進一步達到75.62%。未來工作展望本文利用了百萬歌曲數據集MSD發布的音頻特征以及尋找到的部分對應的情感標簽進行了支持向量機、隨機森林以及深度神經網絡這三種機器學習算法的訓練。在本文的工作中存在的一個較大的問題是音頻缺少對應的情感標簽,能尋找到的情感標簽數量非常稀少,并且由于人們在聆聽音樂時的情感感受是比較主觀的,因此也難以十分客觀準確地為音樂標上對應的情感標簽。未來希望能夠建立一個大型的聽眾為音樂標記情感標簽的系統,統計大量聽眾對一首歌曲的情感標簽,取眾數或者平均數,得到大量的較為準確的音樂情感標簽。擁有足夠多的準確的情感標簽,基于機器學習的音樂情感分析的研究才能擁有一個較好的數據基礎。 附錄參考文獻ADDINEN.REFLIST[1]HevnerK.Experimentalstudiesoftheelementsofexpressioninmusic[J],1936,48(2):246-268.[2]LiT,OgiharaM.Detectingemotioninmusic[J],2003.[3]PeetersG.AgenerictrainingandclassificationsystemforMIREX08classificationtasks:audiomusicmood,audiogenre,audioartistandaudiotag[C].ProceedingsoftheInternationalSymposiumonMusicInformationRetrieval(ISMIR'08),2008.[4]TzanetakisG.MarsyassubmissionstoMIREX2007[C].ProceedingsoftheinternationalconferenceonMusicInformationRetrieval,2007.[5]HuX,DownieJS.Improvingmoodclassificationinmusicdigitallibrariesbycombininglyricsandaudio[C].Proceedingsofthe10thannualjointconferenceonDigitallibraries,2010:159-168.[6]HuX,DownieJS.WhenLyricsOutperformAudioforMusicMoodClassification:AFeatureAnalysis[C].ISMIR,2010:619-624.[7]HuX,ChoiK,DownieJS.Aframeworkforevaluatingmultimodalmusicmoodclassification[J],2017,68(2):273-285.[8]LecunY,KavukcuogluK,FarabetC.Convolutionalnetworksandapplicationsinvision[C].Proceedingsof2010IEEEinternationalsymposiumoncircuitsandsystems,2010:253-256.[9]JakubikJ,Kwa?nickaH.Musicemotionanalysisusingsemanticembeddingrecurrentneuralnetworks[C].
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省瀘州市瀘縣重點名校2025屆初三下第六次周考生物試題含解析
- 寧夏長慶高級中學2025屆高三第一次高考模擬考試生物試題含解析
- 浙江省金華市聚仁教學集團2025年初三下學期第一次摸底考試英語試題試卷含答案
- 云南省大理白族自治州南澗彝族自治縣2024-2025學年五年級數學第二學期期末經典模擬試題含答案
- 遼寧省朝陽市凌源市凌源三中2024-2025學年高三第四次調研考試生物試題含解析
- 吉林省吉林市第五十五中學2025年高三4月模擬考試數學試題含解析
- 電子書銷售合同模板
- 個人家具買賣合同
- 二手住宅交易協議樣本
- 編劇委托創作合同范本
- 【MOOC】隧道工程-中南大學 中國大學慕課MOOC答案
- 鐵路基礎知識考試題庫500題(單選、多選、判斷)
- 水利水電工程主要驗收表格
- 卷煙廠電氣專業筆試題
- 消防維保方案 (詳細完整版)
- “兩票三制”專項整治工作方案(含檢查表)
- 烯烴分離裝置操作規程
- 停電作業工作票配電填寫模板
- 二重積分的概念與性質(課堂PPT)
- 投標法人代表授權書
- 海天注塑機日常點檢表
評論
0/150
提交評論