股票多因子系列(三):機(jī)器學(xué)習(xí)在多因子組合中的應(yīng)用_第1頁(yè)
股票多因子系列(三):機(jī)器學(xué)習(xí)在多因子組合中的應(yīng)用_第2頁(yè)
股票多因子系列(三):機(jī)器學(xué)習(xí)在多因子組合中的應(yīng)用_第3頁(yè)
股票多因子系列(三):機(jī)器學(xué)習(xí)在多因子組合中的應(yīng)用_第4頁(yè)
股票多因子系列(三):機(jī)器學(xué)習(xí)在多因子組合中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩66頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

江海證券有限公司及其關(guān)聯(lián)機(jī)構(gòu)在法律許可的情況下可能與本報(bào)告所分析的企業(yè)存在業(yè)務(wù)關(guān)系,并且繼續(xù)尋求發(fā)展這些關(guān)系。因此,投資者應(yīng)當(dāng)考慮到本公司可能存在影響本報(bào)告客觀性的利益沖突,不應(yīng)視本報(bào)告為投資決策的唯一因素。金融工程研究報(bào)告股票多因子系列(股票多因子系列(三機(jī)器學(xué)習(xí)在多1.金融工程深度報(bào)告:股票多因子系列(一量?jī)r(jià)類(lèi)因子實(shí)測(cè)—基2.金融工程深度報(bào)告:股票多因子系列(二基本面類(lèi)因子實(shí)測(cè)—3.金融工程深度報(bào)告:SmartBeta系列(一紅利指數(shù)增強(qiáng)策略初4.金融工程深度報(bào)告:衍生品量化系列(一可轉(zhuǎn)債多因子模型◆機(jī)器學(xué)習(xí)主要是指讓計(jì)算機(jī)從觀測(cè)數(shù)據(jù)(樣本)中學(xué)習(xí)、歸納、總◆過(guò)擬合問(wèn)題成為機(jī)器學(xué)習(xí)算法的主要痛點(diǎn)之一。為了對(duì)抗過(guò)擬合,常見(jiàn)的算法◆我們簡(jiǎn)要介紹了監(jiān)督學(xué)習(xí)類(lèi)別下的線(xiàn)性回歸模型、邏輯回歸模型、支持向量機(jī)模型以及集成學(xué)習(xí)模型。針對(duì)以上模型,我們從聚寬數(shù)據(jù)庫(kù)篩選出基礎(chǔ)類(lèi)、情緒行滾動(dòng)訓(xùn)練,并將模型的輸出預(yù)測(cè)值作為因子并進(jìn)行分層回測(cè)檢組合年化收益10.35%,夏普率1.96合對(duì)比來(lái)看,高斯核支持向量機(jī)表現(xiàn)最好,同時(shí),非線(xiàn)性模型在回撤控制方面普◆可以發(fā)現(xiàn),滾動(dòng)訓(xùn)練的模式下,線(xiàn)性回歸模型本身已經(jīng)非常優(yōu)秀,在加入懲罰項(xiàng)后并不能提升模型效果反而帶來(lái)“負(fù)優(yōu)化”,各類(lèi)非線(xiàn)性模型也很難戰(zhàn)勝線(xiàn)性回練集長(zhǎng),無(wú)法覆蓋市場(chǎng)完整的經(jīng)濟(jì)周期,某些算法可能無(wú)法充分發(fā)揮學(xué)習(xí)能力的優(yōu)勢(shì);2)我們分層回測(cè)時(shí)每組的持倉(cāng)股票數(shù)過(guò)多,每組占到全市場(chǎng)股票數(shù)的縮減收益也會(huì)帶來(lái)高昂的持倉(cāng)成本;3)在市場(chǎng)風(fēng)格變動(dòng)較小的時(shí)期,即因子動(dòng)量效應(yīng)存在的時(shí)間里,線(xiàn)性模型已然是最優(yōu)解無(wú)需再運(yùn)用更復(fù)雜的模型,正如奧本報(bào)告可能存在數(shù)據(jù)缺失、數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)不及時(shí)、模型處理錯(cuò)誤等風(fēng)險(xiǎn)。本報(bào)告僅從金融工程角度,對(duì)可轉(zhuǎn)債市場(chǎng)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析,不構(gòu)成對(duì)市場(chǎng)指數(shù)、行業(yè)或個(gè)股進(jìn)行預(yù)測(cè)或推薦。本報(bào)告涉及的策略搭建方法僅供參考,不構(gòu)成任何投資建議。本報(bào)告回測(cè)結(jié)果僅依賴(lài)于過(guò)去公開(kāi)數(shù)據(jù),不代表未來(lái)收益,隨著市場(chǎng)變化,所測(cè)試的結(jié)果與研究結(jié)論可能存在失效的風(fēng)險(xiǎn)。敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款 4 4 5 6 7 7 9 4 5 6 7 9 敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款 敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款 敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款我們?nèi)祟?lèi)作為自然界中最具智慧的生物,很大程度上依賴(lài)于我們有著超凡的學(xué)習(xí)能力,這種學(xué)習(xí)能力賦予我們能快速地學(xué)會(huì)直立、行走、奔跑,掌握語(yǔ)言系統(tǒng)、各類(lèi)知識(shí)體系以及鍛煉培養(yǎng)思想、情操。對(duì)于人類(lèi)來(lái)聽(tīng)覺(jué)、視覺(jué)、觸覺(jué)、嗅覺(jué)、味覺(jué)我們可以從自然界中接收各類(lèi)信號(hào),并基于我們所學(xué)到的知識(shí)對(duì)信號(hào)所產(chǎn)生的結(jié)果做出判斷或給出預(yù)測(cè)。例如,當(dāng)天空烏云密布,我們預(yù)計(jì)不久將會(huì)降雨進(jìn)而帶傘出門(mén);當(dāng)時(shí)段處于上下班高峰期時(shí),我們預(yù)計(jì)道路擁堵而選擇地鐵出行;當(dāng)一碗熱氣騰騰的辣椒炒肉端上菜定樣本上通過(guò)某種學(xué)習(xí)算法得到最擬合樣本的映射關(guān)系,在接收到新信號(hào)后,圖1、機(jī)器學(xué)習(xí)系統(tǒng)示意圖其中,機(jī)器學(xué)習(xí)算法的分類(lèi)方式有許多種,按照不同的擬合函數(shù)可將機(jī)器學(xué)習(xí)算法分為線(xiàn)性模型與非線(xiàn)性模型;按照擬合函數(shù)是否有具體形式可將機(jī)器學(xué)習(xí)算法分為參數(shù)模型與非參數(shù)模型。一般來(lái)說(shuō),可將機(jī)器學(xué)習(xí)算法分敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款u監(jiān)督學(xué)習(xí):對(duì)于某個(gè)樣本集,如果學(xué)習(xí)算法的目的是尋找特征向量x與對(duì)應(yīng)的標(biāo)簽y之間的映射關(guān)系,其中標(biāo)簽y有著監(jiān)督與指導(dǎo)學(xué)習(xí)過(guò)程的作用,則稱(chēng)之為監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)中按照標(biāo)簽y的變量類(lèi)型可進(jìn)一步分為分類(lèi)算法(標(biāo)簽y為離散變量)u無(wú)監(jiān)督學(xué)習(xí):與監(jiān)督學(xué)習(xí)不同,無(wú)監(jiān)督學(xué)習(xí)樣本集中不包含標(biāo)簽y,期望通過(guò)在特征向量x上學(xué)習(xí)到某種規(guī)律或模式。u半監(jiān)督學(xué)習(xí):半監(jiān)督學(xué)習(xí)是一種介于監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間的學(xué)習(xí)方法,其利用少量有標(biāo)簽的數(shù)據(jù)和大量無(wú)標(biāo)簽的數(shù)據(jù)來(lái)訓(xùn)練,中的智能體(agent)通過(guò)與環(huán)境互動(dòng)來(lái)學(xué)習(xí),環(huán)境會(huì)根據(jù)智能體的動(dòng)作和當(dāng)前狀態(tài)給出一個(gè)獎(jiǎng)勵(lì)值,智能體的學(xué)習(xí)目標(biāo)圖2、常見(jiàn)機(jī)器學(xué)習(xí)算法從預(yù)測(cè)的角度來(lái)說(shuō),我們自然希望模型給出的預(yù)測(cè)值與真實(shí)值的差距越臨著過(guò)擬合(overfitting)的風(fēng)險(xiǎn),也就是說(shuō)模型將訓(xùn)練樣本的一學(xué)習(xí)到了,而忽略了數(shù)據(jù)背后的一般性規(guī)律,敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款圖3、K折交叉驗(yàn)證示意圖金融數(shù)據(jù)一般為信噪比較低的時(shí)間序列,由于其包含大量“噪音”值,導(dǎo)致機(jī)器學(xué)習(xí)算法很容易擬合樣本內(nèi)的“噪音”從而產(chǎn)生過(guò)擬合的問(wèn)題此對(duì)抗過(guò)擬合對(duì)于訓(xùn)練金融數(shù)據(jù)的學(xué)習(xí)器尤其重要。然而,由于金融數(shù)據(jù)為則很好的規(guī)避了這一點(diǎn),具體來(lái)說(shuō),隨著時(shí)間的推進(jìn),我們僅使用當(dāng)下能獲敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款圖4、時(shí)序交叉驗(yàn)證示意圖經(jīng)典的多因子模型為個(gè)股截面上的因子暴露于下期收益率的線(xiàn)性回歸模型,本質(zhì)上就是一種監(jiān)督學(xué)習(xí)過(guò)程,因此本節(jié)主要圍繞監(jiān)督學(xué)習(xí)模型Y=f(X)=βTX+ε=β1x1+β2x2+?+βnxn+ε其中,回歸系數(shù)βT=(β1,β2,…,βn)可以通過(guò)最小二乘法(OLS)求出其=(XTX)?1XTY其背后的思想是,我們希望找到一條直線(xiàn),使得樣本內(nèi)所有的點(diǎn)到直線(xiàn)β(0LS)=arJmin(f(xi)?yi)2還有一個(gè)前提條件是(XTX)?1存在,即(XTX)為滿(mǎn)秩矩陣,而現(xiàn)實(shí)任務(wù)中存敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款在變量個(gè)數(shù)遠(yuǎn)大于樣本個(gè)數(shù)高維數(shù)據(jù),會(huì)導(dǎo)致(XTX)不滿(mǎn)秩,其逆矩陣不存其中λ為調(diào)節(jié)參數(shù),用以控制懲罰力度的大小。若是將懲罰項(xiàng)改為回歸兩者的區(qū)別在于,嶺回歸的約束集為圓,殘差平方和等高線(xiàn)只會(huì)與其相切于圓周上,而不會(huì)與坐標(biāo)軸相切,因此只是將所有的回歸系數(shù)收縮而不會(huì)但有時(shí)候,如果某些變量相關(guān)性較高時(shí),Lasso可能會(huì)隨意刪除某些變量,敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款單調(diào)可微的函數(shù)將真實(shí)的標(biāo)簽y與線(xiàn)性回歸所得的預(yù)測(cè)值關(guān)聯(lián)起來(lái)即可。也就是找到一個(gè)合適的聯(lián)接函數(shù)使得0≤y≤1,如果使用邏輯分布(logisticz=βTX+ε敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款通過(guò)極大似然法即可求出得出邏輯回歸模型中的回歸系數(shù),再將新的特樣本點(diǎn)到超平面的距離最遠(yuǎn),進(jìn)而達(dá)到將數(shù)據(jù)區(qū)分為兩類(lèi)的目的,這樣的樣f(X)=βTX+α=0敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款對(duì)于所有正例(yi=1)都有f(x)≥1(圖中菱形對(duì)于所有正例 yif(x)≥1。因此,想要找到間隔最大的分離超平面,等價(jià)于以下優(yōu)化問(wèn)題:s.tyif(x)≥1,i=1,2,3,…以上情況建立在樣本集線(xiàn)性可分的情況下,對(duì)于線(xiàn)性不可分的樣本,可以通過(guò)維度轉(zhuǎn)換將原始特征空間映射到一個(gè)更高緯的特征空間,使得樣本線(xiàn)性可分。而這樣的映射函數(shù)則稱(chēng)之為核函數(shù)(kernelfunction常見(jiàn)的核函u線(xiàn)性核:K(xi,xj)=xiTxju多項(xiàng)式核:K(xi,xj)=(1+YxiTxj)d,d>1u高斯核:K(xi,xj)=exp(?Y‖xi?xj‖2)u拉普拉斯核:K(xi,xj)=exp(?Y‖xi?xj‖?)uSigmoid核:K(xi,xj)=tan?(βxiTxj+θ)?,β>0,θ<0敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款集成學(xué)習(xí)的基本思想是,通過(guò)組合預(yù)測(cè)效果較差的弱學(xué)習(xí)器(weaklearner)形成一個(gè)強(qiáng)學(xué)習(xí)器(stronglearner)以達(dá)到增強(qiáng)預(yù)測(cè)效果的目的。其采用一種自上而下的分裂決策模式對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。具體來(lái)說(shuō),從樹(shù)的頂部出發(fā),只需在每個(gè)葉節(jié)點(diǎn)處回答相應(yīng)的是或否問(wèn)題,即可到達(dá)終端類(lèi)別節(jié)袋裝法是一種并行的集成學(xué)習(xí)算法,其采用有放回的再n個(gè)學(xué)習(xí)器的預(yù)測(cè)結(jié)果進(jìn)行平均得到最終的預(yù)測(cè)結(jié)果;對(duì)于分類(lèi)問(wèn)題,采用在使用袋裝法時(shí),我們希望弱學(xué)習(xí)器之間的關(guān)聯(lián)性越低越好,這樣模型習(xí)器,使用袋裝法在決策樹(shù)每次分裂時(shí),僅隨機(jī)挑選所有變量中的一部分變首先訓(xùn)練一個(gè)弱學(xué)習(xí)器,得到訓(xùn)練后的殘差或是錯(cuò)誤分類(lèi),后續(xù)弱學(xué)習(xí)器都針對(duì)前序模型的錯(cuò)誤進(jìn)行專(zhuān)門(mén)訓(xùn)練,根據(jù)前序模型的結(jié)果,來(lái)調(diào)整訓(xùn)練樣本敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款提升決策樹(shù)算法(GradientBoostingDecisionTree)之一,其在梯度提升本節(jié)我們從實(shí)踐出發(fā)測(cè)試不同機(jī)器學(xué)習(xí)方法在多因子模型上的效果。具的基礎(chǔ)類(lèi)、情緒類(lèi)、成長(zhǎng)類(lèi)、動(dòng)量類(lèi)、每股指標(biāo)類(lèi)、質(zhì)量類(lèi)、風(fēng)險(xiǎn)敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款MAD=median(|xi?median(xi)|)暴露的影響,我們對(duì)輸入因子進(jìn)行行業(yè)市值中性化(使用中信fnew=fraw?(β1log(fcap)+β2fInd)對(duì)于回歸算法:將股票池收益率序列轉(zhuǎn)化為月度數(shù)據(jù),對(duì)于第對(duì)于分類(lèi)算法:將股票池收益率序列轉(zhuǎn)化為月度數(shù)據(jù),對(duì)于第行超參數(shù)的調(diào)整,對(duì)于訓(xùn)練時(shí)間開(kāi)銷(xiāo)較大的模型則使用人為設(shè)定超敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款對(duì)于分類(lèi)算法,可得到觀測(cè)值到分離超平面的“符號(hào)距離”或是信心得分,在此處,該值越大表明越有可能是正例(漲跌幅前20%層檢驗(yàn)的方法探究其有效性。具體來(lái)說(shuō),我們按照輸出值的大小將指標(biāo)值類(lèi)1111111敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款retained_earnings盈余11類(lèi)AR=∑?26(?ig?i?openi)/∑?26(openi?lowi)BR=∑?26(?ig?i?closei?1)/∑?26(closei?1?lowi)類(lèi)11111))1111類(lèi)Aroon(上升)=[(25-最高價(jià)后的天數(shù))/25]*1Aroon(下降)=[(25-最低價(jià)后的天數(shù))/25]*11梅斯線(xiàn),MASS(N1=9,N2=251敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款量類(lèi)1111111111類(lèi)1111111111類(lèi)1類(lèi)11敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款11111111類(lèi)1111111111我們首先從線(xiàn)性回歸模型出發(fā),檢驗(yàn)線(xiàn)性回歸、嶺回歸、Lasso回歸以及彈性網(wǎng)回歸模型的效果,同時(shí)多空組合的超額指標(biāo)以中證全指為基準(zhǔn)指數(shù)進(jìn)行計(jì)算。具體結(jié)果如下所示,不難發(fā)現(xiàn),線(xiàn)性回歸本身已具有出色的選股的線(xiàn)性回歸,表明正則化處理并不能提升模型的選股能力。原因可能是,我們?cè)谶M(jìn)行訓(xùn)練前已經(jīng)對(duì)因子進(jìn)行了正交化處理,導(dǎo)致進(jìn)一步收縮回歸系數(shù)的意義不大,且約束某些因子的回歸系數(shù)可能影響因子與收益率序列的潛在關(guān)系。具體體現(xiàn)在嶺回歸、Lasso回歸以及彈性網(wǎng)回歸都出現(xiàn)過(guò)最后一組表現(xiàn)敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款撤,表明未來(lái)不是過(guò)去的簡(jiǎn)單重復(fù),在發(fā)生重大邏輯轉(zhuǎn)變的時(shí)候,線(xiàn)性模型2011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2圖13、線(xiàn)性模型分層回測(cè)凈值多空組合回撤(右軸)多空組合凈值多空組合超額凈值43210 第10組第9組第8組第7組第6組 86422011/22011/82012/22012/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表3、線(xiàn)性模型因子檢驗(yàn)結(jié)果敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款圖16、嶺回歸模型多空組合凈值圖16、嶺回歸模型多空組合凈值 998765432102011/82012/22011/82012/22013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/82022/22022/82023/22023/82024/22011/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表5、嶺回歸模型因子檢驗(yàn)結(jié)果敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款圖18、Lasso模型多空組合凈值 第10組圖18、Lasso模型多空組合凈值 第10組第9組第8組第7組第6組 第5組第4組——第3組第2組第1組2011/82012/22013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/82022/22022/82023/22023/82024/22011/82012/22013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/82022/22022/82023/22023/82024/298765432102011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表7、Lasso模型因子檢驗(yàn)結(jié)果敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款圖20、彈性網(wǎng)模型多空組合凈值圖19、圖20、彈性網(wǎng)模型多空組合凈值10864202011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表9、彈性網(wǎng)模型因子檢驗(yàn)結(jié)果TOR敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款線(xiàn)性支持向量機(jī)也是廣義線(xiàn)性模型中的一種,其采用線(xiàn)性核作為核函數(shù)。在訓(xùn)練過(guò)程中,支持向量機(jī)模型中使用c≥0作為控制懲罰力度的超參數(shù),c越大表明越不容忍模型犯錯(cuò),則正則化的程度越低,模型越容易過(guò)擬合,反之亦然。由于線(xiàn)性支持向量機(jī)的訓(xùn)練開(kāi)銷(xiāo)較小,因此我們使用網(wǎng)格搜索的方法滾動(dòng)確定最優(yōu)懲罰力度,c的網(wǎng)格搜索范圍為{1e-5,1e-4,…,1}。從回測(cè)結(jié)果可以看出,線(xiàn)性支持向量機(jī)的結(jié)果與普通線(xiàn)性回歸類(lèi)似,分層單調(diào)性與多空組合表現(xiàn)都比較好,但效果也不如普通線(xiàn)性回歸,其較線(xiàn)性圖21、線(xiàn)性支持向量機(jī)模型分層回測(cè)凈值 圖21、線(xiàn)性支持向量機(jī)模型分層回測(cè)凈值 43.582.586641.542200.502011/82012/22011/82012/22013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/82022/22022/82023/22023/82024/230.0%25.0%20.0%15.0%10.0%5.0%0.0%多空組合回撤(右軸)多空組合凈值30.0%25.0%20.0%15.0%10.0%5.0%0.0%2011/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表11、線(xiàn)性支持向量機(jī)模型因子檢驗(yàn)結(jié)果敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款TOR敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款邏輯回歸的表現(xiàn)與線(xiàn)性支持向量機(jī)較為相近,表現(xiàn)稍弱于線(xiàn)性支持向量圖24、邏輯回歸模型多空組合凈值圖23、圖24、邏輯回歸模型多空組合凈值第10組第5組第10組第5組第9組第4組第8組第3組第7組第2組第6組第1組101088664422002011/82012/22012/82011/82012/22012/82013/22014/22014/82015/22015/82016/22016/82017/22018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/22011/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表14、邏輯回歸模型因子檢驗(yàn)結(jié)果R敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款集成學(xué)習(xí)中包含的超參數(shù)較多,其中隨機(jī)森林涉及到的超參數(shù)有:n_estimators(決策樹(shù)的數(shù)量)、max_features(分裂變量的最大數(shù)目n_estimators=300,其余參數(shù)使用網(wǎng)格搜索滾動(dòng)調(diào)優(yōu)max_depth:[3,4,5,6]、但當(dāng)市場(chǎng)風(fēng)格轉(zhuǎn)變時(shí),可以快速捕捉因子與收益率之間的非線(xiàn)性關(guān)系,進(jìn)而回撤水平都遠(yuǎn)低于線(xiàn)性模型,體現(xiàn)了集成學(xué)習(xí)模型的強(qiáng)大學(xué)習(xí)能力。圖25、隨機(jī)森林模型分層回測(cè)凈值第9組第4組第8組第第9組第4組第8組第3組第7組第2組第6組第1組9876543210圖26、隨機(jī)森林模型多空組合凈值2.5210.502010/12010/72011/12011/72012/12012/72013/12013/72014/12014/72015/12015/72016/12016/72017/12017/72010/12010/72011/12011/72012/12012/72013/12013/72014/12014/72015/12015/72016/12016/72017/12017/72018/12018/72019/12019/72020/12020/72021/12021/72022/12022/72023/12023/72024/12024/712.0%10.0%8.0%6.0%4.0%2.0%0.0%敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款表16、隨機(jī)森林模型因子檢驗(yàn)結(jié)果_圖28、XGBoost模型多空組合凈值圖28、XGBoost模型多空組合凈值987698765432102011/22011/82012/22012/82011/22011/82012/22012/82013/22013/82014/82015/22015/82016/22016/82017/22017/82018/22019/22019/82020/22021/22021/82022/22022/82023/82024/22011/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款表18、XGBoost模型因子檢驗(yàn)結(jié)果R圖30、LightGBM模型多空組合凈值多空組合回撤(右軸)多空組合凈值多空組合超額凈值圖30、LightGBM模型多空組合凈值多空組合回撤(右軸)多空組合凈值多空組合超額凈值 987654321032102011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款表20、LightGBM模型因子檢驗(yàn)結(jié)果除線(xiàn)性核支持向量機(jī)外,我們還測(cè)試了多項(xiàng)式核、高斯核、Sigmoid核支持向量機(jī)的多因子組合效果,非線(xiàn)性核中涉及到兩個(gè)超參數(shù)c與gamma,我們同樣采取網(wǎng)格搜索地方式動(dòng)態(tài)調(diào)參,網(wǎng)格搜索地范圍為{c:[1e-4,1e-3,…,1],gamma:[1e-4,1e-3,…,1]}。敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款圖32、多項(xiàng)式核支持向量機(jī)模型多空組合凈值圖31、多項(xiàng)式核支持向量機(jī)模型分層回測(cè)凈值圖32、多項(xiàng)式核支持向量機(jī)模型多空組合凈值多空組合回撤(右軸)多空組合凈值多空組合超額凈值8765432103210多空組合回撤(右軸)多空組合凈值多空組合超額凈值87654321032102011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表22、多項(xiàng)式核支持向量機(jī)模型因子檢驗(yàn)結(jié)果R敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款圖34、高斯核支持向量機(jī)模型多空組合凈值圖33、高斯核支持向量機(jī)模型分層回測(cè)凈值圖34、高斯核支持向量機(jī)模型多空組合凈值多空組合回撤(右軸)多空組合凈值多空組合超額凈值54321086420多空組合回撤(右軸)多空組合凈值多空組合超額凈值543210864202011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表24、高斯核支持向量機(jī)模型因子檢驗(yàn)結(jié)果敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款圖35、Sigmoid核支持向量機(jī)模型分層回測(cè)凈值6543210圖36、Sigmoid核支持向量機(jī)模型多空組合凈值2102011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表26、Sigmoid核支持向量機(jī)模型因子檢驗(yàn)結(jié)果敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款2綜上,對(duì)所有線(xiàn)性與非線(xiàn)性模型進(jìn)行對(duì)比后可知,普通線(xiàn)性回歸模型為線(xiàn)性模型中最優(yōu),純多頭年化收益20.65%,多空組合年化收益10.35%,夏市場(chǎng)風(fēng)格無(wú)明顯變化時(shí),線(xiàn)性模型具有優(yōu)勢(shì),而市場(chǎng)風(fēng)格發(fā)生突變時(shí),線(xiàn)性模型往往無(wú)法及時(shí)調(diào)整而導(dǎo)致回撤較大。非線(xiàn)性模型則不同,在市場(chǎng)環(huán)境變2敬請(qǐng)參閱最后一頁(yè)之免責(zé)條款等各類(lèi)智能大模型層出不窮,人工智能已經(jīng)漸漸影響到人們生活的方方面面。這一包含大量信號(hào)與數(shù)據(jù)的領(lǐng)域中有著天然的適配環(huán)境。基于此,本文從傳統(tǒng)的機(jī)器學(xué)習(xí)算法出發(fā),介紹了其分類(lèi)以及各個(gè)分類(lèi)下各算法的簡(jiǎn)要原理,測(cè)的方法。主要可分為:監(jiān)督學(xué)習(xí)(supervisedlearning)、無(wú)監(jiān)督學(xué)習(xí)過(guò)擬合問(wèn)題成為機(jī)器學(xué)習(xí)算法的主要痛點(diǎn)之一。為了對(duì)抗過(guò)擬合,常見(jiàn)接著,我們簡(jiǎn)要介紹了監(jiān)督學(xué)習(xí)類(lèi)別下的線(xiàn)性回歸模型、邏輯回支持向量機(jī)模型以及集成學(xué)習(xí)模型。針對(duì)以上模型,我們從聚寬數(shù)據(jù)庫(kù)篩選出基礎(chǔ)類(lèi)、情緒類(lèi)、成長(zhǎng)類(lèi)、動(dòng)量類(lèi)、每股指標(biāo)類(lèi)、質(zhì)量類(lèi)、風(fēng)險(xiǎn)類(lèi)、風(fēng)格類(lèi)、技術(shù)指標(biāo)類(lèi)共計(jì)89個(gè)因子作為模型

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論