遺傳規劃解構與投資思考_第1頁
遺傳規劃解構與投資思考_第2頁
遺傳規劃解構與投資思考_第3頁
遺傳規劃解構與投資思考_第4頁
遺傳規劃解構與投資思考_第5頁
已閱讀5頁,還剩22頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

目錄引言 3遺傳規劃解構 4遺傳規劃基本流程 4初始化種群 5公式樹變異 5因子篩選 6二次篩選 7遺傳規劃因子挖掘基準結果 7因子篩選中不同收益類型的差異 9不同指標作為適應度函數的差異 10差異性:因子評價指標的不完備性 10同質性:本質上是對投資者決策機制的擬合 12適應度函數選擇的思考 13使用優化算法提升因子挖掘效率 13基于父代個體選擇的優化算法 14基于適應度調整的優化算法 15排擠算法 15共享適應度函數算法 16優化算法效果與討論 17樣本外表現與過擬合問題討論 18量化選股策略 19純遺傳規劃因子的選股策略 19市場交易定價特征變遷 21不同股票范圍的效果差異 21提升傳統量化選股模型表現 225. 總結 236. 風險提示 237. 附錄 24量價算子列表 24遺傳規劃量價因子公式形式展示 26引言量價數據的體量相對較大并且信噪比低,傳統研究更多地偏向于“從數據中來,到數據中去”的過程;而由于缺乏對內心世界的理解和認知,通過數據建模得到的量價策略在不同環境中表現不穩定。我們秉持著從符號世界符號世界價量數據技術指標符號世界價量數據技術指標決策機制符號世界定價模型投資組合數據來源:市場對微觀交易層面的定價規律的認知尚不充分,遺傳規劃可以提供補充信息。經典行為金融學研究首先通過對投資者心理的分析提煉出一系列投資者交易邏輯,再結合實證檢驗歸納得出投資異象,并據此構建相應的套利策略。這一過程存在兩個問題:一是研究范圍依賴于主觀構建的微觀交易邏輯,理論體系的更新和變遷往往發生在特定投資策略崩塌之后,如2017年小盤股風格切換后市場才普遍開始控制風險暴露;二是歸納得到的量價特征往往對時間序列參數敏感,如相對強度在不同周期下可能分別表現為短期反轉、中期動量和長期反轉。圖2量化策略變遷往往發生在市場風格切換之后市值風格1.05市值風格10.90.850.80.70.650.62008010220080722200801022008072220090213200908272010032220101014201105042011111820120612201212262013072520140218201409012015032620151015201605032016112120170613201712262018071820190211201908262020031920201012202104282021111820220613202212272015ALPHA101市場對遺傳規劃的普遍認知是暴力搜索工具,認為算力是影響特征挖掘效率的唯一因素。我們在解構遺傳規劃的基礎上,認為算法結構中因子篩選標準對遺傳規劃結果亦有較大影響,并且通過特定優化算法可以提升特征挖掘效率。具體而言,在本篇報告中我們關注以下幾個問題:因子篩選中計算因子多空收益和多頭收益的效果差異;特定優化算法對因子篩選過程的影響。遺傳規劃解構遺傳規劃基本流程交易過程對價格的影響反映了投資者交易決策機制和定價規律,短周期量價特征本質上是通過一系列公式的組合擬合出這種定價規律。這些量價特征可以按照“公式-數據-參數”的形式轉化為公式樹結構,進而可以使用遺傳規劃方法挖掘出有效的量價特征。遺傳規劃的基本流程包括初始化種群、變異和篩選等,其中初始化種群過程使用若干算子隨機形成公式樹,變異過程通過隨機改變公式樹的結構、算子或參數生成新的RankICICIR圖3遺傳規劃基本流程 圖4公式樹示例(abs(inv(min(max(sub(L,5),ts_zscore(C,10)),V))))數據來源:初始化種群初始化種群過程通過隨機組合算子、數據和參數生成若干公式樹,每個公式樹根據其公式形式計算得到的就是一個量價因子。我們使用的遺傳60個算子(算子列表詳見附錄,相比于開源算法大幅增加了時間序列算子的范圍和數量,更加適合于金融數據處理。技術指標相對位置回歸參數時間序列統計特征技術指標相對位置回歸參數時間序列統計特征遺傳規劃算子時序變化條件選擇多變量基本運算單變量數據來源:公式樹變異遺傳規劃中的變異過程分為兩步,首先選擇一個父代個體用于變異,其次選擇一種變異方法生成新的子代。在選擇父代個體的過程中,傳統做法通過輪盤賭或者錦標賽策略選擇個體,前者按照個體適應度函數值大小設置概率抽樣,后者在種群中隨機抽取少量個體并從中選擇適應度函數值最大的個體,這兩種方法本質上仍是有偏隨機抽樣。變異方法關注公式樹結構的變化,包括交叉變異、子樹變異、結點變異和提升變異等方法,同時保留一定概率使父代因子直接保留至子代。交叉變異(Crossover)子樹變異(交叉變異(Crossover)子樹變異(reut)(tMa)提升變異(Hoist)數據來源:圖7種群變異過程示例數據來源:。注:適應度函數為年化收益。因子篩選隨機性影響進入早熟收斂,其中初始化種群和變異過程增加了隨機性,而篩選過程可以通過以特定適應度函數為目標確定種群進化方向、減少等;RankIC、ICIR等。收益能力年化收益左尾風險最大回撤單指標收益能力年化收益左尾風險最大回撤單指標收益穩健性勝率、夏普比率預測能力IC、RankIC、ICIR適應度函數年化收益-最大回撤???年化收益+(1???)?????????????多指標組合卡瑪比率×sqrt(年平均交易次數)×勝率×sqrt(平均多頭持倉天數)…數據來源:二次篩選通過上述過程挖掘的遺傳規劃因子僅能保證在種群中是最優的,并不一因子數量較大時,為了提高運行效率,我們要求新因子與因子池主成分(累計貢獻率>90%)的相關性不超過50%。遺傳規劃因子挖掘基準結果A2022年。模型設定和超參數設置如下表所示。表1:遺傳規劃過程模型設定和超參數設置示例模型設定和超參數設置 條件數值種群數量 500迭代上限 10適應度函數 夏普比率早停條件閾值 5二次篩選閾值 0.5(扣費后)結點常數范圍 1-10時序參數范圍 1,5,10,20,40,60交叉變異概率 0.5子樹變異概率 0.2結點變異概率 0.2提升變異概率 0.05股票范圍 滬深A股樣本區間 20220101-20221231量價指標 交易頻率 日頻調倉價格 次日交易費用 雙邊千三數據來源:10輪量價因子挖掘,樣本內扣費后多0.5245表2:遺傳規劃挖掘量價因子公式示例因子 公式因子1 sub(ts_min(add(mul(H,sub(ts_argmin(ts_mean_return(VW,5),5),ts_min(mul(H,ts_CCI(20)),1)),5),因子2 sig(log(inv(ts_min(sqrt(log(inv(ts_min(ts_min(ts_min(neg(mean(O,sqrt(mean(O,V)))),5),1),1)))),1))))因子3 cbrt(ts_median(ts_regression_beta(max(5,L),C,40),5))因子4 因子5 abs(C)))))圖9前5量價因子累計凈值走勢示例(多空) 圖10前5量價因子累計凈值走勢示例(多頭)1

因子1 因子2 因子3 因子4 因子樣本外樣本外

1

因子1 因子2 因子3樣本外因子4 因子5 萬得全A樣本外表3:遺傳規劃挖掘量價因子回測結果示例(樣本內)多空 多頭超額(相對于全A)

因子年化收益最大回撤年化夏普因子年化收益最大回撤年化夏普年化收益最大回撤年化夏普換手因子137.00%-3.67%3.4231.10%-12.58%1.076.05%62.24%38.04因子227.56%-2.61%3.1129.23%-13.13%1.015.38%56.02%35.14因子312.48%-2.25%1.8518.10%-12.41%0.664.23%52.70%51.14因子420.88%-10.59%1.7728.10%-8.87%1.022.93%52.28%5.48因子516.57%-6.61%1.5221.42%-14.25%0.775.96%62.24%82.94平均22.90%-5.14%2.3325.59%-12.25%0.914.91%57.10%42.56

年化雙邊因子篩選中不同收益類型的差異在因子評價中指標計算選擇多頭收益還是多空收益取決于需求。若將遺傳規劃因子應用于線性多因子量化選股模型,則由于賣空限制更多關注于多頭收益;若將遺傳規劃因子應用于神經網絡模型,則以多空收益為基礎計算指標可以提升因子截面差異與分層穩健性,進而可能提高模型效率。我們通過以不同類型收益計算的夏普比率為適應度函數進行多組因子挖掘試驗,發現指標計算使用的收益類型不僅影響因子收益表現,亦影響因子收益分層穩健性。圖11使用不同類型收益時凈值走勢存在差異(多空)圖12使用不同類型收益時凈值走勢存在差異(多頭)

使用多收益算指標 使用多收益算指標

1

使用多收益算指標 使用多收益算指萬得全A樣本外樣本外樣本外樣本外表4:使用不同類型收益計算指標做為適應度函數的回測結果(樣本內)收益類型年化收益收益類型年化收益最大回撤年化夏普年化收益最大回撤年化夏普換手多頭19.74%-5.95%1.9943.85%-10.01%1.443.61%55.19%26.16多空22.90%-5.14%2.3325.59%-12.25%0.914.91%57.10%42.56

多空組合回測 多頭超額回測(相對于全A)

RankIC IC勝率

年化雙邊從收益表現上看,使用多空收益計算指標時,因子在樣本內多空收益凈值和夏普比率均更高;反之亦然。從因子收益分層上看,使用多空收益計算指標的多頭端收益相對更低,而分層穩健性相對更高。在收益分層上的差異引出了另一個問題,即量價因子收益的非線性分層現象。我們在之前的報告中提出傳統量價因子的收益分層并非完全單調,可能呈現出北斗星型、余弦型等非線性形態。我們以多空收益計算的夏圖13使用多空收益時因子分層穩健性較高 圖14使用多頭收益時因子多頭端收益較高20%10%

因子1 因子2 因子3 因子4 因子5

30%20%10%

因子1 因子2 因子3 因子4 因子5 不同指標作為適應度函數的差異適應度函數的選擇決定了種群進化的方向和量價因子構建的效果。本節我們通過多組遺傳規劃因子挖掘結果比較,發現以不同指標為適應度函數的挖掘效果存在差異性和同質性。其中,差異性體現在:由于因子評價體系的不完備性,使用不同指標作為適應度函數時,挖掘出的量價因子表現存在一定差異;同質性體現在:當每組因子內部按照對應的適應度函數值排序時,不同組排名靠前的因子之間的兩兩IC相關性均值有所提升。差異性:因子評價指標的不完備性a優bRankIC、ICb。表5:量價因子在不同維度的表現存在差異化收益回撤化收益回撤夏普邊換手sub(sub(ts_linear_slope(ts_argmaxmin(ts_CCI(1),5),因子a 26.99%-2.94%4.57% 56.85%2.9832.33因子b ts_min(neg(ts_std(V,5)),1)) 19.85%-4.73%6.17% 64.32%1.9484.17

多空年

最大 年化RankIC IC勝率

年化雙40),ts_std(V,10)),ts_median(V,5)),。樣本期:20220101-20221231;適應度函數:夏普比率。下面我們將分析不同因子評價指標作為適應度函數對因子挖掘效果的影響,探討適應度函數選擇的最優方案。具體而言,我們分別選擇年化RankIC、ICIR、勝率(日頻)等指標及其組合作為遺10輪挖掘。為了適當提高因子挖掘效10輪挖掘得到因子數量大致相當,從而在相似的標準下比較不同適應度函數的影響。表6:不同適應度函數及其早停條件閾值適應度函數早停條件閾值挖掘因子數量年化夏普5.0059年化收益0.4076RankIC0.0546ICIR0.3066勝率0.70200.2*RankIC+0.8*年化收益0.1324年化收益-最大回撤0.3020Wind一個顯而易見的結論是:使用某個指標作為適應度函數,挖掘出的量價1)以因子收益能力為主的指標(年化收益、夏普比率為適應度函數挖掘出的因子其年化收益和夏普比率更高2nkI、ICIR、勝率)為適應度函數挖掘出的因子在對應指標上表現略好,但在(3)使用多指標組合作為適應度圖15使用不同適應度函數挖掘出的因子平均累計凈值走勢(前10)1

icir annual_return-max_drawdown樣本外樣本外

1

icir annual_return-max_drawdown 萬得全A樣本外樣本外表7:使用不同適應度函數挖掘因子回測結果統計(樣本內,前10)多空 多頭超額(相對于全A)

適應度函數年化收益最大回撤年化夏普適應度函數年化收益最大回撤年化夏普年化收益最大回撤年化夏普換手年化收益29.47%-5.19%2.7930.97%-11.88%1.074.87%59.05%31.58夏普比率22.89%-4.15%2.6124.76%-12.88%0.884.37%57.26%36.00RankIC13.46%-12.27%0.9815.58%-11.81%0.565.89%56.39%63.73ICIR0.26%-11.61%-0.214.86%-14.23%0.214.88%59.54%99.98勝率-3.54%-12.61%-1.666.14%-18.04%0.203.72%59.50%121.120.2*RankIC17.75%-5.74%1.7322.90%-13.83%0.825.62%58.63%70.44年化收益7.52%-6.31%0.6312.00%-13.70%0.464.94%58.84%79.59

年化雙邊+0.8*年化收益-最大回撤,。樣本內區間為:20220101-20221231。同質性:本質上是對投資者決策機制的擬合在上一節的基礎上,我們發現使用不同指標作為適應度函數挖掘出的量價因子IC相關性整體較低,如下表所示,除年化收益組和夏普比率組之外,不同組因子之間兩兩IC相關性均值都不超過30%。這一結論進一步驗證了上一節的結論,即使用不同指標作為適應度函數挖掘出的量價因子存在較為明顯的差異性。表8:使用不同適應度函數挖掘出的因子之間相關性較低(前40)RankIC年化收益年化夏普勝率ICIRRankIC年化收益14.93%年化夏普13.18%34.00%勝率14.22%22.80%21.66%ICIR14.72%19.06%18.30%14.07%Wind若在每組內部按照其適應度函數值排序,則不同組排名靠前的因子之間的兩兩IC相關性均值有所提升,這一現象在不同組之間均成立。我們認為量價因子本質上是對投資者決策機制的擬合,使用不同的指標作為適應度函數挖掘出的定價規律在內心世界里是一樣的,從而在符號世界中的因子層面上表現出相似性。因此,若在大量因子挖掘的基礎上進行因子精選,則不論適應度函數如何選擇,通過遺傳規劃挖掘到的量價因子相似度應當是比較高的,這一現象可能導致量價策略的同質化。表9:隨著因子適應度值的提升,不同組因子之間相關性有所擴大按照適應度函數值排序的因子數量適應度函數1適應度函數2 5 10 20 30 40年化收益37.36%35.80%23.78%18.85%14.93%年化夏普24.00%22.40%22.72%15.87%13.18%42.73%32.35%25.09%20.14%14.72%年化收益 年化夏普53.29%55.49%47.25%35.04%34.00%年化收益 50.56%50.76%35.20%26.13%19.06%年化夏普 33.81%45.21%33.03%24.55%18.30%適應度函數選擇的思考差異性和同質性并不矛盾,可以通過對內心世界的認知而統一。量價因子挖掘本質上是通過符號世界的公式擬合投資者內心世界的決策機制和定價規律,不同的適應度函數提供了從符號世界進入內心世界的不同路徑。因此,當對內心世界的擬合不充分時,不同路徑下挖掘到的定價規律存在較大差異;當對內心世界的擬合逐漸充分時,不同路徑間的差異逐漸縮小、擬合出的定價規律之間的相似性也就逐漸提升。因此,我們認為提高因子挖掘效率有兩條路徑,一是通過優化算法將單因子挖掘做到極致,二是通過多目標的相互關系綜合篩選。我們將在下一章節中探討優化算法的分類、意義和實踐效果。投資者行為的多樣化決定了以公式樹形式擬合出的量價因子的多樣化,在進化過程中保持種群多樣化可以提升尋找差異化特征的效率。遺傳規劃過程本質是用一系列公式組合擬合過去一段時間內行之有效的定價規律,因而無論算法結構如何設計,給予充分的時間都能挖掘到優秀的因子。因此,我們在這里面臨的問題是如何提高挖掘效率,從而在相對較短的時間里挖掘到更多高質量因子。我們認為引入優化算法有助于保持種群多樣化,進而可提升因子挖掘效率。我們的主要思路包括父代個體選擇和適應度調整,前者主要在種群進化過程中對父代因子的選擇進行限制,后者在因子篩選時通過因子間關系對適應度進行調整。我們將在本節探討不同優化算法對于因子挖掘過程的意義,以及優化算法設計的最佳方案。束搜索(BeamSearch)束搜索(BeamSearch)父代個體選擇家庭競爭遺傳規劃優化算法(FamilyCompetition)排擠機制(Supplant)適應度調整共享適應度函數(Sharing數據來源:基于父代個體選擇的優化算法傳統的遺傳規劃過程通過有偏隨機抽樣的方式選擇父代個體,例如錦標賽抽樣,這種方法的隨機性較強。我們發現父代個體的選擇對種群進化有較大影響:一方面,適應度較高的父代個體其子代個體的適應度往往較高;另一方面,由于父代個體選擇為有放回抽樣,適應度較高的個體有一定概率多次被選中,從而使子代種群中適應度高的個體的相似度較高。針對上述兩個問題,我們在父代個體選擇中引入了束搜索算法和家庭競爭算法,有助于提高挖掘速度并且保持種群多樣性。我們在之前的報告中也介紹過這兩個算法。束搜索算法(BeamSearch)是一種高效的搜索方法,在初始化種群時首先構建一個數倍于標準種群大小的原始種群,經過一輪篩選之后保留圖17束搜索算法示意圖DiveintoDeepLearning家庭競爭算法(FamilyCompetition)是一種在交叉變異過程中控制多樣性的方法,如果新生成的個體的適應度函數值高于父代個體,則從父代種群中剔除該父代個體,限制單一父代過度繁衍,以保證子代種群的多樣性。圖18家庭競爭算法示意圖數據來源:基于適應度調整的優化算法傳統的遺傳規劃過程在因子篩選中僅以適應度值為依據,這種方法可能會導致進化后期因子相似度過高,進而導致挖掘得到的大部分因子不能通過相關性篩選,從而降低挖掘效率。我們希望在因子篩選過程中盡可能保持種群多樣性,因此需要根據因子相似度對適應度指標進行調整,使相似度低的因子有更高概率得以保留。具體算法包括排擠算法、共享適應度函數算法等。圖19基于相似度調整適應度值有助于保持種群多樣性數據來源:排擠算法排擠算法(Supplant)這樣調整可以減少相似因子同時進入子代種群的概率,從而使差異化因子更容易得到保留。????????????????,????????????

={????????????????, ??????≠??,??????????????????(??,??)>????≥?????????????????, ??????≠??,(??,??)>????????????????<圖20排擠算法示意圖數據來源:下圖展示了排擠算法對適應度調整的過程。排擠算法只會調整一部分因子的適應度,對種群排序的影響相對較??;若因子相似度低于閾值、或者相似度高于閾值但適應度相比較高,則保留原有適應度數值。圖21排擠算法適應度調整示意圖。注:適應度函數為年化夏普比率。共享適應度函數算法(Sharing通過種群全部因子的關系對適應度值進行調整。具體而言,每個因子的適應度值根據該因子與其他因子相似度之和加權,得到相似度歸一化的適應度值。共享適應度函數算法和排擠算法的核心思想是一致的,前者考慮了全部因子的影響,后者只考慮局部少數因子的影響。????????????????,????????????

= 1∑??≠????????????????????(??,??)

????????????????圖22共享適應度函數示意圖數據來源:圖23共享適應度函數算法適應度調整示意圖,。注:適應度函數為年化夏普比率。優化算法效果與討論1使用束搜索方法可以提升量價因子平均夏普比率;(2)在束搜索的基礎上,單獨使用家庭競爭、排擠算法或共享適應度3)在束搜索的基礎上組合使用多種算0.88。因此,我們認為通過引入優化算法保持種群多樣化從遺傳規劃因子多頭收益上看,各優化算法的提升效果并不明顯。這是圖24不同優化算法下量價因子凈值走勢(多) 圖25不同優化算法下量價因子凈值走勢(多頭)

樣本外樣本外

1

樣本外sr_bs_fc_sp樣本外表10:不同優化算法下因子樣本內表現統計(前5)多空多頭超額優化方法 年化收益最大回撤年化夏普年化收益最大回撤年化夏普基準(sr) 22.90%-5.14%2.3728.72%-10.83%1.02束搜索(sr_bs) 24.85%-4.04%2.8027.98%-12.79%0.98束搜索+家庭競爭(sr_bs_fc) 20.83%-4.34%2.2628.39%-11.63%1.00束搜索+排擠算法(sr_bs_sp) 23.71%-4.88%2.4131.56%-13.28%1.07束搜索+共享適應度函數(sr_bs_sv) 23.35%-4.29%2.3827.13%-13.96%0.94束搜索+家庭競爭+排擠算法(sr_bs_fc_sp) 30.99%-3.68%3.2522.96%-13.65%0.82束搜索+家庭競爭+共享適應度函數(sr_bs_fc_sv) 24.52%-4.11%2.588.21%-20.41%0.37Wind樣本外表現與過擬合問題討論基于父代個體選擇和適應度調整的優化算法可以提升因子樣本內表現,而從對定價機制擬合與過擬合的角度上引出了另一個問題,即,提升因實證結果表明在我們挖掘到的這些因子和給定時間區間上,當優化算法圖26不同優化算法下因子樣本外表現(多空) 圖27不同優化算法下因子樣本外表現(多頭)1

sr_bs_fc_spsr_bs_fc_sv

sr_bs_sv sr_bs_fc_sp萬得全A

表11:不同優化算法下因子樣本外表現統計(前5,多空)多空多頭超額優化方法年化收益最大回撤年化夏普年化收益最大回撤年化夏普基準(sr)17.71%-0.87%3.8342.00%-2.97%2.32束搜索(sr_bs)17.78%-0.69%4.0635.10%-2.78%2.04束搜索+家庭競爭(sr_bs_fc)15.98%-0.73%3.6341.09%-2.70%2.34束搜索+排擠算法(sr_bs_sp)24.60%-0.71%5.1455.03%-2.82%3.03束搜索+共享適應度函數(sr_bs_sv)16.61%-0.95%3.7141.88%-2.88%2.31束搜索+家庭競爭+排擠算法(sr_bs_fc_sp)27.69%-0.56%6.0554.58%-2.61%3.00束搜索+家庭競爭+共享適應度函數(sr_bs_fc_sv)10.95%-0.78%2.0236.44%-2.93%2.06Wind樣本內表現較好的因子能否在樣本外延續表現,還受到樣本期時期、樣本期長度、市場流動性環境等因素的影響。例如,市值風格在2017年和2021年兩度反轉,樣本期是否包含這些時期對挖掘的量價特征質量有較大影響。但樣本期并非越長越好,樣本期過長則不易捕捉長期有效的量價特征在近期反轉導致的定價特征變遷。在實際操作過程中,我們無法使用未來數據驗證因子過擬合情況,如無有效擇時,則只能在樣本內選擇適應度函數最大的因子,然后寄希望于挖掘到的因子在樣本外表現也比較好。量化選股策略純遺傳規劃因子的選股策略我們首先構建純遺傳規劃因子的量價選股策略以驗證因子挖掘框架的1年的量價數據挖掘日頻選股因子,在2021年以來每季度重新挖掘因子,每一期使用樣本內夏普比率為正1028.37%-11.70%,年化夏普為1.52。策略多頭端獲得16.20%的費后年化收益,最大回撤-10.07%0.68圖28遺傳規劃因子量化選股策略樣本外凈值(多空)1fee=0.003表12:遺傳規劃因子量化選股策略樣本外表現(多空,交易費用0.003)時間區間 年化收益 最大回撤 年化夏普 年化雙邊換手樣本外(2022年以來) 28.37% -11.70% 1.52 66.962022年1月-12月 39.48% -10.25% 1.84 53.452023年1月-7月 18.67% -12.64% 1.38 84.52圖29遺傳規劃因子量化選股策略樣本外凈值(多頭)1

0.40.350.30.250.20.150.10.050超額收益 多頭凈值 萬得全A表13:遺傳規劃因子選股策略樣本外表現(多頭超額,交易費用0.003)時間區間年化收益最大回撤年化夏普年化雙邊換手樣本外(2022年以來)16.20%-10.07%0.6866.962022年1月-12月3.04%-19.72%0.1253.452023年1月-7月24.77%-9.80%1.8784.52市場交易定價特征變遷1年的量價數據,目的是捕捉市場在交易層面的定價特征在相對短期內的變化,使挖掘出的因子更加適合于當前市場。我們在下面展示了上述季頻滾動策略中每一組因子的表現,包含13個月的樣本外表現。不同組的統計區間大多有重疊,而同期因子表現并不完全一致,表明市場定價特征確實存在變遷。例如,20220101-20230331這一組的凈值與之前四組存在較大差異,而與之后兩組較為相似,表明在2022年前后市場交易層面的定價特征或發生較大變化。圖30滾動挖掘因子的樣本內外表現(未扣費)2.42.221不同股票范圍的效果差異我們將相同的遺傳規劃量價因子應用于不同股票范圍的日頻換倉選股策略,回測結果表明,策略在中證500范圍內的策略表現最好,在滬深300范圍內的表現相對最差;不同股票池中多頭收益差距較小,并且多頭收益均能顯著超過全A指數收益,表明策略在常見股票范圍中均能保持有效。圖31遺傳規劃因子在不同股票池中的凈值(多空)圖32遺傳規劃因子在不同股票池中的凈值(多頭)1

滬深300 中證500中證中證中證中證1000 滬深A股

1

滬深300 中證500中證中證中證中證滬深A股 萬得全A 提升傳統量化選股模型表現10式構建模型。不同大類因子的權重如下表所示。基準模型的特征詳見2022720500指數增強表14:基準模型和綜合模型的特征分類和權重因子分類因子數量基準模型權重綜合模型權重北上資金49.09%8.33%超預期89.09%8.33%超預期(分析師)119.09%8.33%超預期衍生(估值)99.09%8.33%超預期衍生(盈利)119.09%8.33%成長89.09%8.33%盈利69.09%8.33%估值139.09%8.33%分析師139.09%8.33%總量59.09%8.33%量價109.09%8.33%遺傳規劃因子108.33%數據來源:(20221月-20237月)相21.24%8.33%,考慮到市場有效性提升,若提升量價圖33遺傳規劃因子可提升量化選股模型效果(樣本外,多頭)1

5%綜合模型基準型 基準模型 綜合模型總結本篇報告作為解構機器學習系列的第一篇,在解構遺傳規劃這一經典的劃可以劃分為初始化種群(包括適應度計算、公式變異、因子篩選和二次篩選等步驟,我們盡可能將原本由人工決策的部分放在算法過程中,實現量價因子自動化挖掘。遺傳規劃不是暴力搜索,我們認為因子篩選標準對因子挖掘效率有較大影響,并且通過基于父代個體選擇和適應度調整的算法可以提升種群多在機器學習相關的研究中,我們并不希望在找到某個在歷史數據上有效的策略后就停止,我們希望嘗試打開機器學習算法的黑箱、理解算法結構的意義并以此提升模型的有效性。后續我們將在這一框架的基礎上將框架向后拓展,對機器學習算法在量化投資中的應用進行解構和探討。風險提示量化模型失效風險:本篇報告的結論完全來自于量化模型和歷史數據,請注意模型在樣本外失效風險。附錄量價算子列表表15:量價算子列表(1)算子含義算子含義square(x)平方ts_delay(x,d)d期前的值sqrt(x)平方根(正負號不變)ts_delta(x,d)與d期前作差cube(x)立方ts_pct_change(x,d)d期至今的變化百分比cbrt(x)立方根ts_max(x,d)過去d期的最大值neg(x)相反數ts_min(x,d)過去d期的最小值inv(x)倒數值ts_sum(x,d)過去d期的總和abs(x)絕對值ts_product(x,d)過去d期的累乘sin(x)正弦值ts_mean(x,d)過去d期的均值cos(x)余弦值ts_std(x,d)過去d期的標準差tan(x)正切值ts_median(x,d)過去d期的中位數log(x)對數值ts_midpoint(x,d)過去d期的最值的均值add(x1,x2)元素相加ts_skew(x,d)過去d期的偏度sub(x1,x2)元素相減ts_kurt(x,d)過去d期的峰度mul(x1,x2)元素相乘ts_inverse_cv(x,d)過去d期的變異系數div(x1,x2)元素相除ts_rank(x,d)過去d期的歷史分位數的均值max(x1,x2)逐位取兩元素中的較大值ts_maxmin(x,d)過去d期的最大最小歸一化值min(x1,x2)逐位取兩元素中的較小值ts_zscore(x,d)過去d期的標準分數mean(x1,x2)平均值ts_argmax(x,d)過去d期的最大值所在位置sig(x)Sigmoid函數值ts_argmin(x,d)過去d期的最小值所在位置sign(x)符號函數clear_by_cond(x1,x2,x3)若x1<x2,則0,否則x3if_then_else(x1,x2,x3)若x1非0,則x2,否則x3if_cond_then_else(x1,x2,x3,x4)若x1<x2,則x3,否則x4d期的最大值與最小值位置差ts_cov(x1,x2,d) d的協方差ts_corr(x1,x2,d) 過去d期的與的相關系數ts_autocorr(x,d,d2) 過去d期的x與其滯后d2階的自相關系ts_mean_return(x,d) 過往d期的x變化百分比的平均值ts_regression_beta(x1,x2,d) 過去d期的以為基準的貝塔值ts_linear_slope(x,d) 以1至d為自變量,過去d期x1為因變量的回歸斜率ts_linear_intercept(x,d) 以1至d為自變量,過去d期x1為因變量的回歸截距數據來源:表16:量價算子列表(2)計算符號 含義 指標邏輯 構建方式反映價格加權均線,每期權重過去d期的指數移動平ts_ema(x,d)

以指數等比形式縮小,距當期

??????(??)=???

+(1???)???????(?? )均線時間越近的價格權重越大反映價格均線的同時減少

????

?????1過去d期的雙指數移動ts_dema(x,d)

ema指標的滯后性,對近期價

????????(??)=2??????(??)???????(??????)平均線

格的反應更快且更敏感

????

????

?? ts_kama(x,d,d2,d3)

過去d期的考夫曼自適應移動平均線(d2為短周

反映價格均線的同時能夠自主調節,市場噪音小時緊跟價

??????????(????)=?????????+(1?????)???????????(?????1)( ( 2 ( )其中????=????? +1?????? )期長,d3為長周期長)過去d期的阿隆震蕩線

格變化,價格變化大時減少噪音影響反映過往時間內價格趨勢狀況,0則上升趨勢為主,反

??2+1????=|???????????????????????(??1??,??2??)

??3+1|??????????1|ts_AROONOSC(x1,x2)ts_WR(x1,x2,x3,d)

(x1,x2分別為最高價,最低價)過去d期的威廉指標(x1,x2,x3分別為最高價,

之亦然,絕對值越大趨勢越強勁反映當期價格相對往期最高0

????_????????????(??1,??)?????_??????????????(??2,??)= ??????(??1,??2,??3)= ????_??????(??1,??)???3?? 最低價,收盤價)

即接近近期高點

????

??

????_??????(??1,??)?????_??????(??2,??)反映當前價格與歷史均價之

CCI??(??1??,??2??,??3??)=(?????????????)?(0.015??????)??????=(??1??+??2??+??3??)?3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論