WGAN應用于金融時間序列生成_第1頁
WGAN應用于金融時間序列生成_第2頁
WGAN應用于金融時間序列生成_第3頁
WGAN應用于金融時間序列生成_第4頁
WGAN應用于金融時間序列生成_第5頁
已閱讀5頁,還剩26頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

正文目錄

研究導讀...........................................................................5

生成對抗網絡GAN的缺點..........................................................6

GAN的矮點回顧...............................................................6

GAN塊點一:G和D訓練不同步...............................................6

JS散度的進一步探討......................................................6

訓練生成器梯度消失.......................................................7

GAN塊點二;訓練不收斂......................................................8

GAN塊點三:模式崩潰........................................................8

Non-saturatingGAN中J(G)的等價表達....................................9

模式崩潰的原因...........................................................9

WassersteinGAN介紹.............................................................11

Wasserstein距離.............................................................11

W距離的通俗解釋........................................................11

W距離的數學定義及性質.................................................11

WassersteinGAN的原理.....................................................12

WGAN的原理...........................................................12

WGAN-GP的原理.......................................................12

WGAN-GP的訓練算法........................................................13

GAN與WGAN的比較........................................................14

方法..............................................................................15

訓練數據......................................................................15

網絡構建......................................................................15

序列真實性指標...............................................................16

方差比率檢舲............................................................16

長時程相關..............................................................17

評吩指標小結............................................................18

序列相似性指標...............................................................18

WGAN與GAN結果對比...........................................................20

上證綜而日頻序列............................................................20

損失函數及真假序列展示.................................................20

評介指標對比............................................................2I

樣本多樣性..............................................................24

標普500月頻序列............................................................24

損失函數及奧?假樣本展示.................................................24

評汾指標對比............................................................25

樣本多樣性..............................................................28

評價指標匯總.................................................................29

總結與討論........................................................................30

參考文獻.....................................................................31

風險提示.....................................................................31

附錄..............................................................................32

JS散度性質的證明............................................................32

方差比里檢臉統計量計算公式.................................................33

評級說明.....................................................................35

法律實體披露.................................................................36

圖表目錄

圖表1:GAN的缺點..............................................................6

圖表2:不同距離下兩個分布間的JS散度..........................................7

圖表3:GAN中G和D訓練不同步...............................................8

圖表4:生成手寫數據集的模式崩潰現象...........................................9

圖表5:GAN生成樣本的兩種情形...............................................10

圖表6:EM距離示意圖..........................................................11

圖表7:WGAN-GP訓練算法的偽代碼............................................13

圖表8:GAN與WGAN比較.....................................................14

圖表9:WGAN-GP訓練數據集..................................................15

圖表10:WGAN-GP生成器G網絡結構.........................................15

圖表11:WGAN-GP判別器D網絡結構..........................................16

圖表12:GAN與WGAN-GP通用參數比較.......................................16

圖表13:Hurst指數計算的R/S分析法...........................................17

圖表14:8項生成虛假序列評價指標.............................................18

圖表15:歐式距離方法與DTW方法..............................................19

圖表16:上證綜指日頻序列:WGAN-GP損失函數................................20

圖表17:上證綜指日頻序列:其實價格序列(2004/12/31-2020/07/31).....................20

圖表18:上證綜指日頻序列:GAN生成價格序列范例1..................................................20

圖表19:上證綜指日頻序列:GAN生成價格序列范例2..................................................20

圖表20:上證綜指日頻序列:WGAN-GP生成價格序列范例1.......................................21

圖表21:上證綜指日頻序列:WGAN-GP生成價格序列范例2.......................................21

圖表22:上證綜指日頻序列:其實序列6項評價指標..............................21

圖表23:上證綜指日頻序列:GAN生成序列6項評價指標.........................21

圖表24:上證綜指日頻序列:WGAN-GP生成序列6項評價指標..................22

圖表25:上證綜指日頻序列:GAN與WGAN-GP生成序列前6項指標對比........22

圖表26:上證綜指日頻序列:GAN方差比檢臉結果...............................22

圖表27:上證綜指日頻序列:WGAN-GP方差比檢臉結果.........................22

圖表28:上證綜指日頻序列:方差比率檢臉統計值................................23

圖表29:上證綜指日頻序列:GAN與WGANGP生成序列Hurst指數分布........23

030:J外等指El頻序列:GAN與WGAN-GP生成樣本Hurst值假設撿臉結罷...24

圖表31:上證綜指日頻序列:GAN與WGANGP生成序列DTW分布.............24

圖表32:標普500月頗序列:WGAN-GP損失函數...............................25

圖表33:標普500月頻序列:奧?實價格序列(1927/12/30-2020/07/31)..................25

圖表34:標普500月須序列:GAN生成價格序列范例1............................................25

困表35:標普500月頻序列:GAN生成價格序列范例2............................................25

圖表36:標普500月頻序列:WGAN-GP生成價格序列范例1...................................25

圖表37:標普500月頻序列:WGAN-GP生成價格序列范例2...................................25

圖表38:標普500月頻序列:其實序列6項評價指標.............................26

圖表39:標普500月頻序列:GAN生成序列8項評價指標........................26

圖表40:標普500月頻序列:WGAN-GP生成序列6項評價指標..................26

圖表41:標普500月頻序列:GAN與WGAN-GP生成序列前6項指標對比.......27

圖表42:標普500月須序列:GAN方差比檢臉結果..............................27

圖表43:標普500月頻序列:WGAN-GP方袤比檢舲結果........................27

圖表44:標普500月頻序列:方差比率檢臉統計值................................27

圖表45:標普500月頻序列:GAN與WGAN-GP生成序列Hurst指數分布........28

圖表46:標普500月頻序列:GAN與WGAN-GP生成樣本Hurst值假設檢險結果....28

圖表47:標普500月頻序列:GAN與WGAN-GP生成序列DTW分布.............28

圖表48:上證綜指日頻序列:GAN與WGAN-GP生成序列8項評價指標對比......29

圖表49:標普500月頻序列:GAN與WGAN-GP生成序列8項評價指標對比......29

生成對抗網絡GAN的缺點

GAN的跳點回顧

在引入WGAN之前,我們首先討論GAN模型的缺點,主要包括以下三方面:

1.生成器G和判別器D訓練不同步問題。生武器與判別器的訓練進度需要小心匹配,若

匹配不當,導致判別器D訓練不好,則生成器G難以提升:若判別器D訓練得太好,

則生成器G訓練容易梯度消失,難以訓練。

2.訓練不妝效問題。生成器G與判別器D相互博弈,此流披長,訓練過程中任何一方的

損失函數都不會出現明顯的收斂過程,我們只能通過觀察生成樣本的的好壞判斷訓練

是否充分,狹少輔助指示訓練進程的指標。

3.模式期涉(ModeCollapse)問題。GAN模型的生成樣本容易過于單一,缺乏多樣性。

注意樣本單一并不一定導致樣本失真:GAN生成的妝拉率序列表現出的經臉特征與真

實序列十分接近,但并不代表生成序列包含市場可能出現的各種情況。

用表1:GAN的缺點

GAN的缺點

^科來該:GenerativeAdversarialNets.華叁證券研咒所

GAN缺點一:G和D訓練不同步

一方面,由于生成器與判別器的“博弈”關系,如果判別器訓練得不好,無法給聲假樣本

作出公允評判,那么生成器將無法得到正確反饋,生成水平無法得到提升,生成數據質量

大概率較低。

另一方面,到別器訓練得太好也會阻礙生成器的訓練,原因分以下兩步驟討論:

1.JS散度的進一步探討;

2.訓練生成器梯度消失。

JS散度的進一步探討

首先我們對JS散度進行簡要回顧。JS散度和KL散度均可衡量兩個分布p和q之句的距

離,其中JS散度定義在KL散度的基礎上,解決了KL散度不對稱的問題。二者定義為:

p(x)-p(x)

KL(p\\q)=EDog___]=JP(x)log____dx

7(x)而.湎

I)p+qip+q

/S(p|q=-KL[p\\—^-KL{q\\—^

GAN使用JS散度衡量真實分布p『與生成分布pq間的距離,模型的訓練過程近似等價于

就小化JS(p,||po),隨著JS散應越來越小,生成分布逼近立實分布,生成樣本則越來越擬

真,最終達到“以假亂真”的效果。

當兩個分布有重合部分時,分布離得越近,JS散度越小:當兩個分布完全重合時,JS散

度取值為零。JS散度的特殊性質體現在,當兩個分布無重合部分時,分布離得越遠,并

不意味著JS散度一定越大。嚴謹的表述為:如果Pr和Pg的支撐集相交部分測度為零,

則它們之間的JS散度恒為常數Iog2:

/S(p「||pg)=log2

上述命題的希確解釋及證明過程請參考附錄部分。該命題的通俗解釋是,如果5和Pg不

相交或者近似不相交(即支撐集相交部分測度為零),那么JS散度恒為常藪Iog2,這個結

論意味著只要p「和pg不重合,那么無論二者距離多遠,JS散度都為常數,如下圖的Statel

和State2所示。換言之,此時JS散度失去了判別距離遠近的能力。GAN訓練時如果判

別器訓練太好,往往就會出現這種情況,阻礙生成器的訓練,我們在下一小節詳細展開。

困表2:不同距離下兩個分布間的JS激度

f■科來.源:華奉證券研究所

訓練生成器弗度消失

為敘述清晰,我們再次展示原始GAN模型的目馀函教:

叭G,D)=&”』og(D(x))]+Ez~p』og(l-D(G(z)))]

或者可以直接寫成下述目標函數形式,其中p,表示真實分布,出表示生成分布:

VCG.D)=&-〃』og(DQ))]+Fx-pjlog(l-DM)]

在《人工智能31:生成對抗網絡GAN初探》(20200508)中我們證明對于給定的生成器

G,如果判別器D訓練到最優,則訓練生成器的損失函數將變成:

C(G)=-log4+2/S-)

上式中的JS散度導致生成器難以訓練。事實上,拓撲學理論可以證明,大部分情況下生

成分布與真實分布二者的支掙集相交部分的測度是零,即絕大部分情況下兩個分乖不相交

或者近似不相交。那么根據JS散度的性質可以推出,在判別器達到最優的情況下,優化

生成器的損失函數會變成常數,而常教的梯度恒為零。換官之,此時訓練生成器會出現嚴

重的梯度消失問題。

從更直觀的角度而言,判別器最優時,JS數度只能告訴生成器當前的生成分布與亮實分

布距離遠,但是到底距離多遠?JS散度無法告訴生成器率案,因此只要生成分布與真實

分布近似不重合,那么二者差很遠或較接近對生成器沒有任何區別,損失函數糅度都是零,

生成器自然難以訓練。

在實際訓練過程中,我們畢竟難以達到理論上的“最優判別器”,但是Arjovsky等(2017)指

出,隨著判別器接近最優,生成器損失函數的梯度仍會接近于零,出現梯度消失現象:

limVeEz.pflogfl-D(Ge(z))]=0

IlfIEz

我們對GAN的抉點一進行總結:GAN在訓練過程中如果判別器訓練得不好,則生成器難

以提升;如果判別器訓練得太好,再去訓練生成器容易產生樣度消失的問題,導致生成器

難以訓練。

困表3:GAN中G和D訓練不同步

判別器不能訓練太弱

判別器不能訓練太保

許外表算:Towardsprincipledmethodsfortraininggenerativeadversarialnetworks.華泰逐季叼無所

GAN缺點二:訓練不收斂

從邏輯上說,生成器G和判別器D始終處于相互博弈、相互提升的過程中,因此無法看

到任何一方的損失晶數收斂,損失函數無法提供有意義的指導價值。從損失函數表達式出

發,可以更清斷地觀察不收斂的過程。

在原始的GAN中,我們實際訓練判別器和生成器使用的損失函數分別為下面兩式。判別

器的損失函數J(D)在GAN原始目標函數前加負號,是因為訓練中默認使用梯度下降法最

小化損失函教。生成器損失函數J(G)只有J(D)的第二項,是因為在訓練生成器時,log(D(x))

不包含G且D固定,相當于常數,故喀去。

判別器:/(D)=-(&%口八(。=))]+&口[1。虱1一D(G(z)))])

生成器:/(G)=Ez~pz【log(l-"G(z)))]

在訓練時每輪迭代優化判別器,使得J(D)減小,印要求Ez~pz[log(1-D(G(z)))]增大:優化生

成器,使得J(G)減小,印要求Ez-p』og(1-D(G(z)))]減小。一方增大而一方減小,即判別器

與生成器的損失函數優化過程相背離,無法看出任何一方收斂。

GAN跳點三:模式崩潰

GAN在生成時容易出現生成樣本過才單一,缺乏多樣性的現象,這種現象稱為模式崩潰。

例如在生成手寫數據集樣本時,某種結構的GAN生成結果如下圖所示。模型最終只生成

手寫數字“6”,雖然形態十分逼真,但顯然不是我們想要的生成模型。

在論證模式崩潰的問題之前,我們首先引入Non-saturatingGAN的概念。在原始妁GAN

目標函數中包含Ez融og(1-D(G(z)))],由于log(1-D(G(z)))在訓練初期梯度太小,因此在

實踐中我們更常使用-Ez、pz[log(D(G(z)))]代替上面這項,此時判別器與生成器的損失函數

分別為:

判別器:/(。)=Fz^[logD((7(z))]-Ex-Pr[log(D(r))]

生成器:/(G)=-E/r』ogD(G(z))]

這種形式的GAN稱為Non-saturatingGAN,原始的GAN稱為MinimaxGAN,二者在網

絡對抗的思想上一致,但Non-saturatingGAN更便于解釋模式崩潰的問題。以下我們分

兩步論述模式崩潰:

1.Non-saturatingGAN生成器損失函數的等價表達;

2.模式崩潰的原因。

圖表4:生成手方敢據集的模式崩清現象

mm,GA6-G64-

GGj4

m?m646-4A

Zr6-6-4-

q4G」6-

446-46-4G6464-

mi,mG△A-444

6

i,mm4。G4

44-6-4-4-6-4-4-

10ksltps20ksleptSOKMepi100ksups

并未源:UnrolledGenerativeAdversarialNetworks,華泰券研究所

Non-saturatingGAN中J(G)的等價表達

前文我們已經提到,在MinimaxGAN模型中,如果判別翳達到最優(不妨假設為D(x)),

那么訓練生成器的目標函數將變為:

C(G)=&r』k)g(D?))]+&~p』og(l-??&))]

=一,。。4+2/S(Pr||pg)

對應的最優判別器表達式為:

D.(x)=.⑶

PrG)+PgS)

下面我們考慮生成分布與真實分布的KL散度:

P.(X)

KL(p||p)=EDog']

r

9pr(x)

..Pg(x)/(即(x)+pg(XQ

=x~P。Igp4)/(pC)+pM))」

1-DO

=Exq口。g^F】

=&~Pg[】og(l-D*(x))]-Ef[logD*(x)]

聯立C(G)的表達式,我們可以得到Non-saturatingGAN中生成器損失函數的等價表達為:

J⑹=-&~Pz【log。'(G(z))]=-Fx^[logD*(x)]

=KL(pg\\pr)-2/S(pr||pg)+-g4+Ex~pog(ZT(x))]

由于在訓練生成器時完全依賴于判別器的損失函數項為常數可以忽略,因此簡化的等價表

達為:

/(G)=KL(pg\\pr)-2JS(pr\\pg)

注意,上述表達式的前提是判別器達到最優。實際上,當GAN訓練到后期,判另I器的能

力已經很強,可近似認為判別器接近最優。因此,訓練生成器近似于最小化上述J:G)的表

達式。生成器的模式崩潰正是由J(G)的第一項KL散度的不對稱性導致。

模式崩潰的原因

基于上文J(G)的等價表達式可以進一步推導出模式崩潰的原因。首先將KL散度寫成積分

的形式:,、

pQ(X)

KL[p||p)=E[log]

9rX』淑y

,x.P,g(x),

=JrP{X)log____dx

x9兩

我們考慮生成樣本的兩種情膨:

1.生成器生成了不真實的樣本。對應于那些不奏實的樣本,Pg(X)>0但Pr(X)%0,此時

KL散度中間的被積項將會趨于8;

2,生成器沒能生成真實的樣本。對應于沒能生成的那些真實樣本,Pr(X)>0但Pg(X)'O,

此時KL散度中間的被積項將會趨于0。

Non-saturatingGAN中優化生成器的損失函數要求KL散度盡量小。由于第一種精形損失

接近無窮,懲罰巨大,生成器就會避免生成不真實的樣本:由于第二種情形損失接近零,

懲罰微小,因此生成器完全有可能只生成單一的真實樣本,而不生成更多不同的真實樣本。

生成單一的真實樣本已經足夠“安全二生成器沒有必要冒著失真的風險生成多樣化的樣本,

模式崩潰問題由此產生。

生成不真實的樣本:懲罰巨大未生成真實的樣本:懲罰微小

簧於來源:華泰證券橋咒所

WassersteinGAN介紹

Wasserstein距離

從上一章可知,GAN的大部分抉陷與JS散度有關,因此JS散度可能不適用于GANo

Arjovsky等(2017)提出使用Wasserstein距離(簡稱W距離)替代JS散度,這樣構建

的生成對抗網絡稱為WassersteinGAN(簡稱WGAN)。

W距離的通俗解釋

W距離用來衡量兩個分布之間的遠近,也稱為“推土機距離”(EarthMoverDistance,后

文簡稱EM距離),這個名稱十分形象。如果將兩個分布p和q分別比作兩堆土,那么我

們可以有不同的方式將土堆p推到和土堆q相同的位置和杉狀。如下圖所示.我們展示兩

種將土堆p推成土堆q的方案,很顯然這兩種方式的平均推土距離(以推土量為權重,推

土距離的加權和)不相等。EM距離表示在所有推土方案中,平均推土距離最小的方案對

應的推土距離。

圖表6:EM距離示意圖

將土堆p推向土堆q

上述兩種推土方案中,右側即為當前兩分布間的EM距離

資阱來源:華泰證券研究所

從“推土”的角度出發,EM距離的表達式如下所示:

W(P,q)=min兌y(a,Xq)||xp-Mil

yen

Xp.Xq

其中y(Xp,Xq)表示某種推土方案下對應的Xp到Xq的推土量,||Xp-Xq||則表示二者之間的某種

距離(如歐式距離),n表示所有可能的推土方案。根據EM距離的直觀定義可知,EM距

離沒有上界,隨著兩個分布之間越來越遠,EM距離會趨于無窮。換言之,EM距離和JS

散度不同,不會出現梯度為零的情況。

W距離的數學定義及性質

上一小節我們從“推土”的角度定義了EM距離也即W距離,這里我們從概率分布的角

度定義W距離。根據Arjovsky等(201/),衡量其實分布與生成分布的W距崗我學定義

如下:

皿0,麴)=inf^x.yhrdlx-yll]

y~n(p~p.g)

其中x~pr,y-pg,y表示(x,y)的聯合分布,n(pr.pg)表示所有可能的y取值空間。上式的本

質是將分布p『推向分布的所要經過的最小距離,

在論證原始的GAN模型G與D訓練不同步的問懣時,我們提到若真實分布與生成分布的

支撐集相交部分測度為零,JS散度恒為常數。真實分布與生成分布近似不相交或者完全

不相交時,那么無論其實分布與生成分布是距離一步之遙,還是距離海憊天涯,JS散度

都是常數。換言之,JS散度無法指示不重合的兩個分布到底距離多遠。

W距離的優越性正體現于此。W距離隨分布間“距離”的變化是連續的,印使兩個分布

完全不相交,W距離也不會收斂到常數,而是應分布間“距離”的增加而不斷增大,直至

無窮。因此,W距離沒有梯度消失的問題,可以用W距離替代GAN中的JS散度。

WassersteinGAN的原理

WGAN的原理

W距離的原始數學定義過于理論,旦在實際中無法直接計舁。為便于使用,可以通過

Kantorovich-RubinsteinDuality^A.(Arjovsky.2017)將其等價變換為下式:

W(P,P)=_sup(£[/(叫一O[/W])

rg“?x~pW

;MIW.r

=RSUP(%,[九G)]-樂PM,(G(Z))])

W:||fj|產

關于這個等價定義,我們進行如下三點解釋:

1.V”(x),WeW}表示一族依賴于參效W的函數f,參數W的取值空間為w。函數/■可以

是能寫出表達式的簡單初等函數,也可以是一個復雜的深度學習網絡。如果/是一個

深度學習網絡,則參數W就是網絡中的一系列權重。

2.w:||fw||MK森示函數/H?滿足Lipschitz條件:即對于/?■定義域內的任何取值a和b.滿足

IA(a)-A(fe)|<K|a-b|,K稱為Lipschitz常數。在W距離的等價定義式中,K可

以是任意正實數。

3.sup表示對所有滿足條件的函數/'w求括號中表達式的上確界,在實際應用中近似等價

于求括號中表達式的最大值。

W距離的等價定義式實際上就是WGAN的目標函數。在給定生成器G時,上述定義式中

的函數外可以用一個深度學習網絡來代替,這個深度學習網絡的目標就是要最大化

Ex-M加(x)]-Ez~pz[fw(G(z川,在訓練時K是一個常數,因此系數項可以忽略。為保持與GAN

統一,這里我們仍稱這個深度學習網絡為“判別器''(原文稱為critic),當然此時“罰別器”

已不再執行判別其假的功能,而是估計真假樣本分布的W距離。類似于GAN,WGAN在

實踐中判別器與生成器也是交替訓練的,這里我們列出二者的損失函數:

判別器:/(D)=E"Pz(A(G⑵)]-

生成器:/(G)=-EZ~/>ZIA(G(Z))]

在原始的GAN模型里,判別器的作用本質上也是在估計生成分布與真實分布之間的距離

(用JS散度衡量),然后用生成器去拉近JS故度。在WGAN中這種思想則更為直接:

用判別器去擬合兩個分布之間的W距離,用生成器去拉近W距離。

WGAN-GP的原理

WGAN的原理邏楫枝清晰,但是在等價定義式中對捌別鬻有一個重費限制——判別器需

滿足Lipschi:z條件。通常來說有兩種處理辦法,一種是權重剪裁(WeightClipping),-

種是梯度懲罰(GradientPenalty),這里分別介紹。

權重剪裁的思想是對判別器網絡的權重進行限制,因為神經網絡僅僅是有限個權值與神經

元相乘的結果,所以如果權重在某個有限范閨內變化,那么判別器的榆出值/w(X)也不會變

得太大,近似可以滿足K-Lipschitz條件。實際操作中,會在訓練判別器的每一步反向傳播

更新權值之后對權重進行剪裁,例如可以將更新后的權值限制到卜0.01,0.01]中:

0.01,ifWupdalc0.01

W:;「ate={Wupdate,if-0.01<Wupdate工0.01

-0.01,ifWupdate<-0.01

權型剪裁實際上并沒有真正讓判別器滿足K-Lipschitz條件,且實證表明權曳剪裁會讓大部

分網絡權重落在限制邊界上,使得生成樣本的質量不佳。

更常用的方法是梯度懲罰。加果能將判別器外相對于輸入x的描度限制在一定范圍內,那

么自然的就能滿足K-Lipschitz條件。根據這個思想,可以在判別器損失函數中增加懲罰項,

將判別器損失函數寫成:

/(力=&~PztA(G(z))]-取切+得[QM衣QII_15

這個損失函數對■判別器fw相對于揄入的梯度進行懲罰,將梯度的L2-范數約束在1附近,

從而保證Lipschitz條件的成立。通過這種改進的WGAN模型就稱為WGAN-GP模型

(Gulrajani.2017)。這里我們進行額外幾點說明:

1.在約束KLipschitz條件時,我們弁不關心K是多少,實際上根據W距離的等價關系,

K可以是任意的正實教,所以只要能讓fw滿足某個尺度的Lipschitz條件即可。

2.帶花梯度懲罰的損失函數中將櫛度的L2-危數約束在1附近,這個常數1是原文作者

經過多次嘗試選擇出的較合適的常數,并無理論依據。

3.理論上梯度懲罰應該對所有可能的輸入x進行梯度約束,而上述損失函數實際上僅對

介于真實樣本與生成樣本之間的那些樣本比行梯度約束,p*表示言勺分布,實證表明這

樣做的效果已經較為理想。在實際應用時,某一次迭代對腦采樣由下式產生:

gax+(1-a)G(z)

其中a是。1)中的隨機數,工為隨機的真實樣本,z為標準正態分布的稹機采樣。

4.WGAN-GP中生成器的損失函數J(D)和原始WGAN保持一致。

WGAN-GP的訓練算法

在WGAN-Gn的實際訓練過程中,判別器D與生成器G交替進行訓練,一般判別器D訓

練K次,生成器G訓練1次。基于前文的分析,WGAN-GP訓練算法的偽代碼如下所示。

困表7:WGAN-GP調練算法的偽代碼

榆入:迭代次敦T,每輪迭代判別潞D訓練次數K,小批量(minibatch)樣本數量m

1成機初始也D網絡參數g和G網絡參數為

2fort<-1toTdo

#調線判別器D

3fork*-1toKdo

#裊集小批量樣本

4從澗練集p(x)中采集m條樣本{乂⑴}}

5從豕準正態分布內(z)中采集m條樣本{z(M}

6從位J均句分布中采集m個隨機改{£(*")},并計算*)=e(0x(0+(1_e(0)G(z0)),得到四叫

7位通機悌度下降更新判別若D,鼻度為:

V1m(|)SG)2

%/Z2))-[⑥)+〃1仔。6)11-1)1

1=14

8end

#訓凍土成器G

9從標底正態分布內(2)中采集m條杼本{2(m)}

10使用通機悌度下降更新生成卷G,梯度為:

V1m⑴

%江尸2))1

11end

瑜出:生成器G

科?來源:ImprovedTrainingofWassersteinGAN.華泰認秦研究航

GAN與WGAN的比較

本小節我們分析WGAN是否針對GAN的三項缺點有所改迸。

1.GAN的劌別器D與生成器G訓練進程必須小心平衡,否則會出現訓練不同步的問題。

一般每輪迭代D訓練K次,G訓練1次,對于GAN我們要重點調整K的值,避免判

別落太好或太差:對于WGAN則無需小心網整K,可以讓判別器的訓練進度迂當快于

生成器。即使判別器D訓練得很好,再去訓練生成器也不會出現梯度消失的問題。例

如,在實踐中每輪迭代可以令D訓練5次,再令G訓練1次。

2.GAN模型D和G的損失函數都不收斂,無法指示訓練進程。在WGAN中,因為判別

器的損失函教是在近似估計真假樣本分布之間的W距離,隨著訓練的推進,這個W

距離會存在收斂的過程,可以輔助指示訓練的進程。

3.GAN模型容易產生模式崩潰的問題。前文我們提到,模式崩潰主要和KL散度以及JS

散度有關,在WGAN中JS散度被替換成W距離,因此導致GAN發生模式崩潰的原

因在WGAN中也就消失了。但值得注意的是,這并不意味著WGAN生成的樣本完全

沒有模式崩潰的可能性。

困表8:GAN與WGAN比校

GAN

WGAN

朱源:iVa$$ers/efnGan.華泰證孤臂無所

方法

在實證部分,我們圍繞GAN與WGAN的對比展開實驗,展示在生成金融時間序列上

WGAN相對于GAN的改進。在展示結果之前,我們同樣對訓練數據、網絡構建和評價指

標進行說明。此外我們還引入衡量序列相似性的指標,用來判別樣本的多樣性。這里特別

說明,由于WGAN-GP的梯度懲罰方法在實際應用中生成效果更好,因此本文教據測試

均基于WGAN-GP模型,后文提到WGAN也及指代WGAN-GP,不作嚴格區別。

訓練數據

為方便后續對比,本文選取《人工智能31:生成對抗網絡GAN初探》(20200508)中具

有代表性的指數日頻及月頻對數收益率進行訓練建模,標的和數據起止日期如下。

困表9:WGAN-GP調練數據集

標的頻率起止日期每條樣本長度

上證綜指日頻2004/12/31~2020/07/312520個交。日(韻為104)

標普500月頻1927/12/30?2020/0力31252個交易月份(21年)

資料來源:Wind.Bloomberg,華琴法養研無所

與GAN建模時相同,在處理真實樣本時,采用滾動的方式對原始的對數收益率數據進行

采樣。例如計于上證綜指原始近16年的時序數據,滾動生成長度為2520個交易日(約

為10年)的樣本,那么其實樣本約有1500條。

網絡構建

相比于GAN模型,WGAN在網絡結構上的主要改動在于判別器最后的輸出層沒有進行

sigmoid激活。這是因為GAN模型中的判別器需要對真假樣本進行判別,最后的榆出必

須是。?1之間的值,表示揄入樣本是真實樣本的概率。而WGAN中的判別器作用是擬合

生成分布與實實分布間的W距離,所以網絡不應對輸出值進行0?1的限制。

此外在構建判別器網絡時,由于判別器的,員失函數加入了梯度恁罰項,且梯度懲罰項對每

一個輸入樣本的梯度進行限制,因此在判別器的網絡結構中不應該加入

Batch-Normalization(批歸一化,簡稱BN)層,BN會將同一批其他樣本的信息融入到對

單個樣本的和度計算中,破壞樣本間的獨立性,此時算出來的梯度并不是真實的判別器對

單個樣本的楞度。一般可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論