- 因子投資:方法與實踐
- 石川等
- 3521字
- 2020-09-29 17:15:50
2.6 因子正交化
在因子投資中常會出現(xiàn)“因子正交化”這一概念。舉例來說,在學(xué)術(shù)界實證資產(chǎn)定價研究中使用兩個變量進(jìn)行雙重排序(特別是條件雙重排序)就是一種正交化處理;業(yè)界在構(gòu)建因子的時候更是會使用回歸手段構(gòu)建相互正交的因子。從經(jīng)濟學(xué)含義上說,“正交”意味著兩個因子代表的資產(chǎn)收益的驅(qū)動力是不同的,即它們貢獻(xiàn)了資產(chǎn)超額收益中不同的部分。不嚴(yán)格地說,一組相互正交的因子往往能更好地解釋資產(chǎn)預(yù)期收益率的截面差異。
舉個極端的例子,使用市盈率和市凈率指標(biāo)分別構(gòu)造兩個價值因子。通常來說,如果一支股票的市盈率很高(低),那么它的市凈率也會較高(低),所以使用上述指標(biāo)構(gòu)造的兩個多頭組合高度相似,兩個空頭組合也高度相似,造成代表因子的價差組合也高度相似。由于這個原因,雖然該模型有兩個因子,但它們僅是解釋資產(chǎn)收益率中價值驅(qū)動的那部分。這個例子說明,兩個因子是否相似體現(xiàn)在資產(chǎn)對它們的暴露在截面上相關(guān)性的高低。因子正交化的目的就是降低這種截面上的相關(guān)性。
上面說了從經(jīng)濟學(xué)角度追求因子正交化的動機,接下來再說一說數(shù)學(xué)上的影響。用一句話概括就是,當(dāng)使用Fama–MacBeth截面回歸求解因子收益率時,因子暴露在截面上的高相關(guān)會增大因子收益率的標(biāo)準(zhǔn)誤,從而影響對因子收益率的檢驗。為了解釋這一點,考慮一般的線性回歸模型:
y=Xb+ε?。?.83)
對于多因子模型來說,模型(2.83)中的y代表某時刻N個資產(chǎn)的超額收益向量;X是一個N×(K+1)矩陣,第一列的元素全部是1,代表截距項,后面K列為因子暴露;b為因子收益率向量;最后ε為隨機擾動。本節(jié)的論述使用諸如y、X這些數(shù)學(xué)符號,而非Re、β等符號,是為了在討論中不失一般性。本節(jié)討論的問題是線性回歸中常見的問題,而非僅僅針對多因子線性回歸模型。模型(2.83)的OLS估計量為:

從的表達(dá)式來看,它和X′X有關(guān)。當(dāng)X的各列(即多因子模型中的不同因子的因子暴露向量)之間不正交時,X不同列之間的相關(guān)性就會影響X′X以及
的計算,而這種影響不是什么好事兒。以下從簡單一元回歸說起。
2.6.1 簡單一元回歸
假設(shè)有一元回歸模型y=bx+ε(模型只有一個解釋變量,沒有截距項)。該一元回歸模型的OLS估計為:

上式中,〈x, y〉表示向量x和y的內(nèi)積,即。式(2.85)這個結(jié)果非常簡單,但是它十分重要。比較式(2.85)和式(2.84)的表達(dá)式可以發(fā)現(xiàn),如果多元回歸模型中所有的解釋變量兩兩正交,即〈xi, xj〉=0, i≠j,則向量
恰恰等于:

上式成立是因為〈xi, xj〉=0保證了矩陣X′X的所有非對角元素都是0,因而它是一個對角陣。對角陣的逆矩陣就是把該對角陣對角線上的元素都取倒數(shù),所以逆矩陣仍然是對角陣。因此,式(2.84)中X′X的第i個對角元素為1/〈xi, xi〉。另外,X′y的第i個元素是xi和y的內(nèi)積,即〈xi, y〉。因此,恰好等于〈xi, y〉/〈xi, xi〉。
多元回歸的OLS估計量和一元回歸的OLS估計量
的表達(dá)式一模一樣,說明當(dāng)所有解釋變量相互正交時,不同的因子暴露對彼此的因子收益率沒有影響,這正是因子相互正交的好處。那么,當(dāng)因子之間不正交時又會怎樣呢?為了回答這個問題,先來看看回歸的幾何意義。
2.6.2 回歸的幾何意義
將式(2.84)中的表達(dá)式代入模型(2.83)得到樣本殘差
。計算X和
的內(nèi)積有:

上式說明,OLS的殘差和解釋變量X正交。來看看這在幾何上意味著什么。先考慮最簡單的一元回歸的情況。如圖2.13所示,一元回歸OLS的幾何含義是將y垂直投影到x之上,使得y和其在x上的投影之間的距離(
的長度)最短。

圖2.13 一元回歸幾何意義
為了加深對回歸的幾何意義的理解,下面再看看二元回歸y=b1x1+b2x2+ε。假設(shè)x1和x2之間是正交的。它的幾何意義(圖2.14)是將y垂直投影到由x1和x2生成的平面內(nèi),記為。此外,將y分別單獨投影到向量x1和x2上。由于x1和x2相互正交(即垂直),因此向量
恰好等于上述兩個向量之和。因此,當(dāng)x1和x2正交時,OLS估計
僅由xi和y決定,其他任何解釋變量xj(j≠i)對
均沒有影響。

圖2.14 二元回歸幾何意義(x1和x2正交)
當(dāng)x1和x2非正交時會怎樣呢?在這種情況下,二元回歸的幾何意義如圖2.15所示。它和圖2.14最大的區(qū)別是,y在由x1和x2生成的平面內(nèi)的投影不等于y分別在x1和x2上的投影之和。在這種情況下,解釋變量之間對各自回歸系數(shù)的OLS估計有不同的作用,不再等于〈xi, y〉/〈xi, xi〉。非正交xi之間的相互作用如何影響回歸系數(shù)
呢?通過連續(xù)正交化來求解多元線性回歸可以回答這個問題。

圖2.15 二元回歸幾何意義(x1和x2非正交)
2.6.3 用正交化過程求解多元回歸
考慮如下線性回歸模型,其中x0=[1, 1, ···, 1]′和x1=[x1, x2, ···, xn]′,假設(shè)x0和x1非正交:
y=ax0+bx1+ε?。?.88)
模型(2.88)的OLS估計量為:

接下來說明如何通過正交化求解。由于x0和x1非正交,首先需要構(gòu)造出一組正交向量。令z0=x0=1為其中的一個向量;將x1作為被解釋變量、z0作為解釋變量進(jìn)行一元OLS回歸(不帶截距)得到的殘差就是和z0互相正交的向量,記為z1。由式(2.85)以及回歸的性質(zhì)可知:

上式中表示x1, x2, ···, xn的均值。接下來,將z1和y代入式(2.85)恰恰就得到式(2.89)的OLS估計量
:

以上并沒有直接對模型(2.88)進(jìn)行OLS回歸,而是通過正交化的方式求出。對于多元回歸的情況,上述求解
的方法可以通過以下過程擴展(Hastie et al.2016)。該過程的核心是通過連續(xù)的正交化計算把一組非兩兩正交的向量xi轉(zhuǎn)換成一組兩兩正交的向量zi,并以此方便地求出最后一個被正交化的解釋變量的多元回歸系數(shù)。該過程共有三步:
(1)第一步是初始化。在所有解釋變量中(如果線性回歸模型包括截距項,則它也是一個解釋變量)任意挑選一個當(dāng)作x0進(jìn)行初始化z0=x0。
(2)第二步是將其他解釋變量按任意順序排序,記為x1, x2, ···, xK(假設(shè)一共有K+1個解釋變量)。按上述順序從x1開始依次進(jìn)行正交化。具體來說,對xk的正交化公式如下:

其中z0, z1, ···, zk?1是已經(jīng)被處理過后的正交向量。
(3)得到zK之后,計算〈zK, y〉/〈zK, zK〉,它正是多元回歸模型(2.83)中解釋變量xK的回歸系數(shù)的OLS估計量:

需要強調(diào)的是,這一結(jié)論僅對最后一個被正交化后的解釋變量成立。對于其他解釋變量k<K,〈zk, y〉/〈zk, zk〉并不等于多元回歸的OLS估計量。也許有的讀者會有疑惑:這個算法確實不錯,但是費了半天勁算出了一大堆相互正交的向量zk,而求解回歸系數(shù)的結(jié)論卻僅對最后一個被正交化的解釋變量成立,這不是坑人嗎?答案是否定的。上述過程中的關(guān)鍵在于正交化這些解釋變量的順序是任意的,因而可以選任何一個變量進(jìn)行初始化,也可以選任何一個變量作為最后一個被正交化的解釋變量。無論怎么選,上述過程保證了最后一個被正交化的解釋變量的回歸系數(shù)滿足
。只需依次挑選這些解釋變量作為最后一個被正交化的,就可以通過上述步驟求出這些解釋變量的回歸系數(shù)的OLS估計。而上述過程所反映出來的本質(zhì)是,在對多元線性回歸模型(2.83)進(jìn)行OLS估計時,解釋變量xk的回歸系數(shù)的估計量
等于xk在被其他解釋變量x0, x1, ···, xk?1, xk+1, ···, xK正交化之后(從而排除其他xj對xk的影響)仍能夠?qū)忉?span id="vadynd3" class="content-word-italic">y產(chǎn)生的增量貢獻(xiàn)。
上述過程稱作多元回歸的格拉姆—施密特(Gram—Schmidt)正交化過程。式(2.93)表明xK的回歸系數(shù)和正交化后的zK的范數(shù)大?。?span id="l9cqxp2" class="content-word-italic">zK自己的內(nèi)積為分母)有關(guān)。如果xK和其他解釋變量高度相關(guān),那么xK被其他xj, j≠K解釋之后的殘差zK就會很小。當(dāng)yi滿足獨立同分布時,可以證明
的方差和zK的范數(shù)大小成反比:

當(dāng)非常不穩(wěn)定,即樣本數(shù)據(jù)的細(xì)微變化會導(dǎo)致
大幅變化。回到本書關(guān)注的問題,當(dāng)使用Fama–MacBeth截面回歸求解因子收益率時,
就是因子K的收益率。為了因子收益率的估計更穩(wěn)定,所以要求不同的因子之間盡量滿足正交化。舉例來說,在Barra的中國市場多因子模型中,非線性市值因子和市值因子之間進(jìn)行了正交化處理。
在本節(jié)的最后再介紹一個有意思、也有用的特性。在格拉姆—施密特正交化過程中,任何一個解釋變量均可以被選為最后一個,然后根據(jù)連續(xù)正交化方便地求出它的回歸系數(shù)。這意味著如果有20個解釋變量,需要進(jìn)行20次上述操作。是否有什么辦法僅通過進(jìn)行一次連續(xù)正交化就求出所有的回歸系數(shù)(k=0, 1, ···, K)呢?答案是肯定的。
假設(shè)按照某給定順序x0, x1, ···, xK依照(2.92)進(jìn)行連續(xù)正交化過程,得到z0, z1, ···, zK。對于排在最后一位的解釋變量如下關(guān)系成立。由于
是解釋變量xK的回歸系數(shù),因此
就是xK所解釋的y的部分。如果從y中剔除
,并把得到的
作為被解釋變量,用剩下的x0, x1, ···, xK?1作為解釋變量,則回歸結(jié)果就和xK無關(guān)了。在這個新的回歸中,xK?1就變成了最后一個被正交化的解釋變量,其對應(yīng)的正交向量為zK?1。因此,xK?1的回歸系數(shù)就用
和zK?1依照式(2.86)計算:

以此類推,便可以按照的倒序求解出多元回歸中所有解釋變量的回歸系數(shù)的OLS估計
(Drygas 2011):

最后用本節(jié)開始的包含兩個解釋變量x0和x1的回歸模型(2.88)驗證一下,即通過式(2.96)和式(2.97)求解x0的OLS回歸系數(shù)。令z0=1并假設(shè)
的表達(dá)式已經(jīng)求出。根據(jù)式(2.97)可得
:

它正是式(2.89)中的表達(dá)式。
- 中美銀行的較量:中美銀行經(jīng)營管理比較
- 中國上市公司債務(wù)融資治理研究:基于非效率投資與破產(chǎn)威脅效應(yīng)的視角
- 信貸契約治理效應(yīng)研究:來自中國非金融類上市公司的經(jīng)驗證據(jù)
- 超級金錢(珍藏版)
- 借貸危機
- 新技術(shù) 新業(yè)態(tài):進(jìn)化中的監(jiān)管科技及其應(yīng)用
- 中國債券市場(2016)
- 中國融資租賃行業(yè)年度報告(2020)
- 精通財富管理
- 險資運用新時代:國際模式與中國實踐
- 我的第一本信托業(yè)入門書
- 為未來的富有做準(zhǔn)備:合理計劃今天的明天
- 中國金融科技運行報告(2020)
- 炒股要有好心態(tài)
- 基地報告(第7卷)