官术网_书友最值得收藏!

2.6 因子正交化

在因子投資中常會出現(xiàn)“因子正交化”這一概念。舉例來說,在學(xué)術(shù)界實證資產(chǎn)定價研究中使用兩個變量進(jìn)行雙重排序(特別是條件雙重排序)就是一種正交化處理;業(yè)界在構(gòu)建因子的時候更是會使用回歸手段構(gòu)建相互正交的因子。從經(jīng)濟學(xué)含義上說,“正交”意味著兩個因子代表的資產(chǎn)收益的驅(qū)動力是不同的,即它們貢獻(xiàn)了資產(chǎn)超額收益中不同的部分。不嚴(yán)格地說,一組相互正交的因子往往能更好地解釋資產(chǎn)預(yù)期收益率的截面差異。

舉個極端的例子,使用市盈率和市凈率指標(biāo)分別構(gòu)造兩個價值因子。通常來說,如果一支股票的市盈率很高(低),那么它的市凈率也會較高(低),所以使用上述指標(biāo)構(gòu)造的兩個多頭組合高度相似,兩個空頭組合也高度相似,造成代表因子的價差組合也高度相似。由于這個原因,雖然該模型有兩個因子,但它們僅是解釋資產(chǎn)收益率中價值驅(qū)動的那部分。這個例子說明,兩個因子是否相似體現(xiàn)在資產(chǎn)對它們的暴露在截面上相關(guān)性的高低。因子正交化的目的就是降低這種截面上的相關(guān)性。

上面說了從經(jīng)濟學(xué)角度追求因子正交化的動機,接下來再說一說數(shù)學(xué)上的影響。用一句話概括就是,當(dāng)使用Fama–MacBeth截面回歸求解因子收益率時,因子暴露在截面上的高相關(guān)會增大因子收益率的標(biāo)準(zhǔn)誤,從而影響對因子收益率的檢驗。為了解釋這一點,考慮一般的線性回歸模型:

y=Xb+ε?。?.83)

對于多因子模型來說,模型(2.83)中的y代表某時刻N個資產(chǎn)的超額收益向量;X是一個N×(K+1)矩陣,第一列的元素全部是1,代表截距項,后面K列為因子暴露;b為因子收益率向量;最后ε為隨機擾動。本節(jié)的論述使用諸如yX這些數(shù)學(xué)符號,而非Reβ等符號,是為了在討論中不失一般性。本節(jié)討論的問題是線性回歸中常見的問題,而非僅僅針對多因子線性回歸模型。模型(2.83)的OLS估計量為:

的表達(dá)式來看,它和XX有關(guān)。當(dāng)X的各列(即多因子模型中的不同因子的因子暴露向量)之間不正交時,X不同列之間的相關(guān)性就會影響XX以及的計算,而這種影響不是什么好事兒。以下從簡單一元回歸說起。

2.6.1 簡單一元回歸

假設(shè)有一元回歸模型y=bx+ε(模型只有一個解釋變量,沒有截距項)。該一元回歸模型的OLS估計為:

上式中,〈x, y〉表示向量xy的內(nèi)積,即。式(2.85)這個結(jié)果非常簡單,但是它十分重要。比較式(2.85)和式(2.84)的表達(dá)式可以發(fā)現(xiàn),如果多元回歸模型中所有的解釋變量兩兩正交,即〈xi, xj〉=0, ij,則向量恰恰等于:

上式成立是因為〈xi, xj〉=0保證了矩陣XX的所有非對角元素都是0,因而它是一個對角陣。對角陣的逆矩陣就是把該對角陣對角線上的元素都取倒數(shù),所以逆矩陣仍然是對角陣。因此,式(2.84)中XX的第i個對角元素為1/〈xi, xi〉。另外,Xy的第i個元素是xiy的內(nèi)積,即〈xi, y〉。因此,恰好等于〈xi, y〉/〈xi, xi〉。

多元回歸的OLS估計量和一元回歸的OLS估計量的表達(dá)式一模一樣,說明當(dāng)所有解釋變量相互正交時,不同的因子暴露對彼此的因子收益率沒有影響,這正是因子相互正交的好處。那么,當(dāng)因子之間不正交時又會怎樣呢?為了回答這個問題,先來看看回歸的幾何意義。

2.6.2 回歸的幾何意義

將式(2.84)中的表達(dá)式代入模型(2.83)得到樣本殘差。計算X的內(nèi)積有:

上式說明,OLS的殘差和解釋變量X正交。來看看這在幾何上意味著什么。先考慮最簡單的一元回歸的情況。如圖2.13所示,一元回歸OLS的幾何含義是將y垂直投影到x之上,使得y和其在x上的投影之間的距離(的長度)最短。

圖2.13 一元回歸幾何意義

為了加深對回歸的幾何意義的理解,下面再看看二元回歸y=b1x1+b2x2+ε。假設(shè)x1x2之間是正交的。它的幾何意義(圖2.14)是將y垂直投影到由x1x2生成的平面內(nèi),記為。此外,將y分別單獨投影到向量x1x2上。由于x1x2相互正交(即垂直),因此向量恰好等于上述兩個向量之和。因此,當(dāng)x1x2正交時,OLS估計僅由xiy決定,其他任何解釋變量xjji)對均沒有影響。

圖2.14 二元回歸幾何意義(x1x2正交)

當(dāng)x1x2非正交時會怎樣呢?在這種情況下,二元回歸的幾何意義如圖2.15所示。它和圖2.14最大的區(qū)別是,y在由x1x2生成的平面內(nèi)的投影不等于y分別在x1x2上的投影之和。在這種情況下,解釋變量之間對各自回歸系數(shù)的OLS估計有不同的作用,不再等于〈xi, y〉/〈xi, xi〉。非正交xi之間的相互作用如何影響回歸系數(shù)呢?通過連續(xù)正交化來求解多元線性回歸可以回答這個問題。

圖2.15 二元回歸幾何意義(x1x2非正交)

2.6.3 用正交化過程求解多元回歸

考慮如下線性回歸模型,其中x0=[1, 1, ···, 1]′和x1=[x1, x2, ···, xn]′,假設(shè)x0x1非正交:

y=ax0+bx1+ε?。?.88)

模型(2.88)的OLS估計量為:

接下來說明如何通過正交化求解。由于x0x1非正交,首先需要構(gòu)造出一組正交向量。令z0=x0=1為其中的一個向量;將x1作為被解釋變量、z0作為解釋變量進(jìn)行一元OLS回歸(不帶截距)得到的殘差就是和z0互相正交的向量,記為z1。由式(2.85)以及回歸的性質(zhì)可知:

上式中表示x1, x2, ···, xn的均值。接下來,將z1y代入式(2.85)恰恰就得到式(2.89)的OLS估計量

以上并沒有直接對模型(2.88)進(jìn)行OLS回歸,而是通過正交化的方式求出。對于多元回歸的情況,上述求解的方法可以通過以下過程擴展(Hastie et al.2016)。該過程的核心是通過連續(xù)的正交化計算把一組非兩兩正交的向量xi轉(zhuǎn)換成一組兩兩正交的向量zi,并以此方便地求出最后一個被正交化的解釋變量的多元回歸系數(shù)。該過程共有三步:

(1)第一步是初始化。在所有解釋變量中(如果線性回歸模型包括截距項,則它也是一個解釋變量)任意挑選一個當(dāng)作x0進(jìn)行初始化z0=x0

(2)第二步是將其他解釋變量按任意順序排序,記為x1, x2, ···, xK(假設(shè)一共有K+1個解釋變量)。按上述順序從x1開始依次進(jìn)行正交化。具體來說,對xk的正交化公式如下:

其中z0, z1, ···, zk?1是已經(jīng)被處理過后的正交向量。

(3)得到zK之后,計算〈zK, y〉/〈zK, zK〉,它正是多元回歸模型(2.83)中解釋變量xK的回歸系數(shù)的OLS估計量

需要強調(diào)的是,這一結(jié)論僅對最后一個被正交化后的解釋變量成立。對于其他解釋變量k<K,〈zk, y〉/〈zk, zk〉并不等于多元回歸的OLS估計量。也許有的讀者會有疑惑:這個算法確實不錯,但是費了半天勁算出了一大堆相互正交的向量zk,而求解回歸系數(shù)的結(jié)論卻僅對最后一個被正交化的解釋變量成立,這不是坑人嗎?答案是否定的。上述過程中的關(guān)鍵在于正交化這些解釋變量的順序是任意的,因而可以選任何一個變量進(jìn)行初始化,也可以選任何一個變量作為最后一個被正交化的解釋變量。無論怎么選,上述過程保證了最后一個被正交化的解釋變量的回歸系數(shù)滿足。只需依次挑選這些解釋變量作為最后一個被正交化的,就可以通過上述步驟求出這些解釋變量的回歸系數(shù)的OLS估計。而上述過程所反映出來的本質(zhì)是,在對多元線性回歸模型(2.83)進(jìn)行OLS估計時,解釋變量xk的回歸系數(shù)的估計量等于xk在被其他解釋變量x0, x1, ···, xk?1, xk+1, ···, xK正交化之后(從而排除其他xjxk的影響)仍能夠?qū)忉?span id="vadynd3" class="content-word-italic">y產(chǎn)生的增量貢獻(xiàn)。

上述過程稱作多元回歸的格拉姆—施密特(Gram—Schmidt)正交化過程。式(2.93)表明xK的回歸系數(shù)和正交化后的zK的范數(shù)大?。?span id="l9cqxp2" class="content-word-italic">zK自己的內(nèi)積為分母)有關(guān)。如果xK和其他解釋變量高度相關(guān),那么xK被其他xj, jK解釋之后的殘差zK就會很小。當(dāng)yi滿足獨立同分布時,可以證明的方差和zK的范數(shù)大小成反比:

當(dāng)非常不穩(wěn)定,即樣本數(shù)據(jù)的細(xì)微變化會導(dǎo)致大幅變化。回到本書關(guān)注的問題,當(dāng)使用Fama–MacBeth截面回歸求解因子收益率時,就是因子K的收益率。為了因子收益率的估計更穩(wěn)定,所以要求不同的因子之間盡量滿足正交化。舉例來說,在Barra的中國市場多因子模型中,非線性市值因子和市值因子之間進(jìn)行了正交化處理。

在本節(jié)的最后再介紹一個有意思、也有用的特性。在格拉姆—施密特正交化過程中,任何一個解釋變量均可以被選為最后一個,然后根據(jù)連續(xù)正交化方便地求出它的回歸系數(shù)。這意味著如果有20個解釋變量,需要進(jìn)行20次上述操作。是否有什么辦法僅通過進(jìn)行一次連續(xù)正交化就求出所有的回歸系數(shù)k=0, 1, ···, K)呢?答案是肯定的。

假設(shè)按照某給定順序x0, x1, ···, xK依照(2.92)進(jìn)行連續(xù)正交化過程,得到z0, z1, ···, zK。對于排在最后一位的解釋變量如下關(guān)系成立。由于是解釋變量xK的回歸系數(shù),因此就是xK所解釋的y的部分。如果從y中剔除,并把得到的作為被解釋變量,用剩下的x0, x1, ···, xK?1作為解釋變量,則回歸結(jié)果就和xK無關(guān)了。在這個新的回歸中,xK?1就變成了最后一個被正交化的解釋變量,其對應(yīng)的正交向量為zK?1。因此,xK?1的回歸系數(shù)就用zK?1依照式(2.86)計算:

以此類推,便可以按照的倒序求解出多元回歸中所有解釋變量的回歸系數(shù)的OLS估計(Drygas 2011):

最后用本節(jié)開始的包含兩個解釋變量x0x1的回歸模型(2.88)驗證一下,即通過式(2.96)和式(2.97)求解x0的OLS回歸系數(shù)。令z0=1并假設(shè)的表達(dá)式已經(jīng)求出。根據(jù)式(2.97)可得

它正是式(2.89)中的表達(dá)式。

主站蜘蛛池模板: 宁德市| 松阳县| 工布江达县| 泸溪县| 响水县| 航空| 长泰县| 宁明县| 抚顺县| 府谷县| 龙井市| 弋阳县| 靖边县| 天峻县| 大姚县| 海安县| 隆昌县| 靖宇县| 苗栗县| 巴中市| 汝城县| 双鸭山市| 哈密市| 东乡县| 财经| 中西区| 武邑县| 阜阳市| 无锡市| 闻喜县| 永嘉县| 永靖县| 迭部县| 沙坪坝区| 尼玛县| 汉中市| 项城市| 龙南县| 天峻县| 吉木乃县| 象山县|