pg电子有官方网站吗

書名：因子投資：方法與實踐
作者名：石川等
本章字?jǐn)?shù)： 3521字
更新時間： 2020-09-29 17:15:50

2.6　因子正交化

在因子投資中常會出現(xiàn)“因子正交化”這一概念。舉例來說，在學(xué)術(shù)界實證資產(chǎn)定價研究中使用兩個變量進(jìn)行雙重排序（特別是條件雙重排序）就是一種正交化處理；業(yè)界在構(gòu)建因子的時候更是會使用回歸手段構(gòu)建相互正交的因子。從經(jīng)濟學(xué)含義上說，“正交”意味著兩個因子代表的資產(chǎn)收益的驅(qū)動力是不同的，即它們貢獻(xiàn)了資產(chǎn)超額收益中不同的部分。不嚴(yán)格地說，一組相互正交的因子往往能更好地解釋資產(chǎn)預(yù)期收益率的截面差異。

舉個極端的例子，使用市盈率和市凈率指標(biāo)分別構(gòu)造兩個價值因子。通常來說，如果一支股票的市盈率很高（低），那么它的市凈率也會較高（低），所以使用上述指標(biāo)構(gòu)造的兩個多頭組合高度相似，兩個空頭組合也高度相似，造成代表因子的價差組合也高度相似。由于這個原因，雖然該模型有兩個因子，但它們僅是解釋資產(chǎn)收益率中價值驅(qū)動的那部分。這個例子說明，兩個因子是否相似體現(xiàn)在資產(chǎn)對它們的暴露在截面上相關(guān)性的高低。因子正交化的目的就是降低這種截面上的相關(guān)性。

上面說了從經(jīng)濟學(xué)角度追求因子正交化的動機，接下來再說一說數(shù)學(xué)上的影響。用一句話概括就是，當(dāng)使用Fama–MacBeth截面回歸求解因子收益率時，因子暴露在截面上的高相關(guān)會增大因子收益率的標(biāo)準(zhǔn)誤，從而影響對因子收益率的檢驗。為了解釋這一點，考慮一般的線性回歸模型：

y=Xb+ε?。?.83）

對于多因子模型來說，模型（2.83）中的y代表某時刻N個資產(chǎn)的超額收益向量；X是一個N×（K+1）矩陣，第一列的元素全部是1，代表截距項，后面K列為因子暴露；b為因子收益率向量；最后ε為隨機擾動。本節(jié)的論述使用諸如y、X這些數(shù)學(xué)符號，而非Re、β等符號，是為了在討論中不失一般性。本節(jié)討論的問題是線性回歸中常見的問題，而非僅僅針對多因子線性回歸模型。模型（2.83）的OLS估計量為：

從的表達(dá)式來看，它和X′X有關(guān)。當(dāng)X的各列（即多因子模型中的不同因子的因子暴露向量）之間不正交時，X不同列之間的相關(guān)性就會影響X′X以及的計算，而這種影響不是什么好事兒。以下從簡單一元回歸說起。

2.6.1　簡單一元回歸

假設(shè)有一元回歸模型y=bx+ε（模型只有一個解釋變量，沒有截距項）。該一元回歸模型的OLS估計為：

上式中，〈x, y〉表示向量x和y的內(nèi)積，即。式（2.85）這個結(jié)果非常簡單，但是它十分重要。比較式（2.85）和式（2.84）的表達(dá)式可以發(fā)現(xiàn)，如果多元回歸模型中所有的解釋變量兩兩正交，即〈xi, xj〉=0, i≠j，則向量恰恰等于：

上式成立是因為〈xi, xj〉=0保證了矩陣X′X的所有非對角元素都是0，因而它是一個對角陣。對角陣的逆矩陣就是把該對角陣對角線上的元素都取倒數(shù)，所以逆矩陣仍然是對角陣。因此，式（2.84）中X′X的第i個對角元素為1/〈xi, xi〉。另外，X′y的第i個元素是xi和y的內(nèi)積，即〈xi, y〉。因此，恰好等于〈xi, y〉/〈xi, xi〉。

多元回歸的OLS估計量和一元回歸的OLS估計量的表達(dá)式一模一樣，說明當(dāng)所有解釋變量相互正交時，不同的因子暴露對彼此的因子收益率沒有影響，這正是因子相互正交的好處。那么，當(dāng)因子之間不正交時又會怎樣呢？為了回答這個問題，先來看看回歸的幾何意義。

2.6.2　回歸的幾何意義

將式（2.84）中的表達(dá)式代入模型（2.83）得到樣本殘差。計算X和的內(nèi)積有:

上式說明，OLS的殘差和解釋變量X正交。來看看這在幾何上意味著什么。先考慮最簡單的一元回歸的情況。如圖2.13所示，一元回歸OLS的幾何含義是將y垂直投影到x之上，使得y和其在x上的投影之間的距離（的長度）最短。

圖2.13　一元回歸幾何意義

為了加深對回歸的幾何意義的理解，下面再看看二元回歸y=b1x1+b2x2+ε。假設(shè)x1和x2之間是正交的。它的幾何意義（圖2.14）是將y垂直投影到由x1和x2生成的平面內(nèi)，記為。此外，將y分別單獨投影到向量x1和x2上。由于x1和x2相互正交（即垂直），因此向量恰好等于上述兩個向量之和。因此，當(dāng)x1和x2正交時，OLS估計僅由xi和y決定，其他任何解釋變量xj（j≠i）對均沒有影響。

圖2.14　二元回歸幾何意義（x1和x2正交）

當(dāng)x1和x2非正交時會怎樣呢？在這種情況下，二元回歸的幾何意義如圖2.15所示。它和圖2.14最大的區(qū)別是，y在由x1和x2生成的平面內(nèi)的投影不等于y分別在x1和x2上的投影之和。在這種情況下，解釋變量之間對各自回歸系數(shù)的OLS估計有不同的作用，不再等于〈xi, y〉/〈xi, xi〉。非正交xi之間的相互作用如何影響回歸系數(shù)呢？通過連續(xù)正交化來求解多元線性回歸可以回答這個問題。

圖2.15　二元回歸幾何意義（x1和x2非正交）

2.6.3　用正交化過程求解多元回歸

考慮如下線性回歸模型，其中x0=[1, 1, ···, 1]′和x1=[x1, x2, ···, xn]′，假設(shè)x0和x1非正交：

y=ax0+bx1+ε?。?.88）

模型（2.88）的OLS估計量為：

接下來說明如何通過正交化求解。由于x0和x1非正交，首先需要構(gòu)造出一組正交向量。令z0=x0=1為其中的一個向量；將x1作為被解釋變量、z0作為解釋變量進(jìn)行一元OLS回歸（不帶截距）得到的殘差就是和z0互相正交的向量，記為z1。由式（2.85）以及回歸的性質(zhì)可知：

上式中表示x1, x2, ···, xn的均值。接下來，將z1和y代入式（2.85）恰恰就得到式（2.89）的OLS估計量：

以上并沒有直接對模型（2.88）進(jìn)行OLS回歸，而是通過正交化的方式求出。對于多元回歸的情況，上述求解的方法可以通過以下過程擴展（Hastie et al.2016）。該過程的核心是通過連續(xù)的正交化計算把一組非兩兩正交的向量xi轉(zhuǎn)換成一組兩兩正交的向量zi，并以此方便地求出最后一個被正交化的解釋變量的多元回歸系數(shù)。該過程共有三步：

（1）第一步是初始化。在所有解釋變量中（如果線性回歸模型包括截距項，則它也是一個解釋變量）任意挑選一個當(dāng)作x0進(jìn)行初始化z0=x0。

（2）第二步是將其他解釋變量按任意順序排序，記為x1, x2, ···, xK（假設(shè)一共有K+1個解釋變量）。按上述順序從x1開始依次進(jìn)行正交化。具體來說，對xk的正交化公式如下：

其中z0, z1, ···, zk?1是已經(jīng)被處理過后的正交向量。

（3）得到zK之后，計算〈zK, y〉/〈zK, zK〉，它正是多元回歸模型（2.83）中解釋變量xK的回歸系數(shù)的OLS估計量：

需要強調(diào)的是，這一結(jié)論僅對最后一個被正交化后的解釋變量成立。對于其他解釋變量k<K，〈zk, y〉/〈zk, zk〉并不等于多元回歸的OLS估計量。也許有的讀者會有疑惑：這個算法確實不錯，但是費了半天勁算出了一大堆相互正交的向量zk，而求解回歸系數(shù)的結(jié)論卻僅對最后一個被正交化的解釋變量成立，這不是坑人嗎？答案是否定的。上述過程中的關(guān)鍵在于正交化這些解釋變量的順序是任意的，因而可以選任何一個變量進(jìn)行初始化，也可以選任何一個變量作為最后一個被正交化的解釋變量。無論怎么選，上述過程保證了最后一個被正交化的解釋變量的回歸系數(shù)滿足。只需依次挑選這些解釋變量作為最后一個被正交化的，就可以通過上述步驟求出這些解釋變量的回歸系數(shù)的OLS估計。而上述過程所反映出來的本質(zhì)是，在對多元線性回歸模型（2.83）進(jìn)行OLS估計時，解釋變量xk的回歸系數(shù)的估計量等于xk在被其他解釋變量x0, x1, ···, xk?1, xk+1, ···, xK正交化之后（從而排除其他xj對xk的影響）仍能夠?qū)忉?span id="vadynd3" class="content-word-italic">y產(chǎn)生的增量貢獻(xiàn)。

上述過程稱作多元回歸的格拉姆—施密特（Gram—Schmidt）正交化過程。式（2.93）表明xK的回歸系數(shù)和正交化后的zK的范數(shù)大?。?span id="l9cqxp2" class="content-word-italic">zK自己的內(nèi)積為分母）有關(guān)。如果xK和其他解釋變量高度相關(guān)，那么xK被其他xj, j≠K解釋之后的殘差zK就會很小。當(dāng)yi滿足獨立同分布時，可以證明的方差和zK的范數(shù)大小成反比：

當(dāng)非常不穩(wěn)定，即樣本數(shù)據(jù)的細(xì)微變化會導(dǎo)致大幅變化。回到本書關(guān)注的問題，當(dāng)使用Fama–MacBeth截面回歸求解因子收益率時，就是因子K的收益率。為了因子收益率的估計更穩(wěn)定，所以要求不同的因子之間盡量滿足正交化。舉例來說，在Barra的中國市場多因子模型中，非線性市值因子和市值因子之間進(jìn)行了正交化處理。

在本節(jié)的最后再介紹一個有意思、也有用的特性。在格拉姆—施密特正交化過程中，任何一個解釋變量均可以被選為最后一個，然后根據(jù)連續(xù)正交化方便地求出它的回歸系數(shù)。這意味著如果有20個解釋變量，需要進(jìn)行20次上述操作。是否有什么辦法僅通過進(jìn)行一次連續(xù)正交化就求出所有的回歸系數(shù)（k=0, 1, ···, K）呢？答案是肯定的。

假設(shè)按照某給定順序x0, x1, ···, xK依照（2.92）進(jìn)行連續(xù)正交化過程，得到z0, z1, ···, zK。對于排在最后一位的解釋變量如下關(guān)系成立。由于是解釋變量xK的回歸系數(shù)，因此就是xK所解釋的y的部分。如果從y中剔除，并把得到的作為被解釋變量，用剩下的x0, x1, ···, xK?1作為解釋變量，則回歸結(jié)果就和xK無關(guān)了。在這個新的回歸中，xK?1就變成了最后一個被正交化的解釋變量，其對應(yīng)的正交向量為zK?1。因此，xK?1的回歸系數(shù)就用和zK?1依照式（2.86）計算：