- 因子投資:方法與實踐
- 石川等
- 8828字
- 2020-09-29 17:15:46
1.1 統一視角下的因子投資
1.1.1 一個公式
20世紀60年代,資本資產定價模型(Capital Asset Pricing Model,CAPM[1])問世。在CAPM被提出之前,人們對于風險如何影響一個公司的資本成本(cost of capital),進而如何影響預期收益率并沒有清晰的認識。1958年,Modigliani and Miller(1958)提出了著名的資本結構無關原理(也被稱為MM定理)。該定理認為在不考慮稅收、破產成本、信息不對稱,且市場有效的假設下,企業價值不會因為企業融資方式改變而改變。然而,MM定理使得如何刻畫風險和預期收益率之間的關系變得更加撲朔迷離。直到CAPM的誕生,才首次清晰地描繪出風險和收益率之間的關系。
根據CAPM理論,資產的預期超額收益由下面這個一元線性模型決定:
E[Ri]-Rf=βi(E[RM]-Rf) (1.1)
其中E[.]是期望符號,Ri為某資產i的收益率,Rf為無風險收益率,RM為市場組合的預期收益率。式中βi=cov(Ri, RM)/var(RM)刻畫了該資產收益對市場收益的敏感程度,它也被稱為資產i對市場風險的暴露程度。CAPM正是最簡單的線性因子模型,它指出資產的預期超額收益率由市場組合的預期超額收益率和資產對市場風險的暴露大小決定,而市場組合也被稱為市場因子。
式(1.1)這個簡單的關系為后續大量線性多因子定價模型的研究拉開了序幕。人們發現不同資產的收益率并非由單一的市場因子決定,而是同時受到其他因子的影響。以此為契機,Ross(1976)提出了著名的套利定價理論(Arbitrage Pricing Theory,APT),在CAPM的基礎上做了進一步延伸,構建了線性多因子定價模型(簡稱多因子模型)。多因子模型假設資產i的預期超額收益由以下多元線性模型決定:

其中表示資產i的預期超額收益,βi是資產i的因子暴露(factor exposure)或稱因子載荷(factor loading),λ是因子預期收益(factor expected return),也常被稱為因子溢價(factor risk premium)[2]。式(1.2)中引入符號
代表預期超額收益而舍棄了E[Ri]-Rf,原因如下。對于個股或者由若干支股票組成的純多頭投資組合這類資產,它的預期超額收益是E[Ri]和無風險收益率Rf之差,即E[Ri]-Rf。在實證資產定價中,另一類常見的資產是通過多空對沖構建的資金中性投資組合,例如做多一定金額的股票,同時做空同樣金額的股票。依照定義,這類資產的預期超額收益率就是多頭和空頭預期收益之差,無須額外減去無風險收益率。因此,使用
代表資產的預期超額收益更具一般性。此外,在資產定價研究中,由于學術界默認的研究對象始終是資產的預期超額收益,因此約定俗成在稱呼上舍去“超額”二字而僅用預期收益率。為了表達的便利性,本書將遵循這種慣例,后續統一稱
為預期收益率。
和CAPM類似,多因子模型假設資產的預期收益率由公式(1.2)右側的一系列因子的預期收益率和資產在這些因子上的暴露決定。它表明多因子模型研究的是不同資產預期收益率之間的差異,而非單一資產收益率在時間序列(又叫時序,書中為了不同對應關系,兩種叫法會混用)上的變化。在多因子模型研究的術語中,不同資產預期收益率的差異通常被稱為(橫)截面(cross-sectional)差異,給定因子的預期收益率,資產預期收益率的高低由它在這些因子上的暴露βi大小決定。多因子模型在數學上簡單、優雅,它允許人們在式(1.2)的右側加上任何可能影響資產預期收益率的因子。然而,實際的金融市場十分復雜,影響資產收益率的原因層出不窮又千變萬化。因此,雖然式(1.2)給出了市場均衡狀態下資產的預期收益率,但在實際中式(1.2)左、右兩側往往并不相等,而是存在一個定價誤差(pricing error):

上式中αi就是資產i的實際預期收益率和多因子模型隱含的預期收益率之間的定價誤差。該誤差產生的原因可以從以下兩方面來考慮:
(1)模型設定偏誤,即式(1.2)右側遺漏了重要的因子。當被遺漏的因子被加入后,即可消除誤差。
(2)模型本身沒有問題,但由于資產收益率的實際數據僅僅是總體的一個樣本,因此誤差總是存在的。這時需要通過統計方法檢驗誤差αi是否顯著不為零:
?如果αi并非顯著的偏離零,那么可以認為它的出現僅僅是因為運氣的原因;
?如果αi顯著偏離零,它則代表了某個可以通過套利而獲得超額收益的機會[3];它也同時說明由于某些原因,市場對該資產出現錯誤定價(mispricing),從而導致其實際預期收益率和多因子模型下的預期收益率出現了偏離。
如何選擇因子來構建多因子模型,如何計算資產在因子上的暴露以及因子的收益率,如何使用統計學的方法對定價誤差αi進行正式檢驗就成了使用多因子模型研究資產定價時必須回答的問題。而多因子模型一經提出,用來回答上述問題的相關理論也得到了迅速的發展。如今多因子模型早已成為實證資產定價(empirical asset pricing)研究的最主要方法,也由此在投資實務中催生了一個全新的類別——因子投資(factor investing)。
作為當今一個重要的投資類別,因子投資中涉及的內容非常豐富,但所有的方面都可以圍繞式(1.3)來展開和討論,形成一個關于因子投資的統一視角。為了更好地解釋因子投資包含的內容,以下先對式(1.3)的三個成分加以說明,它們是因子、多因子模型以及異象。
1.1.2 因子、多因子模型和異象
圖1.1展示了式(1.3)中的三個成分。在多因子模型中,中包含了多個影響式(1.3)左側資產收益率的解釋變量,每個解釋變量代表了一個因子。多個因子的預期收益率以及資產在它們上的暴露放在一起構成的
就是多因子模型。對于某個給定的資產i,如果它的實際預期收益率和多因子模型隱含的預期收益率之間的誤差αi顯著不為零,則稱這個資產為一個異象(anomaly)。
因子投資中最重要的自然是因子。那么,因子到底是什么?如何選擇因子?由式(1.3)可知,它左側不同資產的收益率均可以歸結到有限個因子的收益率上,而不同資產預期收益率的高低由它們對因子的暴露大小決定。由此可以得出因子的定義:
一個因子描述了眾多資產共同暴露的某種系統性風險,該風險是資產收益率背后的驅動力;因子收益率正是這種系統性風險的風險溢價或風險補償,它是這些資產的共性收益。

圖1.1 式(1.3)的三個成分
下面通過一個來自Ang(2014)的類比加深對上述定義的理解。Ang(2014)將因子之于資產類比于營養之于食物。人們的日常生活離不開攝入各種食物,比如米飯、谷物、肉類和乳制品等。這些食物之所以對人體重要是因為它們所包含的營養成分,例如水、碳水化合物、蛋白質、纖維和脂肪等。這些營養成分就是食物的“因子”。每種食物對人體的價值體現在兩方面:(1)它包含哪些營養成分以及包含了多少(類比多因子模型中的βi);(2)該食品包含的每種營養成分對人體健康的重要性(類比多因子模型中的λ)。因此,雖然食物種類五花八門,但歸根結底它們都可以歸結為不同營養成分的組合;同理,雖然股票資產的組合形式成百上千,但歸根結底它們都可以歸結為不同因子的組合。這就是因子的作用和多因子模型的價值。
從上述定義可以總結出因子需要滿足的兩個必要條件:(1)因子驅動了資產收益率的共同運動(co-movement),因此因子一定和資產收益率的協方差矩陣有關;(2)從長期來看因子是可以獲得正收益的,這意味著因子必須是被定價的。明確了因子的定義,下面再來看看什么是多因子模型。
把若干個因子放在一起使用就構成了一個多因子模型,它們對應著式(1.3)中的部分。通常來說,人們總可以找到非常多的能夠解釋資產預期收益率截面差異的因子,但無論是學術理論還是投資實踐都表明并不應該把所有的因子都放到一個多因子模型里。如何確定一個多因子模型中到底有幾個以及哪些因子,可以從以下兩點考慮。首先,很多因子之間都存在一定的相關性,高度相關的因子代表的是資產收益率所暴露的同一類風險。在選擇模型包括的因子時,必須要考慮相關性的影響,人們希望加入模型的因子是相互獨立的、每個因子都能對解釋資產預期收益率截面差異有顯著的增量貢獻。其次要考慮簡約法則(The Law of Parsimony)。從定義出發,每個因子代表的是資產暴露的某種共性風險。因此從常識來說,多因子模型中因子的個數一定是有限的[4]。學術界的主流多因子模型通常包括3~5個因子,本書的第4章將對這些模型進行系統的闡述。
最后來看異象。在選定了多因子模型后,如果按照某個特征構建的多空組合的預期收益率中存在一部分無法被多因子模型解釋,且這部分顯著大于零,那么該資產就是一個異象。舉個例子,在股票市場中,人們經常根據某個公司財務指標或者量價指標來把股票排序,并按照排序高低構建一個多、空對沖投資組合。將該投資組合作為一個資產放在多因子模型中,如果其αi顯著大于零,那么就稱該投資組合為一個異象,而構建該組合的指標就被稱為異象變量(anomaly variable)。
1.1.3 再論異象和因子
1.1.2節從式(1.3)出發探討了因子投資中的三個部分:因子、多因子模型和異象。下文將圍繞這三部分,從學術界和業界各自的立場來講述因子投資的內容。不過在那之前,本節想花一點筆墨說明一下學術界和業界對異象和因子看法上的差異,這將有助于下文介紹因子投資的內容。
在因子投資的術語中,無論是式(1.3)中αi代表的異象還是代表的因子往往都被稱為因子。為了區分它們,只需要記住
是一個定價模型,因此它包含的因子又被稱為定價因子(pricing factors);而αi代表的是按某種方法構建出的能夠獲得多因子模型無法解釋的超額收益的資產,因此它又被稱為異象因子(anomaly factors)。在本書中,如無特殊說明,當談及異象時,指的就是αi代表的部分;當談及因子時,指的則是定價因子
的部分。
在因子投資中,學術界往往更加嚴謹地區分異象因子和定價因子。由因子的定義可知,它必須能夠解釋資產預期收益率截面上的差異。經過幾十年的發展,學術界已經從上市公司財務指標和股票交易中的量價指標中找到了上百個滿足上述要求的因子。然而,從1.1.2節的論述可知,一個多因子定價模型應滿足簡約法則,這意味著定價因子個數是有限的。為此,學術界往往從經濟學和金融學的原理出發,從大量相關的因子中找到有限個相對獨立的因子構成多因子模型,而把其他沒有被加入模型中的、能獲得模型無法解釋的超額收益的因子都視為異象。反觀業界,無論是管理人還是投資者,他們往往不嚴格區分異象因子和定價因子,而把它們統稱為因子。業界往往更關心因子能否獲取定價模型無法解釋的超額收益,因為這代表著構建因子的變量可以區分高收益股票和低收益股票,因此人們可通過買入高收益股票而“戰勝市場”。理解了學術界和業界對定價因子和異象因子看法的差異后,接下來就來看看因子投資包含哪些內容。
1.1.4 因子投資包含的內容
因子投資的內容可以因研究的對象是式(1.3)右側的或αi而分成兩大類。每一大類下又可以因站在學術界和業界的不同立場再進一步劃分。按照重要性的先后順序,首先來看
這部分。
1. 關注于
的研究
對于,學術界關注的是找到“最好”的多因子模型“最好”通常意味著在該模型下資產的αi盡可能接近零,即該模型無法解釋的異象越少越好。以此為目標,學術界在過去30年針對股票市場推出了很多經典的多因子模型。在提出每個多因子模型的同時,學術界也格外關注每個因子背后的原因。即便到了今天,因子背后的原因也仍然是研究的熱點之一。經過幾十年的發展,學術界也發明出很多計量經濟學的方法,它們可以計算因子暴露、因子收益率并對多因子模型進行假設檢驗。除此之外,學術界研究
的另一個重點是對主動基金管理人的業績進行歸因。大量的實證數據研究表明,在選擇了適當的多因子模型后,絕大多數主動基金管理人并不能獲得超額收益。
與學術界不同,業界進行因子投資最重要的目標是使用因子來獲取超過基準的收益[5]。因此業界從資產配置的角度聚焦于找到從長期來看有風險溢價的因子(即λ大),并以盡可能高的暴露(即βi高)配置在這些因子上。仍然以Ang(2014)中食物和營養的類比做解釋。人們每天攝入不同的食品,其本質是為了吸收食品背后的營養成分,這些食品只是獲得營養的渠道。人們想要保持健康則需要這些營養成分均衡的搭配。回到因子投資中,業界關心如何以資產為媒介配置在不同的因子上,并在分散化的前提下最大化在不同因子上的暴露,從而獲得穩健的(超額)收益。除此之外,隨著因子投資的發展,很多Smart Beta ETF金融產品相繼問世,極大地豐富了資產配置的工具。
2. 關注于αi的研究
再來看αi部分。αi代表了可以通過套利獲得的超額收益。出于截然不同的原因,學術界和業界都對它非常感興趣。先說學術界,從有效市場假說(Efficient-Market Hypothesis,出自Fama 1970)的觀點出發,如果多因子模型不存在模型設定偏誤,那么市場中不應該存在太多異象。因此,一旦一個異象被發現,就會被拿來評判市場并非有效,或用來描述市場均衡狀態的因子模型有誤,這是學術界研究異象的主要動機。另外,解釋異象的能力是評價多因子模型優劣的重要標準之一。比如兩個多因子模型A和B,如果使用模型A時異象的個數少于使用模型B時異象的個數,就會認為模型A比模型B更好。模型之間的對比也從側面推動了對異象的研究。
相比之下,業界對異象的研究動機則“單純”得多。正如1.1.3節所描述的那樣,業界并不嚴格區分定價因子和異象因子。在業界看來,一個因子是否被納入某個定價模型(從而從異象因子轉變為定價因子)并不重要,而更關心在考慮了交易成本之后,使用該因子是否仍然能夠獲得超額收益。
3. 截面角度vs時序角度
目前,在關于因子投資內容的介紹中,無論研究的關注點是還是αi,它們都是在給定的因子模型下研究資產的預期收益和βi之間的關系,即資產預期收益率在截面上的差異,因此多因子模型是關于均值的模型(model of the mean)。從數學定義可知,預期收益率是收益率在時間序列上的平均,因此均值的模型僅關心不同資產的收益率均值為什么會有差異,而非每個資產的收益率如何隨時間變化。把式(1.3)沿時間軸展開,資產超額收益和因子收益率在時序上滿足如下多元線性回歸模型:

其中表示t時刻資產i的超額收益,λt表示t時刻因子收益率,εit表示t時刻的隨機擾動。這就是研究多因子模型的時間角度。圖1.2展示了截面角度和時序角度之間的切換。

圖1.2 截面角度vs時序角度
在時序角度下,因子投資中的兩個重要問題是方差模型(model of the variance)和因子擇時。為了解釋前者,把N個資產的時序多元回歸模型放在一起表達:

其中是N維超額收益向量;α=[α1, α2, ···, αN]′是N維定價誤差向量;β=[β1, β2, ···, βN]′是N×K因子暴露矩陣;εt=[ε1t, ε2t, ···, εNt]′是N維隨機擾動向量,滿足E[εt]=0以及cov(λt, εt)=0。對式(1.5)兩側求協方差矩陣并利用cov(λt, εt)=0可得:
Σ=βΣλβ′+Σε (1.6)
其中Σ(N階矩陣)、Σλ(K階矩陣)以及Σε(N階矩陣)分別為N個資產的協方差矩陣、K個因子的協方差矩陣以及N個隨機擾動的協方差矩陣。由于εit相互獨立,因此Σε是一個對角陣。式(1.6)就是關于方差的模型。
從學術界的立場來看,式(1.6)意味著因子必須和資產的協方差矩陣有關,而這也正是1.1.2節中關于因子需滿足的兩個必要條件中第一個條件的出處。值得一提的是,當下學術界流行的所有主流多因子模型(本書第4章會詳細介紹)要么來源于金融學或經濟學原理,要么來源于自行為金融學的啟發,但它們都沒有直接從式(1.6)傳達的因子協方差矩陣和資產協方差矩陣的關系入手。一個多因子模型代表著資產超額收益的某種結構,因此一個好的模型應該盡可能解釋不同資產收益率間的共性運動。這反映到式(1.6)上就是模型中因子的選擇應使得βΣλβ′盡可能接近資產協方差矩陣Σ的非對角線元素。但無論是經典的Fama–French三因子模型(Fama and French 1993)還是當下熱門的Hou–Xue–Zhang四因子模型(Hou et al.2015)等,均沒有對此給予充分的考量。在最新的研究中,Pukthuanthong et al.(2019)指出了這種關聯的重要性,并以此為依據提出了一個甄別真正因子的框架。可以預期,從式(1.6)出發找到真正的因子、構建多因子模型將會是學術界未來的一個研究重點。
再來看看業界。業界對于式(1.6)的關注和學術界有所不同,而是基于風險控制這個非常現實的考量。在投資中,一個很重要的風險指標是投資組合的波動率。投資組合的波動率由其包含的資產在組合中的權重、資產收益率的方差以及資產收益率之間的協方差決定。因此,計算投資組合的波動率就必須知道資產之間的協方差矩陣。從數學上說,如果使用歷史收益率序列計算樣本協方差矩陣,那么歷史數據的期數T需滿足T≥N,否則用歷史數據估算出的樣本協方差矩陣就是不可逆的[6]。當資產個數N很大時,要求T≥N是不切實際的。然而,如果把資產的收益率通過多因子模型轉化為因子的收益率,則可以大大簡化上述問題。
在多因子模型中,因子的個數K往往遠小于資產的個數,因此使用多因子模型分析資產收益率相當于一種降維處理。式(1.6)通過多因子模型把求解N階的協方差矩陣巧妙地轉化為求解K階因子收益率的協方差矩陣。有了因子協方差矩陣,利用資產和因子收益率之間的線性關系就可以反推出資產收益率的協方差矩陣并進行風險控制,這種做法在投資實務中有巨大的價值。在海外的大機構中,使用多因子模型計算資產協方差矩陣并進行風險控制的有很多,但其中最著名的大概要數Barra多因子模型[7]。以Barra最新一代的中國股票多因子模型CNE6為例,它使用1個國家因子、9個風格因子以及一系列行業因子來刻畫A股市場上超過3000支股票的收益率,極大簡化了股票協方差矩陣的求解。在過去好幾代多因子模型中,Barra開發了一系列統計學方法,逐步提高了協方差矩陣估計的準確性。
時序角度的另一個研究重點是因子擇時。與截面角度只關心因子的預期收益率不同,在時序角度,人們關心的是因子收益率如何隨時間波動。由因子的定義可知,因子代表了資產共同暴露的某種系統性風險,而長期大于零的因子溢價正是對該系統性風險的補償。這說明每個因子的收益率在時間序列上是有波動的,有時收益高,有時則面臨虧損;且不同因子的收益率在不同宏觀經濟周期對應的市場環境中表現也是不同的。在這方面,學術界通常關心的是不同因子和宏觀經濟以及投資者情緒之間的關系。而反觀業界,由于業界使用因子的目的是進行資產配置和獲取超額收益,因此自然會對因子收益率在時序上的變化產生極大的興趣。這是因為如果能夠通過擇時來挑出某個因子“好使”的時候配置、在它“不好使”的時候規避,那么無疑會提高使用因子的風險收益水平。正是在這個動機的趨勢下,因子擇時始終是業界的研究熱點之一。
4. 統一視角
以上從式(1.3)出發,從、αi以及“截面角度vs時序角度”三個維度梳理了因子投資中所涉及的內容。這也正是本書希望傳遞出來的統一視角下的因子投資。圖1.3對這三個維度進行了總結,它可以被視作全書的思維導圖。
1.1.5 實證資產定價與因子投資
嚴格地說,在1.1.4節涉及的內容中,學術界視角下因子投資的內容屬于實證資產定價研究的范疇;而一般當人們談論因子投資的時候,通常指的是業界的視角。然而,出于以下兩個原因,本書提倡把學術界和業界關注的不同內容放入統一的視角,學習和實踐因子投資。
首先,投資學大概是學術界和業界結合的最緊密的學科之一,而因子投資則是這種緊密結合的代表。經過了幾十年的努力,學術界在實證資產定價方面提出了豐富的金融理論模型和計量經濟學統計手段,并發現了諸如價值、盈利、動量、低波動等如今已被廣泛認可和接受的因子。這些發現自問世以來就持續地指導著因子投資實踐。毫不夸張地說,因子投資的興起深深地植根于學術界關于資產定價的研究中。另外,業界的因子投資活動也為已有理論的反復檢驗和新理論的提出提供了充足的數據,促使學術界不斷提出新的研究成果。

圖1.3 統一視角下的因子投資
其次,作為一個理論指導實踐的細分學科,雖然歷經了幾十年的發展,但因子投資依然在不斷地完善和創新。最初,多因子模型僅是在人們拒絕了CAPM之后的代替之選,其后它逐漸發展成為股票投資的有效手段之一。時至今日,多因子模型早已滲透到不同大類資產的投資中,人們在股票、債券、商品期貨甚至是加密幣領域都可以看到它大展身手。在當下最新的趨勢中,人們更是從因子的角度對不同類資產收益率的底層驅動因素和邏輯進行分析,使用因子進行跨類別的大類資產配置。對因子投資的實踐者來說,只有了解已有的各種研究方法,才能更好地迎接和擁抱因子投資未來的發展和變革。
基于上述兩個原因,本書作者認為掌握學術界的研究成果對于培養正確的因子投資科學觀至關重要。而將學術界的方法論和業界的實踐相結合,依照圖1.3勾勒出的統一視角系統地解讀因子投資則是本書最重要的特色。在后面的第2章到第7章將會對這個框架下的不同部分進行探討。在那之前,接下來的1.2節和1.3節先從學術界和業界的角度梳理一下因子投資的起源和發展,1.4節介紹本書的結構和寫作目標。
最后需要指出的是,雖然因子投資如今已被應用于各類資產,但相比于其他類別的資產,它在股票市場上的應用無疑是壓倒性的。當人們談到因子投資時,也往往默認是股票市場。這背后的原因是股票是最重要的一類資產,而因子投資的發展也源自學術界對股票市場的研究。為此,本書將完全針對股票市場闡述因子投資的方方面面。感興趣的讀者也可以嘗試將本書介紹的方法論應用于其他資產。
[1]CAPM由Treynor(1961, 1962),Sharpe(1964),Lintner(1965a, 1965b)以及Mossin(1966)分別獨立提出。公眾號“川總寫量化”的文章《CAPM的一小段歷史》對其進行了介紹。
[2]預期收益可用來描述各類資產提供給投資者的期望回報,包括但不限于股票、債券、大宗商品、房地產等。而對于本書關注的因子,學術界往往更習慣將因子的預期收益稱為因子溢價。本書中會交替使用“因子預期收益”和“因子溢價”這兩種稱謂來指代因子的預期收益。
[3]金融市場中通常使用α代表資產相對于某基準的超額收益。
[4]如果一共有N個資產,那么總可以使用這N個資產作為“因子”來完美地解釋它們預期收益率的差異。但這么做毫無意義。
[5]以股票市場為例,市場指數就是基準,而因子投資的目標是使用不同的因子獲得比市場收益率更高的收益。
[6]協方差矩陣應是可逆的。在投資組合優化中,協方差的逆矩陣經常出現在資產最優權重的表達式中。因此,當使用樣本協方差矩陣作為協方差矩陣的估計時,如果因T<N造成樣本協方差不可逆,就會使得投資組合優化不可解。除此之外,即便T≥N成立,仍需考慮使用樣本協方差矩陣作為協方差矩陣的估計的準確性的問題。Ledoit and Wolf(2003)指出,通常T需要比N高一個數量級才能保證估計的準確性。在實際的資產配置中,T比N高一個數量級幾乎是不可能的。
[7]Barra如今已經被MSCI收購,但依照慣例業界仍然使用Barra多因子模型這個叫法。