![](/images/contact.png)
一、引言
20世紀(jì)80年代以來(lái)的中國(guó)經(jīng)濟(jì)改革浪潮,推動(dòng)了中國(guó)資本�場(chǎng)的快速發(fā)展。從到今天,中國(guó)資本市場(chǎng)己經(jīng)形成了多層次、多功能的結(jié)構(gòu)體系。�場(chǎng)作為最重要的組成部分,對(duì)國(guó)內(nèi)資本市場(chǎng)的影響力與日俱增。至2011年末,國(guó)內(nèi)上公司總市值己達(dá)到21.5萬(wàn)億,比2000年底增長(zhǎng)了約4.5倍,相當(dāng)于國(guó)內(nèi)2011年GDP的46%。2011全年國(guó)內(nèi)股票市場(chǎng)總成交金額己經(jīng)達(dá)到42.2萬(wàn)億,比2000年增長(zhǎng)4.7倍。如何能夠更加準(zhǔn)確的把握股票市場(chǎng)的走勢(shì),幾乎是所有股票市場(chǎng)參與者共同關(guān)注的問(wèn)題。通常來(lái)說(shuō),股票市場(chǎng)走勢(shì)容易受到一些主要因素的影響,包括:
以GDP、工業(yè)增加值、采購(gòu)經(jīng)理人指數(shù)、貨幣量(M1、M2)等為代表的宏觀經(jīng)濟(jì)數(shù)據(jù)。
國(guó)家財(cái)政、貨幣等宏觀政策的重大轉(zhuǎn)變。
容易受到全球金融及能源市場(chǎng)走勢(shì)的影響。
此外股票市場(chǎng)還會(huì)受到自身一些特殊情況的影響,例如IPO進(jìn)程、大小非解禁等情況。
以上只是對(duì)影響股票市場(chǎng)走勢(shì)幾大類因素的歸總,實(shí)際的情況則更為復(fù)雜。首先,各種宏觀經(jīng)濟(jì)數(shù)據(jù)和市場(chǎng)指標(biāo)種類繁雜,宏觀經(jīng)濟(jì)指標(biāo)亦有提前、滯后之分;其次,各種指標(biāo)的重要程度不同,受到市場(chǎng)的關(guān)注程度也不同,因而對(duì)股票市場(chǎng)的實(shí)際影響程度自然也各不相同。本文旨在通過(guò)量化和數(shù)據(jù)挖掘的手段,尋找一組經(jīng)濟(jì)指標(biāo)序列,用來(lái)幫助理解股票市場(chǎng)短期的走勢(shì)。
二、模型的建立
由于宏觀經(jīng)濟(jì)指標(biāo)分類眾多,并且其中各種宏觀經(jīng)濟(jì)指標(biāo)序列與股市漲跌幅之間并非只是簡(jiǎn)單的線性關(guān)系或者可以通過(guò)時(shí)間序列模型進(jìn)行解釋;同時(shí),各個(gè)宏觀經(jīng)濟(jì)指標(biāo)序列之間亦存在著比較復(fù)雜的因果關(guān)系,傳統(tǒng)的多元線性回歸分析模型在此問(wèn)題上多少顯得有些力不從心,本文將采用數(shù)據(jù)挖掘的簡(jiǎn)單決策樹模型與統(tǒng)計(jì)模型中較為復(fù)雜的非線性模型來(lái)嘗試進(jìn)行建模。
?。ㄒ唬┙?jīng)濟(jì)指標(biāo)序列的選取
該模型旨在解釋影響股票市場(chǎng)短中期走勢(shì),若選擇的觀測(cè)數(shù)據(jù)間隔時(shí)間過(guò)短,則隨機(jī)干擾對(duì)價(jià)格的影響太大,且與宏觀經(jīng)濟(jì)數(shù)據(jù)的發(fā)布時(shí)間不匹配。若選擇的觀測(cè)數(shù)據(jù)間隔時(shí)間太長(zhǎng),雖然能過(guò)濾掉不少的隨機(jī)干擾,但會(huì)造成觀測(cè)數(shù)據(jù)量大大變少,且會(huì)造成模型缺乏一定的時(shí)效性,與市場(chǎng)實(shí)踐脫節(jié)過(guò)多。所以最終將觀測(cè)數(shù)據(jù)的頻率定位為月度數(shù)據(jù),這樣即做到了與主要宏觀經(jīng)濟(jì)數(shù)據(jù)的發(fā)布頻率一致,又能夠兼顧到模型的時(shí)效性,方便后續(xù)進(jìn)一步的研究。其次,考慮到雖然我國(guó)股票市場(chǎng)只有短短二十多年的發(fā)展時(shí)間,但幾乎經(jīng)歷了發(fā)達(dá)國(guó)家近100多年的發(fā)展道路,不論從股票市場(chǎng)的規(guī)模、市場(chǎng)投資者的構(gòu)成、以及監(jiān)管部門對(duì)市場(chǎng)監(jiān)管來(lái)看,近些年來(lái)國(guó)內(nèi)股票市場(chǎng)的內(nèi)在結(jié)構(gòu)相較以前均己經(jīng)發(fā)生了翻天覆地的變化,并且這種變化還在不斷的發(fā)展當(dāng)中,因此,在保證觀測(cè)數(shù)據(jù)數(shù)量的前提下,盡量選擇近期數(shù)據(jù)作為樣本。最終本文選擇了以2002年5月-2011年12月(共116組)作為樣本數(shù)據(jù)區(qū)間,并且以上證綜合指數(shù)的月度漲跌作為反映國(guó)內(nèi)股票市場(chǎng)月度走向的目標(biāo)數(shù)據(jù)序列。
另外考慮到各種宏觀經(jīng)濟(jì)指標(biāo)對(duì)市場(chǎng)的影響強(qiáng)弱,本文主要選取了如下的宏觀經(jīng)濟(jì)指標(biāo)序列(己經(jīng)過(guò)初步挑選、處理):
?。ǘ㎜OGISTIC回歸模型
LOGISTIC模型回歸分析,是離散選擇法模型之一,屬于多重變量分析范疇。主要是根據(jù)一組或幾組解釋變量,來(lái)預(yù)測(cè)離散的被解釋變量發(fā)生某種情況的概率。最常用的是二值型LOGISTIC模型。即被解釋變量的取值只包含兩個(gè)類別。例如:好、壞 ;發(fā)生、不發(fā)生;常用y=1或y=0來(lái)表示,則用于表示解釋變量,表示在給定的條件下y=1的概率,LOGISTIC回歸模型的數(shù)學(xué)表達(dá)式為:
其中稱為優(yōu)勢(shì)比(Odds),即事件的發(fā)生與不發(fā)生的概率之比。其中概率P可以通過(guò)下式求得:
在本文中,令上證指數(shù)的月度上漲為1,月度下跌為0,即為上證指數(shù)月度上漲與下跌的概率比。
通過(guò)分別繪制相應(yīng)宏觀經(jīng)濟(jì)指標(biāo)序列與上證指數(shù)月度收益率的散點(diǎn)圖,從中挑選出隨著解釋變量的趨向,上證指數(shù)漲跌有著顯著明關(guān)系的序列,且符合經(jīng)濟(jì)學(xué)邏輯的宏觀經(jīng)濟(jì)指標(biāo)序列,并且再通過(guò)LOGISTIC模型進(jìn)行的相關(guān)性檢驗(yàn)。挑選出的結(jié)果如下:
對(duì)以上經(jīng)濟(jì)指標(biāo)序列用LOGISTIC模型分別回歸建模的結(jié)果如表3所示。
可見(jiàn)M2同比、上證月度日均成交金額/流動(dòng)市值對(duì)股市的漲/跌存在正效應(yīng),即指標(biāo)序列數(shù)值越大,上證指數(shù)越趨向于上漲;PPI同比、1年期固定國(guó)債收益率對(duì)股市存在負(fù)效應(yīng),也即指標(biāo)序列數(shù)值越小,上證指數(shù)越趨向于下跌,且擬合得到的參數(shù)估計(jì)值在5%的置信度下都是比較顯著的。從模型錯(cuò)誤歸類率來(lái)看,四個(gè)序列對(duì)上證指數(shù)的上漲/下跌均有一定的解釋度,其中上證月度日均成交金額/流動(dòng)市值與1年期固定國(guó)債收益率的解釋效果要相對(duì)高于另外兩個(gè)指標(biāo)。
對(duì)上述四個(gè)指標(biāo)序列進(jìn)行Pearson相關(guān)性分析,發(fā)現(xiàn)M2同比,1年期固定國(guó)債收益率與PPI同比之間存在比較高的相關(guān)性(見(jiàn)表4),而上證月度日均成交金額/流動(dòng)市值與其他三組序列相關(guān)性較小。即最終模型的解釋變量,很可能會(huì)從M2,國(guó)債收益率,PPI當(dāng)中選取一個(gè)變量,與日均成交額/流動(dòng)市值共同組成。將指標(biāo)序列分別進(jìn)行兩兩、三三配對(duì)建模,以及四個(gè)序列變量同時(shí)建模。結(jié)果,采用三序列、四序列的模型均存在參數(shù)估計(jì)值不顯著的問(wèn)題。最終在經(jīng)過(guò)效果比對(duì)后,最終選取1年期固定國(guó)債收益率與上證月度日均成交金額/流動(dòng)市值兩個(gè)指標(biāo)序列進(jìn)行建模,且由于常數(shù)項(xiàng)不顯著,將常數(shù)項(xiàng)從模型中移除。通過(guò)SAS軟件對(duì)LOGISTIC回歸模型最終得到的擬合估計(jì)結(jié)果如表5:
即1年期固定國(guó)債收益率和上證月度日均成交金額/流動(dòng)市值的參數(shù)估計(jì)值分別為-0.6930和1.2103,且參數(shù)估計(jì)值均非常顯著,P值都小于0.0001。整體LOGISTIC回歸模型對(duì)上證指數(shù)漲/跌的解釋正確率達(dá)到75%(1-0.25)。
由以上的擬合結(jié)果,模型最終定型為:
數(shù)據(jù)代入上述模型進(jìn)行計(jì)算時(shí),當(dāng)結(jié)果L<0時(shí),即,此時(shí)模型解釋為上證指數(shù)下跌;當(dāng)結(jié)果L>0時(shí),即,此時(shí)模型解釋為上證指數(shù)上漲。
?。ㄈQ策樹模型
在機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測(cè)模型。代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。樹中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值。建立決策樹的過(guò)程,即樹的生長(zhǎng)過(guò)程是不斷的把數(shù)據(jù)進(jìn)行切分的過(guò)程,每次切分對(duì)應(yīng)一個(gè)問(wèn)題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn),對(duì)每次切分都要求所分成組之間的“差異”最大。
在這里,我們希望通過(guò)簡(jiǎn)單決策樹模型來(lái)幫助我們尋找出一套用于解釋股市漲/跌的邏輯決策。同樣地,令0代表上證指數(shù)的下跌;1代表上證指數(shù)的上漲。
同樣地,對(duì)原始數(shù)據(jù)指標(biāo)序列繪制對(duì)上證收益率的散點(diǎn)圖,尋找明顯可以運(yùn)用決策樹算法進(jìn)行分割,并且符合經(jīng)濟(jì)規(guī)律的序列。經(jīng)過(guò)篩選,從所有序列當(dāng)中選取了五個(gè)有比較明顯地符合決策樹算法的指標(biāo)序列。
挑選出來(lái)的序列單獨(dú)經(jīng)過(guò)簡(jiǎn)單的分割后,在分割出的區(qū)域內(nèi)均有非常顯著的漲跌趨向。把挑選后的指標(biāo)序列隨機(jī)抽取分成Training和Validation兩部分,通過(guò)Cross Validation的方式,運(yùn)用SAS軟件的決策樹模型對(duì)經(jīng)濟(jì)指標(biāo)序列進(jìn)行整體建模,并經(jīng)過(guò)修剪,最終得到的典型決策樹模型見(jiàn)圖1:
通過(guò)決策樹模型的建模,最終留下了1年期固定國(guó)債收益率、PPI同比、以及上證月度日均成交金額/流動(dòng)市值三組指標(biāo)序列。
決策樹模型的效果可以通過(guò)衡量Training和Validation的錯(cuò)誤歸類比例來(lái)衡量,圖2所顯示的錯(cuò)誤歸類比例表明,每增加一支葉片,模型的錯(cuò)誤歸類比例就明顯的減少,當(dāng)葉片數(shù)增加至4片時(shí),錯(cuò)誤歸類比例己經(jīng)比較低了,并且Training和Validation曲線的緊密度還是非常不錯(cuò)的。需要注意的是圖1、圖2只是代表決策樹模型中一種隨機(jī)抽樣后的建模結(jié)果。
三、本文總結(jié)
通過(guò)對(duì)不同宏觀經(jīng)濟(jì)指標(biāo)序列的整理和挖掘,采用LOGISTIC回歸模型和決策樹模型對(duì)股市上漲/下跌的解釋作用還是比較明顯的。在樣本區(qū)間內(nèi)(2002年5月-2011年12月,共116組觀測(cè)),上漲63次(54.31%),下跌53次(45.69%)。通過(guò)建立LOGISTIC回歸模型后,在數(shù)據(jù)樣本內(nèi)解釋度能夠達(dá)到75%的正確率,通過(guò)決策樹模型,采用數(shù)據(jù)挖掘的方式,樣本內(nèi)的解釋度也能夠達(dá)到平均75%左右的正確率??梢哉f(shuō)建立的兩個(gè)模型的效果還是非常不錯(cuò)的。
但是就模型本身來(lái)說(shuō)還存在一些需要注意的地方:
用于建模的樣本區(qū)觀測(cè)數(shù)據(jù)量只有116組,對(duì)于數(shù)據(jù)挖掘所需要的海量數(shù)據(jù)來(lái)說(shuō)是偏少。這一方面主要還是由于國(guó)家經(jīng)濟(jì)數(shù)據(jù)指標(biāo)公布的時(shí)間長(zhǎng)度還比較短,特別是一些重要的指標(biāo)數(shù)據(jù)如PMI等,從05年才開始公布;另一方面,主要是由于國(guó)內(nèi)股票市場(chǎng)迅速發(fā)展,內(nèi)在結(jié)構(gòu)發(fā)生了較大的變化,所以需要選擇較近的時(shí)間區(qū)間。
兩個(gè)模型本身主要是偏重于相應(yīng)宏觀指標(biāo)在一定區(qū)間范圍內(nèi)對(duì)股票市場(chǎng)的整體影響,而經(jīng)濟(jì)序列指標(biāo)通常在一定區(qū)間內(nèi)具有連續(xù)性,因而模型所得到的解釋結(jié)果通常是具有連續(xù)性(即某個(gè)時(shí)間段內(nèi)模型均解釋為上證指數(shù)的上漲/下跌)。而實(shí)際上,股票市場(chǎng)通常呈現(xiàn)波浪式的走勢(shì),在牛市/或者熊市當(dāng)中出現(xiàn)的調(diào)整走勢(shì)在模型當(dāng)中無(wú)法有效的進(jìn)行刻畫。同樣的,對(duì)于股票市場(chǎng)趨勢(shì)發(fā)生反轉(zhuǎn)時(shí),模型反應(yīng)也較為遲緩。
在樣本區(qū)間內(nèi),主要發(fā)生了08年以前全球經(jīng)濟(jì)的空前繁榮以及08年以后的金融危機(jī),兩種建立的模型,特別是決策樹模型,所發(fā)掘出來(lái)的更多是這個(gè)時(shí)間段的特征,如果隨后經(jīng)濟(jì)狀況背景與建模樣本區(qū)間的經(jīng)濟(jì)狀況背景發(fā)生了較大的改變,那么模型的結(jié)果在未來(lái)的適用性就值得商榷了。
目前模型仍處于剛建立后的初步階段,需要較長(zhǎng)的時(shí)間對(duì)結(jié)果進(jìn)行檢驗(yàn)。另一方面,在上述的工作基礎(chǔ)上,后續(xù)的研究工作仍有較大的開拓空間:下一步,將繼續(xù)深入發(fā)掘各個(gè)宏觀經(jīng)濟(jì)序列與股市漲/跌之間的提前/滯后關(guān)系,然后在解釋模型的基礎(chǔ)上進(jìn)一步建立起用于預(yù)測(cè)股市上漲/下跌的預(yù)測(cè)模型。