新岳乱合集目录500伦_在教室里被强h_幸福的一家1—6小说_美女mm131爽爽爽作爱

免費咨詢電話:400 180 8892

您的購物車還沒有商品,再去逛逛吧~

提示

已將 1 件商品添加到購物車

去購物車結(jié)算>>  繼續(xù)購物

您現(xiàn)在的位置是: 首頁 > 免費論文 > 事業(yè)單位財務(wù)管理論文 > 基于決策樹的上市公司信用風(fēng)險模型實證研究

基于決策樹的上市公司信用風(fēng)險模型實證研究

隨著我國證券市場機制和企業(yè)破產(chǎn)制度的完善,信用風(fēng)險問題日益突出,不但使企業(yè)遭受巨大損失,而且直接影響企業(yè)的生存和發(fā)展;此外,大量上市公司存在信用風(fēng)險時,將有可能引發(fā)金融危機。因此,對上市公司信用風(fēng)險的管理是非常必要和迫在眉睫的。而上市公司信用風(fēng)險評估模型的建立是防范信用風(fēng)險的重要手段,因此,研究上市公司信用風(fēng)險評估這一課題,已經(jīng)成為我國目前經(jīng)濟生活中亟待解決的一個重要問題。
  目前許多定量技術(shù)和支持工具、軟件已付諸商業(yè)應(yīng)用,繼傳統(tǒng)的比例分析之后,統(tǒng)計方法得到了廣泛的應(yīng)用,如判別分析和Logistic回歸等。信用等級評估是通過對企業(yè)或個人的某些單一財務(wù)指標進行加權(quán)平均確定的。該方法的最大缺陷在于指標和加權(quán)值的確定帶有很大的主觀性,使得評估結(jié)果和實際狀況有很大的出入。因此需要引入科學(xué)方法來確定有效評估指標,并建立準確的定量模型來解決信用等級評估的問題。近年來,信息技術(shù)得到了迅速發(fā)展,如數(shù)據(jù)挖掘技術(shù)等能從海量數(shù)據(jù)中智能發(fā)現(xiàn)有用的規(guī)則和知識,再加上我國上市公司信息披露制度的不斷完善,使得我們的研究能夠得到的數(shù)據(jù)資料也不斷的增多,這些有利條件的出現(xiàn)使得我們對基于數(shù)據(jù)挖掘的上市公司信用風(fēng)險評估模型的研究具有了數(shù)據(jù)基礎(chǔ)和技術(shù)基礎(chǔ)。
  一、模型簡介
 ?。ㄒ唬Q策樹算法 決策樹是對已知類別的數(shù)據(jù)樣本進行歸納學(xué)習(xí)獲得的樹形結(jié)構(gòu),樹內(nèi)每個非葉節(jié)點代表對一個屬性取值的測試,每個葉節(jié)點代表一個類別。決策樹方法利用信息理論的信息增益選擇具有最大信息量的屬性來建立決策樹的一個節(jié)點,再根據(jù)屬性字段的不同取值來建立樹的分枝,如此對每個分枝重復(fù)遞歸建立整個決策樹。產(chǎn)生決策樹的基本算法如下:
  輸入:訓(xùn)練樣本,各屬性均取離散數(shù)值,可供歸納的備選屬性集合為attribute_list。
  輸出:決策樹
  算法:Gen_decision_tree
  創(chuàng)建一個節(jié)點 Node;
  IF 該節(jié)點中的所有樣本均為同一類別c THEN返回Node 作為一個葉節(jié)點并標志為類別c;
  IF attribute_list 為空 THEN返回Node作為一個葉節(jié)點并標記為該節(jié)點所含樣本中類別個數(shù)最多的類別;
  從attribute_list 選擇一個信息增益最大的屬性 test_attribute;
  將節(jié)點Node標記為 test_attribute;
  根據(jù)test_attribute=Vi條件,從節(jié)點Node產(chǎn)生相應(yīng)的一個分枝,且設(shè)Si為根據(jù)該分枝條件所獲得的樣本集合;
  IF Si 為空 THEN將相應(yīng)葉節(jié)點標志為該節(jié)點所含樣本中類別個數(shù)最多的類別,ELSE,將相應(yīng)葉節(jié)點標志為由Gen_decision_tree(Si,attribute_list, test_attribute)返回的值。
  其中,信息增益的計算方法為:設(shè)S為一個包含S個數(shù)據(jù)樣本的集合,類別屬性可以取 N個不同的值,對應(yīng)于N個不同的類別Cj,j∈{1,2,3,…,N},Sj為類別Cj中的樣本個數(shù)。那么對一個給定數(shù)據(jù)對象進行分類所需的信息量為:
  Infor(S1,S2,…SN)=-■pj log2(pj) (1)
  其中,pj是任意一個數(shù)據(jù)對象屬于類別Cj的概率,即pj=Sj /S。設(shè)屬性V取v個不同的值{V1,V2…,Vv},則利用屬性V可以將集合S劃分為v個子集{S1,S2…,Sv},其中Si包含了集合S中屬性V取Vi值的那些樣本。設(shè)Sij為子集Si中屬于Cj類別的樣本個數(shù)。那么利用屬性V劃分當前樣本集合所需要的信息熵可以計算如下
  Entr(V)=■■Infor(S1,S2,…SN) (2)
  Infor(Si1,Si2,…SiN)=-■pijlog2(pij) (3)
  pij=■ (4)
  這樣利用屬性V對樣本集合進行劃分所獲得的信息增益為:
  Cain(V)=Infor(S1,S2,…SN)-Entr(V) (5)
 ?。ǘ㎏最近鄰法 K最近鄰法簡稱KNN算法,在理論上是比較成熟的方法,最初于1968年由Cover 和Hart提出,其思路非常簡單直觀。KNN方法是一種有監(jiān)督學(xué)習(xí)的分類算法,它并不需要產(chǎn)生額外的數(shù)據(jù)來描述規(guī)則,它的規(guī)則就是數(shù)據(jù)(樣本)本身,并不要求數(shù)據(jù)的一致性問題,也就是說K最近鄰法在一定程度上減小了噪聲樣本對分類的干擾。KNN根據(jù)未知樣本的K個最近鄰樣本來預(yù)測未知樣本的類別,K個最近鄰樣本的選擇是根據(jù)一定的距離公式判定的。
  KNN分類算法的基本原理為:首先將待分類樣本y表達成和訓(xùn)練樣本庫的樣本一致的特征向量;然后根據(jù)距離函數(shù)計算待分類樣本y和每個訓(xùn)練樣本的距離,選擇與待分類樣本距離最小的K個樣本作為y的K個最近鄰;最后根據(jù)y的K個最近鄰判斷y的類別。KNN算法必須明確兩個基本的因素:最近鄰樣本的數(shù)目K和距離的尺度。K表示選擇參考樣本的數(shù)目,距離尺度對應(yīng)一個非負的函數(shù),用來刻畫不同數(shù)據(jù)間的相似性程度。在KNN算法里對于模型的選擇(尤其是K值)往往是通過對大量獨立的測試數(shù)據(jù)、多個模型來驗證最佳選擇。
 ?。ㄈ㎜ogistic回歸模型 Logistic回歸模型是一種非線性概率模型,其因變量是分類變量只有0和1兩個取值。回歸模型可表述為
   p=■
   s=cj+■ckxk
   其中xk(k=1,2...,m)為上市公司信用風(fēng)險評定中的影響變量, cj(j=1,2...,m)為回歸系數(shù),通過回歸或極大似然估計獲得, Logistic回歸值p∈(0,1)為信用風(fēng)險分析的判別結(jié)果。P是的連續(xù)增函數(shù),S∈(-∞,+∞)。并且
   ■p=■■=1
   ■p=■■=0
  對某上市公司i(i=1,2...,n)來說,如果其Logistic回歸值pi接近于0或(pi≈0),則被判定為一類經(jīng)營差的企業(yè),若其Logistic回歸值pi接近于1或(pi≈1),則被判定為經(jīng)營好的企業(yè)。并且pi值越遠離0,表示該企業(yè)陷入財務(wù)困境的可能性越??;反之,表示該企業(yè)陷入則務(wù)困境的可能性越大。
  二、基于決策樹的上市公司信用風(fēng)險評估模型實證分析
 ?。ㄒ唬┲笜梭w系建立 通過綜合考慮信用風(fēng)險的各種影響因素,借鑒我國財政部統(tǒng)計評價司的企業(yè)效績評價指標體系和國有商業(yè)銀行企業(yè)資信評估指標體系以及國內(nèi)外有關(guān)文獻的相關(guān)指標,在分類、匯總、整理的基礎(chǔ)上,同時兼顧數(shù)據(jù)的可獲取性原則和可量化原則,從企業(yè)盈利能力、償債能力、營運能力和發(fā)展能力4個方面,選取了10個財務(wù)指標。
 ?。?)盈利能力指標。企業(yè)獲利能力是企業(yè)信用的基礎(chǔ),企業(yè)只有盈利,才有可能按時償還債務(wù)。本文選取的反映企業(yè)贏利能力的指標有凈資產(chǎn)收益率X1、銷售(營業(yè))利潤率X2。
 ?。?)償債能力指標。償債能力是企業(yè)資信的保證,企業(yè)償債能力如何,通常是評估企業(yè)資信評級最直接的依據(jù),償債能力歸根結(jié)底是企業(yè)自有資產(chǎn)的變現(xiàn)能力。本文選取的反映企業(yè)償債能力的指標有流動比率X3、速動比率X4和資產(chǎn)負債率X5。
  (3)營運能力指標。營運能力分析是對企業(yè)資金周轉(zhuǎn)狀況進行的分析,資金周轉(zhuǎn)得越快,說明資金利用效率越高,企業(yè)的經(jīng)營管理水平越好。本文選取的反映企業(yè)營運能力的指標有總資產(chǎn)周轉(zhuǎn)率X6、存貨周轉(zhuǎn)率X7和應(yīng)收賬款周轉(zhuǎn)率X8。







  (4)發(fā)展能力指標。發(fā)展能力反映企業(yè)未來發(fā)展前景及潛力。本文選取的反映企業(yè)發(fā)展能力的指標有資本積累率X9和總資產(chǎn)增長率X10。
  將上市公司分為兩組,第1組包含ST公司,認為該類企業(yè)具有較大的財務(wù)風(fēng)險。非ST公司作為第2組,認為該類企業(yè)財務(wù)狀況正常。若模型將ST組樣本判為非ST組,則稱為犯第一類錯誤;將非ST組樣本判為ST組,則稱為犯第二類錯誤。
  (二)樣本選取 樣本的選取為兩分類模式,即違約和不違約。將ST上市公司作為財務(wù)狀況異常一類,也即會發(fā)生違約的一類;將非ST公司作為財務(wù)狀況正常的一類,即不會發(fā)生違約的一類。ST公司是指出現(xiàn)財務(wù)狀況或其他狀況異常,導(dǎo)致投資者難于判斷公司的前景,權(quán)益可能受到損害的公司。
  本文實證分析中的原始數(shù)據(jù)來自于色諾芬數(shù)據(jù)庫,隨機選取我國深、滬兩市交易所2009年公布的60家ST公司作為一類經(jīng)營“差”的企業(yè),同時另隨機選取75家不虧損公司作為一類經(jīng)營“正常”的企業(yè)與之相匹配,因此,數(shù)據(jù)樣本集由135家上市公司組成,然后從中任選30家ST公司及38家非ST公司組成訓(xùn)練樣本集,余下的67家公司組成測試樣本集。
  (三)模型構(gòu)造與檢驗 構(gòu)造決策樹,關(guān)鍵是找到樣本空間的最優(yōu)劃分,ID3算法的屬性選擇策略就是選擇信息增益最大的屬性作為測試屬性,從而確定樣本空間的一個劃分。但ID3算法存在著輸出分支多,預(yù)測可靠性性差的問題。C4.5算法從ID3算法演變而來,提出用信息增益比來作為測試屬性選擇的依據(jù),通過大量的實驗測試表明:用C4.5算法構(gòu)造的決策樹較ID3算法的預(yù)測效果有更好的可靠性和健壯性。實驗?zāi)P瓦\用數(shù)據(jù)挖掘軟件WEKA3.6.3,根據(jù)C4.5算法以信息增益比最大為原則選取節(jié)點生成決策樹,如圖1所示。
  最終選出了6個好的屬性作為決策樹節(jié)點,X5為根節(jié)點,也就是資產(chǎn)負債率對于違約和履約分類的貢獻程度是最大的。括號中的數(shù)代表平均有幾個樣本數(shù)據(jù)根據(jù)條件被分到了相應(yīng)的類中,用10 次迭代交叉驗證法來驗證模型的誤差率,驗證結(jié)果如下:
  正確分類的樣本數(shù) 58 86.5671 %
  錯誤分類的樣本數(shù) 9 13.4328 %
  (四)結(jié)果分析 本文運用決策樹模型與Logistic和K最近鄰模型進行了比較分析。從結(jié)果來看,三種模型都具有較好的預(yù)警效果,但相比之下,決策樹模型的總體判定準確率更高,說明決策樹模型對樣本所包含的數(shù)據(jù)信息的學(xué)習(xí)比較充分。作為一種非線性映射,數(shù)據(jù)之間的自相關(guān)性以及個別數(shù)據(jù)的缺失對模型的預(yù)測效果影響不大。因此,決策樹在分析和研究上市公司信用風(fēng)險方面,具有良好的應(yīng)用前景。
  從表中可以看出,決策樹在測試樣本集中的整體準確率(也即預(yù)測準確率) 達到了87%,明顯好于Logistic和K最近鄰模型的78% 。在本實驗過程中,在建立模型時考慮的是整體準確率,從這一角度看,決策樹模型具有一定的優(yōu)勢。從三種模型的結(jié)果中比較,訓(xùn)練樣本第一類錯誤率明顯高于測試樣本的第一類錯誤率。對此問題目前還不能做機理上的解釋,但這種現(xiàn)象恰好是希望得到的。
  通過表1,還可以對模型的魯棒性做一個比較。對于訓(xùn)練樣本集,決策樹的整體準確率是最高的,達到了75%,其次是Logistic模型的74%,效果最差的是K最近鄰模型的66%。在測試樣本集中,準確率(預(yù)測準確率) 都有了不同程度的上升。變化率最大的是決策樹,為12%;其次是K最近鄰模型,為8%;變化率最小的是Logistic,僅為4%??梢钥闯觯谌N模型中,決策樹模型的魯棒性最差,Logistic模型的魯棒性最好。決策樹模型的魯棒性雖然不是最好的,但也保持了一個較好的水平,能夠滿足實際應(yīng)用的要求。
  綜上所述,本文以我國上市公司作為研究對象,以因財務(wù)狀況異常而被特別處理作為界定上市公司陷入財務(wù)困境的標志,采用交叉驗證技術(shù)建立決策樹模型,并與Logistic和K最近鄰模型進行了比較分析。實證結(jié)果表明決策樹模型能有效地預(yù)測上市公司的信用風(fēng)險,且適用性較好。當然,在分析過程中,存在以下有待改進之處,如:以上市公司樣本代替所有企業(yè),可能會造成典型性不強的問題;只考慮財務(wù)因素作為影響變量,未對非財務(wù)因素(如行業(yè)因素、其他宏觀因素)加以考慮。

服務(wù)熱線

400 180 8892

微信客服