注意!若財報出現這些字,未來財務風險高

什麼是「財務資料分析」?

投資理財除了靠經驗與運氣,能否更科學一點?中研院資訊科技創新研究中心的王釧茹助研究員,與團隊運用機器學習分析財報中的「軟資訊」,找出「特定詞彙的出現」跟「企業財務風險」的關係。
「老實說不想去當資工工程師,覺得財金領域應該比較有趣吧!」因為這個念頭,王釧茹從大學開始投入財務工程:用數學模型及電腦計算資料,解決財務問題。圖│研之有物
「老實說不想去當資工工程師,覺得財金領域應該比較有趣吧!」因為這個念頭,王釧茹從大學開始投入財務工程:用數學模型及電腦計算資料,解決財務問題。
圖│研之有物

若要發行或交易「衍生性金融商品」,例如期貨 (Futures)、選擇權 (Option),往往需要知道其「理論價格」是多少。為此,早期華爾街聘請許多稱為 “Quant” 的人才 ,擁有物理、數學等專業背景,透過電腦計算金融模型,為衍生性金融商品定價、或預測市場行為。

早期的 Quant 是透過「理論」來定價、分析或預測市場行為,現在則引入透過「資料」進入此過程。

最大的不同在於:以往數學模型是依照理論,假設股票遵循某種分配去擬定理論價格,但理論和假設是會改變的;資料分析則基於現實存在的金融資料,有什麼資料、就說什麼話,而這種專業正是王釧茹團隊所擅長──尤其是財務報告中的「軟資訊」。

資料科學家被形容是「21世紀最性感的職業」,華爾街也招募大量的資料科學家,有別以往從「數學理論」解決問題,轉變為用「實際資料」來解決問題。圖│Rawpixel
資料科學家被形容是「21世紀最性感的職業」,華爾街也招募大量的資料科學家,有別以往從「數學理論」解決問題,轉變為用「實際資料」來解決問題。
圖│Rawpixel

會有這樣的轉變,拜賜於電腦硬體的發展、機器學習的進步,也因為大量的資料不斷累積,而美國證券交易委員會 (Securities and Exchange Commission,縮寫 SEC) 更規定上市公司要依規撰寫財務報告,累積了許多格式標準、具豐富資訊、可供分析的財務資料。

財報字裡行間 潛藏企業的情緒

若要簡單說明「硬資訊」和「軟資訊」的差別,「硬資訊」主要為財報或市場資訊中的數字,例如企業的每股盈餘 (EPS) ,多為結構化資料;而「軟資訊」主要是文字資料,例如會計事務所撰寫財報時使用了哪些詞彙,來描述下個年度企業經營的發展方向,多為非結構化資料。

軟資訊,也就是書寫者在特定情境脈絡下,依照判斷、情緒寫下的文字資料。

「2011 年我們看到 Tim Loughran 和 Bill McDonald 的財務情緒字典發表在 《Journal of Finance》,堪稱財務界的《Science》期刊,就知道這是未來重要的趨勢之一!」王釧茹回想,因此和團隊運用這套財務情緒字典,看看後續能進行什麼研究。

Tim Loughran 和 Bill McDonald 將財務領域的用詞分為這六大類情緒,奠定王釧茹團隊的軟資訊分析基礎。 資料來源│Tim Loughran and Bill McDonald, 2011, When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks, Journal of Finance, 66:1, 35-65. 圖片重製│柯旂、張語辰
Tim Loughran 和 Bill McDonald 將財務領域的用詞分為這六大類情緒,奠定王釧茹團隊的軟資訊分析基礎。
圖│研之有物(資料來源│Tim Loughran and Bill McDonald, 2011, When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks, Journal of Finance, 66:1, 35-65.)

用「軟資訊」預測企業財務風險

傳統的財務資料分析領域,許多研究及實務上多傾向分析硬資訊,而王釧茹團隊選擇了分析「軟資訊」的新方向。

10K 財務年報,為企業給美國證管會 (SEC) 的正式財報,內有公司運作狀況的詳細描述。圖│Starbucks
10K 財務年報,為企業給美國證管會 (SEC) 的正式財報,內有公司運作狀況的詳細描述。
圖│Starbucks

王釧茹團隊運用「10-K 財務年報的第七章」,也就是陳述企業管理和未來方向的章節文字,運用該企業未來的「股票報酬波動 (Stock return volatility)」 數據作為風險指標,藉此分析財務報表詞彙與風險的相關性。

「若今天 A 公司股價上漲 70%,隔天突然又跌 50% ,這個報酬波動太大,普遍會被認定為財務高風險的公司。反之,如果公司股價穩定維持高價或低價,就會被視為財務低風險的公司。」王釧茹說明為何會選擇「股票報酬波動」,作為訓練電腦預測未來企業財務風險的資料。

團隊開發的機器學習模型,訓練資料包含 1996-2013 年期間各企業的財務報表,篇數超過萬篇、字數超過十萬字,而資料變數高達好幾萬維度,有別於過往的統計分析難以處理超過二十維度的變數。

電腦分析某企業的年報後,接續分析後十二個月該企業的股票報酬波動,訓練電腦自動找出「財報詞彙」與「未來財務風險」的關係。時間點依各企業發表年報的時間而有所異動。圖│研之有物(資料來源│王釧茹提供)
電腦分析某企業的年報後,接續分析後十二個月該企業的股票報酬波動,訓練電腦自動找出「財報詞彙」與「未來財務風險」的關係。時間點依各企業發表年報的時間而有所異動。
圖│研之有物(資料來源│王釧茹提供)

財報看到哪些字要注意?

王釧茹團隊研究發現,財報中出現 default 這個單字,跟該企業後續的財務風險高度相關。你可能會疑惑, default 不是「預設」的意思嗎?其實在財務報表中, default 是「違約」的意思,像是 2008 年金融危機前大受歡迎的金融商品「信用違約交換」就稱作 Credit Default Swap 。

圖中圓圈越大,代表該單字與財務風險越具正相關性。(單圓框為只透過財報中六大情緒詞分析的結果,雙圓框為運用財報所有單字分析的結果)圖│On the Risk Prediction and Analysis of Soft Information in Finance Reports
圖中圓圈越大,代表該單字與財務風險越具正相關性。(單圓框為只透過財報中六大情緒詞分析的結果,雙圓框為運用財報所有單字分析的結果)
圖│On the Risk Prediction and Analysis of Soft Information in Finance Reports

王釧茹團隊分析發現, sureti 擔保、delist 赤字、forbear 隱忍,這些字與財務風險高度相關。而 amend 這個字是「改變」的意思,一般用在企業通過法律程序的某種修改行為,若在財報中高頻率出現,也能聯想到公司經營管理常常改變所帶來的風險。

但你可能會好奇,為什麼 nasdaq 跟財務風險竟然也有這麼大的關係,而且還被分類成負面情緒的字?

為了找出答案,王釧茹團隊亦開發 FIN10K: Financial Reports Analysis 平臺,用以查找財報原始資料、分析上下文,發現財報中 nasdaq 常被隨著 delisting 出現,delisting 為「除名」,兩個字組合一起在金融界為「退市」的意思,也就可以理解當 nasdaq 這個字出現,會跟財務風險高度相關。

出現 Nasdaq 單字的企業財報,多為高風險等級 (RR5 或 RR4,後方括號內的百分比數值為股票報酬波動)。找找看, Nasdaq 常伴隨著 delisting 出現。圖│FIN10K: Financial Reports Analysis
出現 Nasdaq 單字的企業財報,多為高風險等級 (RR5 或 RR4,後方括號內的百分比數值為股票報酬波動)。找找看, Nasdaq 常伴隨著 delisting 出現。
圖│FIN10K: Financial Reports Analysis

另外一個有趣的發現,unsecured note 也就是「未擔保債」,雖然字面看似負向,但若出現在財務報表中,代表該公司的財務狀況較佳、可被信任,才能發行未擔保的債,未來的財務風險也相對較低。

這樣的軟資訊分析模型,將有助銀行改進信用風險評估、或幫助投資者設計投資策略。

王釧茹強調,這項研究並非為了取代現有的金融預測模型,而是讓業者或相關機構在現有的金融預測模型之外,能有多一項「軟資訊情緒用詞」優化評估指標。

除了財報,電影也能分析

除了分析財報資訊,王釧茹團隊藉著文本分析的相關技術,在最新一篇 SIGIR 2017 的研究中運用文字資訊進行了物品(如:電影)與相關概念的建模。

其中,王釧茹團隊將建模後所得之電影資訊、和 IMDB 的評論文字之高維度向量,轉換投射至二度平面後,在以下展示平臺中會看到「太空」、「外星人」等單字跟「科幻電影」的散佈位置相近,而「動作電影」則跟「軍隊」、「特工」等單字散佈位置相近。此模型可運用於推薦及資訊檢索的相關應用。

李連杰主演的《精武英雄》屬於動作電影,旁邊相近的單字有 army, fighting, people 。圖│ICE: Item Concept Embedding @ SIGIR2017
李連杰主演的《精武英雄》屬於動作電影,旁邊相近的單字有 army, fighting, people 。
圖│ICE: Item Concept Embedding @ SIGIR2017

問目前有和金融業界合作嗎?

答我們研究團隊(與臺大陳宏銘教授、中研院楊奕軒研究員、政大蔡銘峰老師)目前跟國泰金控有一個四方的產學計畫,主要是做 Customer Journey (顧客歷程)分析,運用顧客曾申辦信用卡、購買相關產品等去識別化資料,預測未來可能的消費行為、投資偏好等。

可以感覺到現在台灣金融業對於 FinTech (金融科技)蠻積極,不過礙於企業內部的資料歸屬、政府的法規限制,時常造成相關資料無法整合、因此無法進行後續分析或運用。

許多國外金融機構在規劃各部門資料整合、開放匿名資料相對完善,因此有利於後續的研究與應用,這是台灣現在需要盡快優化的地方。

2017-10-31

採訪撰文|柯旂
美術設計|張語辰

延伸閱讀

訂閱電子報

立即訂閱研之有物電子報,一起探索這世界