您畢業於醫學院,為什麼沒當醫師,而是研究統計?
我讀大四的時候,人類基因被解碼出來,大家就在討論下一個世代的醫學和生物研究要做什麼。當基因的資料量變大,就不太可能用傳統一個分子、一個基因的方法來看,那時候覺得「量化」的訓練可能是我以後需要的,而且我本身也對數學有興趣。
其實,醫學存在大量的「不確定性」,例如,同樣的醫師看病,給 A 病人吃這個藥可以康復,但 B 病人吃同樣的藥卻不會好。換句話說:
醫學體現了不確定性,而統計學是用來研究不確定性。
研究生物統計,要特別注意什麼?
要注意「相關性」和「因果關係」不能混淆。舉個例子,如果有人發現「吃冰淇淋」和「被鯊魚攻擊」的次數呈現正相關,如下圖所示:
可能有人看了這個資料,會下一個結論:吃冰淇淋會導致你容易被鯊魚攻擊。但真的是這樣嗎?其實影響這兩者的原因是「夏天」。因為夏天人們喜歡吃冰淇淋,而夏天人們也喜歡去海邊,導致被鯊魚攻擊的次數提高。
這個例子可以用常識判斷,但生物和醫學研究不太能只靠常識。如果沒有區別「因果關係」和「相關性」的差別,有時會產生一些嚴重的後果,關係到病人的生存。
如何確認「因」和「果」的關係?
以醫學來說,疾病都會有一個病程,通常我們知道開頭和結尾,但不知道中間發生什麼事。
舉個例子,若我們要研究「抽菸」透過改變身體什麼機制導致「肺癌」,就能藉由因果中介模型解釋因和果中間的機制,找出肺部的腫瘤是如何發生。(註二)
疾病的過程常常是一個黑盒子。站在醫生的角度,通常只知道疾病的因和果,但若疾病的「因」是沒辦法被改變的,這樣對病人一點幫助也沒有。這種情況下,我們若能找出「中介因子」,就能透過追蹤或調節中介因子,來避免或降低疾病「結果」發生的可能性。
像是「肥胖」也能找出中介因子嗎?
肥胖的原因有很多,其中一個是:在美國已經知道「小時候家裡社經地位低」和「長大後過胖」這兩者的關係是確立的,但不知道中間的機制。我們用因果中介模型分析發現,其實這中間可能是受到基因甲基化的影響。
基因是與生俱來的,一般來說基因序列不會改變,可是每個基因的表現量會不一樣。就像鋼琴鍵盤順序不會變,但各個琴鍵可以彈出不一樣的大小聲。而甲基化的意思,就是環境因子會影響基因表現量。
我們從受試者的臀部,以 FNA (細針抽取細胞檢查)抽取脂肪細胞,作為分析基因的資料。的確發現,脂肪細胞裡一些基因的甲基化,參與中間的間接作用。也就是說,家裡社會經濟地位低,會導致脂肪細胞某一些基因甲基化的程度不太一樣;這些不太一樣的程度,可能進而導致成年時候肥胖。(註三)
窮困家庭能吃飽就不容易,很難注重健康。家裡大人如果吃得不健康,小孩也會跟著吃,這個環境因素會影響下一代。因為吃的東西,會記憶在基因裡面,透過改變脂肪細胞一些基因的甲基化程度,造成長大後容易肥胖。不過,這些是以美國人為受試對象的研究,我們需要臺灣族群的研究,來了解目前臺灣人口肥胖的問題。
還有一個常見的因果關係:喝酒容易臉紅,易罹肝癌嗎?
喝酒容易臉紅的人,是因為肝臟代謝乙醛的基因有缺陷,導致身體缺乏解酒酵素 (ALDH2) 。這個基因缺陷,通常會讓這個人變得比較不喜歡喝酒,因為會臉紅、起酒疹、不舒服。不喝酒的話,「間接作用」就會保護肝臟。
可是另一方面,不容易代謝乙醛的基因,影響的不只是喝酒的行為,也會造成肝臟代謝毒物的效用不佳。你帶著一個有缺陷的基因,導致毒物無法代謝、累積在肝臟,這「直接作用」會對肝臟產生危險性。
與陳建仁老師和楊懷壹老師合作,我們用因果中介模型,來看這兩個機制的交互作用,發現最後對肝臟的正負作用會相互抵消。也就是說,喝酒容易臉紅的人,透過「不喝酒/肝臟易累積毒物」這兩個機制並存、相抵,不會對肝臟造成顯著的罹癌風險。(註四)
研究過程中,有沒有遇到什麼困難?
就是……數學算式推導不出來,呵呵呵。有時候回到家會跟太太說:「我今天又把一個題目做死了。」統計學和其它領域一樣,學術研究大部分的時間都是在面對挫折。
想要特別說明的是,很多人認為因果推論是發展一個統計模型,證明 A 和 B 是因果關係。其實這是誤解,我們做因果推論,其實花很多時間在探討什麼「不是」因果關係。生活上常常要用消去法,因果推論也是。
研究上常有的合作模式是,我們先把「因果中介模型」推導出來,合作對象讀了論文再來找我們,希望用這個統計模型回答他們的問題,找出影響病程的中介因子。我們也會和醫師合作,運用去識別化的病歷和健保資料來分析。
如果物理學家真的發明時光機,我可能就失業了。
如果人生可以重來,就能比較同一個人這輩子有抽菸、另一輩子沒有抽菸,導致肺部腫瘤的過程機制。但因為時光機還沒被發明出來,我就可以繼續做這門統計研究。