
圖|研之有物(資料來源|諾貝爾獎官方資料)
蛋白質如何折疊?攻略藏在序列之中
美國化學家安芬森(Christian Anfinsen)在 1961 年觀察到,即使將一個蛋白質的折疊結構攤平,它還是可以重新折回去本來的形狀。安芬森認為:蛋白質的立體結構完全由胺基酸序列決定。也就是說,只需要知道胺基酸的排列順序(一維),蛋白質就會乖乖折成最後的形狀(三維),不需要其他遺傳資訊。十年後,安芬森獲得了 1972 年的諾貝爾化學獎。
折疊成複雜結構只需要知道序列就好,如此反直覺的結論,當時自然也引來質疑。美國科學家利文索爾(Cyrus Levinthal)在 1969 年計算指出,假設現在有個蛋白質是 100 個胺基酸組成,在隨機折疊的情況下,該蛋白質至少可以有 1047 不同的結構,需要花費比宇宙年齡更長的時間,才能折成正確的結構。但實際上,細胞內的蛋白質只需要數個毫秒的時間,就可以折疊完畢。
如果科學家說的都是真的,也就暗示著:看似簡單的一串胺基酸序列,除了決定結構,同時也隱藏著「如何折疊的方法」!

圖|研之有物(圖片來源|iStock)
諾貝爾化學獎的 AI 時刻
2024 年的諾貝爾化學獎,頒給了運用 AI 技術的生物化學先驅者:貝克(David Baker)、哈薩比斯(Demis Hassabis)與瓊珀(John M. Jumper),以表彰他們在「蛋白質序列設計」與「蛋白質結構預測」的突破。貝克從無到有,創造出全新的蛋白質;哈薩比斯與瓊珀則是運用 AI,破解了蛋白質的折疊祕密。

圖|Wikipedia(Jenny8lee)
上面我們已經知道,胺基酸序列裡面有折疊的 SOP,只要知道這個資訊,就可以預測蛋白質的結構!科學家們為了找出答案,整整花了 50 年左右的時間。
1994 年開始,有個名為 CASP 的蛋白質結構預測競賽,人稱「蛋白質領域的奧運」,每兩年舉辦一次,主辦方會公布胺基酸序列,讓全球頂尖團隊設法用演算法去預測蛋白質結構 。
然而,長久以來,CASP 的預測準確率始終在 40% 左右徘徊,進展緩慢 。直到 2018 年,哈薩比斯入場了。
他曾經是西洋棋神童,也是成功的遊戲開發者,後來成為神經科學家。他創辦了 AI 公司 DeepMind,以 AlphaGo 擊敗了世界圍棋冠軍。對哈薩比斯而言,圍棋不是最終目標,他想用 AI 解決人類的重大科學問題。
2018 年,DeepMind 團隊帶著 AI 模型 AlphaFold 首次參加 CASP13 競賽。結果一鳴驚人,準確率提升到將近 60% 。不過,距離 90% 的實證等級準確度仍有不小的差距,團隊一度陷入瓶頸 。後來,數學物理博士瓊珀加入團隊。瓊珀對蛋白質理論模擬很有興趣,他與哈薩比斯利用 Google Transformer 的架構重新改造出 AlphaFold2。
當 AlphaFold2 收到一串胺基酸序列時,它會先比對資料庫裡面各個物種的相似序列,並且找出曾經發生共同演化的位點,因為這些點很有可能會黏在一起(隱藏的折疊資訊!)。透過這套分析步驟,AlphaFold2 可以預測胺基酸序列的每個位點在空間的相對距離,也就預測了立體結構。
2020 年,脫胎換骨的 AlphaFold2 再次參加 CASP14 競賽 。結果讓整個生物化學界為之震撼:AlphaFold2 的預測準確率達到了驚人的 90% 左右,已經可以和費時費力的 X 光繞射結果相媲美。
CASP 的創辦人當場宣布:挑戰,結束了。

圖|CASP 官網
另一位諾獎得主貝克,他的團隊很早就開始探索蛋白質結構的預測問題,近年還專注在從無到有創造蛋白質。
貝克在哈佛大學原本主修哲學,有次在生物課讀到一本《細胞的分子生物學》(Molecular Biology of the Cell),就此啟發了他,轉身投入研究蛋白質結構。他極具野心,除了想要預測蛋白質結構,還想創造出自然界沒有的全新蛋白質。他說:「如果你想要打造一架飛機,你不會試圖改造一隻鳥;你會開始去理解空氣動力學原理,並從頭打造。」
吳昆峯提到,David Baker 團隊在 1998 年開發出名為 Rosetta 的軟體,套用了種種物理和化學準則(principle)。Rosetta 能夠用一小段已知的蛋白質,搭配能量計算,預測最有可能的折疊結構,但預測效率和普及性沒有 AlphaFold 系列那樣傑出。
不過 Rosetta 有更厲害的地方——設計全新的蛋白質。
2003 年,貝克團隊成功設計和做出蛋白質「Top7」,含有 93 個胺基酸,結構從來沒有人看過,證明人類可以從基礎原理創造人工蛋白質。如今,Rosetta 系列軟體已被全球科學家廣泛使用。吳昆峯表示,近年已應用在抗體的篩選,開發細胞內酵素的新功能,以及阻隔新冠病毒進入宿主細胞等。
2024 年是諾貝爾化學獎的 AI 時刻,AlphaFold 將人類從耗費心力的蛋白質預測問題解放出來,開始思考更重要的問題,例如:訂做自己想要的蛋白質。

圖|貝克實驗室
蛋白質的逆向工程:ProteinMPNN
給 AlphaFold 一串序列,它就能預測蛋白質的立體結構。但是要「設計蛋白質」,我們需要逆向工程:科學家心中已經有理想的立體結構,例如可以精準卡住現有病毒凹槽的形狀,再回推原本的胺基酸序列。
這就是諾獎得主貝克實驗室長久以來的努力目標。
早期的 Rosetta 版本,是依賴能量計算來尋找答案。科學家要手動找出蛋白質上的熱點(hotspots),分析物理特性,再透過分子模擬來猜測:「如果把 A 胺基酸換成 B 胺基酸,結構會不會更穩定?」,嘗試計算出最穩定的序列。
Rosetta 使用的方法,其實就是科學家的循理性法則(rational design),只是更快。吳昆峯有深刻體會:「你必須要很清楚蛋白質的構造,你要去分析它、知道要去突變哪個位置、突變成哪個胺基酸。」 過程非常耗費時間和人力,「我們要走分子模擬去驗證,控制變因,少則數個月,長則需要一年以上才能完成。」
如果可以犧牲一些精準,來換取更高的效率呢?貝克團隊在 2022 年推出 ProteinMPNN,就是客製化蛋白質的高手。
ProteinMPNN 不再一個一個去計算,它是用深度學習將蛋白質資料庫的結構和序列連結起來。使用者只要輸入蛋白質的骨架和幾何特徵,AI 就能在幾秒鐘內以骨架為範本,生成多個可能的序列,而且這些蛋白質的胺基酸序列都可以折疊到跟範本一樣的構型,這是所謂的反向折疊設計(inverse folding design)。
根據貝克團隊在《科學》(Science)期刊的研究,ProteinMPNN 幾乎完勝早期的 Rosetta,設計 100 個胺基酸序列的蛋白質,只需要 1.2 秒,遠遠快於 Rosetta 的 258.8 秒。序列還原度(sequence recovery)也更高,ProteinMPNN 為 52.4%,高於 Rosetta 的 32.9%。
「AI 把我們本來要做的事情都推快很多!」吳昆峯比喻,「有點像之前要花很多功夫在切菜、炒菜,現在就是你把東西(蛋白質結構)丟進去,AI 就炒菜給你了。」「他可以幫你找出哪裡要改,然後改成什麼。」吳昆峯補充道。
ProteinMPNN 還拯救了過去 Rosetta 設計失敗的蛋白質案例,讓許多原本無法結合的蛋白質結構成功表達。

圖|研之有物
客製化蛋白質的未來
AlphaFold 和 ProteinMPNN 徹底加速了結構生物學的工作流程,除了某些特別難做的蛋白質之外,科學家已經可以開始製作自己想要的蛋白質。例如,先將想要的結構丟給 ProteinMPNN,生成數千個可能的序列。然後把新的序列篩選一下,丟給 AlphaFold 驗證,看是否真的能折疊出接近的結構。人工驗證的時間花費大幅降低。
「像我們實驗室那篇《ACS Synthetic Biology》論文」,吳昆峯分享道,「ProteinMPNN 給了我 3000 個可能性,我們不可能去合成 3000 條基因與純化蛋白質,所以我們就設一些條件,篩出 20 個。」
「實作完驗證發現,其實 AI 建議的 20 個裡面只有 4 個比較好。25% 的效率我覺得夠了啦!」吳昆峯笑著說。「因為不用走傳統的設計方式」,他解釋道,「那一步要花兩到三個月以上的工作,可是用 AI 只要兩天就好了,很划算。」
既然有了強大的 AI 工具,在下一篇文章,我們將深入吳昆峯的實驗室,看他們如何探索科學的知識邊界,實際利用 ProteinMPNN 和 AlphaFold,改造細胞的物流加速器(泛素),加快酵素的反應!
註:吳昆峯在訪談中補充道,自從 ProteinMPNN 在 2022 年推出後,研究人員以此為基礎,又開發出三種新工具,分別是:SolubleMPNN、ThermoMPNN 和 LigandMPNN。研究者可以依照不同需求,設計出更符合用途的蛋白質。
- SolubleMPNN 的目標是設計出「不會黏在一起、容易溶解」的新蛋白質。已經整合到 ProteinMPNN 模型中。
- ThermoMPNN 則是讓蛋白質變得更能耐高溫,不容易被熱破壞。
- LigandMPNN 用來幫蛋白質調整它與小分子之間的互動,讓它們「更會抓住特定的小分子」。





