【生資無價系列專題】- 從PrecisionFDA 的 TMB Challenge 一窺癌症基因檢測的挑戰

A-Tsai
19 min readDec 13, 2021

--

圖一、駭客攻擊可能的途徑 [1]

網路駭客攻擊事件每天都在發生,駭客透過各式各樣的手法與漏洞進行滲透攻擊(如圖一所示),假裝是你認識的好友、同事、長官或客戶,透過網路社交攻擊、電子郵件附帶病毒檔、釣魚網站、USB 自動開啟功能、DDoS、勒索軟體、、、等,就連美國最安全的五角大廈也會被攻陷 [2]。

同樣地,癌細胞也是透過各式各樣的方法在體內進行滲透與轉移(如圖二所示),假裝成正常細胞,逃避白血球的偵測及阻斷細胞凋亡,進而在我們體內快速增生並轉移到其它器官。

圖二、癌症共同特徵 (Hallmarks of Cancer) [3]

雖然五角大廈安裝了各式各樣的防毒軟體與設備,並且聘請眾多網路安全工程師進行監控與偵測,終究還是會被駭客偷偷地溜進來竊取國家機密。當得知被攻陷時,就要進行 Digital Forensics and Incident Response (DFIR) [4],了解駭客是透過那個系統或漏洞入侵進來五角大廈的,才能知道接下來如何防禦。

我們的身體就如同五角大廈,癌細胞就如同駭客,而做基因檢測就像做 Digital Forensics 一樣,醫生採取的治療方式就像是 Incident Response 。

本文將以 PrecisionFDA 最近舉辦的 Tumor Mutational Burden (TMB) Challenge 為例,來說明目前癌症檢測的挑戰與未來發展。

PrecisionFDA

precisionFDA [5]是由美國 FDA 因應美國前總統歐巴馬於 2015 年啟動的「精準醫療計畫 (Precision Medicine Initiative) [6]」所架設的基因體研究雲端平台。在這平台上,來自全球的研究團隊可以自由分享資料與交流研究心得;同時,precisionFDA 主辦單位會根據目前基因檢測時所遇到的各式各樣難題不定時地舉辦比賽,並讓參賽者可以驗證自己所採用的分析策略與生物資訊軟體的效能與正確性。

圖三、PrecisionFDA Website [5]

例如2021年5月舉辦的第二屆基因變異點偵測比賽(precisionFDA Truth Challenge V2) [7],PacBio HiFi 定序結果與 Google DeepVariant 分析軟體的組合得到最好的成績,詳細的比賽說明可以參考 [8]。

腫瘤突變負荷量 (Tumor Mutational Burden, TMB)

在精準醫療的推進下,伴隨式診斷的癌症治療可以針對基因變異而給合適的藥物,提高治癒率和存活率。如黑色素瘤的 BRAF V600E [9]、非小細胞肺癌的 EGFR exon 20 變異 [10]、乳癌的 ERBB2 Duplication [11] 、、、等。但實務上卻遇到很多癌症患者產生的基因變異不在己知的Hotspot 基因上,所以科學家們就發展出其它 Modeling 癌症的方法,如 Microsatellite Instability (MSI)[12]、Mutational Signature (對此議題有興趣的人可以參考長庚大學黃柏榕教授的 mSignatureDB )[13]以及本文想要介紹的重點腫瘤突變負荷量 (Tumor Mutatonal Burden, TMB) [14]。

腫瘤突變負荷量(TMB)為近年來預測及診斷免疫療法反應的新寵兒[15],其定義是在腫瘤的基因外顯子編碼區的每一兆鹼基中,發生置換和插入/缺失突變(非同義突變)的數量。簡單來説,就是腫瘤細胞 DNA 平均有多少突變。不是每種癌症都可以依照 TMB score 的高低來採取合適的治療方式,如下圖四所示,大多數黑色素瘤患者的 TMB score 都偏高,而大多數的 ALL/AML 患者的 TMB score 都偏低。

圖四、30種不同癌症的 TMB score 分佈 [16]

使用全外顯子定序(whole exome sequence, WES) [17]可以獲得 TMB score,但基因檢測公司為了成本考量,只會針對特定的致癌基因來進行定序,如 Foundation Medicine 的 FoundationOne CDx [18] 就是只針對 324 個與癌症發生相關的基因,而非 WES 所包含的 2 萬多個基因,也就是從 1~2% 的基因來預測整體基因體的變異狀況。在 the Friends of Cancer Research TMB Harmonization Project [19]主導下,各家檢測公司的 TMB相關產品可以有一個公平比較的平台,下圖五是其 Phase II 最新發表的論文 [20],有16家檢測公司或實驗室的檢測產品,表中第一家 ACT 即為國內癌症基因檢測龍頭行動基因 [21] 的 ACTOnco+ 包含 440 個基因並使用 Ion Torrent 平台進行定序。

圖五、參與 TMB Phase II 檢測的 16家單位及其產品規格 [20]

TMB Challenge

這次precisionFDA 舉辦的 TMB Challenge 分成兩個階段,但兩個階段是各自獨立的,也就是可以只參加第二階段的比賽。

第一階段 (Phase I)

主辦單位給10個 WES 的 bam 檔[22],要求參賽者找出每個樣本中的所有變異點,並標註是 Somatic 還是 Germline Variant,也可以只針對 Somatic Variant 的部分回報,最後還需要提供每個樣本的 TMB score。而 WES 是採用 Agilent SureSelect v6 capture library kit,bam 檔是用 UCSC HG19 的 Reference 做 Alignment。

第二階段 (Phase II)

主辦單位很貼心地又把它分為 Training Phase 和 Validation Phase [23]。

在 Training Phase 中,主辦單位一樣給 10 個WES的資料,但這次是給 VCF 檔和其 TMB score。另外,主辦單位提供三種由小到大的 Panel BED 檔給參賽者來進行模型訓練,同時也對要拿來計算 TMB score 的 Somatic Variant 進行定義(如下圖六),讓大家不會因為定義不同而產生偏差,影響最後的結果。

圖六、TMB score 計算標準 [23]

在 Validation Phase 中,主辦單位給 29 個樣本的 VCF檔,每個樣本分別是使用官方規定的三種 Panel 的其中之一,當然也有給其對照表。在這階段,參賽者只要將自己訓練出的模型針對這 29 個樣本所預測的 TMB score 上傳即可。還有,評量方式是使用 RMSE 和 TMB-High/TMB-Low ( 以 10 為界線)來評估模型的效能。

參賽策略

第一階段 (Phase I)

針對本階段的需求,其實只是要找看看那個 Variant Caller 比較合適這組 WES data。因為同時要看 Somatic 和 Germline 的變異,所以我打算用在 Machine Learning 中常用的 ensemble 手法,雖然有些 Variant Callers 就可以同時提供 Somatic 和 Germline 的變異(如 Illumina 的 Pisces [24])。利用我們公司所開發出來的基因體大數據分析平台,我打算同時使用 4 個不同的 Variant Callers,針對 Somatic 變異使用 Pisces [24] 和 Mutect2 [25] ,針對 Germline 變異使用 DeepVariant [26] 和 GATK HaplotypeCaller [27]。至於為什麼採用這個策略,可以參考我幾年前寫的這篇文章:

接下來要決定的是採用什麼樣的策略來玩這些資料,也就是要怎樣決定一個變異點是不是真的變異,還是只是假訊號而己,是要 Majority vote 還是要依照某些 Priority 。另外,每個變異是 Somatic 還是 Germline,是否要使用一些 QC metrics 來做 Filtering,最後得決定是衝 Recall 還是顧 Precision。

初步看完資料後,決定採用以下的策略:

  • 沒 Ground Truth,所以不要用人工智慧,改用工人智慧;
  • Recall 重於 Precision;
  • Somatic 重於 Germline;
  • 不做任何 Filtering,Filter欄位沿用原本的數據;
  • Priority:Pisces > Mutect2 > DeepVariant > HaplotypeCaller;

採用這些策略並沒有任何依據,單純只是憑直覺,因為這是我的 Pet Project,只能在週末陪小朋友玩的空檔來做實驗、玩資料、分析結果,又因為比賽截止時間快到了,時間不夠下只好硬上。

第二階段 (Phase II)

在本階段,一開始就有參賽者特別詢問主辦單位是不是只能用主辦單位給的10筆資料來訓練,主辦單位回說:「不限」。

所以這階段會是一場不公平的比賽,也就是有這類定序資料的人比較有利,而我手邊並沒有任何有用的數據可以派上用場,所以只好回到主辦單位給的資料來想辦法。

一開始當然先查一下相關文獻,2017 年這篇發表在 Genome Medicince 的論文[28],分析 10 萬個樣本及超過 100 種不同癌症後,觀察到以下的現象:

圖七、WES 與 Targeted Panel 的 TMB score 相關性 [28]

很明顯地,它們有 Linear Correlation,所以一開始也打算用 Linear Model 即可。然而,在分析完 10 個 training phase 的 VCF 和 29 個 validation phase 的樣本後發現其中有鬼,首先是這10個 Training dataset 的變異數分佈:

圖八、10 Training samples 的變異數

我試著依照主辦單位給的過濾原則(如圖六),但卻無法完整還原出其原本的 TMB Score,雖然 Correlation Coefficients 高達 99.3%。不過,因為時間的關係,也只能先這樣,繼續往前推進。

接下來試著用以往的經驗來做 Feature engineering,但卻觀察到一個有趣的現象,他們的值域根本就不一樣。如下圖九:

圖九、Feature Profiling of Training and Validation dataset

我合理的懷疑裡面有鬼,可能是:

  • Training dataset 和 Validation dataset 是用不同 Caller 產生出來的;
  • Training dataset 和 Validation dataset 是用不同 Library kit進行定序或不同 Platform 或不同定序深度;
  • Training dataset 和 Validation dataset 是不同癌種;

總之就是直接拿 Training dataset 來訓練,結果一定爛掉。但我又沒有其它資料可以訓練,所以不能走常規的作法。

因為觀察到 Validation dataset 普遍比 Training dataset 有更多的變異,所以我做了幾下幾個動作:

  • 補一些極值,也就是偷看 Validation dataset,試著創造出一些超大 TMB score 的樣本數據;當然,也有產生超小 TMB score 的樣本數據;
  • 不要跟大家用 Linear Model,所以直接選用 libsvm [29] 的 epsilon-SVR 來亂搞;
  • 因為上面的亂搞,搞到 Training 不出好結果,所以只好繼續在樣本這邊動些手腳,試著讓預測出來的結果不會爛掉。(爛掉的意思是不管給怎樣的樣本,它預測出來的 TMB score 總介在 6~8 之間。)

本來想說還有2個星期的時間,等有空再來改一下;怎知那時手邊多了幾個專案且時程都很趕,最後根本沒時間再試其它方法,只好這樣就硬得頭皮上傳結果了。可想而知,結果應該很慘,我也做好心理準備,只是想看看別人是怎麼做好的而己。

比賽結果與賽後分析

上週突然收到某位好友的電子郵信,說 TMB Challenge 結果公佈了,而且看到我的名字有列在上面[30]。看了一下結果,果然如預期,第二階段的 TMB Estimation 根本排不上排名。但比較好玩的是,我之前的策略奏效了,也就是「衝 Recall 而不顧 Precision」的作法,讓我在 「Hidden Treasures (Most Systhetic Variants Discovered)」得到金牌。另外,在「 Germline Variant Calling」中得到銅牌,不過,這應該只能說是 DeepVariant + GATK 很厲害而己,並不是我有什麼特殊的方法。

圖十、Result of PrecisionFDA TMB Challenge [30]

由於主辦單位沒有公佈大家在資料上傳時要順利描述一下自己作法的內容,所以也不知道得獎者的方法,但觀察到:

若想得到好的 「TMB Estimation」,必須「Somatic Variant Calling」得做得好才行。

這算合理,但應該還有更多的內幕才是,只是目前主辦單位還沒有公佈更多的細節。

小結

大家可以多多關注 precisionFDA 的動態,了解 FDA 在推展精準醫療時所遇到的挑戰與對 Bioinformatics 的期待。更鼓勵大家多多參與 precisionFDA 辦的 Challenge,藉此來練功增進自己的能力。

圖十一、precisionFDA CDRH Biothreat Challenge [31]

不確定之後會有更多的細節公佈,像之前參加的 precisionFDA CDRH Biothreat Challenge [31](如上圖十一),也是公佈成績後就沒有後續了,除非是主辦單位或參賽者想做論文發表,才有機會看到更多的細節公布。雖然我們在那次比賽也拿到很多項目的排名,但老實說,我總共上傳了十組結果,主要是想測試那個方法比較好,然而主辦單位也沒要求我說明每個結果所使用的方法。

不過,這次 TMB Challenge 主辦單位規定每位參賽者只能上傳一組結果,所以我沒辦法測試不同的方法。只能說我賭到第一階段,但第二階段就完全賭錯了,也就是因為「自己沒資料」這件事一直掛在心上,因為沒自信心就亂搞一些小動作,犯了一些沒經驗的Machine Learning engineer 常會犯的錯。

最後想分享的參賽心得是:

遇到新問題時,還是要多看論文打好基礎,千萬別自以為是!一切還是得以數據為依歸。

癌症基因檢測的挑戰

由 the Friends of Cancer Research TMB Harmonization Project 最新發表的 Phase II 論文中可以看出一些端倪,圖十二是論文中把 16 家檢測廠商和實驗室的結果,請問大家看得出來那一家比較好嗎?

圖十二、TMB score across panel assays [20]

根本看不出來,為什麼 precisionFDA 辦的 TMB Challenge 可以分出每個方法的好壞,但這篇論文卻很難呢?猜測應該是有某有力的廠商因為結果不太好而強制主導改成這樣的,至於細節要請大家從 Supplmentary files 中一探究竟了,只能說 FDA Approval 並不是準確率的保證。

同時,我們該思考的是以 TMB score 來辨識癌細胞的特性是否足夠,尤其以 TMB Score 為 10 當 Threshold一刀兩斷的分類方式。

駭客會因為我們的防禦措施而持續改變策略,同樣地,癌症也會隨著我們的診斷或用藥而持續𧗠生新型變異。所以,身為 Bioinformatican 的責任應該是建立系統性的方法來分析癌症病患因標靶用藥但預後仍效果不佳的基因特徵,設計出合適的 Modeling 方式,提供醫生及科學家們分析基因資料更多有用的分類方法,才有機會扺抗持續快速變異的癌症。因此,希望有志對抗疾病的資料科學家和軟體工程師們一起投入這個以基因型優先的精準醫療領域(Genotype-First Precision Medicine),更希望對臨床大數據分析平台有興趣的人可以一起加入亞大基因的行列。

參考資料

[1]https://image.freepik.com/free-vector/hacker-isometric-illustration_1284-19636.jpg
[2] https://technews.tw/2020/12/18/us-government-agencies-were-hacked/
[3]https://doi.org/10.1016/j.cell.2011.02.013
[4]https://www.crowdstrike.com/cybersecurity-101/digital-forensics-and-incident-response-dfir/
[5]https://precision.fda.gov/
[6]https://obamawhitehouse.archives.gov/precision-medicine
[7]https://precision.fda.gov/challenges/10
[8]https://www.blossombio.com/eNews/20201102/index.html
[9]http://jtp.taiwan-pharma.org.tw/132/004.html
[10]https://geneonline.news/first-egfr-exon-20-target-drug/
[11]https://www.canceraway.org.tw/page.asp?IDno=1131
[12]https://hlm.tzuchi.com.tw/mt/index.php/item/2019-03-16-06-47-24/761-item-microsatellite-instability-detection
[13]http://www.tbi.org.tw/enews/TMBD/Vol19.html
[14]https://geneonline.news/tmb-predicts-survival-after-immunotherapy-across-multiple-cancer-types/
[15]https://www.actgenomics.com/blog_detail.php?id=8&page=6
[16]https://pubmed.ncbi.nlm.nih.gov/30792906/
[17]https://unclegene6666.pixnet.net/blog/post/351067985-%E7%B0%A1%E4%BB%8B%E4%BB%80%E9%BA%BC%E6%98%AF%E5%85%A8%E5%A4%96%E9%A1%AF%E5%AD%90%E5%AE%9A%E5%BA%8F%28whole-exome-sequence%2C-wes%29
[18]http://www.vitagenomics.com/portal_c2_cnt.php?owner_num=c2_271237&button_num=c2&folder_id=14421&chbib_buy_look=
[19]https://friendsofcancerresearch.org/tmb
[20]https://www.annalsofoncology.org/article/S0923-7534(21)04495-1/fulltext
[21]https://www.actgenomics.com/
[22]https://precision.fda.gov/challenges/17
[23]https://precision.fda.gov/challenges/18
[24]https://github.com/Illumina/Pisces
[25]https://gatk.broadinstitute.org/hc/en-us/articles/360037593851-Mutect2
[26]https://github.com/google/deepvariant
[27]https://gatk.broadinstitute.org/hc/en-us/articles/360037225632-HaplotypeCaller
[28]https://pubmed.ncbi.nlm.nih.gov/28420421/
[29]https://www.csie.ntu.edu.tw/~cjlin/libsvm/
[30]https://precision.fda.gov/challenges/18/results

--

--

A-Tsai
A-Tsai

Written by A-Tsai

Practitioner of Multi-Party Computation

No responses yet