2013年安潔莉娜裘莉藉由基因檢測得知帶有家族性乳癌遺傳變異,所以選擇進行預防性雙乳切除手術 (Preventive Double Mastectomy),以便讓她的乳癌風險指數從 87% 下降至 5%。之後,她決定在 New York Times 上公開發表她的心路歷程 [1],為了是讓更多女性知道有其它的選擇來面對癌症。(若讀者想對乳癌 BRCA1/BRCA2 基因有進一步認識的可以參考這篇台灣癌症基金會的文章[2]。)
整個事件到此好像就結束了,所以基因檢測報告說沒問題,是不是就不會是乳癌的高危險群呢?
目前基因檢測的市場就像是開牛肉麵店,菜單上有紅燒、有清燉,有半筋半肉、有三寶,有粗麵、細麵等選項讓顧各挑選,服務流程為
顧客點餐 => 廚房上菜 => 顧客吃完 => 顧客結帳
有些麵店因人手不足,傾向點餐時順便結帳,所以流程簡化成:
顧客點餐/結帳 => 廚房上菜 => 顧客吃完走人
有些麵店支援加麵、加湯的服務,但程序上略有不同,如新店碧潭附近的 珍香牛肉麵食館 是我家小朋友最喜歡吃的牛肉麵店「註一」,老闆支援免費加麵加湯一次; 而在我家附近 富市日本拉麵 只支援點餐時選擇要不要加麵的服務,若你吃到一半覺得還沒飽說要加麵,老闆會說不支援此功能!「註二」
基因檢測的基本流程如下:
顧客選擇檢測項目/結帳 => 檢驗中心抽血/上機/出報告 => 顧客拿報告走人(或由基因醫師諮詢師協助檢測報告內容解讀)。
乍看之下,基因檢測如同去麵店吃麵一樣單純,所以吃麵和基因檢測應該同屬「一次性服務」。所謂的一次性服務就像物品買賣一樣,銀貨兩訖。也就是某人很喜歡吃某一家麵攤,中餐點一碗麵吃,晚上又再去吃一碗,這樣算是二個事件,所以總共收二碗麵的錢,雖然是同一個人對到同一家麵攤。從來沒遇過有人中餐在麵攤吃完走人後,等晚上肚子餓時又回到麵攤說要為中午那碗麵免費加麵加湯的吧!
但是,「一次性服務」真的適合基因檢測產業嗎?不合適的商務模式,可能會讓基因檢測的「未檢出」像最近火紅的宇宙黑洞一樣被吸進去就永遠出不來了。
在討論這個問題前,我們必須先把場景從「牛肉麵店」轉到「食安問題」上。台灣歷經多次食安事件 [3],每當事件發生時,總是會成為新聞頭條,然後開始追殺黑心廠商,最後事件判決總是高高舉起,輕輕放下,如鹹酥雞摻工業用碳酸鎂、手搖飲料店的茶類飲料殘留農藥、機械潤滑油塗抹包子、雞蛋檢出芬普尼、鹹鴨蛋檢出蘇丹紅等。譬如檢查果菜是否有農藥殘留,就會將樣本送去有合格認證的檢測中心。若檢測通過時,檢測報告上都會標示「未檢出」而非「零檢出」。大家預期某些致癌物本來就不該在食品中,所以報告要以「零檢出」呈現。不過,要求「零檢出」實務面來講不太可行[4],主要原因是各類檢測儀器通常都有其敏感極限值,也就是少於這個數值的農藥殘留是檢測不出來的,所以專業的報告會以「未檢出」的字眼來呈現檢測合格。如圖二所示,針對某位農民生產的玉女番茄進行基本 374 項農藥殘留檢測的報告結果是「未檢出」。另外要注意的是,這個檢測只代表這個農產品對這己知的「這 374項農藥」殘留沒有超過標準,是不是有未知的「第 375 號農藥」則不得而知。
簡單地說,任何檢測都可能會出錯,未能檢測出農藥超標的農產品可能原因如下:
- 樣本採集
- 檢測儀器的硬體限制
- 分析工具的能力
然而,對民眾健康的最大威脅應該算是不在己知的檢測項目中未知的致癌物,因為它根本不在檢測項目中,更不用說它的量是否有超標與否。
介紹完「未檢出」和檢測錯誤的可能因素後,我們再回到先前討論的問題:
「一次性服務」真的適合基因檢測產業嗎?
對應農藥殘留檢驗的未檢出可能出錯,基因檢測也面臨相同的問題,以次世代定序技術 (Next-Generation Sequencing) 為例,出錯的可能原因有:
- 樣本檢體送驗過程發生調包、變質、污染(Contamination)
- DNA/RNA 萃取及建庫過程操作失誤
- 定序機器的硬體錯誤 (e.g. 每條 Lane 上的 reads Quality 很差)
- 醫學及變異點資料庫的錯誤
- 資料處理與分析工具的限制 (e.g. 不同版本的分析工具及其參數設定)
- 最後變異點的整體判讀依據標準不一
本文針對最後三項來分別討論。
醫學及變異點資料庫的錯誤
簡單地說,雖然目前醫學累積的知識對人類基因體的所知仍有限,但各種新技術 (e.g. CRISPR、Barcoding、Single Cell 以及第三代定序等)的發展加速人類對基因體的解密,所以相關的基因體醫學知識正快速累積中,也就是對疾病與基因體上致病點的因果關係持續增加,甚至半年前做的分析跟現在重新分析會得到完全不一樣的結果,一部分的原因就是來自參考的文獻資料庫不斷地更新。如圖三和圖四分別列出最常被使用的變異點資料庫 Catalogue Of Somatic Mutations In Cancer (COSMIC) 在 2017年到2019年的收錄資料的統計數據,兩年間更新了 8 個版本,有趣的是樣本數從 1,277,466 成長到 1,411,706 (增加10.5%),但 Copy Number Variants (CNV) 數量卻從 1,308,452 下降到 1,179,545 (下降 9.8%),由此可以看出這些基因體醫學資料庫更新的速度,可見使用不同版本的資料庫對基因檢測報告的影響有多大。
這些所謂的醫學知識有個好玩的現象如同「小時候胖不是胖」這句俗語一樣,也就是以前文獻所發表的致病點很有可能被推翻。因為醫學研究持續進步中,以前受制於用舊的檢測技術或只有少量的樣本而找到的致病點,可能因為各國正積極建立大量的人類全基因體資料庫所累積的數據而被推翻(如英國的 UK Biobank 最近公開 50 萬人的全基因體資料[5] 、 gnomAD 收錄了125,748 WES 和 15,708 WGS [6])。今天剛好在 Genetics In Medicine 上有篇文章[7] 針對 BRCA1/BRCA2 上的變異點在 2012 到 2017 年間找到 1209 個變異點中,竟有 150 個 (12.4%) 變異點的致病性在短短5年間被重新定義,雖然大部分是被修正成無害 (Benign or Likely benign),但可能因為這樣讓醫生或受試者做出不能捥回的決定了。除此之外,還有另外一個嚴重的象現是很多變異點和疾病資料庫存在的錯誤資料,錯誤的原因有可能因為 Genome Reference 改版或當初收錄的文獻格式錯誤所致。例如有研究指出將近 20% 的基因體相關文章出錯來自於 Excel 的自動格式轉換功能[8]。
但這些醫學及變異點資料庫的問題到㡳影響最後檢測的結果有多嚴重呢?去年 Wright et al. 發表在 Genet Med. 的論文 [9]提到在 2014 年分析 1133 個小朋友的 WES約有27%的檢出率 (Diagnostic yield) ,如今重新分析比較後發現檢出率提升了13%左右。這些新發現主要歸功於兩大因素,除了本節討論到的變異點資料庫持續更新外,另外一個因素就是下一節要為大家介紹的「資料處理與分析工具的限制」。
資料處理與分析工具的限制
以 NGS 的定序資料來說,要分析一個 30X 的 WGS sample 的單點變異和小片斷變異 (SNP & Indel) 的最常使用的分析流程是 Broad Institute 的 GATK Best Practice, 可以將定序資料(FASTQ格式)處理分析出變異點資訊 (VCF格式)。光 GATK 這個工具,平均一年更新一版,除了程式碼大幅變動外,每一版都有在流程上或架構上的改變,對最後變異點的偵測更是有不小的影響。如圖五是 GATK 2.x 和 3.x 針對 N+1 問題的流程改進;圖六和圖七是最新版 v4.0和 2015 年 v3.5的 GATK for Somatic short variant discovery 的差異,除了移除 Indel realignment,JointGenotyping 的步驟也有不少更動,所以工具的更新是一個影響檢測結果的重要因素。
更何況新的工具如雨後春筍般地挑戰 GATK 的武林盟主地位,若對這個主題有興趣,可以參考前一陣子整理的文章:
除了分析工具不停地推陳出新外,人類的基因體樣板 (Human Genome Reference) 也不斷更新 [10],老實說,即使用最新的 GRCh38.p13 版本,除了23對染色體中仍有一堆以 N 表示的區域(主要存在 Centromere 和 Telomere),還有一堆 contigs 還不清楚該插在那裡。所以,目前以不完整的基因體樣板為基準來做基因體分析當然會因為 Mapping Errors 而導致 Calling Errors 的產生,隨之造成對檢測報告準確性的影響。中研院生醫所郭沛恩所長今年發表在 Nature Communications 的文章中提到有將近 60Mb 非重覆的基因體序列並不存在目前人類的基因體樣板上 [11],所以隨著人類的基因體樣板和分析工具的不斷更新與進化,重新分析 (Reanalysis) 對基因檢測的必要性是日趨重要。
最後變異點的整體判讀依據標準不一
以全基因體檢測來說,每個人約有 4 百萬個變異點會被找到,如何從這 4 百萬個變異點中找出那一個才是真正的致病點是最大的挑戰。之前,每個檢測中心或研究單位都會有各自的一套判讀標準,導致不同單位間檢測出來的結果差距很大,例如有人做了 9 種不同公司提供的基因檢測產品得到 6 種不一樣的結果[12],另外有研究發現市面上 Direct-To-Consumer(DTC) 的產品檢測結果有近 40% 是錯的 [13] 。所以,The American College of Medical Genetics and Genomics (ACMG)在 2015 年時發表一份所謂的標準和使用指南 (Standard and Guideline) [14],希望藉此能縮小不同單位間檢測結果的不一致性,但仔細推敲其中的文字會發現,這使用指南比較像是「心法」而非 「SOP」,圖八列出 ACMG 所建議的 28 條規則的分類,但每條規則並沒有明訂要怎麼一步步做,而且每條規則最後有帶有一些 Caveat 提醒所謂的例外狀況。譬如 PM2-Absent in population databases 的 population database 並沒有明訂要看那些 databases,更何況當年只有 ExAC 還沒有 gnomAD,所以光這一條規則就會因為使用的 population database 不同而得到不同的結果。
目前市面上的分析軟體大多基於 ACMG 的指南來判斷變異點的致病性程度 (Pathogenicity),但一定會提供讓使用者自行微調的功能,因為每種疾病的特性都不太一樣,很難規範出同一套判斷模型合適每一種疾病的檢測。
看完以上相關議題的分析,讓我們再回到先前討論的問題:
「一次性服務」真的適合基因檢測產業嗎?
這時,大家心裡的答案應該是:「不適合」。既然不是「一次性服務」,那它應該就是屬於在天秤的另一端的「終身保固」型的服務。
其實,這是個假議題!由於基因檢測的工具和平台各有不同,所以不該一視同仁地將各式各樣不同的「基因檢測」服務硬性歸到某一類型服務才是正確的商務模式。但至少以全基因體定序(WGS)或全外顯子定序(WES)的分析服務來說,最合適這類基因檢測的服務模式應該就是「終身保固」,也就是定期重新進行一次分析的模式,一旦有新發現,就應馬上通知當事人,以便提早做出對策,這樣才能突顯出 WGS/WES 的真正價值。引用 Variantyx 基因檢測公司的技術報告[15]中最後一句話,道出本文想要傳遞的信念:
With new disease-gene associations continuously being published and new variants being submitted to databases, it’s clear that the ability to periodically reanalyze WGS data is an important advantage that should be considered when selecting a diagnostic genetic test.
上週 American Society of Human Genetics (ASHG) workgroup 發表一份聲明提及基因檢測重分析/重解讀的重要性,以及將新的檢測結果再次通知參與臨床研究的參與者之責任與義務 [16]。文中提到因為有越來越多研究發現重分析/重解讀的重要性,所以𧗠生出是否應告知參與者的相關後續問題,分別從 Ethical、Legal和 Financial 等面向進行探討。當然,重新告知檢測結果主要還是基於在經費許可和受試者同意的條件下,建議計劃主持人應該將「重新告知檢測結果」(Recontact) 及相關流程包含在計劃執行項目中,同時應注意公平性與一致性等問題,因此列出以下十二項建議:
文中提到比較有趣的議題是當一開始某位參與者的檢測報告說帶有高風險乳癌變異,收到報告後,這位參與者立馬去做跟安潔莉娜裘莉一樣的預防性雙乳切除手術 (Preventive Double Mastectomy);但一年後,經由重分析發現這是假陽性 (False Positive),其實當初認為的高風險乳癌變異在亞洲人種算蠻普遍存在的變異,這時是否該再去通知該參與者呢?所以,基因檢測重分析不是只會帶來檢出率提升的好處,同時也因為準確率提升後需要去面對當初誤診而造成的後續問題!所以提供基因檢測端專業的分析是刻不容緩,當然,醫生、受試者與遺傳諮詢師之間的充份溝通更是重要。
我也是因為讀了這篇文章而引發後續一連串問題的思考與探討,除了想給眾多醫生或研究者抽屜中躺了好幾年分析不出結果的定序資料有更多的信心藉由重新分析得到新的發現外,更想藉此讓生物資訊或基因檢測廠商開創出一片新商務模式的藍海。也唯有如此,才能再次提升「生物資訊」(Bioinformatics)在整個生技產業鏈的重要性,讓更多人才和資源能投人。最後引用當初在環球生技月刋專訪 [17] 時提到的一句話來做為結語:
「生物資訊力就是國家競爭力」
最後希望藉由「生資無價系列專題」來讓更多人了解「生物資訊」(Bioinformatics) 的重要性及專業價值,也讓想進入這個領域的學生或軟體工程師能更清楚知道自己能在這個舞台能扮演的角色和發揮空間。(如同圖九中高空彈跳的5000元繩子)
註一:小朋友喜歡是因為有飲料和冰淇淋無限暢飲
註二:個人推薦珍香的紅燒家常牛肉麵 (麵條Q彈)和富市日本的味噌拉麵(微辣炒味噌很讚)
Reference
[1] https://www.nytimes.com/2013/05/14/opinion/my-medical-choice.html
[2] https://www.canceraway.org.tw/page.asp?IDno=1734
[4] https://www.superlab.com.tw/zero/
[6] https://gnomad.broadinstitute.org/
[7] https://www.nature.com/articles/s41436-019-0493-2
[8] http://toolsbiotech.blog.fc2.com/blog-entry-43.html?sp
[9] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5912505/
[10] https://www.ncbi.nlm.nih.gov/grc/human
[11] https://www.nature.com/articles/s41467-019-08992-7
[12] https://www.livescience.com/63997-dna-ancestry-test-results-explained.html
[13] https://www.nature.com/articles/gim201838
[14] https://www.acmg.net/docs/standards_guidelines_for_the_
interpretation_of_sequence_variants.pdf
[15] https://www.variantyx.com/variantyx-posts/periodic-data-reanalysis-leads-higher-diagnostic-yield/
[16] https://www.cell.com/ajhg/fulltext/S0002-9297(19)30070-9