【生資無價系列專題】- 生物資訊從「科研端」到「臨床端」的距離 (Part I)

A-Tsai
Sep 21, 2021

--

緣起

為什麼一樣都是 WES 產品,坊間的價格卻可以從科研端的 $600 USD 到臨床端的 $6,000 USD [1]不等?

自從去年與提供臨床基因檢測報告的生技公司開始緊密合作,前陣子又順利地與某醫學中心的基因體中心簽約,除了協助客戶將其分析流程雲端化,並且進行 LDT 和 IVD 的申請,讓我有機會了解「科研端的生物資訊」和「臨床端的生物資訊」到底那裡不同。相信本篇文章對有志到業界從事「生物資訊」的研究生或者是想轉換跑道的軟體工程師們提供更多資訊給大家參考。(但還是老話一句:都聽別人說不如親身體驗看看 !)

借鏡

老實說,就生物資訊的「工具」來說,「科研端」與「臨床端」並無不同。所以不少大學教授和研究員在發表不錯的論文期刊後,就拿著自己發表的「工具」來創業,一開始接基礎研究或臨床研究的專案一定沒問題,等到一腳踩進「臨床端」這個大水池時,才赫然發現水深不見底。

那這水池到底有多深呢?

借用機器學習的舉例,一般人以為只要收集好資料並訓練好模型,整個系統就完成了。下圖一取自 Google 團隊在 2015年發表的文章,標題是「機器學習系統的潛在技術債 (Hidden Technical Debt in Machine Learning Systems) 」,大家原先認為機器學習相關的程式碼只是中間那塊小小的黑色模組,實際上還必須包含 Configuration / Deployment / Verification / Management / Monitoring ⋯⋯等模組才算是一個完整的系統。

圖一、現實世界中的機器學習系統 [2]

差異

同樣地,一個符合「臨床端」需求的生物資訊分析系統,除了上述的「工具」之外,個人覺得與「科研端」的差異主要有以下三項:

圖二、臨床生物資訊三大需求

法規 (Regulation)

「科研端」與「臨床端」的生物資訊最大的不同就是「法規」(Regulation)。絕大部分的生物資訊工具在開發時並沒考慮過「法規」的需求,導致使用在臨床的場景時,必須得多做一些功能才能符合「法規」。當然,有人會說只要把這些工具視為 IEC62304 中的 Software of Unknown Provenance (SOAP) 或FDA 定義的 Off-The-Shelf Software (OTS) [3] 即可,若您的生物資訊分析流程只靠幾個 SOAPs 就可以完成,那表示您提供的檢測在軟體的部分有低門檻,除非您的 web lab 部分有其獨特之處,不然在市場上的被取代性是極高的。

成本 (Cost)

「科研」與「臨床」的第二個差異是在於「成本」的考量,這並不是說「科研」不需要考慮成本,而是「科研」首重創新性、功能獨特性、具有文獻發表的價值。除非是發表在偏計算方面的論文期刊,不然通常不會討論跑這些分析需要多少錢。然而,當在「臨床端」,跑這些分析所需的「運算成本」是會被高度檢視的,因為這關係到此產品的成本結構與其市場競爭力。所以如何有效降低所需的運算成本,就必須對分析流程與工具進行優化,這方面需要的技能可以參考我去年分享的這篇文章 [4]:

處理時間 (Turnaround Time)

乍看之下,「處理時間」不是跟上面的「成本」是一樣的嗎?

一般說來,處理時間越長所需的運算成本就越高,但這只是單純就同一種硬體規格而言。

簡單地說,將原本 CPU-based 的分析流程改成用 GPU 來跑,通常會跑得更快,但因為開了 GPU 的機器,所以每單位時間的運算價錢提高了,導致最後的運算成本不一定會比較便宜。除此之外,也可以從運算平台架構或演算法的層級來下手進行優化,譬如我們就是藉由資料分流的方式降低原本執行時所需的記憶體最低需求(因為雲端上的VM所配的記憶體也是有價的),可以改成多開幾台低階一點的便宜機型,達到減少運算處理時間的作法。(在這方面的優化還有很多想跟大家分享,不過與本篇主題無關,之後再找機會分享。)

總之,臨床端的生物資訊對所需的處理時間也是非常注重的,尤其癌症和新兒生重症等。同時,臨床端為了控制風險,通常會加入很多 Quality Control 的機制,導致處理時間又拉得更長。所以在「成本」和「處理時間」的優化需要很多「Computer Science」的能量與技術,然而,這也是在臨床單位或生技公司最缺的人才。(因為這些人才是要跟台積電、聯發科、Google 等科技公司一起競爭的。)

小結

前陣子台灣政府開始對 LDTs 進行規範,據說目前先著重於檢測的重覆性與正確性。相對於 FDA 的 IVD 及歐盟的 CE-Marking 相關的 IVDD 或 IVDR 等對生物資訊軟體開發流程的規範仍有一段差距。

有鑑於此,本篇只是引言,計劃接下來再來為大家以軟體工程師的角度來剖析法規面的部分,然後跟大家分享如何善用雲端服務來實作法規面的需求,最後再跟大家分享有關 Cybersecurity 的部分。希望這一系列的文章能提升「台灣生物資訊產業」的能見度並匯集更多的人才與資源投入這個產業。

--

--

A-Tsai
A-Tsai

Written by A-Tsai

Practitioner of Multi-Party Computation

No responses yet