淘新聞

用人工智慧改變醫療,必須經過這三個階段 | 深度

雷鋒網按

:本文作者 Luke Oakden-Rayner 是澳大利亞知名學府阿德萊德大學的在讀醫學博士生,曾發表過多篇醫療人工智慧方面的文章。雷鋒網對全文做了編譯,未經許可不得轉載。

在我最近發表的一篇博文裡,探討了如何帶著批判的眼光去理解人工智慧在醫學領域裡的應用和研究,並且將研究重點放在了這些人工智慧試驗與臨床應用的相關性上。但在此後,我想到一個問題,即有些研究已經取得了進步,而有些研究還遠未達到臨床應用的階段,對於這一過程,還沒有一種簡單清晰的方式可以討論。

從事醫學研究的人,可能會認同這種觀點,因為醫學界已經解決了這個問題。

事實上在醫學領域,根據實驗結果會對臨床應用產生多大作用,臨床試驗可以被分為三大類。業內將這些類別稱為醫學研究的不同階段,它們反映了從前期準備到轉化為臨床應用這一過程的常規路徑。這些類別也恰恰是臨床創新獲得醫生和監管機構接納的必由之路,籠統地說,大多數與人有關的醫學研究都不外乎分為這三大類(或三個階段)。

第一階段是首次安全性檢查。最開始,需要在一小群受試者身上試用藥品,保證沒有任何可怕的後果。在這個階段中,我們甚至很少去考慮試驗的藥品是否有藥效(即受試者服藥之後的效果怎樣),只希望確認試驗不會造成服藥者死亡。如果我們從中得到了不錯的回饋,顯示藥品的確效果不錯,那固然很好,但是那並不是試驗一期的主要目標和動機。

第二階段則要更全面地評估試驗安全性。到這個階段中,需要擴大受試人群的規模,這麼做是要查明藥品是否會出現比較罕見的副作用。因為試驗樣本的數量更大,可能發現更多和藥效有關的資訊證據,但即便如此,這一階段也永遠不足以證明臨床應用可行。

第三階段是成本最高、難度最大、但又十分重要的一個階段。主要目標,是要去查清藥品究竟能夠發揮多大作用,這通常意味著,一大批受試者必須要試用某種藥物很長時間,而且試驗所採用的方法和分析都要能經得起美國食品藥品監督管理局(FDA)或者類似政府監管部門的嚴格審核。

除此之外,如果從技術角度來看,其實還有臨床前期試驗(動物實驗模型)和第四階段臨床試驗(新藥推出後進行的後續試驗)。不過,上述的三個階段是將某個醫療想法變成實際治療藥物所必須經歷的過程。

我認為,醫療人工智慧研究的推進過程,其實和常規醫學臨床試驗過程非常相似,因為我目睹的幾乎所有醫療人工智慧研究都可以歸入、或明確界定到已知的這三個階段之中。至於這一系統是否很嚴格,有沒有涵蓋足夠多的尖端研究,我也不能給出百分百肯定的答案,但本文至少能夠在設計、或理解醫療人工智慧領域研究時,對形成實用的思路框架提供一些幫助。

人工智慧醫療試驗

讓醫療人工智慧試驗的框架能夠映射其他臨床試驗架構,是合理的做法。所以,將其也分為三個階段是直觀且常見的思路,當然,這可能也需要做些額外工作,才能讓醫學研究者和人工智慧研究者相互理解。假設你的新型醫學人工智慧系統已經做好了隨時為病人服務的準備,相比之下,可能說服醫生和監管機構相信反而更容易一些。 

實際上,醫學臨床試驗和醫學人工智慧試驗的關鍵區別,主要是第一和二階段人工智慧系統不用怎麼考慮安全性。因為直到階段三,才會應用于患者。這種研究叫做“可忽略風險型研究”。

請注意,

以下框架僅適用於軟體系統,並不適合外科手術機器人等實物系統

。此外,不同的軟體系統可能會有類似的框架,只是各自的細節有天壤之別。

第一階段:

簡介:

這一階段會設法明確哪些醫療人工智慧試驗任務是不可行的,或所啟用的模型前景並不太好,不足以保證未來的研究能夠深入下去。有前景的試驗會決定模型設計選擇的方向,為下一階段研究的選擇提供有用的資訊。

研究設計:

以經過測試的小型回顧性陣列,訓練醫療人工智慧試驗系統。這意味著,人工智慧系統所使用的資料,都是過去出於其它原因而收集的,研究人員用這些資料去查明,這一階段是否存在和他們所希望解決的任務有相關因素。在機器學習領域裡,通常的做法是用公共資料集。

陣列的規模通常在二十人到幾百人不等,這一階段預計不會有太大的規模,因為不需要準確刻畫模型表現的特徵,也不需要得出效果方面的具體結論。

陣列類似於目標群體,不過並非完全一樣。這時要做些選擇,簡化試驗過程,這也讓研究人員無法得出更寬泛的結論。比如,可以使用住院患者的資料,因為這類資料隨時可用,即使研究目標是應用到更大眾的人群(如非住院患者)。做這些設計選擇的人,常常不是經過專門訓練的人員,即很多是電腦科學家,而不是生物統計學家、流行病學家、或是醫學研究人員。

醫療人工智慧任務本身會簡化,從而進行更加高效的分析。比如會使用代理,而非真正的患者來進行研究。

一個例子是

:某項研究評估縫針有多高的精確度時,會用手術機器人,而不會用真正的患者。前一種任務即使表現的再優異,也不能作為系統勝任人類任務的直接證據。任何醫療試驗最終還是需要應用在病患身上。

成本:

第一階段試驗的大部分成本是研究人員為設計和訓練模型投入的時間。

轉化時間:

在臨床試驗中,從第一階段試驗成功到推出消費類醫療產品,可能預計需要大概十年。

實例:

歷次醫學領域的深度學習試驗(只有一次例外)。目前,公開發表的醫療人工智慧試驗論文數量每週都有好幾篇,作者從一流研究人員到在讀學生不等,甚至大資料競賽平臺Kaggle組織的那些臨床靶區分析競賽、以及所涉及的部分醫療資料都能被算在內。

第二階段:

簡介:

這一階段將會識別醫療人工智慧試驗理念是否值得在第三階段研究中繼續,由於第三階段成本昂貴,而耗費的時間也很久,所以第二階段試驗的主要目標,是要探索最有前途的模型架構、目標、以及患者陣列。

研究設計:

人工智慧醫療系統會被一個更大規模的患者陣列來測試,規模要大到能帶來最高性能的預期。不僅如此,資料還需要更緊密地反映出受眾目標人群,儘管依然會不同。在此,主要的混雜變數應該被明確地認知,並知道何時會不受控制。在第二階段,陣列的選擇往往要求研究設計專家的幫助,這其中就包括生物統計學家和流行病研究學家。

第二階段裡,患者陣列很可能會達到數萬人(有時甚至更多),這一數字相比于傳統的第二階段醫療臨床試驗要大得多,因為陣列要滿足機器學習訓練和測試。如果你不明白,只需記住至少是傳統醫療臨床試驗數量的2倍。

第二階段資料還是回顧性的,但任務本身會和要自動化的臨床任務非常相似。

成本:

第二階段醫療人工智慧試驗的主要成本,將會是收集、標籤、以及處理海量訓練資料集合。在這一階段裡,模型設計成本將會有所不同,這主要依賴於你採用什麼樣的機器學習方法。

轉化時間:

從第二階段到實際醫療產品,整個過程可能需要五到八年。

實例

:穀歌對糖尿病視網膜病變的研究。實際上,這是目前我所知唯一稱得上是第二階段醫療人工智慧試驗。穀歌用了 1 萬個案例,和1.3 億圖片訓練這套系統。穀歌的人工智慧系統的表現,和醫學專家幾乎無異,而且在臨床表現上也足夠準確(誤差在可允許範圍之內),也只有這樣的系統才有資格進入到第三階段醫療試驗。

第三階段:

簡介:

第三階段試驗,是為了證明臨床效果。其目的,也是為了展示人工智慧系統在可控環境下處理臨床治療任務的時候,究竟是否能夠起作用。

研究設計:

系統經過大型前瞻性患者陣列研究,且能準確代表目標受眾。前瞻性意味著在系統被實際應用前,試驗物件就已經被聚集起來,然後進行足夠長的效果評估。主要目標是展示醫療指標的變化,比如患者治療效果是否得到改善,或者臨床護理的成本是否有所下降。

在第三階段中,患者陣列的選擇最為關鍵,因為臨床只接受一致的患者物件。研究設計是非常重要的一項工作,往往需要好多專家一起協同工作好幾個月。

另外,在患者陣列規模也會產生更多變化,在某種程度上,這主要取決於第二階段研究中發現的研究成果規模。第二階段所創建的人工智慧模型,在第三階段試驗中可能效果並沒有那麼好。在我個人看來,首個第三階段臨床試驗要克服醫療研究中的保守偏見*(見文末注釋)。

任務選擇將會反映出系統用例。當這套系統完成部署之後(這是一個監管點),針對同一個治療任務,臨床驗收和監管驗收必須要提供實際證明。再次需要重點提醒的是,這些工作也需要進行大量規劃和專家研討。

成本:

在第三階段最主要的成本來自於研究設計、陣列人數、以及管理、資料分析和出版支出。實際上,絕大多數電腦系統設計已經在第二階段試驗中完成了,因此到了第三階段,儘管工程成本可能會略高一些,但機器學習的成本應該會有所減少。

由於這些研究都是具有前瞻性的,因此隨訪患者時間必須足夠長,這樣才能發現臨床結果中是否真的會出現問題。比如像心臟病這種病症,往往需要隨訪患者好幾年時間才能夠被發現,所以在這方面所耗費的成本會比較高。

轉化時間:

從第三階段到醫療產品,可能是兩到五年時間。監管機構的審批真的會很長! 

實例:

目前沒有任何使用深度學習系統的第三階段醫療人工智慧試驗。

可能也有些不同看法,有人認為過去有電腦輔助診斷(CAD)在第三階段試驗中使用,特別是在乳☆禁☆房 X 線攝影應用。事實上,這些系統都是較老的機器學習,而且完整性也不夠。它們也會讓深度學習系統的轉型變得更加困難,因為CAD在第四階段(後期部署)試驗的表現令人非常失望。

令人激動的最後一階段

在我本人看來,本文所描述的這種三階段架構可能對解決一些問題有所幫助,當然,這些問題我之前也有提到,公眾和媒體也做了一定的科學傳播。這些簡單的分類,能夠預先識別出一個人工智慧系統距離臨床應用有多遠(或多近),也能夠幫助醫療研究人員更輕鬆地理解自己所做的相關研究。

此外,本文中所提供的這些方法也有助於矯正我們一些不切實際的期望。事實上,幾乎沒有任何人工智慧醫療臨床研究能夠通過這三個階段,不過應該會有類似的淘汰流程。如果我們嘗試追蹤試驗結果就會發現,能夠通過第二階段的臨床試驗只有 18%,而在所有進入到第三階段的臨床試驗中,成功的不到 50%(具體可參見下圖)。

所以對於人工智慧系統而言,結果可能會更糟糕,而且我們還需要考慮到第一階段研究的門檻(特別是利用公共資料)其實非常的低。如果有一千個醫療人工智慧系統進入到第一階段試驗,那麼最終能夠成功通過的可能不會超過一家。在人工智慧領域裡,我們看到現在每週都有五到十篇醫療人工智慧論文發表出來,但是卻幾乎沒有進入到第二階段。

再潑一點冷水,一般來說,一款藥物從實驗室到市場投放,通常需要十年,成本高達十億美元。人工智慧系統可能更簡單也更便宜,但是到目前為止,還沒有任何證據能夠證明切實有效,因為沒有任何人工智慧醫療試驗能夠走到第三階段。

最後,像本文中所描述的這樣一個框架,其實也給了研究人員提供了一個清晰的路線圖。從這些試驗開始,然後慢慢熟悉,最後,你也會擁有一個能夠解決醫生和監管機構問題的系統。以我的經驗,如果讓電腦專家和工程師進行醫療研究設計通常不是個明智之舉,而在最初想法到最終醫療成品的過程中,如果有一個大致指導方針,則會給你帶來很多幫助。

雷鋒網注:保守偏見其實是一種試驗特點,而不能被看作是一個 bug。相比于後期驗收,醫療創新實例往往需要面臨更高的門檻,這主要是因為醫療行業的預防原則所導致的。所做的測試越多,我們就能對該方法有更好的理解,繼而能夠預測後續可能產生的風險。對於未經測試的方法, 我們會表現的慎之又慎。

VIA 

lukeoakdenrayner