世界癌癥日:AI 對癌癥治療有什么幫助?
Google 的研究表明,現階段最好的診療結果來自專業人類和技術的共同努力。
2 月 4 日是世界癌癥日。據世界衛生組織,全球范圍內,近六分之一的死亡由癌癥造成,近 70% 的癌癥死亡發生在低收入和中等收入國家。2015 年癌癥造成 880 萬例死亡,最為常見的癌癥類型為肺癌、肝癌、結腸直腸癌、胃癌和乳腺癌。在中國,癌癥負擔也呈現逐年上升態勢,2015 年,平均每天超過 1 萬人被確診為癌癥,每分鐘有 7.5 個人被確診為癌癥。
以乳腺癌為例,乳腺 X 線影像技術是篩查乳腺癌的「黃金標準」。即便如此,對于醫學專家來說,閱讀 X 線影像仍然是一項困難的任務,檢查結果經常有假陽性(誤診)和假陰性(漏診)的例子出現。這不僅為醫生帶來繁重的工作量,也會耽誤病患的治療,讓病患承擔不必要的壓力。
現在,隨著「AI 輔助醫療」,「AI 驅動醫療」的話題被頻頻提起,這也意味著從醫療產業和健康產業來看,技術正在承擔愈加重要的角色,比如輔助醫生突破原先醫療水平的天花板、代替醫生承擔重復的例行工作,或是改善地區醫療配置不均衡的現狀等等。
對癥下藥
「過去幾年里,Google 團隊將 AI 應用于醫療保健領域——從通過分析和研究電子病歷預測患者疾病到輔助檢測肺癌等疾病,雖然我們仍然處于技術開發的早期階段,但是結果是充滿希望的。」Google CFO Ruth Porat 說道。
去年 5 月,Nature Medicine 刊登了 Google 對于肺癌檢測的新進展——根據低劑量計算機斷層掃描圖像來預測肺癌。
放射科醫生無法像計算機一樣審查 3D 掃描,他們需要審查數百張 2D 圖像才能發現問題。Google 創建了機器學習模型,分析高通量的 3D 圖像,生成整體腫瘤預測,還可以識別細微的惡性組織。輸入患者先前的 CT 圖像,該模型便可分析和評估可疑肺結節的生長速度。
Google 團隊利用 45856 例未經識別的 CT 圖像進行訓練,并且將結果與六位經認證的放射科專家進行了比較。在放射科醫生無輔助的情況下,Google 模型檢測到的假陰性減少 5%,假陽性減少 11%。
Google 在乳腺癌診斷方面所作的努力要開始于更早。一般來說,乳腺癌細胞的擴散方式通常會先轉移到附近的淋巴結中,淋巴結轉移會影響放射治療、化療和手術切除額外淋巴結的治療決策。全球過去至少有 50 萬人因患乳腺癌死亡,他們當中有 90% 都是轉移性腫瘤。
針對從原發部位擴散轉移到附近淋巴結的癌癥的檢測,是病理檢查中重要且艱難的一步。大多數癌癥都涉及到淋巴結轉移的檢測,這項檢測則成為了被廣泛采用的 TNM 癌癥分期的基礎診斷依據之一。
Google 曾經帶著工具 LYNA(LYmph Node Assistant)參加 2016 ISBI Camelyon Challenge,該競賽主要是對乳腺癌在淋巴結中的轉移進行病理切片的分類和定位。
2018 年,Google 分別發表兩篇論文闡述在乳腺癌方面的進展。在第一篇論文中,Google 將 LYNA 算法應用于識別 Camelyon Challenge 和獨立數據集(由論文的共同作者提供)的病理切片。LYNA 被證明其在圖像可變性和組學偽影上具有穩定的魯棒性,并且在兩個數據集上實現了相似的性能,而且無需額外更多的研發。
包含淋巴結的載波片有多個組學偽影右側:LYNA 識別腫瘤區域在中央(呈紅色),并正確地將周圍充滿偽影的區域分類為非腫瘤區域(呈藍色)
兩個數據集中,LYNA 能夠以 99% 的正確率區分有轉移性癌癥和無轉移性癌癥的載玻片。此外,LYNA 可以確定每張載玻片內癌癥和可疑癌癥的位置,其中一些由于體積太小而無法被病理學家檢測到。因此 Google 團隊推測,LYNA 的一個重要用途就是突出這些「可疑」區域,輔助病理學家做出最終診斷。
在第二篇論文中,六名獲認證的病理學家在 LYNA 協助下和沒有 LYNA 協助下對轉移性乳腺癌的淋巴結做了檢查。得益于 LYNA,病理學家平均診斷時間減半,檢查每張載玻片只需要一分鐘,病理學家主觀上認為有了 LYNA 的幫助,診斷「更加容易」。就診斷準確性而言,在 LYNA 的幫助下,病理學家將淋巴結微轉移的遺漏率減少了一半。
左側:含有微轉移淋巴結的載波片的放大圖右側:相同視圖,在 LYNA 輔助后用藍色標注出腫瘤的位置
AI 診斷
這些進步聽上去令人興奮,但是更多處于科研試驗階段,有限的數據庫,模擬的診斷工作流程,單獨檢查每個患者的單個淋巴結的病理載玻片而非實際臨床病例中常見的檢查多個淋巴結病理載玻片等,都讓 LYNA 算法距離真正的臨床實踐還有很長的路要走。
可喜的是,2020 年伊始,Google 又在癌癥診斷方面帶來了好消息。1 月 1 日,Google Health 部門聯手 DeepMind 在 Nature 學術期刊上發布乳腺癌人工智能檢測系統。該模型是在一個具有代表性數據集上進行訓練和調整的,數據集由 76000 多名英國女性和 15000 多名美國女性的未經識別的乳腺 X 線影像組成。然后在一個單獨的未經識別的數據集上進行了評估(包括 25000 多名英國女性和 3000 多名美國女性)。評估結果顯示,對比放射科醫生,AI 模型的假陽性低了 5.7%(美國)和 1.2%(英國),假陰性低了 9.4%(美國)和 2.7%(英國)。另一項研究中,該系統的表現超越了六位放射科專家。
乳腺癌人工智能檢測系統的檢測表現
無論是 LYNA 算法還是這項乳腺癌檢測系統,Google 的研究都表明,現階段最好的診療結果來自專業人類和技術的共同努力。比如,英國的乳腺篩查流程由兩位醫生共同讀片(Double Reading Process),針對這類情況,研究人員讓系統和人類專家同時做第一個決定,意見一致便可不二次讀片,意見不一致,將會啟動二次讀片。研究人員發現該人工智能系統保持了非劣效性能,相比傳統的「雙讀」,AI 可以減少第二個讀片者的 88% 工作量。
據 Google 介紹,這項人工智能檢測系統未來對于臨床醫學有著深遠的意義。為了驗證該模型是否可以推廣到其他人群和篩查方案。Google 團隊僅僅用英國數據重新訓練系統,在美國數據中評估。這項實驗下,AI 模型表現仍然好于人類專家,假陽性減少了 3.5%,假陰性減少了 8.1%。盡管差距略有縮小,但是測試表明,在未來的臨床部署中,該系統可能提供強大的基礎能力,提高癌癥篩查的準確性和效率,減少患者的等待時間和壓力,通過對本地數據微調,模型的表現性能會更好。但是為了達到這一目標,研究人員仍然需要持續的研究,前瞻性的臨床試驗以及監管部門的批準。