谷歌進軍皮膚科,秒殺執業護士,比肩專科專家
場景描述:皮膚病是最常見的疾病之一,但專業醫生短缺、醫療資源分布不均等,讓患者常常求助于全科醫生,因此也容易造成誤診、漏診的現象。谷歌研究人員研發出的深度學習系統,能夠檢測出常見的皮膚病,準確率與專業皮膚科醫生相當,而且遠超一部分初級護理醫生和護士。
皮膚問題是全球最常見的疾病之一,僅次于感冒,疲勞和頭痛。
實際上,全球估計有19 億人都在某些特定時間會患上皮膚病。僅在美國,去診所中就診的患者中,就有高達 37% 的人至少有一種皮膚問題。但是,這些患者中,有一半以上都是由非皮膚科醫生診治的。
帶狀皰疹、牛皮癬、痤瘡、腳癬、疣、白癜風等,各類皮膚疾病困擾著很多人
由于全球皮膚科醫生的短缺,患者不得不去找全科醫生,但全科醫生在確定病情方面,往往不如專科醫生準確。
鑒于此,Google 的研究人員研究出一種人工智能系統,該系統能夠發現初級護理中最常見的皮膚病。
在其發表的論文《A deep learning system for differential diagnosis of skin diseases》(《一種用于皮膚疾病的鑒別診斷的深度學習系統》,論文地址:https://arxiv.org/pdf/1909.05382.pdf)及其博客中,研究人員表示,當呈現有關患者病例的圖像和元數據時,系統可以對 26 種皮膚狀況實現準確鑒別診斷,并且聲稱這與美國具備資格認證的皮膚科醫生具有同等水平。
AI 新晉皮膚科醫生,準確率超過專業醫生
Google 軟件工程師 Yuan Liu,和 Google Health 技術計劃經理 Peggy Bui 博士表示:「我們開發了深度學習系統(DLS),以解決初級護理中最常見的皮膚問題。這項研究凸顯了 DLS 潛在的潛力,它能夠增強那些沒經過額外專業培訓的全科醫生的診斷能力。」
AI 系統架構的示意圖,輸入皮膚照片、性別、年齡等元數據。深度學習系統分析后,給出診斷參考診斷結果
正如他們所解釋的那樣,皮膚科醫生對任何皮膚問題,都不會只給出一種診斷結果,而是列出可能的診斷(差異診斷)的排序列表,再通過后續的檢查,影像學,程序和咨詢等來系統地縮小范圍。Google 研究人員所研發的 AI 系統也是如此。
該系統處理的內容包括一張或多張皮膚異常的臨床圖像,以及多達 45 種的元數據(如,病史的自我報告成分:如年齡,性別和癥狀)。針對每種情況,都使用 Inception-v4 神經網絡體系結構處理了多個圖像,并與特征轉換后的元數據結合使用,以用于分類層。
研究小組表示,該模型使用來自兩個州的17 家初級保健診所 17777 例未識別病例,對模型進行了評估。他們將語料庫分為兩部分,并使用 2010 年至 2017 年之間的部分記錄來訓練 AI 系統,2017 年至 2018 年的部分則用來進行評估。在訓練過程中,該模型利用了40 多位皮膚科醫生提供的 5 萬多種鑒別診斷。
為了測試該系統的診斷準確性,研究人員匯總了三名美國認證皮膚科醫生的診斷結果,將其與嚴格的參考標準進行了比較。
通過對 3750 個病例的匯總,得出了 ground truth(地面實況)標簽。將 AI 系統對皮膚問題排名與該皮膚科醫生得出的鑒別診斷結果比較,第一項和前三項診斷預測分別達到了 71% 和 93% 的準確率。
DLS 的表現與三類臨床醫生對比,AI 系統。與皮膚科醫生表現相當,甚至優于醫生
此外,在驗證數據集的部分,將該系統與三類臨床醫生(皮膚科醫生,初級保健醫生和護士)進行比較時(由于臨床醫生提供的典型差異診斷最多只能包含三個診斷,因此他們只將 DLS 的前三個預測與臨床醫生進行了比較)。
結果顯示,該系統的前三項預測表明其診斷準確率為 90%,或與皮膚科醫生(75%)相當,并且「遠遠高于」初級保健醫生(60%)和執業護士(55%)。
DLS 訓練過程中,元數據與圖像都是十分重要的訓練元素
皮膚問題診斷,AI 系統無偏見
由于皮膚病也與皮膚類型有極大的相關性,皮膚本身的視覺評估對于診斷至關重要。因此,最后為了評估對皮膚類型的潛在偏見,團隊基于Fitzpatrick 皮膚分型,測試了 AI 系統的性能。該皮膚分型的范圍包括 I 型(「蒼白,經常灼傷,永不曬黑」)到 VI 型(「最深棕色,永不曬黑」)。
病例原圖(左);以綠色突出顯示 DLS 需要識別的重要區域(右)。中間圖像為組合圖像,指示系統集中對脫發區域進行診斷,而非針對前額皮膚
他們集中研究了至少占數據 5% 的皮膚類型 Fitzpatrick II 型-IV 型的皮膚上,發現在這些類別上,DLS 的準確性相近,前 1 項診斷的精度在 69% 到 72% 之間,前 3 項的精度在 91% 到 94% 之間。
研究人員將這套系統的整體準確性,歸功于訓練語料庫中元數據的存在,并表示,研究結果表明,他們的方法可能「幫助提示臨床醫生考慮可能的因素」,這些可能性因素并不是他們最初進行鑒別診斷的依據。
但是,他們還指出,他們的訓練語料庫僅取自一家遠程皮膚病學服務機構。某些 Fitzpatrick 皮膚分型在其數據集中過于罕見,無法進行有意義的訓練或分析;并且由于缺乏可用的數據樣本,他們的數據集無法準確檢測出某些皮膚狀況,例如黑色素瘤。
Liu 和 Bui 寫道:「我們認為,在培訓和驗證中,加入更多經活檢證實的皮膚癌病例,可以解決這些局限性。」
技術助力,擁有健康皮膚不是夢
在我國,皮膚科醫生總數不到 3 萬,除專業醫生短缺外,皮膚病學還面臨誤診、漏診、罕見病知識不足等問題,這些無疑都會對病人造成損失。
事實上,皮膚科是一門依靠形態特征的學科,大多數診斷都基于視覺識別模式。對皮膚科來說,AI 圖像識別功能非常適合應用于輔助診斷。
但在過去幾十年中,人工智能在皮膚學中的應用依然十分有限。直到近年來,隨著人工智能技術的發展與應用落地,國內皮膚科在 AI 應用上也逐漸取得很多進步。
手持皮膚鏡 + 手機 App 診斷皮膚病
比如 2018 年,湘雅大學第二醫院與丁香園、大拿科技合作,實現了首個皮膚病的人工智能診斷的輔助系統,該系統目前主要針對紅斑狼瘡和皮炎等一系列疾病,識別準確性高達 85% 以上。之后,中日友好醫院與北京協和醫院也相繼推出了基于深度學習技術的皮膚病 AI 診斷系統。
因此,我們有理由期待,AI 技術的輔助之下,皮膚科所面臨的問題都將迎刃而解。