如何把AI應用在電子健康記錄、腫瘤影像、醫保欺詐識別中

jopen 7年前發布 | 13K 次閱讀 AI 騰訊

2016 年 12 月,深圳大學獲批國家級大數據工程實驗室,其中健康醫療大數據研究中心是由深圳市南山人民醫院與深圳大學、騰訊聯合組成。

近日,深圳市南山區人民醫院信息中心主任朱歲松在演講中介紹了該實驗室目前在 AI 方向上的研究和應用:基于特征工程的醫保欺詐的識別、醫保扣費、于洛侖茲分析的醫療架構改革、基于機器學習的醫療體制、基于卷積神經網絡的圖像識別和基于區塊鏈的電子健康記錄。

如何把AI應用在電子健康記錄、腫瘤影像、醫保欺詐識別中

雷鋒網了解到,朱歲松主任針對上述的幾個問題提出了自己的看法:醫保欺詐方面人類的欺詐行為具有社會學特征,把具象的人抽象為數學特征后可以用算法來判定可疑度;在醫療體系方面,未來的腫瘤圖像應該與電子病歷、基因組學、生物樣本數據庫等等關聯,才是一種真正的基于機器學習的醫療體制;卷積神經網絡的圖像識別是目前業界的主流方向。騰訊覓影的食道癌檢測也是基于卷積神經網絡類似的算法來展開的。

聯合實驗室的幾個研究方向

在這個聯合實驗室下面,我們有幾個 AI 實踐方向:

基于特征工程的醫保欺詐的識別

第一個研究方向是基于特征工程的醫保欺詐的識別。這個題目是國家 2015 年全國大學生數學建模里面的一道A題,A題是醫保欺詐工程,第一題是基因測序,是華大基因的,C題是紅樹林環境評估模型。在這個特征工程里面,為什么說是基于特征工程呢?因為人類的欺詐行為具有社會學特征。將這些社會學特征在我們的醫保大數據里面做成一系列的標志、工程,就能夠將這些具體社會的人抽象為一系列的數學特征,再利用大數據上面一系列的算法來判斷可疑度有多大。

舉個例子,它的標準答案一共有三十幾個場景。舉幾個例子,它是列為 X1、X2,一直到 XN。

以 X1 為例,患者的就診是有一定的范圍的,比如說在一個地區,一段時間內,患者醫保卡的就診次數,有些醫保卡的就診次數為0,有些就診次數為1,有一些為2、3、4,一直到N,N越大,他的次數也就越少,那么研究這個數的分布,我們會發現它符合補充分布。知道它的補充分布以后,就能夠得出來一個Y=F(X)的函數邏輯,就能夠找出他的敏感點。這個敏感點找出來以后,大于 5 次或者大于 8 次就是他的敏感點,有 95% 的行為不一樣,這就是一個異常,就可以做一個標記。

X2,患者開了處方,這個藥品是不可以拿來當飯吃的,在我們醫學上面有一個值,就是 DDD 值,就是該藥每次的標準用量,你吃藥不能吃得太多,超過這個數,你就超過了 DDD 值,每個處方也是有這個 DDD 值控制,限制你不能吃這么多藥。研究這個 DDD 值,它這個稍微偏正態的一個分布。偏正態以后,我們也能夠求得出來一個Y=F(X)這么一個函數,求出這個函數,也能夠求出你的整個分布出來,也就能求得出來當你這個 DDD 值大于多少的時候,你就是合理的,這些都是來源于大數據。

X3,醫學上很多檢查與用藥都是相關聯的,如果你用了很多高血壓的藥,但是從你的體檢數據里面、門診數據、住院數據,查到你的血壓從來就不曾高過,你這個藥很顯然不是你在使用的藥。

X4,比如說醫學上面很多是不可逆的特征,比如說做了一個有腦卒中的,腦子出了問題,做了 CT,是陽性。但是在大數據里面,你在第二次、第三次住院,他就沒問題了,有可能沒問題嗎?很多醫學上面是不可逆的,這里面也標記為陽性,很可能是你的卡被別人在用。

從 X1 一直到 XN 這么多的數學特征,我們以一種模型的方式,或者是條件概率的方式把它組合成一個值、一個熵值。建模以后,這個熵值是介于 0 與 1 之間,比較靠近 1 的時候,我們會賦予他一個值,醫保欺詐嫌疑就非常高,如果小于 0.4 就是醫保欺詐嫌疑會比較低。把這個模型建立好以后,統統通過這個模型跑一遍,那么整個醫保就會更加規范。事實上很多是基于特征分析,你可以知道他是不是存在不合理的行為,這是研究方向之一。

醫保扣費

研究方向之二就是基于第二期的醫保扣費。所謂的第二期,就是將這些人類的疾病,2 萬多種疾病,按照臨床過程相似,復雜程度相似以及資源消耗相似這三個相似原則,把它分類合并到幾百個組,那么醫保就按這個組來付費,它是非常可取的,在國外是一種方法學,不但用于醫院之間相互之間綜合實力的對比,更重要是用于醫院之間的評價,社保的收費、付費,它的價值是非常大的。這個第二期是國家醫改的重點之重點。

國家一共有三個試點,第一個試點是福建的三明,第二個試點是新疆克拉瑪依,第三個試點就是深圳。深圳這邊其實真正落地的就是在我們南山醫院,我是國家 CTR 項目組的成員,我負責這塊的工作也是利用大數據來進行核算以及 DR 值。在這個 DR 值算出來分到這個組以后,按照這個理想狀態,它應該是資源消耗相似,它的相似度怎么樣來檢驗,比如說你分到這個組了,假如分組系數是非常準的話,那么類似的情形可能是這樣子的。在這一組里面,患者的平均費用假設是 1 萬塊錢,那么分到這個組以后,其他的患者費用應該是在 9000-11000 之間,在這個區間內,它是非常準的,也就是這些數據非常集中,離散度越小越集中,說明你這個分組越準。但是事實上它通常不是這樣子,那么你怎么樣來檢驗它是準還是不準呢?它是有多種方法的,其中最主要的有三個。

第一個就是用變異系數,就是分子,分子就是它的標準差,分母就是它的均數,這么一個解讀,這是作為離散度的比較。第二個是方差。第三個是檢驗,它能夠判斷你這個分組準還是不準。如果分到這個組里面,它不準怎么辦,這里面也是要應用大數據的一些算法來判斷分組還是不分組。

它的主要算法有三種,第一種就是用到系統聚類的方法。聚類了以后,把它分為兩大類,以準不準給它拆散成兩組或者三組,它立馬就準了,數據立馬就集中了。第二個叫做決策樹,第三種叫做回歸數,在大數據里面有很多這樣的算法。這種算法就是將分組不是太準的數據,利用這些數學模型把它拆散成兩到三組,就是提出這個數據模型給你驗證。所以國家這次把這個分組做成一個試點工作,義無反顧地放到南山,實際上對我們的技術是一個挑戰,也是一個檢驗。

基于洛侖茲分析的醫療架構改革

在我們的第三個研究方面,是基于洛侖茲分析的醫療架構改革。大家知道這個改革是國家的一個課題,國家的醫改,藥品、耗材占據了很大的比例,可是對于這些手術費、治療費,體現醫生勞動價值的這些項目并沒有增加,300 塊錢、500 塊錢的手術費,這是非常不合理的。那么怎么來扭轉這種不合理的現象,國家的醫改價格要改革。

那么這個價格改革怎么改?很多的那些專家、學者們,很多都是基于宏觀經濟學上來定義這個價格,你怎么樣來調,大家達到的共識是什么呢——總體衛生資源的支出,患者支出的總費用不應該上漲。第二就是檢驗費、檢查費等等這些依賴于儀器設備的費用應該降價。第三個就是治療費、手術費這之類的體現醫務人員勞動價值的收費項目要漲,漲的幅度是多少。

在我這邊所做的研究是什么呢?就是基于洛侖茲分析,我就能夠給你找得出來哪些數據可移動,哪些數據必須很謹慎的動,哪些數據是不能動的。基于洛侖茲分析我們進行一系列的數學建模,就能夠知道你這個收費項目被引用了多少次,產生了多少金額,那么它是可以動,還是不可移動的。醫學上面的收費項目,包括檢驗費、治療費、手術費等等這些,就非常類似于我們有 100 畝地。在這 100 畝地里面,不同農作物所用的化肥是不一樣的,農藥是不一樣的,勞動時間是不一樣的,生長時間也不一樣,最終賣出的錢也不一樣,這就可以達到一種博弈模型。這個博弈模型就是這些費用,這么多的產品,用什么方案可以讓勞動時間是最短的,產品總價是最多的,等等,它是可以用一個規劃來做的

線性方程加上一系列的約束條件能夠求得一個最優解。同樣的道理,我們醫學價格改革也是一樣,不同的價格,漲價的幅度不一樣,我們利用一個計算機大數據的模擬,在南山區這邊,在十幾年數以千億計的就診患者,生成一種新的價格體系以后,讓政府重新進行一次結算。因為我們的分布式就是要讓它重新結算一次,生成一組新的費用,對這種新的費用再來進行線性規劃,再來進行洛侖茲分析,這樣我就能夠非常精準地定義出某一種項目、某一類項目,漲多少是比較合適的,它最終的產出類似于有三個博弈模型。

第一個博弈模型,怎么樣的調價方案對患者是最有利的,還有什么樣的調價方案對醫院是最有利的,醫院要生存、要發展,這是不得不考慮的數據模型。所以這樣我的研究模型里面會涉及到三種模型,并且把它標注成什么樣的條件,它會達成一種什么樣的目標。

基于機器學習的醫療體制

第四個方向是基于機器學習的,比如說我們剛才講的食道癌篩選,僅僅是基于圖像本身,這是遠遠不夠的,未來的腫瘤圖像應該與電子病歷、基因組學、生物樣本數據庫等等這些關聯在一起,才真正有生命力,才是一種真正的基于機器學習的醫療體制,這是我們的第四個研究方向。當然這些研究方向都是和騰訊、和深大資源密切相關的。

基于卷積神經網絡的圖像識別

第五個研究方向,就是基于卷積神經網絡的圖像識別。剛才講了,我們的食道癌,它這邊的判讀都是基于卷積神經網絡這種類似的算法來展開的,這是目前整個業界的主流方向。

基于區塊鏈的電子健康記錄

最后一個研究方向就是我們基于區塊鏈的電子健康記錄。因為我們目前整個電子健康記錄是基于 CA 認證、基于 PKI 格式的,國家也有電子碼來確保這些數據的準確性,它在法律上的不可推卸性。另外一個身份認證,一個 CA 證書來證明,這條醫囑是在一個可信的人在一個合法的時間里面所下注的,這種電子病歷是有合法性的,它是能夠拿來打官司的,這是電子記錄。

但是像這種電子記錄,它的成本也是非常高的,大家知道我們要做一個 CA 認證的話,你要有公證處服務器,要有時間服務器,要有U-key,要有每年的服務費用,還有一些災備,專門的網絡等等,它的成本實際上是非常高的。但是有另外一種技術可以良好地解決這個問題,就是區塊鏈。區塊鏈,我定義為改變未來的技術,我們也非常期待區塊鏈能與我們整個電子健康記錄關聯在一起,讓在醫院產生的醫療健康記錄,患者在遠端也能看到,而且中間在互聯網往上面走的時候,其他任何環節把這些數據截取下來,你是看不到,你也看不懂,而且它是確保了終端生產這段是完全一致的。像這個電子貨幣,未來你得病,它都是基于算法,實際上它很簡單,就是一個函數加密起來,讓你解不開。

我們也非常期待在這六個方面與深圳大學、與騰訊這邊有密切的合作,我也相信這一天已經到來了,而且我們在前期已經有很多的項目已經做出來了,不僅僅是在醫學圖像識別這一塊,我們和騰訊這邊合作,做成了新農合,做成了醫保的異地結算,還做成了整個移動互聯網社保支付等等,我們的成果是非常多的。

來自: 雷鋒網

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!