明略數據吳明輝:人工智能的核心一定是大數據

對于很多開發人員而言,大數據應用的開發尚未上手,人工智能又已經泛濫,當前大數據公司也逐漸向人工智能靠攏。是否人工智能將成為應用的必要屬性?開發人員應當如何透過現象直面技術本質并充實自身的技能?日前,明略數據董事長吳明輝接受CSDN記者專訪,基于他的教育背景與創業實踐解析了大數據與人工智能的技術脈絡,以及明略數據面向人工智能技術的最新布局,包括對未來研發重點的思考。何去何從,開發人員可以從中得到啟發。

在吳明輝看來,人工智能最核心的是需要有大量的數據支持,不管是機器學習訓練還是其他算法優化。最近獲得的2億元人民幣B輪融資的明略數據,將在基礎層繼續專注于數據挖掘和存儲/清洗/治理等方向的研發,在業務層要求駐場科學家深入客戶一線,實現業務需要的智能性,把企業數據的價值真正變現。

人工智能的核心是數據支持

今天看來,機器智能主要來自于統計機器學習的訓練結果,尤其深度學習對感知智能及自然語言處理的精度提升貢獻巨大,同時也對(標識)數據極為渴求。為解決一些缺乏數據的領域而生的遷移學習方法,前提也是存在一個相關領域的能夠提供用于初始訓練的數據。

人工智能專業出身的吳明輝很早就相信數據基礎的作用,他甚至認為沒有數據的場景不可能實現人工智能。所以,以實現人工智能的應用為目標,他在最初創業時卻瞄準產生和處理高質量數據。吳明輝表示,明略數據專注于數據本身的挖掘,在公司成立早期就希望把大數據往人工智能方向去應用,不管是做大數據,還是做數據本身的挖掘,以及利用挖掘數據去做人工智能的訓練樣本,因為大數據和人工智能之間的關系非常緊密。

吳明輝在研究生時的專業方向是人工智能里比較特殊的行業生物特征識別,包括指紋掌紋識別和靜脈識別等,同今天火爆的人臉識別一樣,都屬于圖像處理領域。雖然計算機視覺和深度學習大熱,明略數據沒有改變技術策略的意思。吳明輝認為,數據準備的不足,是當前企業應用人工智能/機器學習的主要挑戰。例如無人車也需要大量的試車數據不斷地測試算法。在整個采訪過程中,他也一直強調,“先要把數據處理,數據處理不好任何事都無從談起。”他認為,當前應該花更多的時間從互聯網/移動互聯網找到合適的數據并清洗干凈,用來實現人工智能。

 

人工智能+大數據

當然,有了數據,還需要把好的算法應用在數據上,同時在業務場景上面形成反饋系統——如果沒有一個很好的應用形式,只有原始的數據,最后不一定能形成自我改進的更新換代的能力,如AlphaGo在全世界每年公開的有限的9段棋手棋譜之外,還要自我PK無數輪形成大量的反饋,然后從中尋找輸贏的原因改進。

 

目前人工智能/機器學習算法在工業界里應用比較好的領域,也是用戶量很大,有大量的學習樣本和訓練數據,并且具有重復性,在應用的過程中能夠給出算法的評價,能形成閉環,不斷地改進優化。例如搜索排序算法、電子商務推薦算法,有自己數據的閉環;如科大訊飛的語音識別,也是由科大訊飛語音輸入法收集識別錯誤的數據,形成一個閉環。

所以,一開始的核心是準備數據,后期的核心就是創造應用。吳明輝表示,未來的研發模式一定是協作的、開源的模式,人工智能算法將不是什么神奇的事。

明略數據的研發路線

吳明輝詳細介紹了明略數據的定位、策略和研發重心。他的目標很簡單,就是首先幫助客戶把數據都做好準備,利用這些數據給各行各業實現人工智能,當然在這個過程中也要用一些人工智能的算法。

聚焦垂直領域

吳明輝表示,目前數據挖掘的市場更大,明略數據的定位是在各個不同的企業里去應用,從底層的數據存儲/清洗/治理到上層的關聯關系挖掘,以及后面的機器學習,都要聚焦在幾個垂直的領域,全套的服務,既有大數據又有人工智能——所有想做人工智能的客戶,第一件事情肯定是把數據弄好。他解釋說,企業級服務如果不能聚焦在垂直領域,最后就變成一個純粹的企業級軟件,從目前的趨勢來看,最后的競爭對手就不是市場和企業,而是開源社區,這不是一個靠譜的商業模式,至少在中國如此。

明略數據聚焦的垂直領域,最重要的方向是公共安全,其他領域還包括金融、稅務,制造業領域等——明略的目標是要在公安領域實現最牛的警察,在金融領域實現最牛的風險控制師、審貸員,在醫療領域實現最牛的醫生……吳明輝介紹,在制造業已經有為某大型制造企業基于設備數據和深度學習做故障的檢測和預測的初步探索。吳明輝表示,這雖然是最簡單的工作,但是最后的目標會非常令人興奮。

以數據治理為核心

明略數據現階段的研發重心,吳明輝表示還在數據治理,其中又比較專注關聯數據挖掘——目前企業有各種各樣的散亂的數據存在不同的系統里,明略數據要把它們聯系起來,并把那些顯性的和隱性的關聯關系挖掘出來,比如在公安系統,把存在不同系統里的酒店數據、航班數據、通訊數據、地圖數據等連起來,根據某幾個人經常一同出行,通過算法推斷出他們是同事或者朋友。吳明輝認為,把數據治理好并做關聯關系的挖掘,把數據真的連接起來,會對將來人工智能的實現有巨大的幫助。

吳明輝也舉例介紹了具體的人工智能技術在這個過程中的應用。比如人工智能里面很重要的自動分類,在處理公安局的數據時,需要對案件筆錄文檔做分類、聚類各種分析。所以目前的工作雖然還沒有到真正的把最終的智能展現出來,但是也在向著人工智能的目標前進。

明略數據B輪融資之后,研發方向仍然專注這些領域,當然還有一部分用于吸納更多優秀的研發工程師作為前端的駐場科學家,深入到客戶一線去了解客戶業務流程和實際需求,然后才能把數據的價值在客戶那真正的變現。

明略數據技術框架

明略數據整個底層的核心開發是基于開源的,采用Apache Hadoop、Apache Spark、Apache Kylin等開源的項目,同時也在這些開源項目上在做積極的貢獻。但是應用層面,在行業里面的所有解決方案都不考慮開源,不過將來也會對合作伙伴做一定程度的開放,因為企業級的市場服務太大。吳明輝認為,產品的價值價格是跟獨特性掛鉤的,真正有價值的部分一定是花大量的時間精力做了很多很重要的工作,才有可能賺到很多錢。明略數據的研發策略和商業策略會完全一致。

談到明略數據技術的優勢,吳明輝表示,包括最核心的幾款產品:

  • MDP,一個非常適合做海量數據的數據挖掘的Hadoop發行版,明略數據投入了很多的力量去做安全的模塊,比如高可用,安全的權限管理等。
  • DataInsight,一個分布式的數據挖掘系統(可以理解為一個分布式的SAS或者SPSS),明略數據自己也是這個產品的用戶。
  • 拳頭產品SCOPA,做關聯關系挖掘,包括上面的可視化,在公安領域里面有非常好的應用,明略數據投入一半的研發人員在SCOPA上。

明略數據三大核心產品MDP、SCOPA、DataInsight,實現從數據到智慧的轉換

研發挑戰分析

對于未來的技術研發挑戰,吳明輝認為主要在如下兩個方面:

  • 整個IT市場和數據市場特別嚴重的碎片化/多樣化,不同的客戶數據的這個規范接口完全不一樣,需要會花很多精力。
  • 反饋系統的場景,本質上是研發和客戶的業務如何深入結合的挑戰——客戶肯定不懂技術,需要把研發同學培養得懂業務。

他不認為云廠商的人工智能API會和明略數據形成競爭關系,因為明略數據是在做真正的業務級的應用,云廠商可以提供自動分類算法服務,或者類似Hadoop as a Service這樣的東西。但是對明略數據來講,真正的應用是公安能不能破案。同時,很多領域目前對公有云也很難接受,因為真正涉及到國計民生的數據需要非常謹慎地處理。

研發團隊管理

明略數據公司是近三百人,其中研發團隊占70%以上,而且他們并非普通工程師,其中很多人來自全球知名高校的,有豐富的工作經驗,同時又擁有很強的數學基本功的一群人。吳明輝表示,不管是處理數據,還是未來做人工智能,都是需要有數學功底的,明略數據在這方面要求很深,這樣的文化也很容易形成群聚效應。

對于團隊的協作,吳明輝強調,底層的技術架構要盡量統一,因為技術架構決定的是軟件運行的兼容性,但是上面具體的算法,需要去尊重每個人自己的創造力,選擇最優的辦法,就是用結果說話,比如金融征信的算法,最后誰的準確率、查詢率高,就先拿過來用。同時,明略數據內部團隊的管理模式采用技術合伙人制,小團隊作戰,每個團隊領導都叫技術合伙人,他們之間都是平級的。

研發出身的吳明輝,盡管對寫代碼很有熱情,但他目前更多關注的是產品而不是代碼。他表示:

  1. 技術研發的管理者更要去看團隊的建設,因為當研發團隊大到一定規模時,研發Leader和底層的研發工程師水平就決定了最后的代碼質量,如果能確保他們的水平,就不用擔心代碼了。
  2. 做企業級的服務,不能光有一堆技術天才,把產品做出來,還需要讓客戶接受和應用,同時把他們的所有的需求都進一步地迭代到你的系統里面。

開發者的啟示

曾獲過許多國際的算法大獎的吳明輝,介紹了他對一個好的人工智能算法的理解:

  • 從學術論文和比賽來看,好算法要求形式、理論的優美,但是效果也沒辦法驗證,因為每個人的實驗環境、實驗結構不一樣。
  • 在企業里,需要低成本、務實地解決問題,算法工程師通常不關心數學公式是不是優美,也不關心算法是否高大上,就追求準確率和性能,以及二者的平衡,比如在手機端和云端運行的圖像處理算法,就是不一樣的處理方式,云端可以用幾千萬的數據進行深度學習訓練。

對于人工智能技術對開發者的影響,吳明輝表示,非人工智能專業的開發者,不需要所有人學習人工智能算法,因為這些算法今天有很多開源的開發包,知道怎么去用就可以,背后的原理、數據公式的推導、具體的實現沒必要懂。

 

來自:http://dataunion.org/25425.html

 

 本文由用戶 btsv4641 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!