京東DNN Lab首席科學家:用深度學習搞定80%的客服工作
說深度學習(Deep Learning)算法是當前“人工智能皇冠上的明珠”并不過分。通過深層神經網絡(DNN)模型的運用,深度學習已成為目前最接近人腦的智能學習方法, 不僅Google、非死book、百度、騰訊等國內外搜索和社交公司為之瘋狂,電商巨頭京東和阿里也已經加入競爭。京東更是已經實現深度學習的初步運 用。
深度學習技術在電商運營中的價值如何實現?未來的應用趨勢是什么?在近日的京東技術狂歡節上,CSDN記者采訪了京東深度神經網絡實驗室(DNN Lab)首席科學家李成華,就此問題進行了討論,具體的話題涉及京東如何理解深度學習、為何要做深度學習、如何展開深度學習的研究、深度學習技術在京東的應用現狀以及京東在研發過程中的一些心得等。
京東深度神經網絡實驗室(DNN Lab)首席科學家 李成華
李成華介紹,京東DNN Lab主要專注于人工智能和機器學習領域前瞻性的研究,涉及神經網絡、知識層次、異構計算等技術的研發。DNN Lab目前主要成果包括命名實體識別、用戶意圖識別、用戶畫像和自動問答等,產品化是JIMI智能機器人,已經成功應用于售前咨詢、售后服務和生活伴侶三 個場景,承擔超過30%的京東客服任務。作為一個“新生兒”,JIMI會把處理不了的問題轉到人工客服,但京東希望未來JIMI可以包攬至少80%的客服 工作。
同時,京東也將會探索利用深度學習算法提升產品銷量預測、互聯網金融、智能硬件、智能搜索、推薦廣告等方面的效果。
大數據催熟深度學習
深度學習是模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋和處理各種數據,包括文本數據、圖像數據和語音數據等。
人 工神經網絡具有良好的學習能力和解決問題的能力,但傳統神經網絡一般只有兩三層的神經網絡,其有限的參數和計算單元,對復雜函數的表示能力有限,學習能力 受到制約,特征的開發和篩選也極為耗費人力。包含多個隱藏層的深度學習模型則不一樣,根據機器學習泰斗、多倫多大學計算機系教授Geoffery Hinton的論文,它的優勢更大:
- 多隱藏層的人工神經網絡具有優異的特征學習能力,學習到的特征對數據有更本質的刻畫,從而有利于可視化或分類。
- 深度神經網絡在訓練上的難度,則可以通過“逐層初始化”(Layer-wise Pre-training)來有效克服。
在李成華看來,相比傳統神經網絡,深度學習更懂用戶、更智能、更精準,更符合京東的業務需求。
目 前深度學習推廣的條件已經成熟。一方面,傳統神經網絡在大數據量的學習上性能較差,不符合大數據所需的時效性。另一方面,大數據的演進催生了軟硬件系統的 進步,分布式架構的產生,使得算法的性能已經不是瓶頸,并行化框架和訓練加速方法,讓深度學習的前景變得光明。同時,大數據也會讓深度學習的效果越來越 好。所以,從某種意義上說,深度學習是大數據的最佳拍檔。
根據業界報道,深度學習在幾個主要領域都獲得了突破性的進展:
- 在語音識別領域,深度學習用深層模型替換聲學模型中的混合高斯模型(GMM),獲得了相對30%左右的錯誤率降低;
- 在圖像識別領域,通過構造深度卷積神經網絡(CNN),將Top5錯誤率由26%大幅降低至15%,又通過加大加深網絡結構,進一步降低到11%;
- 在自然語言處理領域,深度學習基本獲得了與其他方法水平相當的結果,但可以免去繁瑣的特征提取步驟。
李成華表示,隨著深度學習的發展和成熟,80%的(傳統)機器學習算法將會被取代。
京東研究深度學習的初衷
客 服對電商發展的重要性毋庸置疑。京東雖然有近5000人的人工客服團隊,但應付618或者雙十一大促仍然顯得捉襟見肘。2012年12月,京東開始籌劃成 立JIMI智能客服團隊,通過一些機器算法模擬人的思維,達到客服跟用戶交流的效果。隨后深度學習技術的風靡,加深了京東完善JIMI的想法。2014年 9月9日,京東成立了京東深度神經網絡實驗室(DNN Lab),旨在通過神經網絡、知識層次、異構計算等新興領域的研究和應用來確保京東技術的領先性,提高JIMI的智能性及其應用的廣泛性是實驗室的首個直 接目標。
該實驗室直接隸屬于京東副總裁馬松——馬松本人是電商及人工智能領域的資深專家,在美國日本做過多年的研究,并曾在eBay擔任要 職。擔任首席科學家的李成華是加拿大約克大學的博士后、美國麻省理工大學的訪問科學家,在神經網絡領域有超過十年的研究基礎和行業經驗。團隊課題負責人之 一張曉鑫博士則畢業于清華大學,曾任職于Google公司,在機器學習和自然語言處理領域有深入的研究。另外,團隊成員還有來自華為的劉丹和阿里的楊洋等 行業專家。
深度學習技術固然有很大的應用價值,但隨著IBM Watson、百度大腦等平臺的開放,這種能力的獲得并不困難,產品化的好壞才是直接影響客戶服務能力的因素。京東沒有采用戰略合作的方式,而是選擇在這 個領域投入豪華的陣容自主研發,這說明,深度學習和數據挖掘技術已經被電商企業視為核心競爭力,立志做技術驅動型企業的京東,必須自己掌握核心這些技術, 讓數據更好地服務于自己。
京東DNN Lab的研發方向
與Google、百度、騰訊在圖像和語 音識別領域投入重金不同,京東DNN Lab目前更注重自然語言的處理。李成華強調,京東深度學習算法目前用于破解傳統機器學習算法的瓶頸,提升JIMI在各個環節的性能、智能程度,從而提升 用戶滿意度。基于這樣的目標,DNN Lab主要進行如下4個方面的研發:
- 意圖識別:針對用戶輸入的文本,通過意圖識別之后對應到訂單、售后、商品、閑聊等不同的類別。意圖識別對JIMI非常重要,用戶的每一句問話,JIMI首先要判斷他的意圖,到底說的是訂單問題、商品咨詢還是售后問題,抑或單純的閑聊,才會給出更好的反饋。
- 命名實體識別:先對用戶輸入的文本進行識別,在對識別后的命名實體進行抽取,對應到人名、地名、商品名、機構名等不同類別,更好地理解用戶的語言。所以,命名實體識別其實也是用戶意圖識別的必須步驟。
- 自動問答:在 明確用戶的意圖之后,通過自動問答系統匹配答案,抽取和排序候選答案,給用戶反饋最佳答案和建議。通過深度學習的算法,可以提高自動問答的準確率。與此同 時,京東還開發了一個知識庫,讓JIMI能夠通過深度學習算法識別用戶使用不同的詞語背后的各種情緒,從而提供有針對性的回答。
- 用戶畫像:通 過用戶各個維度的數據,比如性別、能力、身高,歷史瀏覽記錄,購物記錄,是不是有小孩,最近購物傾向是什么,關注什么商品,對用戶做很細的刻度,分成很多 維度的畫像,標注土豪還是屌絲,用戶價值維度是高是低還是中等,用戶是什么類別、性質的,是理性保守型還是購物沖動型的,根據這種細粒度的畫像提供個性化 的服務。
由 于人工智能和深度學習技術與大數據相結合的研究和應用都是在探索之中,DNN Lab還沒有詳細的長期規劃。李成華表示,未來的6個月之內,DNN Lab的主要精力還是放在JIMI智能機器人的完善上——JIMI背后的用戶畫像、自然語言處理、各種自然問答、命名實體抽取等,每一個技術點其實都是一 個很大的課題。因此,他同時表示出對深度學習人才的渴求。
不過,李成華也透露,京東對深度學習算法的主要預期,將在產品銷量預測、互聯網金融、智能硬件、商品搜索/推薦/廣告等方面。
DNN在京東的應用
京東基于其人工客服和用戶交互產生的上億條數據對JIMI進行訓練,模擬每一個用戶場景。JIMI的應用如前文所述,主要分為三類場景。它在2014年雙十一期間接待了近百萬用戶,有效緩解了人工客服的壓力。
從 實際效果來說, JIMI在一定程度上能夠讓不解內情的用戶單從對話無法區分對方是智能機器人還是人工客服。不過,京東以用戶滿意度提升、用戶體驗的提升、用戶愿意使用、 服務占比提高等指標是來衡量其技術的好壞或者應用的效果,在每個課題上,都有識別的準確性、評判分類的準確性的不同標準。在這些標準下,京東內部對 JIMI現階段的服務效果較為滿意。
從神經網絡層級來說,李成華介紹,目前工業界用得最多的已經到了十幾層甚至幾十層,京東目前能夠做到八九層,明年可以達到十幾層。
在對京東其他大數據應用場景的支持,DNN Lab目前主要是根據項目合作的形式來做,兄弟部門的算法工程師加入項目,提供數據和業務需求,看看哪些點上能用到深度學習,共同改進業務。
李成華希望能夠做到深度學習的平民化,即研究一種深度學習算法的架構,把很多參數固定起來,通過預處理,封裝成跟數據相關性很小的標準化的API或者云服務,提供給京東內部,讓他們很容易地應用于各種數據,最終還將會向京東產業鏈輸出。
DNN Lab階段性成果的經驗
京東DNN Lab正式成立至今不過短短的幾個月,JIMI智能機器人就已經取得如此的成績,確實有驕傲的資本。總結一下,京東的成功主要有以下的幾個原因:
- 業務導向。 相對于財大氣粗的Google、百度,京東的體量要小一些,這也讓京東以更加務實的姿態進入這個領域,以為業務帶來價值為宗旨,譬如第一個目標直指 JIMI智能機器人的打造。所以,具體操作上,京東DNN Lab以項目組的方式運行,由一位副總裁直接領導,同時網羅全球優秀的、有經驗的技術人才,形成了一個高效的團隊。
- 數據量與數據質量。得益于開放生態系統的構建,京東擁有龐大的業務量并積累了較為完善的數據,因而深度學習才能達成較好的結果。李成華介紹說:“我 們數據比較突出,從大數據來說京東的數據可能是所有電商中數據鏈最長的,包括經銷商的數據、用戶一開始瀏覽我們的數據,可能別的電商有,最后我們做到客服 有沒有返修,返修的時候跟我們人交互的時候他的情緒是什么樣的,這是別的平臺他們沒有的,因為他們服務不是自己做的,我們推送服務全是自己做的,所以我們 對用戶數據掌握非常全,所以我們的描述也是最準的。”
- 模型優化。這又包括三個層面:針對輸入向量非常長的文本(京東的詞有將近十萬的維度),首先做特征的降維,而且能夠找到并應用非常重要的有區別度的,有利于業務提升的特征。第二是說調節各種參數,使得算法能夠更快地收斂。第三是通過底層的分布式集群加速算法運算。李成華表示,京東借助于GPU加速運算構建分布式集群,實現性能的提升與大數據量的支持,其單臺服務器能比純CPU運算性能提升8~10倍。
當 然,這僅僅是京東在深度學習領域的初步應用。當被問及DNN縱深研發的挑戰,李成華表示,其中的一個方面是訓練的時間會比較長,因為它的迭代、交叉、神經 元的連接時間比較長。甚至如果參數調節不當,訓練就沒有任何效果——隨著深度增加,參數調節需要很多的經驗,然而這是一個新興領域。換句話說,人才的缺乏 也是一大難題。未來,我們期待有破解這兩個挑戰的分享。
來自:http://www.csdn.net/article/2014-12-30/2823378