李彥宏會賞花:“88年美女博士+視覺搜索”花
在百度第五屆 Hackathon(百度內部編程馬拉松)上, 李彥宏一如既往地參與點評。據百度內部同學爆料,這次李彥宏尤其被一個美女博士領銜的學生團隊“賞花寶典”應用所吸引。
88 年美女博士與“賞花寶典”
據百度同學說本次 Hackathon 是首次對外開放,有 6 支校園高手組隊參加 Hackathon。其中一支名為 TAGroup 的校園代表隊 leader 是 88 年美女博士古曉艷,目前在中科院計算所讀大數據方向的博士。
通過主動爭取李彥宏的注意,這個團隊的 Demo(原型)吸引了李彥宏。這個 Demo 被命名為“賞花寶典”。基于手機拍照實現花卉識別,主動提示百度百科內容;同時還可智能推薦賞花地、導航信息,并引入百度貼吧,方便花友們交流。在百度最 大的會議室“五福”,李彥宏詳細了解他們的 Demo,與四名學生相談甚歡,主要探討的是技術問題。這個學生團隊最終也摘得“黑馬獎”。
記得在 2013 年極客公園大會上,李彥宏坦言自己愛好上網,他沒說的是,自己還喜歡花草。據說李彥宏最喜歡逛的貼吧不是“李彥宏吧”,而是“白皮松吧”、“植物吧”等等。除了在自家花園種植外,李彥宏連去國外出差也不忘抽空網購植物。
Robin 酷愛花草,這在百度內部已經不是秘密。或許是因為這個,李彥宏被“賞花寶典”吸引。
還有一個原因可能是,“賞花寶典”與百度正在攻堅的“視覺搜索”有緊密聯系,這是一項面向未來但又復雜浩大的工程。
隨著百度魔圖憑“PK 大咖”功能迅速走紅,百度在人臉識別技術的進展獲得業界關注。與此相似,“識花應用”也是“視覺搜索”的一種,視覺搜索更直白地說是“以圖搜圖”。幾個月前我曾進行過分析,認為“視覺搜索”是移動搜索的未來。
百度 Hackathon 鼓勵天馬行空,更鼓勵解決實際問題。因此,每次產生的上百個創意產品或者半成品,除了要本身創意足外,還要考慮、實用性強,以便參賽成果真正轉換為產品, 或為產品所用。比如這個識花應用,就可能在進一步突破之后,納入百度 APP 的移動搜索當中。
視覺搜索的難點
見微知著,“賞花寶典”雖然是個技術 demo,卻也集中體現了未來視覺搜索技術發展需要解決的問題。
1. 識別準確率
視覺搜索在對平面或剛體(書籍、CD、建筑物、油畫、明星照片等不易變形的物體)的搜索方面,召回率(反映搜索引擎查得全不全的技術指標)已超過 90%;但對“非剛體”的柔性圖像(比如動物、衣服、環境)的識別,就對機器算法有更高的要求。
鮮花屬于與動物類似的“非剛性”圖像。如果再將范圍擴大到植物,識別難度會更大。鮮花之間的區別除了形狀,還有大小、色彩甚至細節。據了解, “賞花寶典”目前支持 20 多類花卉識別,種類不算多,召回率可以接受,但距離百度正式上線的視覺搜索項目還有不小差距,當然,作為 24 小時優化的成果,這已經是非常贊的成績了。
目前識別率較高的垂直領域,很多都已成為視覺搜索的切入口。例如條碼、二維碼、人臉、圖書、CD 封面,這些在 iOS 版的手機百度 APP 中都已經作為標配置入了。但這也是垂直品類的細分,生活中的物品千千萬,類別是無法窮舉的。水果、盆景、樹木、昆蟲等領域都得一個個分別來,百度的程序猿 們也必須得根據使用率來排個優先級,否則從此就可以不用睡覺了。
2.大數據與海量計算
圖像識別需要云端積累的海量數據。百度魔圖的明星臉識別之所以能運轉,最基礎的是百度擁擁有海量的明星圖片庫。“賞花寶典”4 人團隊中,也有一個成員是專門負責獲取花卉圖片庫。
在視覺搜索的服務器端,數據被聚類提取特征。形成“長這樣的是什么”的規律,搜索引擎在獲得用戶上傳的圖片并提取出特征后,通過比對來了解這個圖片的意義。數據越多,規律越準確越細,識別準確率越高。
從數據信息提取出規律并形成知識,這是“深度學習”技術在做的事情。也就是說,機器像人腦一樣思考,自動從海量數據中找出規律來,整個過程中自我完善。有些需要人工糾正干預,有些干脆就是無監督學習。
百度在深度學習方面布局很早,延攬人才之手早已伸向硅谷腹地,國家千人計劃學者余凱、非死book 前資深科學家徐偉、新澤西州立大學統計學教授張潼,均被李彥宏招至麾下。深度學習也不是萬能的,要有計算能力和大數據做基礎,沒有這兩樣,一切都是空談。 好在,百度這兩樣都有。
3.理解用戶意圖
視覺搜索當前的流程是上傳一張圖片,搜索引擎返回結果。這個信息輸入往往是不夠的。僅僅通過一張圖片便知道用戶的搜索意圖,除了特別信息特別明確的圖片,這幾乎是機器現階段難以完成的任務。
視覺搜索目前的處理邏輯有三種:第一種是默認用戶要搜索的是:這張圖片是什么?例如寵物狗搜索;第二種是只返回相似圖片,不提供具體信息,例如 百度 PC 端的圖片搜索;第三種是在特定領域提供個性化信息——圖書、CD 封面和條形碼是比價,“PK 大咔”是比對明星臉,賞花寶典則進一步提供社交、知道、百科信息。但這三種都還是“猜測搜索意圖”。而不是理解用戶搜索意圖。
如何通過識別圖片,進而理解用戶搜索意圖是當前的難點。這與語音搜索遇到的困難類似,語音轉換為文字已經相對成熟,但人機對話目前依然停留在很初級的階段。這也需要深度學習來解決。只有期望深度學習繼續帶來驚喜了。
視覺搜索的趨勢
1.與可穿戴設備結合:手機當然是目前使用起來最自然的,可也不能忘了 Google Glass,它讓拍攝-上傳-搜索的流程更加順暢,百度內部也在加強百度眼鏡工程版的調試。不僅如此,后期一定還會出現比眼鏡更隱形、便捷的設備。
2.與語音搜索結合:與人交談時,我們同時向對方傳遞視覺信息和聲音信 息。因此要解決視覺搜索的“一張圖無法表明搜索意圖”的問題,或許需要與語音搜索結合。例如拍攝菜市場的蔬菜上傳時,可以語音問這是什么菜?這個菜適合與 什么搭配?這個菜要怎么炒?一步一步逼近你要的結果,而這樣的語音交互,甚至可以是多幾輪很自然的對話交流。
3.動態視覺搜索:解決“看一眼”的問題。在移動網絡瓶頸消失后,所見即所搜,拍照、上傳等帶來的延時消失。用戶需要的不是拍照,而是要讓搜索引擎與之分享眼前所見。現在的 AR 實景,能算是這類應用的雛形。
以上種種,都是讓視覺搜索變得更自然,或者讓“搜索”消失。就好像鋼鐵俠里面的“賈維斯”一樣,這個隱形的管家無處不在,他比你還了解你自己, 幫你安排生活,解答問題,與你分享和幫助你認識這個世界。現實殘酷,未來依然很豐滿。這需要搜索科學家們的持續努力,早日帶來我們一種全新的搜索引擎。