關于知識管理和語義搜索的一些思考
知識管理的坑
做知識管理最容易陷進去的坑就是滿足1%用戶的要求
做知識管理最容易陷進去的另一個坑就是滿足99%用戶的要求
知識庫的構造中,當目標是滿足全人類的需要,就沒辦法滿足(幾乎)任何人的需要。Wikidata, freebase, dbpedia和yago都有這個問題。
wikidata至少做對了一件事:不用RDF
眾包是一個建設文本百科的好辦法,但是對于建設結構化數據就沒有成功的先例,因為世界觀的沖突很難用結構化表示融合。詳見我的《The Unbearable Lightness of Wiking》http://www.slideshare.net/baojie_iowa/2010-0522-smwcon
知識庫和文本不同,它的長尾需求特別大,人們通常會關心各種小領域的entity。大部分這些entity是沒有機會進入主流的知識庫的。這里有認識的原因,有經濟學的原因。比如ConceptNet和Freebase,他們允許眾包編輯,但是真正來編輯的人是極少的。大部分領域的概念都非常稀疏。
年輕人喜歡大數據,成年人只看數據清理
做知識,做語義,很容易犯的錯誤,是把實驗室成果外推,認為能應用到大幾個數量級的數據上。而在實踐中,一個人用的東西和十個人用的截然不同,1G數據的分析和1T數據的分析截然不同,不是上Hadoop就能解決的。這里面有太多人的因素,人是沒法Hadoop化的。
反之亦然,在大市場、大數據上有效的算法,在小市場、小數據上效果反而不好。創業公司就不能眼睛盯著大公司,覺得他們怎么做我們就follow,只要把規模縮小了就可以了。可是大象的骨骼結構小老鼠是不能按比例縮小的。
自由…不是無代價的
人工智能問題說到底是一個經濟學問題,不(僅)是算法問題
在知識工程里,“領域”往往被看作一個本體(ie 概念的正確分類的形而上的)問題。但其實領域應該是一個渠道問題,一個經濟學問題。領域的大小是隨著知識銷售者的實力而變化的,和領域的真實大小不必然有關系。
在我看來,Knowledge Graph的核心既不是Knowledge,也不是Graph,而是自由。自由是降低成本的方式。但是眾包并不是自由——對于知識庫而言,眾包恰恰是反自由,自古以來就沒有成功的例子。允許多種觀點在不同的范圍內共存,這才是知識圖譜能普及的根本——但是這違背大公司的利益。
例如 Google的Knowledge Graph和Schema.org,代表的是Google自己的世界觀(比如命名,組織,范疇),它的目的是服務Google自己的商業利益。這也就決定了它們在用于其他人的利益范疇時,會非常的別扭。這個問題是和它的渠道緊密結合的,自由會損害它的商業利益
Web的成功,一個基礎就是允許人們各行其是,盡可能降低事先約定的必要,盡可能允許多種不同的組織方式、數據形式、基礎系統能共存。對于Web而言,URI是實現這種自由的基礎。于是語義網界(含關聯數據)外推把URI也做為結構化數據表現的基礎,經歷十多年的失敗,現在看應該是錯了。
URI當年是自由的支柱,但是現在它反而阻礙了自由。作為一種尋址方式,它代表了自由。但是作為一種*命名*方式(也就是知識組織的底層基礎),它則代表了一種特殊的世界觀——這種世界觀和大多數人的世界觀抵觸。這就極大提高了成本。
知識表現中的成本,并不是說建一個模型的成本,或者機器跑一個模型的成本。最大的成本是人與人之間的成本。爭吵(大到各種會議和工作組,小到郵件列表)、困惑、官僚主義(項目擴大以應項目擴大之需),而這一切的根源都在于以不恰當的方式過早優化普適性,從而導致世界觀的沖突。
真理從來不是越辯越明的。在世界觀的沖突中,再多的辯論也無法改變人們本身的思維方式,更不用說利益本身。所以知識結構不應該被集體設計出來——事實上,參與設計的人越多,這個知識結構越正確,于是就越沒有用。反而是偏見最后能落到實處。
Unified Ontology of Everything = Unified Ontology of Nonsense 好比是把佛教、基督教、伊斯蘭教混合在一起搞一個宗教
數據的語義,應該盡可能的局部化。過于照顧數據多樣的應用中的語義解釋,會極大提高數據發布者的發布成本,因為這就需要精確的指定語義(比如說用URI命名)。而事實上,真正產生價值的應用的數量是很少的。在1-1而非n-n的語境下語義的解釋成本就會大大的下降。降低這個成本就是知識管理的一個核心任務
從社會學上說,參與事務的個體越多,分歧就會越大。把消滅分歧的任務交給發布者是不合適的,等于發布者成為整個理解系統的中心,從經濟學上不可持續。應該通過局部化事務,去中心化。這就需要各種代理的出現。
把語義數據稱為ontology,這已經在哲學上假設這些結構化數據是在描述本體。人們已經對本體爭論了兩千年,可能要再爭論兩千年。而工程中的數據的語義,則是主觀的而非客觀的描述。所以語義是一個唯心的認識論問題,而非本體論問題
因此,如果從認識論的角度設計語義系統,就可以把復雜的本體論語義轉化為可解耦的認識論語義,從而在不同的域中允許不同的解釋存在。這就保證了語義解釋的自由,這一web發布最核心的價值。
市場的的經驗教訓
今日去檢查John Breslin和Nova Spivack的公司StreamGlider到底怎么樣了,才發現連網站都沒了,準確地說被黑了。公司似乎還在,全球排名已經可以忽略不計 http://t.cn/Rw5zGbM 推ter 只有113個粉絲。作為當年號稱要挑戰Flipboard的公司,匯集諸多明星,為什么會只走出這點距離?
這是Streamglider當年剛推出時的新聞 http://t.cn/zOZzYeS Breslin是我們語義網界的風云人物,DERI的大牛。但是很顯然,Streamglider和Bottlenose, Twine一樣沒有抓住用戶的需求。
DERI出來的另一個創業項目,seevl.fm http://t.cn/Rw5Zhb6 ,試圖在音樂領域做推薦,當年還發了很多文章,也已經基本上死掉了。單純從知識的角度,不管是語義網也好,知識圖譜也好,都不能解決用戶真正關心的問題。去進攻一個準備不足的市場,這個市場本身的規模再大也和你無關,因為沒人會用。
Bottlenose先后融資了6.6M。前兩天他們剛剛從KMG Capital Partners B輪。但是如果他們不改變經營戰略,再砸錢也沒用
幾乎所有的“語義”引擎在遇到消費者市場問題后就撤退了,去搞企業市場。可是這樣的公司幾乎過兩年也都死掉了。在我看來,他們的問題不是消費者vs企業市場,而是他們(至少我接觸的那幾家)太過從技術的角度,而不是真正從“消費者”的角度去思考問題。把客戶從個人換成企業也無助于解決問題。
幾乎所的這些公司,都是明星CEO+明星技術團隊+明星顧問+明星投資公司。在用戶以前,他們就已經有各種C這個O,C那個O,一個漂亮的董事會。他們有各種天頂星技術。但是就是不愿意做小事。小事不需要明星。所以他們都死了。
在我看來,他們從消費者市場轉進企業市場,只是一種逃避。他們不試圖去解決成本、成本、成本這個知識管理最核心的問題——因為他們本身就是成本,他們沒法解決掉自己。語義和知識,如果不能lean startup,那就注定無解。創始人越是明星,開始拿的投資越多,就越更接近于失敗。
Sig.ma已經下線了了。sindice.com全球排名一直在40萬上下,再也上不去。如今商業化的通用語義搜索十分的不景氣。
在不景氣名單上的還有kngine 已經加入陣亡或被收編名單的:Hakia, Kosmix, Evri, Powerset, Truevert。唯一和語義有點關系還干的不錯的是DuckDuckGo
和 Hakia和Powerset的人都聊過。對這兩個語義搜索先驅的失敗,我的感覺還是他們想做的事情太大,超越了時代。比如Powerset為了搞語義,先發明了HBase,但是語義分析速度實在是太慢。被微軟收購后,很長一段時間里Powerset其實是被拋棄了,沒法滿足微軟要求的規模。還是要 Lean Startup
Hakia和Powerset都是以自然語言理解為核心,想從關鍵字搜索進步到自然語言搜索。這個路徑至少在2006年是超前的。今天是不是還是超前,我不敢定言。但是任何會激發用戶圖靈測試欲望的界面設計,都是不妥的。
專有領域的一些語義搜索(一般它們都不這么叫自己),比如Yummly和Factual,活得都不錯。所以現在的技術和市場條件,還是不太合適通用語義搜索的存在。現在的機器學習技術,做通用知識的自動挖掘還遠遠沒能離開實驗室階段,拿它來做創業太冒險了。
我的信箱里還有好多“Twine Digest”,其實和我們現在做的機器學習日報、大數據日報也差不多。Twine的經驗教訓,時時刻刻都都在提醒我們。
如果Twine當時更專注一些,比如專門做書簽,或者只做推送,或者專門在一個話題上深挖,會不會更好些呢?至少,它的數據量會少很多,對后端的壓力就不會那么大,也就不至于需要分一半的工程力量去搞大數據基礎設施,就能更關注于業務本身。當然歷史是不容假設的。
來自:http://baojie.org/blog/2015/03/04/on-knowledge-management/