關于知識管理和語義搜索的一些思考

jopen 10年前發布 | 25K 次閱讀知識管理

知識管理的坑

做知識管理最容易陷進去的坑就是滿足1%用戶的要求

做知識管理最容易陷進去的另一個坑就是滿足99%用戶的要求

知識庫的構造中，當目標是滿足全人類的需要，就沒辦法滿足(幾乎)任何人的需要。Wikidata, freebase, dbpedia和yago都有這個問題。

wikidata至少做對了一件事：不用RDF

眾包是一個建設文本百科的好辦法，但是對于建設結構化數據就沒有成功的先例，因為世界觀的沖突很難用結構化表示融合。詳見我的《The Unbearable Lightness of Wiking》http://www.slideshare.net/baojie_iowa/2010-0522-smwcon

知識庫和文本不同，它的長尾需求特別大，人們通常會關心各種小領域的entity。大部分這些entity是沒有機會進入主流的知識庫的。這里有認識的原因，有經濟學的原因。比如ConceptNet和Freebase，他們允許眾包編輯，但是真正來編輯的人是極少的。大部分領域的概念都非常稀疏。

年輕人喜歡大數據，成年人只看數據清理

做知識，做語義，很容易犯的錯誤，是把實驗室成果外推，認為能應用到大幾個數量級的數據上。而在實踐中，一個人用的東西和十個人用的截然不同，1G數據的分析和1T數據的分析截然不同，不是上Hadoop就能解決的。這里面有太多人的因素，人是沒法Hadoop化的。

反之亦然，在大市場、大數據上有效的算法，在小市場、小數據上效果反而不好。創業公司就不能眼睛盯著大公司，覺得他們怎么做我們就follow，只要把規模縮小了就可以了。可是大象的骨骼結構小老鼠是不能按比例縮小的。

自由…不是無代價的

人工智能問題說到底是一個經濟學問題，不(僅)是算法問題

在知識工程里，“領域”往往被看作一個本體(ie 概念的正確分類的形而上的)問題。但其實領域應該是一個渠道問題，一個經濟學問題。領域的大小是隨著知識銷售者的實力而變化的，和領域的真實大小不必然有關系。

在我看來，Knowledge Graph的核心既不是Knowledge，也不是Graph，而是自由。自由是降低成本的方式。但是眾包并不是自由——對于知識庫而言，眾包恰恰是反自由，自古以來就沒有成功的例子。允許多種觀點在不同的范圍內共存，這才是知識圖譜能普及的根本——但是這違背大公司的利益。

例如 Google的Knowledge Graph和Schema.org，代表的是Google自己的世界觀（比如命名，組織，范疇），它的目的是服務Google自己的商業利益。這也就決定了它們在用于其他人的利益范疇時，會非常的別扭。這個問題是和它的渠道緊密結合的，自由會損害它的商業利益

Web的成功，一個基礎就是允許人們各行其是，盡可能降低事先約定的必要，盡可能允許多種不同的組織方式、數據形式、基礎系統能共存。對于Web而言，URI是實現這種自由的基礎。于是語義網界（含關聯數據）外推把URI也做為結構化數據表現的基礎，經歷十多年的失敗，現在看應該是錯了。

URI當年是自由的支柱，但是現在它反而阻礙了自由。作為一種尋址方式，它代表了自由。但是作為一種*命名*方式（也就是知識組織的底層基礎），它則代表了一種特殊的世界觀——這種世界觀和大多數人的世界觀抵觸。這就極大提高了成本。

知識表現中的成本，并不是說建一個模型的成本，或者機器跑一個模型的成本。最大的成本是人與人之間的成本。爭吵（大到各種會議和工作組，小到郵件列表）、困惑、官僚主義（項目擴大以應項目擴大之需），而這一切的根源都在于以不恰當的方式過早優化普適性，從而導致世界觀的沖突。

真理從來不是越辯越明的。在世界觀的沖突中，再多的辯論也無法改變人們本身的思維方式，更不用說利益本身。所以知識結構不應該被集體設計出來——事實上，參與設計的人越多，這個知識結構越正確，于是就越沒有用。反而是偏見最后能落到實處。

Unified Ontology of Everything = Unified Ontology of Nonsense 好比是把佛教、基督教、伊斯蘭教混合在一起搞一個宗教

數據的語義，應該盡可能的局部化。過于照顧數據多樣的應用中的語義解釋，會極大提高數據發布者的發布成本，因為這就需要精確的指定語義（比如說用URI命名）。而事實上，真正產生價值的應用的數量是很少的。在1-1而非n-n的語境下語義的解釋成本就會大大的下降。降低這個成本就是知識管理的一個核心任務

從社會學上說，參與事務的個體越多，分歧就會越大。把消滅分歧的任務交給發布者是不合適的，等于發布者成為整個理解系統的中心，從經濟學上不可持續。應該通過局部化事務，去中心化。這就需要各種代理的出現。

把語義數據稱為ontology，這已經在哲學上假設這些結構化數據是在描述本體。人們已經對本體爭論了兩千年，可能要再爭論兩千年。而工程中的數據的語義，則是主觀的而非客觀的描述。所以語義是一個唯心的認識論問題，而非本體論問題

因此，如果從認識論的角度設計語義系統，就可以把復雜的本體論語義轉化為可解耦的認識論語義，從而在不同的域中允許不同的解釋存在。這就保證了語義解釋的自由，這一web發布最核心的價值。

市場的的經驗教訓

今日去檢查John Breslin和Nova Spivack的公司StreamGlider到底怎么樣了，才發現連網站都沒了，準確地說被黑了。公司似乎還在，全球排名已經可以忽略不計 http://t.cn/Rw5zGbM 推ter 只有113個粉絲。作為當年號稱要挑戰Flipboard的公司，匯集諸多明星，為什么會只走出這點距離？

這是Streamglider當年剛推出時的新聞 http://t.cn/zOZzYeS Breslin是我們語義網界的風云人物，DERI的大牛。但是很顯然，Streamglider和Bottlenose, Twine一樣沒有抓住用戶的需求。

DERI出來的另一個創業項目，seevl.fm http://t.cn/Rw5Zhb6 ，試圖在音樂領域做推薦，當年還發了很多文章，也已經基本上死掉了。單純從知識的角度，不管是語義網也好，知識圖譜也好，都不能解決用戶真正關心的問題。去進攻一個準備不足的市場，這個市場本身的規模再大也和你無關，因為沒人會用。

Bottlenose先后融資了6.6M。前兩天他們剛剛從KMG Capital Partners B輪。但是如果他們不改變經營戰略，再砸錢也沒用

幾乎所有的“語義”引擎在遇到消費者市場問題后就撤退了，去搞企業市場。可是這樣的公司幾乎過兩年也都死掉了。在我看來，他們的問題不是消費者vs企業市場，而是他們（至少我接觸的那幾家）太過從技術的角度，而不是真正從“消費者”的角度去思考問題。把客戶從個人換成企業也無助于解決問題。

幾乎所的這些公司，都是明星CEO+明星技術團隊+明星顧問+明星投資公司。在用戶以前，他們就已經有各種C這個O，C那個O，一個漂亮的董事會。他們有各種天頂星技術。但是就是不愿意做小事。小事不需要明星。所以他們都死了。

在我看來，他們從消費者市場轉進企業市場，只是一種逃避。他們不試圖去解決成本、成本、成本這個知識管理最核心的問題——因為他們本身就是成本，他們沒法解決掉自己。語義和知識，如果不能lean startup，那就注定無解。創始人越是明星，開始拿的投資越多，就越更接近于失敗。

Sig.ma已經下線了了。sindice.com全球排名一直在40萬上下，再也上不去。如今商業化的通用語義搜索十分的不景氣。

在不景氣名單上的還有kngine 已經加入陣亡或被收編名單的：Hakia, Kosmix, Evri, Powerset, Truevert。唯一和語義有點關系還干的不錯的是DuckDuckGo

和 Hakia和Powerset的人都聊過。對這兩個語義搜索先驅的失敗，我的感覺還是他們想做的事情太大，超越了時代。比如Powerset為了搞語義，先發明了HBase，但是語義分析速度實在是太慢。被微軟收購后，很長一段時間里Powerset其實是被拋棄了，沒法滿足微軟要求的規模。還是要 Lean Startup

Hakia和Powerset都是以自然語言理解為核心，想從關鍵字搜索進步到自然語言搜索。這個路徑至少在2006年是超前的。今天是不是還是超前，我不敢定言。但是任何會激發用戶圖靈測試欲望的界面設計，都是不妥的。

專有領域的一些語義搜索（一般它們都不這么叫自己），比如Yummly和Factual，活得都不錯。所以現在的技術和市場條件，還是不太合適通用語義搜索的存在。現在的機器學習技術，做通用知識的自動挖掘還遠遠沒能離開實驗室階段，拿它來做創業太冒險了。

我的信箱里還有好多“Twine Digest”，其實和我們現在做的機器學習日報、大數據日報也差不多。Twine的經驗教訓，時時刻刻都都在提醒我們。

如果Twine當時更專注一些，比如專門做書簽，或者只做推送，或者專門在一個話題上深挖，會不會更好些呢？至少，它的數據量會少很多，對后端的壓力就不會那么大，也就不至于需要分一半的工程力量去搞大數據基礎設施，就能更關注于業務本身。當然歷史是不容假設的。

來自：http://baojie.org/blog/2015/03/04/on-knowledge-management/

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1425520178103.html

知識管理

關于知識管理和語義搜索的一些思考

知識管理的坑

自由…不是無代價的

市場的的經驗教訓

相關經驗

相關資訊

相關文檔

目錄