Diffbot:開發者工具 將web內容轉換成應用
北京時間8月26日消息,據國外媒體報道,Diffbot公司的技術不僅具有“極客氣質”,而且非常有趣:它利用機器人、算法、計算機視覺和人工智能,像人類一樣處理Web上的內容。Diffbot的聯合創始人Mike Tung說:“互聯網上的頁面可以分成30種不同的類型,Diffbot可以識別出其中的每一種。”這就是說,Diffbot能區別社交網站個人資料、博客、網站首頁、產品頁面、活動頁面等等之間的差異。
今天,Diffbot推出了它的第一套API(應用編程接口),供所有開發者免費使用。業界人士認為此舉有可能會極大地影響應用開發人員創建的應用的類型,而對于消費者來說,它則意味著一批智能應用即將出現。
兩個新的API
開發人員可以用Diffbot新推出的兩個API創建以下這些類型的應用:自動從頁面提取含義的應用;了解趨勢是什么以及誰在談論這些趨勢的應用;為沒有提供RSS源的內容提供RSS源的應用;可以忽略廣告、頁眉和頁腳,讀出網頁中具有相關性的內容的應用。
然后這僅僅是個開始。Diffbot還會推出一些API,讓開發人員自動將活動頁面變為日歷約會,將社交網絡個人資料變成電子名片,或從產品頁面中自動提取價格或評論等等。雖然Diffbot沒有制定產品路線圖,但這些新的API有可能在幾個月后就會推出。
今天推出的這兩個 API是:
On-Demand API:這個API按頁面類型分為“頭版”(Frontpage)API和“文章”(Article) API。前者是用來分析網站的首頁和索引頁的(這種頁面常常使用像標題、署名、圖片、文章、廣告這樣的布局標記),“文章”API則用來提取“干凈的”文章文字、圖片和標簽。
Follow API:它可以用來跟追蹤任何網頁的變化或更新。Diffbot自動確定開發人員想要關注頁面的哪個部分,并提取標題、圖片、文字總結等元數據,然后把頁面細分成有意義的部分。
Diffbot API使用舉例
一些大公司已經在使用Diffbot的API了,比如語音識別系統制造商Nuance公司,美國在線(AOL)公司,社會化媒體監測公司SocMetrics等等。
AOL使用Diffbot的API來為其新的iPad 雜志提取標題、作者、圖像、文字、視頻,主題和其他元數據。 Nuance公司使用這種技術來改善一款產品的自然語言處理性能;這款供醫生使用的產品需要理解復雜的醫學術語。SocMetrics發送bit.ly的短網址到Diffbot,以獲取完整的文章及其主題,以便判斷在哪些社會化媒體用戶中最流行的話題是什么。
以上是一些知名公司使用Diffbot技術的例子,而中小型公司使用它的方法似乎也不乏創新性。比如Hacker News Radio(黑客新聞電臺)可以為用戶大聲讀出《黑客新聞》的文章和評論,FeedBeate可以讓你很輕松地把任何網址變成一個RSS源。還有一個服務用Diffbot生成推ter源: 它可以跟蹤巴西圣保羅市網頁上的所有變化(它沒有RSS),并用推ter 發布這些更新。
“免費增值”模式
使用Diffbot自助服務平臺的免費服務,開發人員每月可調用API 5萬次。“云套餐”收費 500美元,開發人員可調用API 10萬次,之后按每次調用 0.002美元收費。企業使用的管理級套餐則需要具體議價。
Diffbot是斯坦福大學的兩名博士生Mike Tung和Leith Abdulla請假創辦的。Tung最初是希望開發一項技術來自動跟蹤學校網站上發布的新作業。Diffbot也是斯坦福大學孵化器(之前名為SSE Labs,現名StartX)孵化的第一個初創公司。
來自: 騰訊科技