Yahoo 開源 Java 超快速計算算法 Data Sketches
Yahoo 今天開源了數據快速高效計算算法,基于 Java 的 Data Sketches 算法。 Data Sketches 遵循 Apache 開源授權協議提供在 GitHub:https://github.com/datasketches/sketches-core/。
這類型的技術在研究者的學術論文中出現的越來越多,總是使用不同的名字,但都會分享一些關鍵的技術點。首先就是可以處理流數據,因為這些數據他們只接觸一次。他們是可附加的,你可以添加或者合并這些計算。更有趣的是,他們都是近似的。
雅虎方面發表聲明說,這整個科學計算是基于很基礎的功能,只要你能忍受結果有一點點偏差,那么完全可以大幅度提升計算的速度。
想象如果你想計算一些東西,比如一天中既訪問雅虎財經又訪問雅虎體育的人數。如果你嘗試計算到底有多少人訪問,是可以得到答案的 —— 只要你有充足的硬盤空間,內存和時間。這是非常困難的,Yahoo 很自然的就想優化這類型的計算。
除了高速計數之外,Data Sketches 做某些類型的計算會比精確計算快很多。1億數值計算一般情況花費 2.5 分鐘,而使用 Data Sketches 只需要 2.7 秒。
Data Sketches 已經在 Yahoo 的大量產品中使用,Yahoo 自身的 Flurry 使用它來計算實時計數,雅虎郵件服務和搜索引擎也在使用。
Data Sketches 集成了 Hive 和 Pig,還有 Druid 開源數據存儲,在 Maven 構建管理工具中也很容易使用。
Data Sketches 文檔提供在這里.,更多內容請看 Yahoo engineering Tumblr page。
via venturebeat.com
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!