Zettaset近日控告英特爾抄襲其大數據軟件,Zettaset在起訴書中指出,英特爾的Hadoop管理軟件與Zettaset的旗艦產品Orchestrator極為相似,英特爾不僅嚴重侵犯Zettaset的知識產權,而是“鳩占鵲巢”,赤裸裸地爭搶其客戶。
Hadoop不再僅僅是一個時髦詞,它已成為業務需求。數據總是大量涌入,但是在最近,我們可能已經在解鎖這種指數級增長的數據。大數據分析中的 現代技術提供了新的方法來識別和糾正故障、幫助數據挖掘、提供優化反饋,這些方法是無窮無盡的。現代的Hadoop生態系統不僅提供了可靠的分布式聚合系 統,無縫地提供數據的并行處理,同時也通過分析來提供大數據的見解。
Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導入到Hadoop的HDFS中,也可以將HDFS的數據導入到關系型數據庫中。
在深度學習(Deep Learning)的熱潮下,Caffe作為一個高效、實用的深度學習框架受到了廣泛的關注。了解Caffe研發的背景、愿景、技術特色、路線圖及其開發 者的理念,對于我們選擇合適的工具更好地進行深度學習應用的迭代開發大有裨益。《程序員》記者近日深度對話Caffe作者賈揚清,剖析Caffe的起源、 目標、差異性、現存的一些問題和改進工作,以及未來的規劃。
在互聯網這個領域一直有這樣的說法:“如果老二無法戰勝老大,那么就把老大賴以生存的東西開源吧”。當年Yahoo!與Google還是處在強烈競 爭關系時候,招聘了Doug(Hadoop創始人),把Google老大賴以生存的DFS與Map-Reduce開源了,開始了Hadoop的童年時期。 差不多在2008年的時候,Hadoop才算逐漸成熟。
Yahoo新成立的Hadoop公司Hortonworks,開始與Cloudera爭奪領導者地位。 Hortonworks最近發布“Yahoo對Hadoop貢獻”一文,標榜Yahoo是Hadoop最大貢獻者,Cloudear CEO很不滿,又爆出更為細致的分析數據, 從中,我們可以清晰看到各公司參與Hadoop參與情況:
eBay 在 Hadoop 世界(Hadoop World)大會的主題演講中展示了一種全新的搜索引擎 Cassini 的架構,該引擎預計在2012年上線。它對所有的內容和用戶的元數據進行索引來得到更好的排名,并每小時刷新索引。
Facebook 已經開源了 Corona,這是一款內部開發的用以改善 Hadoop MapReduce 調度的軟件。
談到大數據,相信大家對 Hadoop 和 Apache Spark 這兩個名字并不陌生。但我們往往對它們的理解只是提留在字面上,并沒有對它們進行深入的思考,下面不妨跟我一塊看下它們究竟有什么異同。
Twill是 Apache Hadoop YARN 的一個抽象層。它能夠減少開發分布應用程序的復雜性,讓開發人員可以更加關注他們的業務邏輯。它通過一個類似于Java線程的簡單而直觀的編程模型來暴露 Apache Hadoop YARN 的分布式功能。
Nut是一個Lucene+Hadoop分布式并行計算搜索框架,能對千G以上索引提供7*24小時搜索服務。在服務器資源足夠的情況下能達到每秒處理100萬次的搜索請求
目前國內外在面對圖片存儲問題時,所采取的解決方案有兩種,分別是圖片保存至數據庫和圖片存儲在硬盤。鑒于海量圖片規模下,數據庫承載太多圖片會導致數據庫容量和效率成為極大的瓶頸。常見的做法是圖片保存至硬盤,數據庫中保存圖片的存儲路徑。分布式存儲為海量圖片存儲提供了原始模型,一些研究成果和實踐表明,圖片存儲架構需要從容量和負載兩方面設計,且還要根據業務需求制定特定的緩存策略。
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在單點故障(single point of failure),每一個集群中存在一個NameNode,如果NN所在的機器出現了故障,那么將導致整個集群無法利用,直到NN重啟或者在另一臺主機上啟動NN守護線程。
新版本日志系統預計存儲在TB級別,并且需要統計分析一些數據(離線統計,非即時),所以選擇廉價linux服務器搭建一個hadoop集群,1個namenode,1個resourcemanager(mapreduce新框架yarn,去掉了原來的 jobtracker和tasktracker,取而代之的是ResourceManager, ApplicationMaster 與 NodeManager),3個datanonde。
如今Apache Hadoop已成為大數據行業發展背后的驅動力。Hive和Pig等技術也經常被提到,但是他們都有什么功能,為什么會需要奇怪的名字(如Oozie,ZooKeeper、Flume)。
Hadoop 是一個開源的可運行于大規模集群上的分布式并行編程框架,由于分布式存儲對于分布式編程來說是必不可少的,這個框架中還包含了一個分布式文件系統 HDFS( Hadoop Distributed File System )。也許到目前為止,Hadoop 還不是那么廣為人知,其最新的版本號也僅僅是 0.16,距離 1.0 似乎都還有很長的一段距離,但提及 Hadoop 一脈相承的另外兩個開源項目 Nutch 和 Lucene ( 三者的創始人都是 Doug Cutting ),那絕對是大名鼎鼎。
分布式計算開源框架Hadoop介紹 - 分布式計算開源框架Hadoop入門實踐(一)在SIP項目設計的過程中,對于它龐大的日志在開始時就考慮使用任務分解的多線程處理模式來分析統計,在我從前寫的文章《Tiger Concurrent Practice--日志分析并行分解設計與實現》中有所提到。但是由于統計的內容暫時還是十分簡單,所以就采用Memcache作為計數器,結合MySQL就完成了訪問控制以及統計的工作。然而未來,對于海量日志分析的工作,還是需要有所準備。現在最火的技術詞匯莫過于“云計算”,在Open API日益盛行的今天,互聯網應用的數據將會越來越有價值,如何去分析這些數據,挖掘其內在價值,就需要分布式計算來支撐海量數據的分析工作。
最近做了一個項目,要求找出二度人脈的一些關系,就好似新浪微博的“你可能感興趣的人” 中,間接關注推薦;簡單描述:即你關注的人中有N個人同時都關注了 XXX 。
Pig是一個基于Hadoop的大規模數據分析平臺,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優化處理的MapReduce運算。Pig為復雜的海量數據并行計算提供了一個簡單的操作和編程接口。
Mapreduce是一個計算框架,既然是做計算的框架,那么表現形式就是有個輸入(input),mapreduce操作這個輸入(input),通過本身定義好的計算模型,得到一個輸出(output),這個輸出就是我們所需要的結果。