轉載---大數據概念
大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。 大數據的4V特點:Volume、Velocity、Variety、Veracity。
編輯本段百科名片
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪
潮的華彩樂章”。不過,大約從2009年開始,“大數據”才成為互聯網信息技術行業的流行詞匯。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又并非單純指人們在互聯網上發布的信息,全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。[1]
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據分析相比于傳統的數據倉庫應用,具有數據量大、查詢分析復雜等特點。《計算機學報》刊登的“架構大數據:挑戰、現狀與展望”一文列舉了大數據分析平臺需要具備的幾個重要特性,對當前的主流實現平臺———并行數據庫、MapReduce及基于兩者的混合架構進行了分析歸納,指出了各自的優勢及不足,同時也對各個方向的研究現狀及作者在大數據分析方面的努力進行了介紹,對未來研究做了展望[2]。
對于“大數據”(Big data)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據”這個術語最早期的引用可追溯到apache org的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。隨著谷歌MapReduce和GoogleFile System (GFS)的發布,大數據不再僅用來描述大量的數據,還涵蓋了處理數據的速度。
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的系統工程;大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關系。
大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統的數據挖掘技術有著本質的不同。業界將其歸納為4個“V”——Volume,Variety,Value,Velocity。
物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式
編輯本段例子
例子包括網絡日志,RFID,傳感器網絡,社會網絡,社會數據(由于數據革命的社會),互聯網文本和文件;互聯網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;和大規模的電子商務 。
編輯本段技術
大的數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫,數據挖掘電網,分布式文件系統,分布式數據庫,云計算平臺,互聯網,和可擴展的存儲系統
一些但不是所有的MPP的關系數據庫的PB的數據存儲和管理的能力。隱含的負載,監控,備份和優化大型數據表的使用在RDBMS的
編輯本段影響
斯隆數字巡天收集在其最初的幾個星期,比在天文學的歷史,早在2000年的整個數據收集更多的數據。自那時以來,它已經積累了140兆兆 字節的信息。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將于2016年在網上和將獲得的數據,每5天沃爾瑪處理超過100萬客戶的交易每隔一小時,反過來進口量數據庫估計超過2.5 PB的是相當于167次,在美國國會圖書館的書籍 。非死book處理400億張照片,從它的用戶群。解碼最初的人類基因組花了10年來處理時,現在可以在一個星期內實現。
“大數據”的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數據管理和分析的專業公司。這個行業自身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟件業務的快速。
大數據已經出現,因為我們生活在一個社會中有更多的東西。有46億全球移動電話用戶有1億美元和20億人訪問互聯網。基本上,人們比以往任何時候都與數據或信息交互。 1990年至2005年,全球超過1億人進入中產階級,這意味著越來越多的人,誰收益的這筆錢將成為反過來導致更多的識字信息的增長。思科公司預計,到2013年,在互聯網上流動的交通量將達到每年667艾字節。
大數據,其影響除了經濟方面的,它同時也能在政治、文化等方面產生深遠的影響,大數據可以幫助人們開啟循“數”管理的模式,也是我們當下“大社會”的集中體現,三分技術,七分數據,得數據者得天下。
編輯本段大數據價值
谷歌搜索、非死book的帖子和微博消息使得人們的行為和情緒的細節化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數據背后找到更符合用戶興趣和習慣的產品和服務,并對產品和服務進行針對性地調整和優化,這就是大數據的價值。大數據也日益顯現出對各個行業的推進力。
大數據時代來臨首先由數據豐富度決定的。社交網絡興起,大量的UGC(互聯網術語,全稱為User Generated Content,即用戶生成內容的意思)內容、音頻、文本信息、視頻、圖片等非結構化數據出現了。另外,物聯網的數據量更大,加上移動互聯網能更準確、更快地收集用戶信息,比如位置、生活信息等數據。從數據量來說,目前已進入大數據時代,但現在的硬件明顯已跟不上數據發展的腳步。
以往大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,而現在提及“大數據”,通常是指解決問題的一種方法,即通過收集、整理生活中方方面面的數據,并對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業模式。
雖然大數據目前在國內還處于初級階段,但是商業價值已經顯現出來。首先,手中握有數據的公司站在金礦上,基于數據交易即可產生很好的效益;其次,基于數據挖掘會有很多商業模式誕生,定位角度不同,或側重數據分析。比如幫企業做內部數據挖掘,或側重優化,幫企業更精準找到用戶,降低營銷成本,提高企業銷售率,增加利潤。
未來,數據可能成為最大的交易商品。但數據量大并不能算是大數據,大數據的特征是數據量大、數據種類多、非標準化數據的價值最大化。因此,大數據的價值是通過數據共享、交叉復用后獲取最大的數據價值。在他看來,未來大數據將會如基礎設施一樣,有數據提供方、管理者、監管者,數據的交叉復用將大數據變成一大產業。據統計,目前大數據所形成的市場規模在51億美元左右,而到2017年,此數據預計會上漲到530億美元。[4]?
編輯本段大數據治理
利用ApacheHadoop等開放源碼技術,通過傳感器、RFID、社交媒體、呼叫中心記錄和其他來源提供的新型數據創造價值。出于這樣的目的,許多組織開始啟動自己的大數據治理計劃。所謂大數據治理,指的是制定策略來協調多個職能部門的目標,從而優化、保護和利用大數據,將其作為一項企業資產。
大數據治理計劃也需要關注與其他信息治理計劃類似的問題。這些計劃必須解決以下問題:
■元數據。大數據治理需要創建可靠的元數據,避免出現窘境,例如,一家企業重復購買了相同的數據集兩次,而原因僅僅是該數據集在兩個不同的存儲庫內使用了不同的名稱。
■隱私。企業需要嚴格關注遵守隱私方面的問題,例如利用社交媒體進行數據分析。
■數據質量。考慮到大數據的龐大數量和超快速度,組織需要確定哪種級別的數據質量屬于“足夠好”的質量。
■信息生命周期管理。大數據治理計劃需要制定存檔策略,確保存儲成本不會超出控制。除此之外,組織需要設定保留計劃,以便按照法規要求合理處置數據。
■管理人員。最終,企業需要招募大數據管理員。例如,石油與天然氣公司內的勘探開采部門的管理員負責管理地震數據,包括相關元數據在內。這些管理員需要避免組織因不一致的命名規范而付款購買已經擁有的外部數據。除此之外,社交媒體管理員需要與法律顧問和高級管理人員配合工作,制定有關可接受的信息使用方法的策略。
編輯本段大數據與Hadoop
Hadoop旨在通過一個高度可擴展的分布式批量處理系統,對大型數據集進行掃描,以產生其結果。Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、HadoopMapReduce編程模型,以及Hadoop Common。
Hadoop平臺對于操作非常大型的數據集而言可以說是一個強大的工具。為了抽象Hadoop編程模型的一些復雜性,已經出現了多個在Hadoop之上運行的應用開發語言。Pig、Hive和Jaql是其中的代表。而除了Java外,您還能夠以其他語言編寫map和reduce函數,并使用稱為Hadoop Streaming(簡寫為Streaming)的API調用它們。
編輯本段大數據與流數據分析
什么是流?
從技術角度而言,流是通過邊緣連接的節點圖。圖中的每個節點都是“運算符”或“適配器”,均能夠在某種程度上處理流內的數據。節點可以不包含輸入和輸出,也可以包含多個輸入和輸出。一個節點的輸出與另外一個或多個節點的輸入相互連接。圖形的邊緣將這些節點緊密聯系在一起,表示在運算符之間移動的數據流。
右圖一個簡單的流圖,它可以從文件中讀取數據,將數據發送到名為Functor的運算符(此運算符能夠以某種編程方式轉換所傳入的數據),然后將這些數據傳入另一個運算符。在此圖片中,流數據被傳送至Split運算符,而后又將數據傳入文件接收器或數據庫(具體情況視Split運算符的內部狀況而定)。
IBM InfoSphere Streams
在IBM InfoSphere Streams(簡稱Streams)中,數據將會流過有能力操控數據流(每秒鐘可能包含數百萬個事件)的運算符,然后對這些數據執行動態分析。這項分析可觸發大量事件,使企業利用即時的智能實時采取行動,最終改善業務成果。
當數據流過這些分析組件后,Streams將提供運算符將數據存儲至各個位置,或者如果經過動態分析某些數據被視為毫無價值,則會丟棄這些數據。你可能會認為Streams與復雜事件處理(CEP) 系統非相似,不過Streams的設計可擴展性更高,并且支持的數據流量也比其他系統多得多。此外,Streams還具備更高的企業級特性,包括高可用性、豐富的應用程序開發工具包和高級調度。
編輯本段商業模式
國內網絡廣告投放正從傳統的面向群體的營銷轉向個性化營銷,從流量購買轉向人群購買。雖然市場大環境不好,但是具備數據挖掘能力的公司卻倍受資本青睞。
大數據是一個很好的視角和工具。從資本角度來看,什么樣的公司有價值,什么樣的公司沒有價值,從其擁有的數據規模、數據的活性和這家公司能運用、解釋數據的能力,就可以看出這家公司的核心競爭力。而這幾個能力正是資本關注的點。
移動互聯網與社交網絡興起將大數據帶入新的征程,互聯網營銷將在行為分析的基礎上向個性化時代過渡。創業公司應用“大數據”告訴廣告商什么是正確的時間,誰是正確的用戶,什么是應該發表的正確內容等,這正好切中了廣告商的需求。
社交網絡產生了海量用戶以及實時和完整的數據,同時社交網絡也記錄了用戶群體的情緒,通過深入挖掘這些數據來了解用戶,然后將這些分析后的數據信息推給需要的品牌商家或是微博營銷公司。
實際上,將用戶群精準細分,直接找到要找的用戶正是社交內容背后數據挖掘所帶來的結果。而通過各種算法實現的數據信息交易,正是張文浩為自己的社交數據挖掘公司設計的盈利模式。目前,這家僅僅五六個人的小公司拿到了天使投資。目前,國內網絡廣告投放正從傳統的面向群體的營銷轉向個性化營銷,從流量購買轉向人群購買。未來的市場將更多地以人為中心,主動迎合用戶需求,前提就是要找到這部分人群。
編輯本段IBM的大數據戰略
IBM的大數據戰略以其在2012年5月發布智慧分析洞察“3A5步”動態路線圖作為基礎。所謂“3A5步”,指的是在“掌握信息”(Align)的基礎上“獲取洞察”(Anticipate),進而采取行動(Act),優化決策策劃能夠救業務績效。除此之外,還需要不斷地“學習”(Learn)從每一次業務結果中獲得反饋,改善基于信息的決策流程,從而實現“轉型”(Transform)。
基于“3A5步”動態路線圖,IBM提出了“大數據平臺”架構。該平臺的四大核心能力包括Hadoop系統、流計算(StreamComputing)、數據倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)。如下圖所示。
在大數據處理領域,IBM于2012年10月推出了IBMPureSystems專家集成系統的新成員——IBM PureData系統。這是IBM在數據處理領域發布的首個集成系統產品系列。PureData系統具體包含三款產品,分別為PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分別應用于OLTP(聯機事務處理)、OLAP(聯機分析處理)和大數據分析操作。與此前發布的IBMPureSystems系列產品一樣,IBM PureData系統提供內置的專業知識、源于設計的集成,以及在其整個生命周期中的簡化體驗。
編輯本段多重挑戰
伴隨著各種隨身設備、物聯網和云計算云存儲等技術的發展,人和物的所有軌跡都可以被記錄。在移動互聯網的核心網絡節點是人,不再是網頁。數據大爆炸下,怎樣挖掘這些數據,也面臨著技術與商業的雙重挑戰。
首先,如何將數據信息與產品和人相結合,達到產品或服務優化是大數據商業模式延展上的挑戰之一。張夏天認為,大數據對算法和計算平臺的挑戰加大,計算開銷大增。總量上升,質量下降,這是大數據帶來的重大挑戰。
其次,巧婦難為無米之炊,大數據的關鍵還是在于誰先擁有數據。多盟聯合創始人兼COO張鶴表示,智能手機是根據用戶營銷而不是根據媒體營銷。移動互聯網提供了新的數據來源,數據分析能夠針對每一位用戶的手機信息做精準匹配,但目前大數據時代還沒有真正來臨。多盟雖然每天可覆蓋1800萬用戶,但對用戶行為的描述,還需要更大的數據量。
從市場角度來看,大數據還面臨其他因素的挑戰。架勢無線CEO葉忻直言,大數據很有前景,但是市場中數據噪音太多,會導致數據價值大大降低。以無線營銷為例,大量的刷量以及水軍好評差評等數據已經嚴重干擾了數據的準確性,這實際上大大降低了數據的價值。
編輯本段數據服務前景可期
產業界對于大數據的熱情持續升溫的同時,資本也敏銳地發現了這一趨勢,并開始關注數據挖掘和服務類公司。基于此,《中國經營報》記者專訪了對這個領域深有研究的資深人資。
《中國經營報》:現在大數據越來越多被提及,你覺得數據挖掘在商業模式上有什么新的趨勢?
答:大數據就是實時數據的處理和實時結果的導向,越來越多的數據挖掘前端化,或者說直接為消費者感知和直接提供消費者所需要的服務,通常形式是誕生了各種各樣的個性化推薦的服務。
《中國經營報》:在大數據背景下,對于各種從事數據挖掘的公司有什么新的機會?
答:大數據的前提是數據總量的迅速增加以及數據的流動性增加,前者是由于用戶的行為在手機和電腦上越來越多,門檻越來越低;另外一個因素是因為各種平臺的開放導致流動性增加,以上兩個因素的誕生才能催生更多的直接為消費者服務的大數據公司。以北京百分點信息科技有限公司(以下簡稱“百分點”)為例,這家公司的方向、應用和誕生時間,恰好符合了這樣的趨勢。
《中國經營報》:從投資角度,你怎么看數據挖掘類公司的投資價值和公司前景?
答:我看好以大數據為出發點的商業模式和電商的后續服務產品。它們的前景大方向是符合趨勢的,但是具體產品和數據處理能力,可能是最終成敗的因素。
《中國經營報》:從行業角度看做大數據的門檻在哪里?做數據挖掘需要具備哪些重要的因素?
答:門檻主要是如何獲得大量數據,數據的質量、相關性以及是否有好的處理能力和技術,最終應用的方向是商業化的關鍵。
《中國經營報》:在你看來,IDG投資百分點主要看中哪幾個關鍵點?你認為百分點所處的競爭環境如何?
答:百分點具有良好的團隊、技術能力、行業能力以及研究能力,在它們的創始人之間既有互補又有突出。另外,它們的誕生和發展符合了大的趨勢,而且相對又有一點領先。目前的競爭環境主要取決于國內互聯網公司,尤其是大公司對于開放數據的態度和速度,同時也包括它們的技術能力和產品是否能夠不斷地超越用戶的需求。[4]?
編輯本段我國的應對
最早提出“大數據”時代已經到來的機構是全球知名咨詢公司麥肯錫。麥肯錫在研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來。
“麥肯錫的報告發布后,大數據迅速成為了計算機行業爭相傳誦的熱門概念,也引起了金融界的高度關注。”隨著互聯網技術的不斷發展,數據本身是資產,這一點在業界已經形成共識。“如果說云計算為數據資產提供了保管、訪問的場所和渠道,那么如何盤活數據資產,使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是云計算內在的靈魂和必然的升級方向。”
事實上,全球互聯網巨頭都已意識到了“大數據”時代,數據的重要意義。包括EMC、惠普(微博)、IBM、微軟(微博)在內的全球IT 巨頭紛紛通過收購“大數據”相關廠商來實現技術整合,亦可見其對“大數據”的重視。
“大數據”作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在12月8日工信部發布的物聯網“十二五”規劃上,把信息處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。而另外3項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與“大數據”密切相關。
編輯本段同名圖書
本文由用戶 chyx413332087 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!