大數據到底是啥重要玩意兒?另:超多數據資源分享
“datos, données, Daten, tiedot, デ ー タ,”
Data – / de?t? / DAY-t? / d?t? / DA t?, or / dɑ?t? / DAH-t?
Data – a collection of facts (numbers, words, measurements, observations, etc) that has been translated into a form that computers can process
數據-由事實信息的集合體(數字,詞語,度量衡,觀察等等)轉化而成的計算機能夠處理的信息。
無論你從事于哪個行業,又或者你的興趣何在,你將幾乎肯定面臨遇到一個情況:“數據”是如何改變我們的世界的面貌。它可能幫助我們去治愈疾病,提高公司的收入,使建筑更安全和節能,甚至于你所看到的那些有針對性的廣告,其背后也是數據在支持著。
36大數據專稿,本文由36大數據翻譯組-羅達志翻譯,任何不標明譯者和出處以及本文鏈接http://www.36dsj.com/archives/42130 的均為侵權。
一般情況下,數據只是信息的另一個稱呼。但在計算和商業領域(大部分你在新聞中讀到的東西,當涉及到數據 – 尤其是如果它是關于大數據),數據指的是機器可讀的,而不是人類可讀的信息。
人類 VS 機器
人類可讀(human-readable)的(也稱為非結構化數據)是指,只有人類可以理解并且解釋的信息,諸如圖像或文本塊的含義。也就是說,如果一個信息需要人來解釋它,那么信息是人類可讀的。
機器可讀(machine-readable)(或結構化數據)是指計算機程序可以處理的信息。程序是一組用于處理數據的命令集合,當我們把數據納入到程序中,我們就得到軟件。為了使程序對數據執行特定操作,該數據必須具有某種統一結構。
例如,美國的海軍軍官馬修·莫里,將大量的歷年手寫航運日志(人類可讀)轉換成一個坐標路線的集合(機器可讀)。接著,他將這些航線做集體處理分析,通過分析得到的新路線以及航路知識,能夠將船舶的平均航程降低33%。
新聞中的數據
當我們談到在出現福布斯文摘和麥肯錫報告中的結構化數據,有幾個不同類型的數據往往會得到最多的關注…
個人資料
任何數據,只要它對你來說是個體特定的,如年齡,電話等,都可以認為是個人數據。它涵蓋了你的個體資料,你的方位,你的電子郵件地址和其他能夠識別你的數據。當它被泄露(如阿什利麥迪遜丑聞)時,它往往會被披露在新聞中,又或者它被用于更加有爭議的事情上(如Uber通過個人乘車資料能夠推斷出誰有外遇)。
許多公司正在收集你的個人信息(尤其是社交媒體網站),這些情況多發生在你需要提交你的電子郵箱地址或者信用卡信息時,因為這個時候你往往也發送出了你的更多個人信息。通常情況下,他們將利用這些數據來為您提供個性化建議,以鼓勵你更多參與他們的業務。 例如,非死book分析您的個人信息,并基于人以類聚的技術思想,向您推送您可能喜歡的內容。
此外,有些業務還專注于個人數據的收集,然后將其出售給其他公司,這些公司主要將其用于廣告目的。這就是為什么你有時能得到有針對性的,但你從來沒有聽說過的公司的廣告和內容。
交易數據
交易信息,意味著任何收集信息的行為,例如,你點擊一個廣告,完成了一項網絡購物,瀏覽了一個特點網址。
幾乎每個你訪問過的的網站,都會收集某種形式的交易數據,其通常是通過谷歌分析,或者其他第三方系統或自己內部的數據采集系統來完成這種收集行為。
交易數據對企業來非常重要,因為它可以幫助他們揭露市場變化和優化企業運營。通過分析大量的數據,我們可以發現隱藏的關聯模式,而這些模式可以創造競爭優勢,并引導企業發展更有效的營銷方式,從而增加商業收益。
網絡數據
Web數據是你可以從網絡上獲得的任何類型數據的一個總稱。它可能是你的競爭對手正在銷售什么樣的商品,公示的政府數據,足球比分等,包羅萬象。
網絡數據的重要性體現在,它是企業從外部獲取信息的主要途徑之一。當創建商業模式和作出重要的商業智能決策時,企業需要對其內部情況和外部市場情形了如指掌。
網絡數據可以用于監測競爭對手,跟蹤潛在客戶,跟蹤渠道合作伙伴,創造商機,搭建應用程序,等等。隨著將非結構化數據轉化為結構化數據的技術不斷提升,它的新用途正在在不斷被發掘。
我們可以通過編寫web檢索程序來收集網絡數據,或使用現成檢索工具進行收集,又或者雇用第三方機構來進行 web 檢索。一個Web檢索程序是一個計算機程序,它接受一個URL作為輸入,并將網絡上的數據以結構化格式下載到本地,這通常是一個JSON或CSV(兩種常用數據格式)。
傳感器數據
傳感器數據是由物理對象產生的,其常被稱為物聯網。它涵蓋了萬事萬物,從您的智能手表測量測得的心跳率到建筑物外部傳感器測得的天氣數據。
到目前為止,傳感器數據大多被用來幫助優化流程。例如,亞航使用GE傳感器以及相關技術,以幫助降低運營成本,提高飛機的使用率,這為企業一年節省了3000萬到5000萬的運營成本。通過測量物體周圍的物理情況,機器可以作出智能化的行為以提高生產率,并在它們需要維護時對人們做出提醒。
從何時起數據成為大數據?
從技術層面講,上述的所有類型的數據組成了大數據,而 對于“大”的度量,并沒有一個官方的定義 。這個術語僅僅代表不斷增長的數據量以及數據種類。
隨著越來越多的信息被轉移到網絡上并完成數字化,這意味著分析師可以開始直接使用它作為數據。急劇增加的社交媒體,在線圖書,音樂,視頻和傳感器使得可為數據分析師所用的數據以驚人的速度增加。
從前我們區分“常規數據”和“大數據”,所用的標準是其在所使用的搜集,存儲,分析工具上的區別,而如今這些標準都隨著急劇增多的數據量而改變。使用市場上最新的數據分析工具,我們再也不用依靠抽樣調查。相反,我們可以一次性處理全部的數據集,并由此獲得我們周圍世界的一個更為全面的了解。
21世紀最性感的職業?
所有這些數據,在我們能將其用于更深處的分析決策之前,都需要被處理和解釋,而做這種事情的人,就是數據科學家。
現如今,數據科學家最受追捧的職位之一。谷歌公司的一位前高管甚至竟然把它稱為“21世紀最性感的工作。”
要成為一個數據科學家,你需要在計算機科學,數學建模,統計學,分析和數學方面有著堅實的基礎。而讓他們獲得這樣一種有別于傳統工作的頭銜的,是他們對于商業過程的理解以及和商業人士以及IT領導者有效溝通的能力,在某種程度上,這可以影響一個企業走向商業奇跡的道路。
Data resources
數據資源
如果你對學習大數據有著濃厚興趣又或者你想學習如何好好利用大數據,以下的博客,會議,公司,數據資源將對你有很大幫助。
大數據博客
Flowing Data – Dr. Nathan Yau的博客,包括教程,資源,書籍推薦以及對于工業難題的有趣的討論。
FiveThirtyEight 來自Data-wiz公司的 Nate Silver 的博客,內容主體為針對政治,文化,體育運動以及經濟熱點的大數據分析。
Edwin Chen – Dropbox 頂級數據科學家 Edwin Chen 以自己名字命名的博客,該博客提供由淺入深的算法技巧以及分析技術。
Data Science Weekly –該博客定期發布對于大數據科學的最新動態和新鮮資訊。
No Free Hunch ( Kaggle ) –該博客的作者是許多預測模型比賽的主辦方,他們的比賽以及大數據科學博客,覆蓋了幾乎所有和體育有關的大數據項目。
SmartData Collective –由 Social Media審核的一個網絡社區,該社區提供對于商業智能和大數據管理的最新動態。
KDnuggets – 任何對大數據科學社區有興趣的人,都不應該錯過這個綜合性資源的集大成者。
Data Elixir – 提供全互聯網和大數據有關的新鮮資訊,你也可以訂閱其服務以定時收到他們推送的資訊。
36dsj.com 一個關注大數據創業及大數據產業鏈的網站,有超多的大數據應用案例和入門教程。
Marcus Borba (CTO Spark) – Marcus Borba力主將復雜互聯網概念可視化,并且為大眾提供多種典型的非關聯式數據管理方式。
Lillian Pierson (Author, Data Science for Dummies) –作者在其推ter 上鏈接了許多大數據相關文章,其中包括最新的企業利用大數據的案例,以及在大數據科學和商業上有影響力的人物的博客。
Data conferences
大數據相關會議
Strata + Hadoop World – New York, NY (Sept. 29 – Oct. 1) – focuses specifically on Big Data’s implications on big business.
Data Summit 2016 – New York, NY (May 9-11) – 將政府部門,公共結構,前沿商業聯合一起,利用新的技術和策略使混合式大數據服務于普羅大眾的日常生活中。
Big Data Tech Con 2015 – Chicago, IL (November 2 -4) – a major “how to” for Big Data use that will prove to be very instructive in how new businesses take on Big Data.
Big Data Innovation Summit – Las Vegas, NV (January 21-22) –從 Hershey,Netflix,以及 Department of Homeland Security 處得到經驗和知識,并知曉如何讓你的數據更加具有執行能力和有效性。
Data courses
大數據資源
Udemy – 部分付費的在線課程,內容豐富多樣,旨在傳授大數據知識
Code School –在線編程課程,課程內容循序漸進,理論結合操作
Decoded – 對解鎖數字世界巨大潛力感興趣嗎?這門課程就是對 Decoded 的基本介紹以及入門
Data Camp – 大數據科學領域的基礎課程,同時該課程能進一步強化你的 R 語言編程能力。
Coursera – 世界名校以及教育機構的精品課程皆于其中。
W3schools – 學習基礎編程和數據分析方法?該網站是你的不二選擇。
Data tools
數據分析工具
OpenRefine – 一個數據清理軟件,你可以使用它來預處理你的待分析數據。
WolframAlpha – 提供技術搜索和復雜計算的幫助。對于商業用戶來說,它能提供信息圖表,對價格波動記錄,商品信息分析,以及種類概述任務來說,該軟件是優良之選。
Import.io該軟件能夠幫助您將網頁上的非模塊化數據轉換為模塊化數據。
Trifacta – 清理和鑒別你在 Excel 中不能處理的數據,文件以及數據集,其提供大量可靠的統計學分析工具。
Tableau – 一個優秀的可視化工具,為您提供觀察數據的新視角。
Google Fusion Tables – 一個多用途數據分析工具,能完成大規模數據集的可視化和數學映射工作。
Blockspring – 該軟件能幫助您獲得實時街景數據,創建交互式的數學映射,執行圖像識別,并且能保存到 Dropbox 中。
Silk.co –用戶創建,公開發布以及分享優質的數據可視化項目提供了一個很好的平臺。
Plot.ly –助您的數據可視化工作一臂之力,讓你更快獲得市場趨勢分析結果和商業洞察力。
Luminoso –幫助您確認數據中的關鍵詞和概念的關聯映射,讓您對產品有更深刻的洞察。
BigML – 針對您的市場情況構建模型,可定制您需要的變量如產品價格,產品特性以及地域方位。
來自: http://www.36dsj.com/archives/42130