0x0E 大數據職位,數據場技能(上)

gptqw89y 8年前發布 | 16K 次閱讀 分布式/云計算/大數據

來自: http://www.jianshu.com/p/943b76ee675a


摘要:除了報表統計外,還需要對數據的有很強的解讀能力。電商中的個性推薦技術,商業與銀行中的欺騙檢測,智能手機中語音識別等等技術,讓我們渾身便散發出大數據與機器學習的各種場信息,給人以滿滿的正能量。


0x0E.jpg

01 數據場

學過物理的小伙伴,都知道世界充滿了電場和磁場。了解過佛學的人,都知道世界充滿了念力場與信息場,通過信息場,可以與更高一級的文明進行溝通。

有的人一出現,渾身便會散發出強大的氣場。現在是數據時代,整天和數據打交道,要培養自己的數據場。開句玩笑的話,以后往人群中一站,還未開口,渾身便散發出大數據與機器學習的各種場信息,給人以滿滿的正能量。

說起“大數據”一詞,也是真正被吵夠了。連做個簡單的統計也叫大數據,做個表格、畫個圖形出來,就叫大數據了。凡是不和“大數據”沾邊,就感覺已經落伍了。其實,很多人除了知道簡單的統計外,根本不了解大數據是什么。甚至連Hadoop都不知為何物,更別談機器學習了。

大數據是一個概念也是一門技術,是在以Hadoop為代表的大數據平臺框架上進行的各種數據分析技術。包括了實時數據處理、離線數據處理;還包括了數據分析,數據挖掘,和用機器學習算法進行預測分析。

概念吵著吵著就變味了。用“大數據”來代表一切,有些不太合理。目前比較合適的一個詞是數據科學(Data Science),做數據科學的可以叫數據科學家。當然真正到科學家這個級別,要求是非常高的,需要有完整的數據知識體系。

也許小時候的夢想就是當科學家,現在終于不用上博士就可以實現了。雖然很多都只是自己團隊或者公司封的職位。接下來,可以看看,在數據方面上,大概有哪些職位。

02 數據職位

限于個人的閱歷與認識,在此只是列舉其中一部分出來。

2.1 開發相關

主要有數據抓取,也即通常說的網絡爬蟲。需要考慮數據抓取的實時性與完整性,還有數據及時更新,數據去重等等。嚴格來說,和通常意義上的大數據相關性不大,主要是后端開發的一系列技術,其中也會涉及分布式的一些技術。

ETL開發,ETL為Extract、Transform和Load的縮寫,即數據抽取,轉換與裝載。將各種來源的數據進行收集、規范和存儲起來。可以是離線的方式,存儲在以Hadoop為代表的大數據集群中。也可以是實時的展現在報表系統中。如果是實時的,也叫實時數據流開發,通常和Storm框架或者Spark Streaming技術相關。

Hadoop平臺開發,專指以大數據框架為基礎,并在此基礎上進行二次開發或者數據流開發。對數據平臺做開發與改進,只能是程序員的工作了,根據業務需求,對現有的平臺進行改進與優化。因為是平臺相關的,通常需要Java與Scala的專業程序員,這塊和數據分析基本沒有太大關系。

另外還有純前端的數據可視化技術開發,或者純運維的大數據集群管理等等。

2.2 報表分析

商業智能分析,包括報表分析,運營或者銷售分析,這一塊以Excell、SPSS和R為代表。主要是指對針對具體業務,對現有的數據進行統計分析,期待從中發現一些規律與趨勢。

數據分析報表,也是最常用的數據分析師職位的一些工作,通常產出以報表為主。這塊很多時候會與運營部門的需求相關,技術上主要以成熟的工具為主。

當數據量一大,就會涉及在集群環境下的分析,分析師通常很熟悉SQL,這也是構建于Hadoop之上的Hive能被大眾熟悉的原因。

除了報表統計外,還需要對數據的有很強的解讀能力,能分析和解讀出一些現象產生的原因,同時需要針對這些問題,提出一些可能的應對方案,以便對業務策略或者商業方向上有更多的指導。

一些專業領域分析,如網絡安全分析,金融領域分析。這些領域的分析,通常需要用領域知識,深入現象背后去挖掘出產生的原因,不僅要具有很強的分析能力,也需要很強的領域知識。

2.3 算法挖掘

做為數據科學中的重頭戲,便是數據挖掘和機器學習了。在線電商中的個性推薦技術,商業與銀行中的欺騙檢測,智能手機中語音識別(Siri),機器翻譯,圖像識別等等。

涉及大量機器學習算法,包括分類、聚類和個性推薦等常用數據挖掘技術。也包括數據分析的很多基礎,和數據分析偏重的報表產出并不同,并不強調產出大量的報表,通常是在現有數據基礎上的產出新數據,用于服務業務系統。

還可以推廣到人工智能,其中涉及大量的數據處理與挖掘技術。比如機器人,無人駕駛,總之是盡量的在某些領域達到或者超過人類。人類能處理如下內容:

Number: 數據(數)
NLP: 自然語言處理(文字)
Pic: 圖像處理(圖片)
Voice: 語音識別(語音)
Video: 視頻處理(視頻)
個性推薦: (集體智慧與社交化)

其中會用到大量的機器學習算法,包括深度學習,從而達到服務人類的目的。

03 生態與周邊

關于數據的統計、分析與挖掘,這些概念的側重點不一樣。數據統計,利用統計學的知識,產出數據和報表;數據分析,除了產出數據和報表外,還需要分析其中原因,最好能找出對應的策略;數據挖掘,需要在數據分析的基礎上,發現新的,有價值的知識及潛在的規律。如果只是對原有的數據進行統計分析,而沒有對未知的事物進行預測,是不算數據挖掘。

數據相關的職位各種各樣,我們要構建數據場時,抽取其中的各種技能出來,組成自己的技能表。最近讀到一篇文章:《機器學習職位需要的七個關鍵技能》

英文原文地址:
http://bigdata-madesimple.com/7-key-skills-required-for-machine-learning-jobs/
中文翻譯地址:
http://www.36dsj.com/archives/29515?utm_source=tuicool&utm_medium=referral

文章描述了機器學習需要的七個技能,以及需要這些技能的原因,主要技能如下:

  1. 編程語言(Python/C++/R/Java);
  2. 概率與統計;
  3. 應用數學與算法;
  4. 分布式計算;
  5. Unix/Linux工具集;
  6. 高級信號處理技術(特征提取);
  7. 大量閱讀,適應快速變化,更新自己;

在下一篇文章中,我將描述我所認識的建立數據場的七大技能,歡迎繼續關注。

 本文由用戶 gptqw89y 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!