你和真正的數據科學究竟差在哪里

jopen 7年前發布 | 6K 次閱讀 數據科學家

你和真正的數據科學究竟差在哪里

Data Scientist,數據科學家,太火了,已經成為新一代改變世界的職業,引得每一個人都想往這個方向轉。

學 CS 的覺得做碼農太底層,給人打工,要轉數據科學家,完美。

學統計的覺得這個不需要過多的 Coding,適合自己,要轉數據科學家,完美。

學商科的覺得終于自己也可以成為科學家了,要轉數據科學家,完美。

似乎每個人都覺得自己可以成為,應該成為,也一定能夠成為一名數據科學家。

然而現實呢?

一片混亂。

“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it” — Dan Ariely

人們的想象之中的獨角獸

幾乎所有贊美數據科學家的人,都認為數據科學家是這樣一類人:

  • 精通算法。例如各種機器學習算法(聚類,分類,NLP,CV,IR, etc.),理解統計的原理。

  • 全棧開發能力。能夠完成從數據清洗,到產品上線的全部工作,且能做各種數據可視化與報表。

  • 有資深的領域知識。了解行業背景,企業運行規律,懂得 Business、Marketing、Finance、Operations 等等知識,能夠幫助企業做決策。

  • 除了技術能力要求高,同時還要有相當的軟實力,比如溝通和寫作的能力,比如領導團隊的能力等等。

哇,真是全能的獨角獸。

可能有這樣的人嗎?當然,這個世界這么大,出幾個超牛的人并不是沒有可能。

你可以追求成為這樣一個人,但是認為所謂數據科學家就等于這一類人,并沒有什么意義。

但是,從現實角度來講,你并不需要成為這樣一個人才能為企業帶來價值。大量和數據相關的職責都被認為是和數據科學家相關的,因此,更重要的是,找到合適自己的位置,使用新技術解決問題,創造收益。

兩類數據科學家

是的,Data Scientist 并不是一個 Well Defined 的職位,在每個公司的職責都不一樣。但是,不論怎么樣,這個世界上不可能憑空出現一個職位:這個職位所解決的問題是以前從來沒出現過的,也沒人知道該怎么解決的。或許我們可以慢慢逼近人們想象中的那個全能的獨角獸,但現在,數據科學家所擔當的職責,一定會跟現有的職位大量的重合。

現實中的數據科學家是怎么樣的呢?常見的數據科學家被分為兩類。引用 Quora 上 Michael Hochster 的一個回答:

Type A Data Scientist: The A is for Analysis. This type is primarily concerned with making sense of data or working with it in a fairly static way. The Type A Data Scientist is very similar to a statistician (and may be one) but knows all the practical details of working with data that aren’t taught in the statistics curriculum: data cleaning, methods for dealing with very large data sets, visualization, deep knowledge of a particular domain, writing well about data, and so on.

Type B Data Scientist: The B is for Building. Type B Data Scientists share some statistical background with Type A, but they are also very strong coders and may be trained software engineers. The Type B Data Scientist is mainly interested in using data “in production.” They build models which interact with users, often serving recommendations (products, people you may know, ads, movies, search results).

我對于這兩類的理解稍有出入,但也大體相同:

Type A 數據科學家:偏 Analysis,一切為數據驅動的決策服務。主要的工作是在清理數據,做分析,找 Insight,做 Report 等等。可以說是某類升級版的 Analyst 或者 BD。

一方面這意味著對你的你要求跟做 BD 或 Analyst 的要求一樣甚至更高,對市場了解如何?對行業了解如何?對公司運作了解如何?而所謂 Machine Learning 等工具只是技術與手段,能夠幫助更好地解決問題,但是問題有哪些,才是根本的問題。

另一方面傳統 Analyst 不足的地方在于隨著數據越來越大,越來越復雜,如果要更快更準,需要使用更好的模型(機器學習等),在更原始的數據中探索與分析,不能只等待其他人把數據都處理好。因此需要更強的數據處理、分析能力和對于新模型、工具的掌握和理解。

往這個方向發展,要補齊 Marketing、Business、Finance、Operation 等知識,同時掌握各種機器學習的算法與工具。

Type B 數據科學家:偏 Research & Product,在算法即產品的職責下讓算法能夠與產緊密結合,甚至主導算法驅動的產品。主要的工作是把算法從 Research 做到 Product。

一方面要對各類機器學習的算法了解足夠深刻,了解各種機器學習算法的常見應用(NLP,CV,Recommendation,IR,etc.)。同時對工程要求更高,畢竟做 Prototype 和上 Production 是完全不一樣的。

另一方面要對產品的需求有更深層次的理解,以及了解公司的業務邏輯,因為隨著不少算法的成熟,產品的需求已經不僅僅來自于 product-market-fit,而是來自于算法本身的進步,因此能夠把成熟的算法推向產品是非常重要的能力。

往這個方向發展,Coding 的要求與所有通用 Software Engineering 的要求一樣,該修 CS 課可能一樣都不能少,同時要能了解公司的業務邏輯,更好地推動產品的上線,讓不可能變成可能。

職業生涯的起步與發展

既然典型的數據科學家是兩類,那么對照著這兩類對自己的技能樹查缺補漏就行。要么補業務知識,要么補代碼能力,要么補機器學習相關的技術與工具。總之,不要一味追求所謂的新算法,而沒有基礎的分析或者工程能力,這樣并不能解決任何問題,也不能帶來任何價值。

從一位分析師或者程序員開始職業生涯,都是很好的選擇。

然而,職業生涯的追求肯定不是一個 Title,而是某些能力,對照著理想中的獨角獸差缺補漏,確實是非常好的辦法。

雷鋒網按:原作者陳然,本文原載于作者的知乎專欄

來自: zhuanlan.zhihu.com

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!