基于技能的改善數據科學實踐的方法
在當今的大數據時代,利用數據科學理論進行數據分析起著越來越重要的作用。探討不同數據技巧類型和熟練程度對相關項目有著怎樣的影響也開始具有重要意義。近日,AnalyticsWeek的首席研究員、Bussiness Over Broadway的總裁Bob Hayes博士就公開了研究數據分析項目成功所必需技能的相關結果。Bob所提出的基于技能的數據科學驅動力矩陣方法,可以指出最能改善數據科學實踐的若干技能。
數據技能的熟練程度
首先,Bob在AnalyticsWeek的研究包含了很多向數據專家提出的,有關技能、工作角色和教育水平等有關的問題調查。該調查過程針對5個 技能領域(包括商業、技術、編程、數學和建模以及統計)的25個數據技能進行,將其熟練程度劃分為了6個等級:完全不知道(0分)、略知(20分)、新手 (40)、熟練(60分)、非常熟練(80分)和專家(100分)。這些不同的等級就代表了數據專家給予幫助或需要接受幫助的能力水平。其中,“熟練”表 示剛好可以成功完成相關任務,為某個數據技能所能接受的最小等級。“熟練”以下的等級表示完成任務還需要幫助,等級越低需要的幫助越多;而“熟練”以上的 等級則表示給予別人幫助的能力,等級越高給予的幫助可以更多。
Bob列出了4中不同工作角色對于25種不同數據技能的熟練程度。從上圖可以看出,不同領域的專家對其領域內技能的掌握更加熟練。然而,即使是數據 專家對于某些技能的掌握程度也達不到“熟練”的程度。例如,上圖中淺黃色和淺紅色區域都在60分以下。這些技能包括非結構化數據、NLP、機器學習、大數 據和分布式數據、云管理、前端編程、優化、概率圖模型以及算法和貝葉斯統計。而且,針對以下9種技能,只有一種類型的專家能夠達到熟練程度——產品設計、 商業開發、預算編制、數據庫管理、后端編程、數據管理、數學、統計/統計建模以及科學/科學方法。
并非所有的數據技能都同等重要
接下來,Bob繼續探討了不同數據技能的重要性。為此,AnalyticsWeek的研究調查了不同數據專家對其分析項目結果的滿意程度(也表示項目的成功程度):從0分到10分,其中0分表示極度不滿意,10分表示極度滿意。
對于每一種數據技能,Bob都將數據專家的熟練程度和項目的滿意度進行了關聯。下表就列出了4種工作角色的技能關聯情況。表中關聯度越高的技能就表 示該技能對項目成功的重要性越高。而表中上半部分的技能相比于下半部分的技能對于項目結果更加重要。從表中可以看出,商業管理者和研究者的數據技能和項目 結果的滿意度關聯度最高(平均r=0.30),而開發人員和創新人員的關聯度只有0.18。此外,四種工作角色中不同數據技能之間的平均關聯度只有 0.01,表明對于一種數據專家是必須的數據技能對于其他數據專家未必是必須的。
數據科學驅動力矩陣:圖形化結果
基于熟練程度和關聯度的結果,Bob繪出了數據科學驅動力矩陣(Data Science Driver Matrix,DSDM)的示意圖。其中,x軸代表所有數據技能的熟練程度,y軸代表技能與項目結果的關聯度,而原點則分別對于熟練程度的60分和關聯度的0.30。
結果解讀:改善數據科學的實踐
在DSDM中,每一種數據技能都會落在其中的一個象限中。由此,這種技能所代表的含義也就不同。
- 象限1(左上):該區域內的技能對于項目結果非常重要,但熟練程度卻不高。那么,通過聘請掌握相關技能的數據專家或者加強相關技能的員工培訓,項目就可以取得很好的改進。
- 象限2(右上):該區域內的技能對于項目結果非常重要,而掌握的熟練程度也不低。
- 象限3(右下):該區域內的技能對于項目結果而言為非必須,但掌握的熟練程度較高。因此,需要避免在這些技能上的過度投入。
- 象限4(左下):該區域內的技能對于項目結果而言為非必須,掌握的熟練程度也不高。但是,仍然沒有必須要加強對這些技能的投入。 </ol>
- 商業管理者
對于商業管理者而言,第一象限中的技能包括統計學/統計建模、數據挖掘、科學/科學方法、大數據和分布式數據、機器學習、貝葉斯統計、優化、非結構化數據、結構化數據以及算法。而沒有任何技能落在第二象限。
</li> - 開發人員
對于開發人員,只有系統管理和數據挖掘兩種技能落在第一象限。絕大部分技能都落在第四象限。
</li> - 創新人員
對于創新人員,共有數學、數據挖掘、商業開發、概率圖模型和優化等五種技能落在第一象限。而絕大部分技能都落在第四象限。
</li> - 研究者
對于研究者,共有算法、大數據和分布式數據、數據管理、產品設計、機器學習和貝葉斯統計等五種技能落在第一象限。而落在第二象限的技能卻很少。
</li> </ol>結論
從以上的研究中,Bob得到以下結論:
- 無論是對于哪個領域的專家,數據挖掘對于項目結果都十分重要。
- 商業管理者和研究者可以通過改善數據技能來增加數據分析項目的滿意度。
- 某些特殊的數據技能對于一些分析項目的結果非常重要。 </ol>
除此之外,Bob還提出團隊合作對于項目成功也有著非凡的意義。
來自:http://www.infoq.com/cn/news/2015/12/AnalyticsWeek-DSDM本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!
對于不同數據角色的DSDM
Bob針對商業管理者、研究者、開發人員和創新人員4中角色分別創建了DSDM,并主要關注落在第一象限的技能。