這些數據科學技能,才是老板們最想要的
作者:  來源: 雪晴數據網  發表時間:2016-3-15  點擊:1656

這是一個好消息,如果你希望在2016年找一份數據科學的工作在該領域職位空缺的數量正在不斷增加,企業希望利用大數據來獲得競爭優勢。但事實上,找一份夢寐以求的數據科學工作就意味著你要具備一些技能的組合,你可能會驚訝學習哪些技能是雇主所最需要的。

  最近,人們在CrowdFlower上針對Linkedin的3490個數據科學職位做了分析,并對最常出現的21個技能進行了排序。有些結果并不那么令人驚訝—SQL排在最前,而其它的結果可能是數據科學領域不斷發展的領先指標。

  如上所述,SQL是最常見的技能,在Linkedin發布的所有數據科學工作中占比達到了57%。Hadoop排在第二,占比49%。這并不出乎CrowdFlower公司CEO和創始人LukasBiewald的意料。CrowdFlower是美國硅谷一家從事眾包數據處理的公司。

  “SQL和Hadoop排在前兩位并沒什么驚訝的,因為它們本身就是存儲數據的技術”Biewald告訴Datanami(本文轉譯自該網站)?!懊扛鍪菘蒲Ъ冶匭脛廊綰位袢∈?。如果你不知如何獲取數據,那你什么都做不了?!?/span>

  在所有數據科學的招聘信息中,python是排在第三名的技能。在CrowdFlower去年關于數據科學家哪些技能是最重要的調查中,python排在R的后面。但在本次招聘信息的調查中(這無疑是更具有前瞻性的范圍),python作為數據科學的一項關鍵性技能占比達到了39%。相比之下,R是32%。

  相比R來說,為什么現在越來越多的雇主正在尋找具備python技能的數據科學家?Biewald提出了自己的看法:“python的工具集越來越好。已經有很多基于python的統計工具”?!盎褂幸桓鋈鮮妒鞘菘蒲Р喚黿鍪峭臣蒲А?。

  設想一下,數據科學家80%的時間花費在數據清理和數據準備上,而只有20%的時間是用來做分析。這或許可以解釋python突然出現的原因。

  “我認為Python是做數據清理的語言,而R是做分析的”,Biewald說到。在創辦CrowdFlower之前,他負責領導Yahoo的搜索相關團隊?!壩捎謔菘蒲Ц嗟氖親鍪萸逑春妥急?,python正變得越來越重要。它無疑是將數據整理成適合做分析的數據格式最好的語言”。

  事實上,Java排在第四位讓人有點摸不著頭腦。因為Java本身不是數據科學所要求的掌握一門語言,當你在java中寫Hadoop的時候,它的高配就顯得有道理了。其它跟Hadoop相關的工具都排在前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。

  對于這份CrowdFlower從Linkedin編輯過來的職位列表,多少有些遺漏。ApacheSpark,在上面給出的數據科學技能要求中沒有出現過。Scala也沒有出現過,它是在Spark框架內處理數據的主要途徑之一。

  這可能是因為Spark還比較前沿,大家對它知之甚少?!跋衷謚芪Ф運瀉芏喑醋?,但可能還是太早了”Biewald說到?!霸贑rowdFlower,我們已經開始使用它了。我認為這門技術很棒,但在企業真正使用它的時候會有些滯后”。

  Spark和Scala可能是數據科學的未來(它們在Alphabet[NASDAQ:GOOGL]公司中得到大力支持,硅谷的許多高科技公司也在廣泛的使用它們)。但不是每個數據科學項目或團隊都需要走在技術的最前沿才能實現他們的大數據成果?!傲釗司鵲氖竅衷諍芏噯碩莢諮罷沂菘蒲Ъ?,但是我認為他們中的很多人是不想走在最前沿的”Biewald說到。

  這份CrowdFlower列表中包含了許多知名的數據分析工具,包括SAS(占比16%),SPSS(10%),Matlab(10%)和Stata(占比3%)。Biewald認為這些工具仍是有價值的并且在未來一段時間內還會繼續使用。但是他希望它們的市場份額逐漸被那些專門為大數據設計的新工具所奪走。

  “數據科學的角色大于統計學家”他說?!霸諼頤塹哪院@?,這些舊的語言更多的是建立在統計學家的基礎上,它們只是對少量的數據進行分析。而排名在前的Hadoop,python和Java則可以運行TB級的數據。你可以用SAS,SPSS,Matlab來做大數據分析,但這不是它們設計的目的”。

  不是每個人都同意“數據科學”或“數據科學家”應該做什么以及應該掌握什么樣技能的定義。事實上,一些人反對使用術語“科學”,而寧愿用諸如“應用統計”的短語。(想起了哈佛商業評論稱應用統計學家是21世紀最性感的職業)但在Biewald和其他人眼中,處理數據的能力和統計分析的能力同等重要。這就是他對數據科學家進一步給出的定義。

  “在過去,我們處理幾千條記錄的時候不是特別難。但是,當數據量達到數十億條記錄的時候我們就需要真本事來得到一個規范的格式,以便我們進一步做回歸或機器學習”他說?!岸雜謖庵智榭?,我想要聘請的是一名掌握python或者是C、Perl、Ruby亦或是一門更多做數據處理而不是做數據分析的語言的數據科學家”。

绝地求生国服吧: 服務項目

維保運維服務

AWM[绝地求生]肉 www.morzn.icu

信息系統集成服務

機房搬遷服務

 
 
 
AWM[绝地求生]肉
QQ 在線客服
 
電話:
0531-88818533
客服QQ
2061058957
1905215487