作者:Jeff Hale
編譯: Mika
市場上對數據工作者的要求特別多:需要掌握機器學習、計算機科學、統計學、數學、數據可視化,深度學習等知識。要想全部掌握這些方面的知識,起碼需要學習數十種語言、框架和技術,這顯然是有難度的。
那麼,為此數據工作者應該如何合理地分配時間,該掌握哪些技能呢?
在本文中,我們對求職網站進行搜索,找出針對數據科學家等數據相關工作的技能要求。我分別分析了通常的數據相關技能和特定語言以及工具。
我們具體搜索了LinkedIn、Indeed、SimplyHired、Monster、以及AngelList這些求職網站。
以下圖表顯示了在每個網站中發布了多少相關工作。
我分析了許多工作列表和調查,想列出當中最常見的技能要求。「管理」這類詞沒有包含在內,因為許多求職發布中都會包含這個詞。
全部搜索都是針對美國地區,關鍵詞中帶有「數據科學家」的職位發布,並使用精確匹配搜索減少了結果數量。但是,這種方法確保結果與數據科學家職位相關,並且影響所有搜索項。
AngelList中提供的是招聘數據科學家的公司數量,而不是職位數量。我將AngelList排除在這兩種分析之外,因為它的搜索算法是OR的邏輯搜索,而且無法將其修改為AND。如果你搜索"數據科學家""TensorFlow"這類關鍵詞,AngelList表現還不錯,但如果你搜索"數據科學家""react.js"也會返回不招聘數據科學家的公司。
Glassdoor也被我排除在外。網站上表示美國目前發布了26,263個"數據科學家"的職位,然而實際只顯示了不到900個的職位。此外,Glassdoor發布的數據科學家職位也不可能比起其他主流平台的三倍要多。
最終分析採用了在LinkedIn上400多個職位信息分析通用技能,針對200多個職位信息分析特定技能。當中有一些重複,結果記錄在Google Sheet中。
https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing
我下載了.csv文件並將其導入JupyterLab。然後,我計算出每個百分比,並對招聘網站上的數量進行平均。
此外,我將結果與Glassdoor 在上半年發布的數據科學家職位研究進行比較,並且結合KDNuggets的調查信息。從中可以發現,對於數據科學家而言,有些技能變得越來越重要,而其他技能則逐漸不再重要。之後我們將具體看到。
Glassdoorhttps://www.glassdoor.com/research/data-scientist-personas/
KDNuggetshttps://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html/2
可以在我的Kaggle Kernel 中看到交互式圖表和分析。我使用Plotly進行可視化,在寫本文時,使用Plotly和JupyterLab有一些難點,具體說明在 Kaggle Kernel 最後的Plotly文檔中
Kagglehttps://www.kaggle.com/discdiver/the-most-in-demand-skills-for-data-scientists/
Plotly 文檔https://github.com/plotly/plotly.py
1. 通用技能以下是僱主最希望數據科學家具備的通用技能。
結果表明,通用技能中數據分析和機器學習是數據科學家工作的核心。從數據中收集分析見解是數據科學的主要功能。機器學習是關於開發創建預測性能的系統,這也是十分受歡迎的技能。
數據科學家需要統計學和計算機科學技能,這並不驚訝。統計學、計算機科學和數學也是大學專業,這也可能提高了這些技能出現的頻率。
有趣的是,近一半的職位要求中都提到了溝通能力。數據科學家需要能夠傳達自己的見解,並與他人合作。
人工智能和深度學習並不像其他術語那樣經常出現。它們是機器學習的子集,深度學習被用于越來越多的機器學習任務中,之前主要是使用其他算法。如今,大多數用於自然語言處理問題的最佳機器學習算法是深度學習算法。我預計將來在職位信息中,深度學習技能將被越來越明確,而且機器學習將與深度學習越來越類似。
那麼僱主希望數據科學家使用哪些特定軟件工具?接下來,讓我們看到這個問題。
2. 技術技能以下是僱主最希望數據科學家掌握的前20種特定語言,庫和科技工具。
讓我們簡要介紹一下最常見的技術技能。
Python是最受歡迎的語言。這種開源語言已經非常普及。對初學者而言,這種語言很好上手,有許多支持的資源。絕大多數數據科學工具都與之兼容。Python是數據科學家主要的使用語言。
R語言與Python相差不遠。它曾經是數據科學的主要語言,R語言的需求仍然很大。這種開源語言的根源在於統計數據,它非常受統計學家的歡迎。
Python或R語言是從事數據科學工作的必備條件。
SQL的需求也很高。SQL指的是Structured Query Language(結構化查詢語言),是與數據庫交互的主要方式。在數據科學領域,SQL有時會被忽視,但如果想找數據科學方面的工作,這項技能是很重要的。
接下來是Hadoop和Spark,它們都是Apache的大數據開源工具。
Apache Hadoop是一個開源軟件平台,用於分布式存儲和分布式處理大型數據集,這些數據集是由商用硬件構建的計算機集群。
Apache Spark是快速的內存數據處理引擎,具有強大且富有表現力的開發API,能夠讓數據工作者有效地執行流、機器學習或SQL,這些情況需要對數據集進行快速迭代訪問。
與Python,R和SQL相比,很少有求職者具備這些技能。如果你會Hadoop和Spark的經驗,那麼你更有可能在求職中成功。
接下來是Java和SAS。我驚訝地發現在職位描述中,這兩種語言出現的頻率也很高。通常,Java和SAS在數據科學界的關注度都不高。
接下來是Tableau。這個分析平台和可視化工具功能強大,易於使用且越來越受歡迎。它有一個免費的公共版本,但如果你想保持數據私密就需要花錢。如果你不熟悉Tableau,那麼強烈推薦Udemy的 Tableau 10 A-Z 。
下圖技能列表顯示的語言、框架和其他數據科學軟件工具更多。
根據我們的分析和GlassDoor的調查,Python、R和SQL都是是最受歡迎的技能。根據局KDnuggets開發人員調查等分析顯示,R語言、Hadoop、Java和SAS在近年來使用量呈下降趨勢,Tableau呈明顯的上升趨勢。
3. 建議根據這些分析的結果,以下是對數據科學家的一些建議。
證明自己的數據分析能力,並專注熟練掌握機器學習。
提高你的溝通技巧。推薦閱讀《Made to Stick》這本書,幫助你提升自己觀點的影響力。還可以試試Hemmingway Editor這款app,提高寫作的邏輯性。
掌握深度學習框架。精通深度學習框架在機器學習方面越來越重要。
如果你在猶豫選擇Python還是R語言之間做出選擇,請選擇Python。如果你數量掌握Python,那麼可以也考慮學習R語言,這會讓你在行業中更占優勢。
當僱主在尋找具有Python技能的數據科學家時,他們也期望求職者掌握常見的Python數據科學庫:numpy、pandas、scikit-learn和matplotlib。如果你在學習這些工具,建議你使用以下資源:
DataCamp,DataQuest兩者都是價格合理的在線SaaS數據科學教育產品,你可以在編程時學習,當中都教授了許多技術工具。
Data School擁有各種資源,還包括一系列很贊的YouTube視頻,解釋各種數據科學概念。
McKinney,《Python for Data Analysis 》本書注重pandas,還討論了基礎的numpy和scikit-learn等知識。
Müller,Guido《Introduction to Machine Leaning with Python》Müller是scikit-learn的主要維護者。這是一本關於用scikit-learn學習機器學習的好書。
如果你想學習深度學習,我建議先學習Keras或FastAI,然後在學習TensorFlow或PyTorch。Chollet的《Deep Learning with Python》這本書是學習Keras的絕佳資源。
除此之外,我建議你了解你感興趣的內容,儘管這裡需要考慮到時間分配等因素。
如果你想通過招聘網站找數據科學家工作,我建議試試LinkedIn,這上面可找到的工作信息是最多的。
同時,我建議你製作一個在線作品集,能夠很好地展示你的數據科學技能。還建議在你的LinkedIn個人資料中註明自己的技能。
如果你想查看本文中交互式圖表及當中使用的代碼,請查看我的Kaggle Kernel。
https://www.kaggle.com/discdiver/the-most-in-demand-skills-for-data-scientists/
原文鏈接:https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db

點這裡👇關注我,記得標星哦~
推薦閱讀
CDA課程諮詢
