CDA數據分析師 - 數據工作者的自我修養 | 哪些技能是必不可少的？－鑽石舞台

CDA數據分析師出品

作者:Jeff Hale

編譯: Mika

市場上對數據工作者的要求特別多：需要掌握機器學習、計算機科學、統計學、數學、數據可視化，深度學習等知識。要想全部掌握這些方面的知識，起碼需要學習數十種語言、框架和技術，這顯然是有難度的。

那麼，為此數據工作者應該如何合理地分配時間，該掌握哪些技能呢？

在本文中，我們對求職網站進行搜索，找出針對數據科學家等數據相關工作的技能要求。我分別分析了通常的數據相關技能和特定語言以及工具。

我們具體搜索了LinkedIn、Indeed、SimplyHired、Monster、以及AngelList這些求職網站。

以下圖表顯示了在每個網站中發布了多少相關工作。

我分析了許多工作列表和調查，想列出當中最常見的技能要求。「管理」這類詞沒有包含在內，因為許多求職發布中都會包含這個詞。

全部搜索都是針對美國地區，關鍵詞中帶有「數據科學家」的職位發布，並使用精確匹配搜索減少了結果數量。但是，這種方法確保結果與數據科學家職位相關，並且影響所有搜索項。

AngelList中提供的是招聘數據科學家的公司數量，而不是職位數量。我將AngelList排除在這兩種分析之外，因為它的搜索算法是OR的邏輯搜索，而且無法將其修改為AND。如果你搜索"數據科學家""TensorFlow"這類關鍵詞，AngelList表現還不錯，但如果你搜索"數據科學家""react.js"也會返回不招聘數據科學家的公司。

Glassdoor也被我排除在外。網站上表示美國目前發布了26,263個"數據科學家"的職位，然而實際只顯示了不到900個的職位。此外，Glassdoor發布的數據科學家職位也不可能比起其他主流平台的三倍要多。

最終分析採用了在LinkedIn上400多個職位信息分析通用技能，針對200多個職位信息分析特定技能。當中有一些重複，結果記錄在Google Sheet中。

https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing

我下載了.csv文件並將其導入JupyterLab。然後，我計算出每個百分比，並對招聘網站上的數量進行平均。

此外，我將結果與Glassdoor 在上半年發布的數據科學家職位研究進行比較，並且結合KDNuggets的調查信息。從中可以發現，對於數據科學家而言，有些技能變得越來越重要，而其他技能則逐漸不再重要。之後我們將具體看到。

Glassdoorhttps://www.glassdoor.com/research/data-scientist-personas/

KDNuggetshttps://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html/2

可以在我的Kaggle Kernel 中看到交互式圖表和分析。我使用Plotly進行可視化，在寫本文時，使用Plotly和JupyterLab有一些難點，具體說明在 Kaggle Kernel 最後的Plotly文檔中

Kagglehttps://www.kaggle.com/discdiver/the-most-in-demand-skills-for-data-scientists/

Plotly 文檔https://github.com/plotly/plotly.py

1. 通用技能

以下是僱主最希望數據科學家具備的通用技能。

結果表明，通用技能中數據分析和機器學習是數據科學家工作的核心。從數據中收集分析見解是數據科學的主要功能。機器學習是關於開發創建預測性能的系統，這也是十分受歡迎的技能。

數據科學家需要統計學和計算機科學技能，這並不驚訝。統計學、計算機科學和數學也是大學專業，這也可能提高了這些技能出現的頻率。

有趣的是，近一半的職位要求中都提到了溝通能力。數據科學家需要能夠傳達自己的見解，並與他人合作。

人工智能和深度學習並不像其他術語那樣經常出現。它們是機器學習的子集，深度學習被用于越來越多的機器學習任務中，之前主要是使用其他算法。如今，大多數用於自然語言處理問題的最佳機器學習算法是深度學習算法。我預計將來在職位信息中，深度學習技能將被越來越明確，而且機器學習將與深度學習越來越類似。

那麼僱主希望數據科學家使用哪些特定軟件工具？接下來，讓我們看到這個問題。

2. 技術技能

以下是僱主最希望數據科學家掌握的前20種特定語言，庫和科技工具。

讓我們簡要介紹一下最常見的技術技能。

Python是最受歡迎的語言。這種開源語言已經非常普及。對初學者而言，這種語言很好上手，有許多支持的資源。絕大多數數據科學工具都與之兼容。Python是數據科學家主要的使用語言。

R語言與Python相差不遠。它曾經是數據科學的主要語言，R語言的需求仍然很大。這種開源語言的根源在於統計數據，它非常受統計學家的歡迎。

Python或R語言是從事數據科學工作的必備條件。

SQL的需求也很高。SQL指的是Structured Query Language(結構化查詢語言)，是與數據庫交互的主要方式。在數據科學領域，SQL有時會被忽視，但如果想找數據科學方面的工作，這項技能是很重要的。

接下來是Hadoop和Spark，它們都是Apache的大數據開源工具。

Apache Hadoop是一個開源軟件平台，用於分布式存儲和分布式處理大型數據集，這些數據集是由商用硬件構建的計算機集群。

Apache Spark是快速的內存數據處理引擎，具有強大且富有表現力的開發API，能夠讓數據工作者有效地執行流、機器學習或SQL，這些情況需要對數據集進行快速迭代訪問。

與Python，R和SQL相比，很少有求職者具備這些技能。如果你會Hadoop和Spark的經驗，那麼你更有可能在求職中成功。

接下來是Java和SAS。我驚訝地發現在職位描述中，這兩種語言出現的頻率也很高。通常，Java和SAS在數據科學界的關注度都不高。

接下來是Tableau。這個分析平台和可視化工具功能強大，易於使用且越來越受歡迎。它有一個免費的公共版本，但如果你想保持數據私密就需要花錢。如果你不熟悉Tableau，那麼強烈推薦Udemy的 Tableau 10 A-Z 。

下圖技能列表顯示的語言、框架和其他數據科學軟件工具更多。

根據我們的分析和GlassDoor的調查，Python、R和SQL都是是最受歡迎的技能。根據局KDnuggets開發人員調查等分析顯示，R語言、Hadoop、Java和SAS在近年來使用量呈下降趨勢，Tableau呈明顯的上升趨勢。

3. 建議

根據這些分析的結果，以下是對數據科學家的一些建議。

證明自己的數據分析能力，並專注熟練掌握機器學習。

提高你的溝通技巧。推薦閱讀《Made to Stick》這本書，幫助你提升自己觀點的影響力。還可以試試Hemmingway Editor這款app，提高寫作的邏輯性。

掌握深度學習框架。精通深度學習框架在機器學習方面越來越重要。

如果你在猶豫選擇Python還是R語言之間做出選擇，請選擇Python。如果你數量掌握Python，那麼可以也考慮學習R語言，這會讓你在行業中更占優勢。

當僱主在尋找具有Python技能的數據科學家時，他們也期望求職者掌握常見的Python數據科學庫：numpy、pandas、scikit-learn和matplotlib。如果你在學習這些工具，建議你使用以下資源：

DataCamp，DataQuest兩者都是價格合理的在線SaaS數據科學教育產品，你可以在編程時學習，當中都教授了許多技術工具。

Data School擁有各種資源，還包括一系列很贊的YouTube視頻，解釋各種數據科學概念。

McKinney，《Python for Data Analysis 》本書注重pandas，還討論了基礎的numpy和scikit-learn等知識。

Müller，Guido《Introduction to Machine Leaning with Python》Müller是scikit-learn的主要維護者。這是一本關於用scikit-learn學習機器學習的好書。

如果你想學習深度學習，我建議先學習Keras或FastAI，然後在學習TensorFlow或PyTorch。Chollet的《Deep Learning with Python》這本書是學習Keras的絕佳資源。

除此之外，我建議你了解你感興趣的內容，儘管這裡需要考慮到時間分配等因素。

如果你想通過招聘網站找數據科學家工作，我建議試試LinkedIn，這上面可找到的工作信息是最多的。

同時，我建議你製作一個在線作品集，能夠很好地展示你的數據科學技能。還建議在你的LinkedIn個人資料中註明自己的技能。

如果你想查看本文中交互式圖表及當中使用的代碼，請查看我的Kaggle Kernel。

https://www.kaggle.com/discdiver/the-most-in-demand-skills-for-data-scientists/

原文鏈接：https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db

點這裡👇關注我，記得標星哦~

鑽石舞台

鑽石鑽石亮晶晶

CDA數據分析師 - 數據工作者的自我修養 | 哪些技能是必不可少的？

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣