京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 8605|回复: 0

你离年薪100万的数据科学家还差10个“码农”

[复制链接]

18

主题

0

回帖

10

积分

新手上路

积分
10
发表于 2019-4-5 19:15:35 | 显示全部楼层 |阅读模式 来自 中国
《哈佛商业评论》曾评价,“数据科学家”是21世纪最“性感”的工作。性感不性感不知道,但是“有钱”是真的。在某求职网站随便输入“数据科学家”,跳出来的薪资怕都是小编的10倍了……
' r2 L7 C" Y( Y/ |( t" A数据科学是数学plus?
  @. R+ k  o/ z- z) V  v9 |. l事实上,数据科学现今的概念还较为模糊。它是一门基于数据价值研究的交叉学科,堪称“全方位、多层次、宽领域”。既包含大量应用技术,与应用数学、统计学、运筹学等多个学科相关,又与最新的技术领域,机器学习、深度学习、人工智能、物联网等紧密相联。2 M: [6 q" F* r7 R- g9 n
简而言之,数据科学家就是可以通过定量和编程方法以及所研究领域的知识,从数据中创造知识和价值的高素质人才。他们同时拥有程序员和数学家的部分基础技能。) a/ x5 w" M% j3 B. N* e4 g
知识和技能领域
& Q/ z1 r3 A9 A# |: w% {: w' G数据科学家应具备以下领域的技能和知识:! _. M: p% D$ `" Y1 h- K; @+ O/ [
1. 数据、统计、数学或其他定量方法
7 E$ u8 W# ~  `: S3 O6 ^  p9 u& @2 s2. 编程、计算机科学或计算机系统工程: K: O( O, d  B! K4 R( p% s/ j) w
3. 正在调查的域名1 x0 q  q/ |- j2 T# {
要成为一名全面的数据科学家,应对每个领域中的内容都有所涉猎。如果没有运行高级机器学习和部署生产模型的编程技能,只在统计学方面做得好,一个人不一定能成为优秀的数据科学家。
- Q2 N& r* b& C& c: j6 y数据科学的核心是将数据转化为知识。这些知识可以包括对事物的分类或估计。分类是离散值(即整数值或类别)的预测,并且可以包括将电子邮件分组为垃圾邮件或非垃圾邮件,估计或回归是连续变量的预测。例如,预测客户的未来收入。
# I* h4 I; g4 b8 w3 q0 p& F数据是根据世界上观察到的内容创建的。由于无法观察所有现实,它几乎总是现实的样本。数据样本来自一组数据——完全观察到的宇宙。
) r; i. s; }: H' |: o9 W) ~为了创造知识,数据科学家应该理解描述性和推论性统计数据。描述性统计表征现实样本并且包括诸如中心(例如,平均值,中值),离差(即,观察的分布如何),形状(例如分布的偏度)之类的度量。如果测量多个变量,它还测量变量之间的依赖关系。
8 j1 S: S4 j% i- f  c推论统计基于样本数据的描述得出关于总体的结论。数据科学家需要了解先进的推理技术,例如机器学习——基于观察创建新知识的技术和手头任务的绩效测量。) i, }' l- S) n/ [; l( T
数据科学家也可能了解其他定量方法,包括预测。比如:服装店的未来销售预测——这取决于季节。
4 q* B1 H; c6 b: W数据科学家遵循数据分析流程来创建知识。一个常见的过程是跨行业标准数据挖掘过程(CRISP-DM),其中包括以下六个步骤:
' `1 e  i7 u% {( p4 C1. 业务理解:将在下文中描述的领域知识。3 D; W' r' B$ G0 q% m0 C5 a0 d. }
2. 数据理解:描述性统计和数据质量评估。
8 d# i6 Q! Y) P7 X+ |3. 数据准备:数据清理、构建新变量和合并数据集。( @. t6 ?+ e- p6 ~; g; U9 H
4. 建模:模型是对数据观察样本的假设结构的描述。建模包括选择技术(机器学习有许多构建模型的算法)并运行它们。/ B$ D' w5 k8 y( c( s4 O
5. 评估:评估所选模型与业务目标的匹配程度。
9 Y3 D0 c9 k" ?8 d6. 部署:部署模型,以便用户可以将其与未来数据一起使用,以及制定维护计划。
4 j6 S/ E' h* ^1 M/ f! E6 s数据科学家需要充分了解数据收集和通用的数据管理方法。
! J' ?; O8 O; R他们还需要使用适当的数据可视化来传达数据的结果。这些可视化包括饼图、条形图和折线图。; ?: P5 r( t0 t4 W$ _. ?5 y$ P
编程是构建执行任务的计算机程序的过程。编程通常是计算机科学和计算机系统工程等领域的中心。. x6 q4 w- C& U# W9 r+ A5 @' A) }' a
数据科学家需要先进的编程技能来处理数据,计算复杂的指标以及进行高级机器学习。这些程序需要结构良好,以便于维护和性能——计算机科学或计算机系统工程的技能和知识。编程语言包括Python、R、SAS和SPSS。# S2 k- ^( s1 {- S' G4 H
数据科学家需要对数据存储技术有所了解,包括数据库、数据仓库和数据湖。! |. }( q9 J$ u& H) j
数据科学家不一定需要是合格的计算机科学家或计算机系统工程师,但他们确实需要对这些领域的技术有足够的了解,才能有效地进行数据科学研究。3 K& j, j5 Y1 X. Q! [, |4 J
领域知识
9 _$ g4 d( K0 T! I4 ]' O, b6 f9 F+ x数据科学家还需要对领域知识库有一个很好的理解,以便为该领域贡献更多有价值的知识。
# r* t' F+ ?9 f, m# v. n领域知识也有助于更好地定义问题,确定已知的内容,并准确地解释结果。* a* Z; D0 @' h& s6 _6 |) `  f
领域知识是一种捷径,数据科学家利用已有的知识更好地创造新知识,并有助于将研究范围缩小到该领域尚未知晓的范围,以便数据科学家不重复研究。
; F, P0 L0 r8 Y! f数据科学家不一定必须是这三个领域中任何一个领域的专家。 然而,他们肯定需要具备良好的跨学科知识,才能从数据中创造有价值的领域知识。% h" A& E7 r6 F# o3 V  p& f
1 i$ k* \- K" z7 e; t/ h
来源:http://www.yidianzixun.com/article/0LfBWjPZ4 {: H! A( a9 e2 m
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-1-16 09:04 , Processed in 0.042420 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表