Re: [请益] 想改行当资料科学家,能否给点建议?

楼主: superalf (外星人)   2018-05-17 23:47:01
同为物理PhD,分享自己的经验给你参考
1. 程式语言
Python或R。这两种并不互斥,我们team不少人两种都会。个人觉得重点在:
1. 平行计算(concurrent/multi-threading/processing):根据问题是CPU-bound还是I
/O-bound来选择处理方式
2. iterator/generator:像用deep learning train model时需要的资料都很大,不太
可能全部load到内存,以及做data generator让一笔raw data产生多笔训练资料时都会
需要用到generator
3. profiling tools:要先知道程式的bottleneck在哪才有办法优化
Python 我推荐Micha Gorelick跟Ian Ozsvald写的High performance python这本书
2. 数据库
SQL跟NoSQL基本上都会用到
3. 统计
重中之重。除了不同的machine learning方法,怎么处理空值、极端值、unbalanced dat
a、抽样、假设检定都很重要。特别是假设检定,身为data scientist,不管在哪个产业
,基本上都需要回答“根据现有的资料,哪种情况是最可能的”这种类型的问题。
个人推荐 Garett James, Daniela Witten, Trevor Hastie, Robert Tibshirani 写的 A
n introduction to statistical learning with R 这本书
4. 资料结构跟算法:要有效率的处理软件工程方面的问题,这方面的知识很重要。
我推荐Coursera上面Princeton的Robert Sedgewick跟Kevin Wayne开的Algorithms I & I
I。这门课的精华在programming assignment。每个assignment基本上都会有50-70个test
cases来测试时间跟空间复杂度,还有一些corner cases。不同的情况都要考虑到才能拿
到满分。语言是用Java,但就算没学过应该也不是问题,我那时也是边学边写。题目通常
要你做一个module,里面需要好几个functions 但他只会给你interface,内容都要自己
写。不像吴恩达的machine learning跟deep learning,很多内容都给了,只要把关键的
部份补上。我上了不少online courses,这门课是唯一我认为有难度的。但相对的,通过
的话软工能力可以提升一个层次。
顺便提一下面试的事。我不知道其他公司会怎样准备跟进行,我们会看面试者的博论跟着
作,这都是网络上找的到的资料。我们会问面试者在工作或研究上使用过的工具,例如你
来,那可能会请你解释一下基因算法跟Monte Carlo method,为什么选择这个方法?它
的优点跟缺点?有考虑过其他的方法例如X或Y吗?诸如此类的问题。我们会对面试者当时
做选择背后的思考过程有兴趣,借此了解他工作或研究的广度跟深度。
不确定自己有没有面试过50个人,但30个一定有。结果几乎都是entry level(可能是敝
司太烂强者不想来面)。有些人对自己使用工具背后的原理、假设、限制都不清楚,单纯
call套件下指令。而大部份人选择工具或方法的原因是“因为老师/学长说的”。这并不
能怪他们而是我们的文化就是如此,但很难不令人感到绝望。找个mindsets ok的entry l
evel进来自己训练比较实际。想转data scientist的人不少,但很多都只是想想,真的有
付出行动的不多。往好处想,在台湾你不用付出太多努力就可以赢过不少人。
另一方面,我也去面过十几间公司,不少是想成立资料分析的部门(那些单纯跟风,没算
过成本跟效益的就不提了)。所以面试我的人其实并没有能力评估我究竟适任与否,这也
同样令人绝望。
最后,讲一下资料科学家的工作
1. 资料的清理跟准备
Garbage in garbage out 这可不是说假的。举凡补空值、trimming、处理unbalanced da
taset、de-noise、normalise、feature selection and generation都在这部份。就我自
己的经验,这部分对最终结果的影响是最大的,花费的时间也是最多的。
2. Background research。要唸很多papers,将有机会解决手中问题的方法尽可能找出来
3. 设计实验,包括抽样范围跟方法,实验怎么进行,结果怎么评估
4. 结果的解释跟呈现(资料视觉化)
但在成为资料科学家之前,你必须先是位工程师
作者: hahaxd78 (HAHA)   2018-05-18 00:01:00
推!
作者: PHEj (Vino)   2018-05-18 00:05:00
推讲得很中肯
作者: errard (I love GMAT)   2018-05-18 00:09:00
推个
作者: eggy1018 (羅密歐與豬過夜)   2018-05-18 00:33:00
谢谢提点!
作者: cry004 (巷口)   2018-05-18 01:27:00
推 好清晰
作者: lovepork (我爱猪肉不爱牛肉)   2018-05-18 01:33:00
感谢大师分享!
作者: aszx4510 (wind)   2018-05-18 04:12:00
厉害
作者: bowin (尽其在我)   2018-05-18 04:13:00
推分享!
作者: littleyuan (baby)   2018-05-18 05:11:00
谢谢分享!!
作者: shiauji (消極)   2018-05-18 05:45:00
作者: chen1025 (小陈)   2018-05-18 08:19:00
作者: crow1270 (鸦)   2018-05-18 08:42:00
作者: kekking   2018-05-18 09:00:00
作者: chienjens (青茶无糖去冰)   2018-05-18 09:17:00
推推
作者: billy0131 (Pluto)   2018-05-18 09:36:00
作者: bcew (bcew)   2018-05-18 09:41:00
推分享
作者: pig0038 (颗颗)   2018-05-18 09:50:00
作者: gmoz ( This can't do that. )   2018-05-18 09:54:00
NICE
作者: ian90911 (xopowo)   2018-05-18 09:57:00
推分享
作者: vn509942 (如履薄冰)   2018-05-18 10:25:00
感谢分享 非常宝贵的经验
作者: b160160 (HG Life is Foo~~~)   2018-05-18 10:26:00
作者: f496328mm (为什么会流泪)   2018-05-18 10:27:00
大部份人选择工具或方法的原因是“因为老师/学长说的”这点真的很中肯
作者: qazedcrfv (512)   2018-05-18 10:53:00
中肯,推!
作者: yuchio (yuchio)   2018-05-18 10:57:00
作者: xavierqqqq (Eye烟雾弥漫)   2018-05-18 10:59:00
推推
作者: smalldra (ha。)   2018-05-18 11:10:00
作者: Fen9ze   2018-05-18 11:19:00
作者: Yukirin (いい天気!)   2018-05-18 11:21:00
心有戚戚焉
作者: yamakazi (大安吴彦祖)   2018-05-18 12:13:00
看来要当资料科学家也是不容易很多物理系的觉得转职资料科学家不是太困难 但真的转成功也没那么容易
作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS)   2018-05-18 14:21:00
或许觉得比拿物理PhD简单吧...
作者: az75225   2018-05-18 17:43:00
谢谢分享
作者: abc53 (abc)   2018-05-18 17:47:00
作者: adsl54010 (haha)   2018-05-18 19:12:00
谢谢分享
作者: h042910276 (原罪修罗)   2018-05-18 20:20:00
作者: orcahmlee   2018-05-18 23:39:00
谢分享!
作者: billy4195 (Billy)   2018-05-19 08:08:00
推中肯
作者: peter308 (pete)   2018-05-19 10:38:00
感谢原po热心分享!
作者: wxtn (不一样的声音)   2018-05-19 21:28:00
推推推
作者: jojojen (JJJ)   2018-05-20 10:32:00
作者: Arctica (欲聆听,必先静默)   2018-05-20 14:58:00
感谢分享
作者: ntddt (灭顶,降公投罢免门槛)   2018-05-21 22:19:00
大推
作者: remember69 (玻璃心先生)   2018-05-23 00:16:00
豪猛
作者: lovepork (我爱猪肉不爱牛肉)   2018-05-23 12:22:00
请教一下,资料科学家必须先从资料工程师当起吗?我近期有去跟资策会的课程经理谈过,他说他的课程只能培训出资料工程师,但我看那个课程已经是非常硬的了一到五 0900~1700 密集上五个月才能结业!所以假设我去上完资策会的资料工程师培训,还要补足统计所的一些课程,才有资格去应付资料科学家所赋予的挑战?superalf大 能否点建议? 感谢!

Links booklink

Contact Us: admin [ a t ] ucptt.com