Re: [请益] 资料科学与网页后端领域的选择

楼主: pelicanper (派立肯)   2019-09-21 18:46:40
现实生活中Data Scientist/Engineer/Analyst的界线很模糊
事实上据统计Data Scientist有60%的时间都在做Data Cleaning
这并不表示DE没有做好自己的工作,DE的功能像是比较进阶的BI
但是举例来说在不同数据库里面可能对性别的标注不一样
DS做Feature Engineering的时候可能要花很多时间去把很多来自不同来源的资料标准化
另外,只会做研究的DS是无法在现实生活中生存,很多专案都是有迫切性的问题要处理
建模型是一回事,如何说服决策者模型可以解决问题是一回事,
把模型Productionize到即时系统里面又是另一回事,
一个好棒棒的DS用了很酷的R/Python做了一个超屌的Model结果前端系统跑在C#上面
请问接下来该怎么处理,丢给SE然后说这不关DS的事?
一个ML的Life Cycle里面有很多事情如果拆开来给太多不同人来做并不会比较快
因为光是沟通就会花掉大半的时间,所以不要对DS抱有太高的期待
除非你待的是研究走向而不是要求产出的部门
不过这也是一种商机,台湾不知道有没有公司用DataRobot
这家公司就是专门提供机器学习自动化的解决方案,也就是说当资料准备好了
DataRobot可以自己跑上百的不同的模型,分析并以Performance来建议最好的模型
当你选择好模型之后可以自动产生API,所以前端只需要套API就可以用
当然细节上还有很多可以微调,DataRobot还可以自动产生技术文件
尤其是对一些有金融规范审查需要的公司就很方便,我们公司这两年导入
Snowflake数据库和DataRobot做机器学习,整个部门包括我只有三个人
从ETL到ML/Tableau全做,事实上没有人说自己专门做什么
可是也是因为这样做起来很有效率,东西在三个人手上大家都知道什么是什么
参考一下...
作者: king22649   2019-09-21 18:55:00
这API是落地的?
作者: b10130402C (WinJamison)   2019-09-21 20:57:00
谢谢p大的分享,p大这份工作前是什么领域的啊?
作者: wilson85771 (HOW)   2019-09-22 02:28:00
推,非常接地气的回文
作者: neo5277 (I am an agent of chaos)   2019-09-22 03:29:00
C# 不好吗?
作者: laba5566 (最爱56家族 啾咪)   2019-09-22 09:40:00
不想花钱请人做模型用datarobot还挺方便的
作者: kuan07   2019-09-22 10:41:00
现在可以用的工具太多了 工作上 从清理资料到建模产生api都一条龙了

Links booklink

Contact Us: admin [ a t ] ucptt.com