现实生活中Data Scientist/Engineer/Analyst的界线很模糊
事实上据统计Data Scientist有60%的时间都在做Data Cleaning
这并不表示DE没有做好自己的工作,DE的功能像是比较进阶的BI
但是举例来说在不同数据库里面可能对性别的标注不一样
DS做Feature Engineering的时候可能要花很多时间去把很多来自不同来源的资料标准化
另外,只会做研究的DS是无法在现实生活中生存,很多专案都是有迫切性的问题要处理
建模型是一回事,如何说服决策者模型可以解决问题是一回事,
把模型Productionize到即时系统里面又是另一回事,
一个好棒棒的DS用了很酷的R/Python做了一个超屌的Model结果前端系统跑在C#上面
请问接下来该怎么处理,丢给SE然后说这不关DS的事?
一个ML的Life Cycle里面有很多事情如果拆开来给太多不同人来做并不会比较快
因为光是沟通就会花掉大半的时间,所以不要对DS抱有太高的期待
除非你待的是研究走向而不是要求产出的部门
不过这也是一种商机,台湾不知道有没有公司用DataRobot
这家公司就是专门提供机器学习自动化的解决方案,也就是说当资料准备好了
DataRobot可以自己跑上百的不同的模型,分析并以Performance来建议最好的模型
当你选择好模型之后可以自动产生API,所以前端只需要套API就可以用
当然细节上还有很多可以微调,DataRobot还可以自动产生技术文件
尤其是对一些有金融规范审查需要的公司就很方便,我们公司这两年导入
Snowflake数据库和DataRobot做机器学习,整个部门包括我只有三个人
从ETL到ML/Tableau全做,事实上没有人说自己专门做什么
可是也是因为这样做起来很有效率,东西在三个人手上大家都知道什么是什么
参考一下...