个人之前研究所刚好也是唸资料探勘、机器学习的,
一点看法
算法 OS
要大概能估算运算次数、资料所需储存空间
除非公司超级有钱, 可以给你满满的内存
或者超级悠闲, 可以放给它跑十天半个月
不过就算这样还是不能太两光, 弄到要几 T 空间或跑上年...
Scala (for Spark)
虽然有 SparkR 可以用, 但印象中速度差很多,
要用 Spark 的话可以考虑学个 Scala
可是直上 Scala 有点虐...个人建议 JAVA -> Scala
当然若 R 效能有大跃进, 或者 R 可以很方便转 Scala 就不需要了
"资料来源" 的验証...欸?
在研究所时期, 有很多固有知名的公开资料可以拿来跑,
但出来工作后很囧的一件事情是,
资料来源 "不一定" 可靠
比方假设是要分析电商网站的 GA (Google Analytics) 资料好了,
有可能一个不小心, 攻城狮会在页面多次加载 GA,
造成所纪录的资料严重失真
也有可能本身操作流程上, 就是会写入多余的、重复的资料
所以有必要的话, 可能得自己检查记录原始资料的过程有没有问题,
比方可能需要有透过浏览器开发者工具检查 request 有没有乱发,
或有个干净的独立环境能让你单独操作做检验
这部份比较不算技能, 算重要的注意事项,
但是如果一开始储存的资料就有问题, 之后再怎么处理都是浪费生命,
也是蛮重要的
相关专业或杂学
比方要大~~~数据预测股票走势或景气,
会一点总经、财会、交易心理学等等,
会比较知道怎么 选方法 设规则 调参数 重要的属性 等等
其实个人是觉得, 假如目标是把事情 "做到好" 的话,
很难有明确的分界说什么一定可以不用会,
有机会、有兴趣的话, 能学尽量多学, 也不会有什么坏处
※ 引述《linkpon5566 (大将军 五六)》之铭言:
: 小弟应数出身 目前是统计硕 还没毕业
: 本身是满喜欢统计 但不看好纯统计在台湾的发展
: 再加上对资工的东西有兴趣 故想往资讯领域走
: 大概是 人工智能.资料科学.大数据......etc.
: 这一类关键字的工作
: (长期在板上潜水,对这些关键字有一定的认知)
: 目前的技能:
: 统计相关模型.分析,程度应该还不错(毕竟是统研...)
: 机器学习 : MLP.SVN.CNN.RNN.....etc.
: 主要是用tensorflow + Keras,但也可以自己手刻、数学推导
: 有Kaggle影像辨识前10%成绩
: R语言
: python 目前主力
: C 指标.结构.内存都有一定的熟练度
: linux基本操作
: 目前coding能力
: 可以说 只要数学上看得懂的算法 花时间就有把握实现
: 当然 速度跟品质还在琢磨
: 下个学期已经预定会修 资料结构&算法
: 还剩一个学期毕业 论文也差不多了
: 想请问该点哪些技能 对求职比较有帮助??
: 目前考虑的选项:
: 离散数学.计算机组织.作业系统(资工6科)
: 数据库(完全没学过)
: Hadoop, Spark
: C++ (有物件导向观念,但没碰过C++)
: Java
: 或是其他建议也可
: 谢谢各位为大神