资料源自: www.jackie-datascience.com
这张图是来源自我的一篇文章:大数据时代商业模式, 表示一位资料科学家应该基本具备
的能力: 1. 统计学(statistics) 2. 机器学习算法(machine learning algorithms)
3. 编程能力(programming)。而图里的推荐书籍是我读过且认为不错的能力养成书籍。
当然, 全球有将近50%的资料科学人员使用R语言, 但它有先天上的限制, 就是若要包装成
一个独立运作的系统是较为困难。 R语言的操作环境R Studio比较像我们习惯的Matlab环
境, 当然它也是免费的! 另一个限制就是它是由统计学家所设计的语言, 语言的思维模式
不像一般的程式语言(如 C/C++, JAVA等…)
习惯于大部分程式语言思考模式的朋友, 可以选择Python, 想使用Python作大数据分析的
朋友, 我推荐上面二本书(1.Python for Data Analysis 2.Python Machine Learning)。
在机器学习与大数据领域, R跟Python几乎是主流语言! 它们具备的开发套件真的会让开
发人员赞叹! 免费软件的时代早己来临, 只要你具备基本的软件开发能力…, 网络上的开
源码(Open Source)资源正是我们每一个人能够取得的巨大宝库!
机器学习算法(Machine Learning Algorithms)是资料科学技术的核心, 但它并不是新
发明, 这些算法早己存在几十年了! 那为什么这些老东西现在这么热门呢? 原因是进入
21世纪以后, 资料储存与运算成本的大幅崩跌, 世界储存的资料量变得异常巨大, 而当这
些巨量资料由电脑分析, 算法可以短时间内, 从茫茫资料海中找出人类无法找出的线索
与金矿!
电脑天生就擅长做巨量资料的运算; 但人脑却不是!
因此这个时代将会有愈来愈多的由人所执行的工作被电脑所取代(如物理治疗师、医生、
记者、MIS人员、行销人员、股票交易员、行政人员…等等), 这些被取代的工作都有二个
共通点, 一是重复性(Repeatable), 二是可预测性(Predictable)。 只要你目前做的工作
具有以上二点的其中一个, 就有机会被机器取代!
我们应该思考! 什么是人做得到, 而电脑目前还做不到的事!
我认为这才是真正重要的问题!