※ 引述《hsiaotzu0505 (走啦走啦)》之铭言:
: 回朔以往的学习经验,
: 觉得“整理数据,得到有用结果”的过程很吸引我,
: 但是已对纯物理学术研究没有兴趣,也对半导体产业没什么兴趣。
既然你是物理出生 想必数学能力是屌打资工出生的
你所谓的整理数据得到有用的结果 就是现在最热门的Deep learning阿
从Big Data以来发展出的 data mining技巧
接着出现让机器从资料学习的machine learning技术
反正你对python有兴趣 可以尝试实作一些常见基本工具
比如说Multilayer perceptron、convolutional neural network之类的可以更有感觉
: Q:各位前辈觉得数据分析师是什么样的工作,拥有什么样的生活呢?是否能从什么方面推
: 敲自己是否适合这样的工作?
今天才有八卦版问数学家的生活如何
简单说很爽阿 不用出劳力 待在电脑前动动脑和打打code而已
而且软工经验丰富的人 平均想10~20分钟才打一行code
作者: vfgce (小兵) 2018-02-14 20:10:00
你要整理什么数据?除了物理之外,你有什么专长?资料分析要做得好,不是只有懂分析,还要有domain knowlege
依照Andrew Ng的说法 domain knowledge也会不重要啦
作者: vfgce (小兵) 2018-02-14 21:50:00
大数据炒得太过头了,domain knowledge不重要?先看看machine learning 是不是真的'学到'什么东西没domain knowledge的话,送一堆圾圾来做machine learn也不知道.
在资料分析domain knowledge开始变不重要就是大数据啊恰好NN的强项就在于你送一堆垃圾 只要里面真的有有用的数据 他还是能学得不错
作者: vfgce (小兵) 2018-02-15 09:23:00
当你连垃圾还是有用资料都不会分时,确定有送进有用的东西?垃圾就是垃圾,送进太多绝对还是会影响结果,大数据不是大就好,你送进一堆垃圾就是在增加运算量及减少准确率.
你好像没看到我的前提 "里面真的有有用的数据"你要知道你送的是不是垃圾从error就知道了难道你看到error发现feature是垃圾还不懂得拿掉?还有数学模型很老了好吗...你在讲什么东西...我轮流放feature不就知道谁垃圾domain knowledge可以提早不用training就知道谁垃圾哈哈你还扯GAN 现在最有贡献的DL是GAN吗?你广告推荐用GAN做?写得不太对 不应该说贡献 而是说经济产值学得不错不代表学得最好啊 逻辑?原本在资料量大下相对robust就是NN强项不是常识吗我也没说NN无敌啊 但andrew ng就是说以现在的发展来说这些domain knowledge的东西会渐渐都被取代掉你可以送慢慢拿掉啊 逻辑? 资料分析第一反应是GAN?我都不懂你到底对资料分析是想用在哪里了所以你对资料分析第一反应是GAN 笑死人家就是想做现在市面上的资料分析 然后这方面的数学模型很老没错啊 然后你说GAN很新 还真的很会跳你到底在跳什么...看不懂 198x不老?你现在又跳去概念了 不是在讲资料分析的数学模型吗XD要拔掉资料我还以为是常识 几年出来的概念还真的笑死反正比起跳跳人 还是信andrew吧我讲拔feature 你在讲hard negative data mining你还是继续跳吧当然我猜你又要讲我上面说拔资料了 你还是往上看一点而且domain knowledge我还真不知跟这个有啥关系越跳越往外 不知道在干嘛 我还是来去训练我的模型...我真的觉得你中文有很大的进步空间哈哈哈 我快不行了 你还真的第一句就读错如果现在GAN的确有广泛运用在广告上那我的确孤陋寡闻但是你前面仍旧没看懂我所说的 拔feature这件事有domain knowledge的人可以不用train就做但andrew的说法就是这个步骤会被NN取代然后建模的方式有domain knowledge的人可以做但是一样NN可以扮演这个角色我其实前面在说的就只是这么简单的事情所以是不是垃圾你train的时候就能发现 回头拔feature我是觉得蛮直观的啊当然其实他讲的这块我是认为大部分在描述supervised
作者: vfgce (小兵) 2018-02-15 16:07:00
即使machine learning的模型准确率高,也不代表真的有学到有意义的东西,如何选择feature本来就是门学问,一堆机器学习论文根本都绕着准确率在打转,但到底学到什么却没有解释.为什么?不就一堆人没有domain knowledge,拿到资料就先做,
是啊 所以现在其实有些论文的开始朝这部分的metric去分析 但是其实只有部分问题可以做
作者: vfgce (小兵) 2018-02-15 16:12:00
有好的结果就发表,但这东西能不能用?有没有意义都没法回答.
作者: vfgce (小兵) 2018-02-15 16:17:00
事后解释没有关系,重点还是要有domain knowledge才有辨法..不然做了一个准确率很高的模型,结果被内行人笑说没意义...
有没有意义是test说话 不是内行人说没意义就没意义吧
作者: vfgce (小兵) 2018-02-15 16:19:00
就我懂的领域,就看过不少预测的feature根本就common sense.一个说血糖值预测糖尿病很准的模型有什么意义?
作者: vfgce (小兵) 2018-02-15 16:21:00
可是一堆纯资工人却做的很高兴.
作者: vfgce (小兵) 2018-02-15 16:24:00
那有什么不同,就是domain knowledge不会不重要,起码可减少做笨事的机会....
作者:
Ommm5566 (56天團)
2018-02-15 16:24:00阿法狗表示:他们在争什么
作者:
Muscovy (三分熟的闹钟)
2018-02-15 16:25:00在争下棋以外的东西...
作者:
Ommm5566 (56天團)
2018-02-15 16:28:00阿法狗现在在练星海 也在做医疗学习
但是请domain knowledge的价格跟import keras价格不同请个import keras的慢慢从现有feature挑 以现在的计算资源来说也许还比较值得我觉得前处理比较式微 但是NN架构怎么串比较有用
作者:
Ommm5566 (56天團)
2018-02-15 16:32:00跟楼上说的一样 现在就一堆资料训练师 听起来很帅
比如可以知道哪个资料该串去哪一层比较合理之类的阿发现在星海不是蛮弱的 不过应该还是赢我
作者:
Ommm5566 (56天團)
2018-02-15 16:33:00我怎么记得GOOGLE有一支是可以写NN的AI选择layer的接法比人做出来的还好资工人怎么老是努力让自己失业
最近reinforcement也越来越潮啊 各种减少训练时间所以AI大成第一个失业的就是写AI的
作者:
angusyu (〒△〒)
2018-02-15 16:56:00这年代口号最重要,其他都假的 搞老半天没人失业
作者: vfgce (小兵) 2018-02-15 04:10:00
你要整理什么数据?除了物理之外,你有什么专长?资料分析要做得好,不是只有懂分析,还要有domain knowlege
依照Andrew Ng的说法 domain knowledge也会不重要啦
作者: vfgce (小兵) 2018-02-15 05:50:00
大数据炒得太过头了,domain knowledge不重要?先看看machine learning 是不是真的'学到'什么东西没domain knowledge的话,送一堆圾圾来做machine learn也不知道.
在资料分析domain knowledge开始变不重要就是大数据啊恰好NN的强项就在于你送一堆垃圾 只要里面真的有有用的数据 他还是能学得不错
作者: vfgce (小兵) 2018-02-15 17:23:00
当你连垃圾还是有用资料都不会分时,确定有送进有用的东西?垃圾就是垃圾,送进太多绝对还是会影响结果,大数据不是大就好,你送进一堆垃圾就是在增加运算量及减少准确率.
你好像没看到我的前提 "里面真的有有用的数据"你要知道你送的是不是垃圾从error就知道了难道你看到error发现feature是垃圾还不懂得拿掉?还有数学模型很老了好吗...你在讲什么东西...我轮流放feature不就知道谁垃圾domain knowledge可以提早不用training就知道谁垃圾哈哈你还扯GAN 现在最有贡献的DL是GAN吗?你广告推荐用GAN做?写得不太对 不应该说贡献 而是说经济产值学得不错不代表学得最好啊 逻辑?原本在资料量大下相对robust就是NN强项不是常识吗我也没说NN无敌啊 但andrew ng就是说以现在的发展来说这些domain knowledge的东西会渐渐都被取代掉你可以送慢慢拿掉啊 逻辑? 资料分析第一反应是GAN?我都不懂你到底对资料分析是想用在哪里了所以你对资料分析第一反应是GAN 笑死人家就是想做现在市面上的资料分析 然后这方面的数学模型很老没错啊 然后你说GAN很新 还真的很会跳你到底在跳什么...看不懂 198x不老?你现在又跳去概念了 不是在讲资料分析的数学模型吗XD要拔掉资料我还以为是常识 几年出来的概念还真的笑死反正比起跳跳人 还是信andrew吧我讲拔feature 你在讲hard negative data mining你还是继续跳吧当然我猜你又要讲我上面说拔资料了 你还是往上看一点而且domain knowledge我还真不知跟这个有啥关系越跳越往外 不知道在干嘛 我还是来去训练我的模型...我真的觉得你中文有很大的进步空间哈哈哈 我快不行了 你还真的第一句就读错如果现在GAN的确有广泛运用在广告上那我的确孤陋寡闻但是你前面仍旧没看懂我所说的 拔feature这件事有domain knowledge的人可以不用train就做但andrew的说法就是这个步骤会被NN取代然后建模的方式有domain knowledge的人可以做但是一样NN可以扮演这个角色我其实前面在说的就只是这么简单的事情所以是不是垃圾你train的时候就能发现 回头拔feature我是觉得蛮直观的啊当然其实他讲的这块我是认为大部分在描述supervised
作者: vfgce (小兵) 2018-02-16 00:07:00
即使machine learning的模型准确率高,也不代表真的有学到有意义的东西,如何选择feature本来就是门学问,一堆机器学习论文根本都绕着准确率在打转,但到底学到什么却没有解释.为什么?不就一堆人没有domain knowledge,拿到资料就先做,
是啊 所以现在其实有些论文的开始朝这部分的metric去分析 但是其实只有部分问题可以做
作者: vfgce (小兵) 2018-02-16 00:12:00
有好的结果就发表,但这东西能不能用?有没有意义都没法回答.
作者: vfgce (小兵) 2018-02-16 00:17:00
事后解释没有关系,重点还是要有domain knowledge才有辨法..不然做了一个准确率很高的模型,结果被内行人笑说没意义...
有没有意义是test说话 不是内行人说没意义就没意义吧
作者: vfgce (小兵) 2018-02-16 00:19:00
就我懂的领域,就看过不少预测的feature根本就common sense.一个说血糖值预测糖尿病很准的模型有什么意义?
作者: vfgce (小兵) 2018-02-16 00:21:00
可是一堆纯资工人却做的很高兴.
作者: vfgce (小兵) 2018-02-16 00:24:00
那有什么不同,就是domain knowledge不会不重要,起码可减少做笨事的机会....
作者:
Ommm5566 (56天團)
2018-02-16 00:24:00阿法狗表示:他们在争什么
作者:
Muscovy (三分熟的闹钟)
2018-02-16 00:25:00在争下棋以外的东西...
作者:
Ommm5566 (56天團)
2018-02-16 00:28:00阿法狗现在在练星海 也在做医疗学习
但是请domain knowledge的价格跟import keras价格不同请个import keras的慢慢从现有feature挑 以现在的计算资源来说也许还比较值得我觉得前处理比较式微 但是NN架构怎么串比较有用
作者:
Ommm5566 (56天團)
2018-02-16 00:32:00跟楼上说的一样 现在就一堆资料训练师 听起来很帅
比如可以知道哪个资料该串去哪一层比较合理之类的阿发现在星海不是蛮弱的 不过应该还是赢我
作者:
Ommm5566 (56天團)
2018-02-16 00:33:00我怎么记得GOOGLE有一支是可以写NN的AI选择layer的接法比人做出来的还好资工人怎么老是努力让自己失业
最近reinforcement也越来越潮啊 各种减少训练时间所以AI大成第一个失业的就是写AI的
作者:
angusyu (〒△〒)
2018-02-16 00:56:00这年代口号最重要,其他都假的 搞老半天没人失业