[心得] 数据分析的心得 ThePttUser PTT批踢踢实业坊

[心得] 数据分析的心得

楼主: ThePttUser (YhePttUser) 2021-04-01 19:59:04

近来作了一些跟以前不一样的分析，以前做的是大数据分析，我几乎有100%的把握
训练不会做得太烂。
但现在正在做材料分析，材料光一种成分组成，就需要一个制备过程，这制备过程
也影响到最终材料性质如何。不过非常幸运的是同事做的刚好就是在一个样本上溅
镀各种元素，所以可以一口气得到非常多数据，制备条件基本上可以视为一样，
这对做数据分析来说真的是一件好事，不过说数据非常多，其实大概也就400个数据。
我试了四种方法做7 inputs => 5 outputs的训练，没有一个训练可以很准确预测
真实值，大概是y = 1.2*x的程度，因此最近也正在研究怎么使用小数据训练出好的
模型，目前最好的是单纯用NN，努力了好几天还是找不出怎么分析这种数据少的资
料。老实话真的不太容易，要请同事帮我做到一千个点的数据，他花的时间跟精力
大概是4倍。
所以这篇虽然我标注的是心得，不过是否有人知道对于这种小数据有没有比较好的
分析方式?

作者: yiche (你若安好，便是晴天) 2021-04-01 20:50:00

传统机器学习方法：SVM、Tree structure尝试过了吗？也许要考虑统计方法了

作者: ToastBen (吐司边) 2021-04-02 15:59:00

小样本，推楼上

作者: ddavid (谎言接线生) 2021-04-03 04:00:00

我觉得可能还需要考虑一点是，这个问题（元素配比如何影响结合后的性质）是否真的是这些学习方式的模型能表达的我对该领域不熟，虽然稍微Google了一点但也不能确定所以举例而言，如果只有很狭窄范围的某种配比才能凸显出特定性质，一离开这范围就会造成这种性质快速减弱。如果这种情况很常见的话，这会导致模型要嘛很难学习准确，要嘛很容易overfitting

楼主: ThePttUser (YhePttUser) 2021-04-03 09:52:00

楼上没错，材料分析就是有这问题，不过目前国外的确有一批人在做元素成分的比例跟之后的材料性质目前我看到的是在大约三种元素的调配下有不错训练尤其是还要考虑到制备过程都可能让长晶方式有差异所以我目前只是先玩玩看，主要还是看能不能另辟蹊径另外回一楼tree我也做过了，训练结果是第二好的我再试试svm

作者: ddavid (谎言接线生) 2021-04-03 20:25:00

考量制备过程真的就很复杂了，会不会有可能是与其去学习那个不容易甚至根本学不了的模型，想办法做出模拟系统反而直接？XD虽然模拟系统应该成本远高且细节必须完全清楚XD

作者: razer (还是一个人) 2021-04-03 20:57:00

看完这段我只能说这个世代的数据分析已经跟我想的完全不同了你不觉得用物理模型去抓一些参数用在模型里，或是设定资料上下界，会比你完全放数字自由移动更好一点吗？

作者: Starcraft2 (来自星海的你) 2021-04-04 01:10:00

除了model外, data部分可以参考oversampling像是SMOTE可以参考这篇Kaggle文章kaggle.com/rafjaa/dealing-with-very-small-datasets如果是在深度学习的影像处理等领域关键字Data Augmentation可以去看看

作者: Virness 2021-04-04 01:13:00

样本数太少了可以找简单的模型试试看Logistic Regression 决策树

作者: Starcraft2 (来自星海的你) 2021-04-04 01:26:00

400个不能说真的很少, 但不推荐用NN 先从前面大家提到的几个比较基本的模型试试吧

作者: heavyking02 (皮诺丘) 2021-04-05 11:49:00

可以试试看GAN 虽说训练时间真的比较久但是对于某些类别成效是还不错

作者: yiche (你若安好，便是晴天) 2021-04-05 12:35:00

请问楼上意指要用GAN 生成data吗？

作者: a78998042a (Benjimine) 2021-04-07 08:00:00

推22楼，小样本分析要搭配domain资讯，而基本上400在统计分析的领域也不算小了，搭配统计检定来了解模型残差，赋予模型解释能力。样本不够、资讯不够就是加资讯进去、更精细的了解模型。

作者: mewtwo (mewtwo) 2021-04-07 19:27:00

我看到这个样本数跟问题，第一个想到的不是NN。是multinomial logistic regression

继续阅读

如何获取网页的session storage的keycode0093 [问题] NLP TF-IDFVirness [问题] selenium以css_selector定位问题thruxton [问题] dataframe appl能否返回数个dfjasonhsu14 [问题] tkinter搭配timer按下alt键会被暂停flow142857 [问题] 读取影像中内嵌资料KCryu [问题] 迭代赋值ash0933 [征求]已征得/ 爬虫高手loser113 [问题] pip install显示No pyvenv.cfg file怎么imhandmore [问题] 将.ppt另存新档为.pptxaovo