[问题] SVM分类器预测结果 zhichenyang1 PTT批踢踢实业坊

[问题] SVM分类器预测结果

楼主: zhichenyang1 (zhi) 2020-07-31 19:26:06

想请问一个问题，盼各位高手解惑
我要把处理过后的资料，分成训练集跟预测集，丢到一个SVM分类器，训练集去让分类器
学习，训练后再把预测集丢到机器让他预测，结果是好的，但是如果把新进的资料丢到机
器分类结果超怪
假设我有300笔资料，然后把他随机分割成两个，一个是训练，一个是预测的，准确率很
好
把三百笔资料完全当训练的，新的有30笔，结果却很差
请问中间是出了什么差错？

作者: roccqqck (ccqq) 2020-07-31 19:37:00

这种事不是常常发生吗

作者: LP9527 (ㄊㄇ抽菸都去) 2020-07-31 20:49:00

偷偷跟你说，我邻居的小孩写了300题理化，期中考30分

作者: rfvcxswed 2020-07-31 21:14:00

你datasets的size不一样的话, 没办法比你得到的test error只是对于真正test error的估计,test data size越大, test error的估计会越准确.

作者: moodoa3583 (é‡‘ç‰Œå°ç£å•¤é…’) 2020-08-01 01:07:00

overfitting?你acc.的变化是如何?

作者: TitanEric (泰坦) 2020-08-01 12:07:00

stratified sampling吗你有做上面的事吗

作者: germun (ger) 2020-08-01 14:02:00

表示你取的资料特征不够好

作者: NikolaTesla (只睡两小时的男人) 2020-08-01 17:23:00

应该因为你新资料的特征分布跟训练资料不同。一个是扩大训练资料的分布范围。另一个是更好的特征撷取。

作者: yuasa (XD) 2020-08-01 20:59:00

所以你要做cross validation、调参数，甚至试试其他algorithm阿。也有可能sample不够或没有代表性。高度fit trainingdataset不代表就能精准预测training dataset以外的数据

作者: Starcraft2 (来自星海的你) 2020-08-03 10:40:00

overfitting 重新作train_test_split 也可以稍微看一下你的那300个和30个资料是不是长得不太一样另外看看能不能增加资料量到1000以上的量级几百颇少

作者: aassdd926 (打东东) 2020-08-04 00:04:00

这就是要开始做EDA的节奏

作者: a78998042a (Benjimine) 2020-08-04 13:14:00

简单的说，你训练集长的样子，跟测试集差很多，就是两个资料集分布差异大。要嘛就是你样本没抽好，要嘛就是资料是有时间性的。

作者: aidansky0989 (alta) 2020-08-04 15:18:00

你的处理是怎样处理，下采样或过采样的话，你有99.99%机率是过拟合

作者: erre (erre) 2020-09-02 11:10:00

掰陈都是一直调参数调出来，你参数调的不够多

继续阅读

[问题] bs4里面没有beautifulsoup4ladie4 [问题] tensorflow书籍推荐Kuba4ma [问题] pyinstaller 做成exe后打开缓慢问题skateshare [征求] 自然语言处理专家arsl400 Fw: [情报] 今年最后一档-AI技术应用工程师培训oepan [问题] dataframe筛选后建立新的dataframeaocaoef [问题] socketyoz4ni [问题] dataframe重复的row计数penguinZZK [问题] 关于杂凑hashnicha115 [问题] Aspect based sentiment analysisnchunerdy120