PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题] SVM分类器预测结果
楼主:
zhichenyang1
(zhi)
2020-07-31 19:26:06
想请问一个问题,盼各位高手解惑
我要把处理过后的资料,分成训练集跟预测集,丢到一个SVM分类器,训练集去让分类器
学习,训练后再把预测集丢到机器让他预测,结果是好的,但是如果把新进的资料丢到机
器分类结果超怪
假设我有300笔资料,然后把他随机分割成两个,一个是训练,一个是预测的,准确率很
好
把三百笔资料完全当训练的,新的有30笔,结果却很差
请问中间是出了什么差错?
作者: roccqqck (ccqq)
2020-07-31 19:37:00
这种事不是常常发生吗
作者:
LP9527
(ㄊㄇ抽菸都去)
2020-07-31 20:49:00
偷偷跟你说,我邻居的小孩写了300题理化,期中考30分
作者: rfvcxswed
2020-07-31 21:14:00
你datasets的size不一样的话, 没办法比你得到的test error只是对于真正test error的估计,test data size越大, test error的估计会越准确.
作者:
moodoa3583
(金牌å°ç£å•¤é…’)
2020-08-01 01:07:00
overfitting?你acc.的变化是如何?
作者:
TitanEric
(泰坦)
2020-08-01 12:07:00
stratified sampling吗你有做上面的事吗
作者:
germun
(ger)
2020-08-01 14:02:00
表示你取的资料特征不够好
作者:
NikolaTesla
(只睡两小时的男人)
2020-08-01 17:23:00
应该因为你新资料的特征分布跟训练资料不同。一个是扩大训练资料的分布范围。另一个是更好的特征撷取。
作者:
yuasa
(XD)
2020-08-01 20:59:00
所以你要做cross validation、调参数,甚至试试其他algorithm阿。也有可能sample不够或没有代表性。高度fit trainingdataset不代表就能精准预测training dataset以外的数据
作者:
Starcraft2
(来自星海的你)
2020-08-03 10:40:00
overfitting 重新作train_test_split 也可以稍微看一下你的那300个和30个资料是不是长得不太一样另外看看能不能增加资料量到1000以上的量级 几百颇少
作者: aassdd926 (打东东)
2020-08-04 00:04:00
这就是要开始做EDA的节奏
作者:
a78998042a
(Benjimine)
2020-08-04 13:14:00
简单的说,你训练集长的样子,跟测试集差很多,就是两个资料集分布差异大。要嘛就是你样本没抽好,要嘛就是资料是有时间性的。
作者:
aidansky0989
(alta)
2020-08-04 15:18:00
你的处理是怎样处理,下采样或过采样的话,你有99.99%机率是过拟合
作者: erre (erre)
2020-09-02 11:10:00
掰陈都是一直调参数调出来,你参数调的不够多
继续阅读
[问题] bs4里面没有beautifulsoup4
ladie4
[问题] tensorflow书籍推荐
Kuba4ma
[问题] pyinstaller 做成exe后 打开缓慢问题
skateshare
[征求] 自然语言处理专家
arsl400
Fw: [情报] 今年最后一档-AI技术应用工程师培训
oepan
[问题] dataframe筛选后建立新的dataframe
aocaoef
[问题] socket
yoz4ni
[问题] dataframe重复的row计数
penguinZZK
[问题] 关于杂凑hash
nicha115
[问题] Aspect based sentiment analysis
nchunerdy120
Links
booklink
Contact Us: admin [ a t ] ucptt.com