版上各位好
小弟近期正在学机器学习
目前想用一些dataset来做练习
而我有一个疑问想问
如果data中有文字资料,那应该需要先用
labelencoder去把文字转数字资料
但是如果今天我训练完了
想用testing data来做验证
那testing data的那些文字也需要转成数字
才能丢进去验证
那么testing data中文字转为数字的时候会不会有可能和在training data转出来的不同
(例如training data上的apple对应到0
会不会在 testing data上的 apple对应到5之类的,
如果会那么应该如何处理才好呢?)
感谢版上大大不吝赐教
作者: numpy (那么拍) 2019-11-05 00:29:00
所以一开始要连同 testing data 一起喂给 labelencoder
之前做的做法是做出一个dictionary 在0位置放unknown. Test和training用同一个dict转test中没在trainin出现过的都丢到unknown
numpy大感谢你的建议little大 请问要如何比较两组资料中有哪些是对方没有出现的 并且将那些资料的位置找出来呢
先各自转成token (or数字), 然后把token 存成dict再用set取出unique的字, 再用set的methodDifference or Symmetric differencenote:数字的话要确保 字到数字 是 one to one