[问题] 新手关于labelencoder的一些疑问

楼主: oo855050 (阿伟)   2019-11-04 23:55:55
版上各位好
小弟近期正在学机器学习
目前想用一些dataset来做练习
而我有一个疑问想问
如果data中有文字资料,那应该需要先用
labelencoder去把文字转数字资料
但是如果今天我训练完了
想用testing data来做验证
那testing data的那些文字也需要转成数字
才能丢进去验证
那么testing data中文字转为数字的时候会不会有可能和在training data转出来的不同
(例如training data上的apple对应到0
会不会在 testing data上的 apple对应到5之类的,
如果会那么应该如何处理才好呢?)
感谢版上大大不吝赐教
作者: numpy (那么拍)   2019-11-05 00:29:00
所以一开始要连同 testing data 一起喂给 labelencoder
作者: littlebo1990 (Bo)   2019-11-05 01:00:00
之前做的做法是做出一个dictionary 在0位置放unknown. Test和training用同一个dict转test中没在trainin出现过的都丢到unknown
楼主: oo855050 (阿伟)   2019-11-05 11:48:00
numpy大感谢你的建议little大 请问要如何比较两组资料中有哪些是对方没有出现的 并且将那些资料的位置找出来呢
作者: littlebo1990 (Bo)   2019-11-06 01:07:00
先各自转成token (or数字), 然后把token 存成dict再用set取出unique的字, 再用set的methodDifference or Symmetric differencenote:数字的话要确保 字到数字 是 one to one
楼主: oo855050 (阿伟)   2019-11-06 19:28:00
好的感谢little大的教学 我再试试看^_^

Links booklink

Contact Us: admin [ a t ] ucptt.com