[问题] 新手关于labelencoder的一些疑问 oo855050 PTT批踢踢实业坊

[问题] 新手关于labelencoder的一些疑问

楼主: oo855050 (阿伟) 2019-11-04 23:55:55

版上各位好
小弟近期正在学机器学习
目前想用一些dataset来做练习
而我有一个疑问想问
如果data中有文字资料，那应该需要先用
labelencoder去把文字转数字资料
但是如果今天我训练完了
想用testing data来做验证
那testing data的那些文字也需要转成数字
才能丢进去验证
那么testing data中文字转为数字的时候会不会有可能和在training data转出来的不同
（例如training data上的apple对应到0
会不会在 testing data上的 apple对应到5之类的，
如果会那么应该如何处理才好呢？）
感谢版上大大不吝赐教

作者: numpy (那么拍) 2019-11-05 00:29:00

所以一开始要连同 testing data 一起喂给 labelencoder

作者: littlebo1990 (Bo) 2019-11-05 01:00:00

之前做的做法是做出一个dictionary 在0位置放unknown. Test和training用同一个dict转test中没在trainin出现过的都丢到unknown

楼主: oo855050 (阿伟) 2019-11-05 11:48:00

numpy大感谢你的建议little大请问要如何比较两组资料中有哪些是对方没有出现的并且将那些资料的位置找出来呢

作者: littlebo1990 (Bo) 2019-11-06 01:07:00

先各自转成token (or数字), 然后把token 存成dict再用set取出unique的字, 再用set的methodDifference or Symmetric differencenote:数字的话要确保字到数字是 one to one

楼主: oo855050 (阿伟) 2019-11-06 19:28:00

好的感谢little大的教学我再试试看^_^

继续阅读

[问题] flask/docker问题（已解决）weihan0405 [问题] 是不是python程式用cython 可以藏code?pmove [问题] json档append转成dataframeIFRS Re: [问题] No module named 'docx'eight0 Re: [问题] 新手解题请教flarehunter [问题] Video 转成 tif (frame)lattes [问题] 使用pandas.read_csv读入github dataAmigoSafin [问题] No module named 'docx'holycity [问题] fembed 网络影片爬虫 swwy1661 Re: [问题] 新手解题请教cutekid