小弟目前是学生,有个专案是要从几万笔的评论中提取出几个重要的特征,并且将这些特
征拿来制造筛选器。
例如从餐厅的评论中得出“食物种类”、“食物价钱”、“食物口味”非常重要,就用这
三个当作分类器的attribute。然后在给定这些attribute值的时候,就能够导向对应的餐
厅。
自己思考一下作法后,归类出两个问题:
首先是该如何提取特征?我目前的想法是使用tf-idf向量化,找出tf-idf最高的前几个字
当作晒选器的attribute(X)。请问还有其他更适合的方式吗?
第二个问题是该如何把餐厅(Y)跟选定的attribute(X)做连结?毕竟无法连结的话就
无法训练分类器,所以该怎么把这些attribute(X)跟餐厅(Y)是个大问题... 目前怎
么解决这件事情小弟完全没有头绪,不知道有没有大神可以解答Orz [编辑]:选定att
ribute之后该怎么将评论中对应attribute的文字量化,例如评论中提到“食物很好吃”
,那该如何将“好吃”量化放入食物口味的attribute中
麻烦各位乡民们替小弟解惑,如果有上述方法以外的作法也麻烦各位不吝提出,感谢!