Re: [问题] 从评论提取特征并做成分类器

楼主: ddavid (谎言接线生)   2020-05-09 00:36:08
※ 引述《nchunerdy120 (batman)》之铭言:
: 小弟目前是学生,有个专案是要从几万笔的评论中提取出几个重要的特征,并且将这些特
: 征拿来制造筛选器。
: 例如从餐厅的评论中得出“食物种类”、“食物价钱”、“食物口味”非常重要,就用这
: 三个当作分类器的attribute。然后在给定这些attribute值的时候,就能够导向对应的餐
: 厅。
: 自己思考一下作法后,归类出两个问题:
: 首先是该如何提取特征?我目前的想法是使用tf-idf向量化,找出tf-idf最高的前几个字
: 当作晒选器的attribute(X)。请问还有其他更适合的方式吗?
不一定更适合但可以并行或组合使用的方式:简单的自然语言分析(不一定要是
全套,依情况可能是词性或经验法则挑出某些特定句型)跟语意分析来补充关键字候
选。
比如食物种类一定是个名词,然后一般位于句子中前后可能有哪些位置与前后文
的特征(例如,“吃起来”前面如果是接个名词,该名词可能很高机率就是个食物名
称吧),借此捞出一些机率比较高的关键字候补。
: 第二个问题是该如何把餐厅(Y)跟选定的attribute(X)做连结?毕竟无法连结的话就
: 无法训练分类器,所以该怎么把这些attribute(X)跟餐厅(Y)是个大问题... 目前怎
: 么解决这件事情小弟完全没有头绪,不知道有没有大神可以解答Orz [编辑]:选定att
: ribute之后该怎么将评论中对应attribute的文字量化,例如评论中提到“食物很好吃”
: ,那该如何将“好吃”量化放入食物口味的attribute中
关键字:Opinion mining / Sentiment analysis / 情感语意分析
有一些公开的数据库把许多的词语设定好了positive/negative的正负面分数。
例如“好吃”可能是+0.73,“恶心”是-0.91之类。
于是当你已经抓到关键词所在句子并分好词,则可以利用这些数据库得到各同句
中相关词语对应的正负面情感分数,然后看要进行加总或其他特殊加权处理得到最终
该关键字的情感分数是正面或负面、值有多大,就可以以此情感分数做为某种结论或
后续进一步分析的feature。
要注意的是,情感分数计算有可能会因为文章类别或内容领域而有所差异,因此
可以先就取得的数据库套用手上的文章,确认一下文章中用到词语对应出来的分数是
否合理、适用或者还有缺漏,然后手动把分数值修正到更适合手上Case的状态,经过
这样的校正后可以得到更好的结果。
另外这可能只是你需要的一小部分feature,另外你还提到食物种类或价钱等等
,这些则可能是靠前一部分关键字筛选来尝试解决。找出了多少不同的食物名称就可
能关连到食物种类的方面、找到某些跟价位有关的词语或前后文形容词就可能对应到
价钱之类的。
这有些部分非常需要分析者先手动阅读一些文章并分析可能的规则,再针对这些
规则去选择并调整你的text mining model,然后把model应用到其他文章看看结果,
再反复进行这种验证调整直到model整体表现看起来不错,才进入实用。
: 麻烦各位乡民们替小弟解惑,如果有上述方法以外的作法也麻烦各位不吝提出,感谢!
作者: nchunerdy120 (batman)   2020-05-09 09:38:00
感谢您的解惑!小弟还有疑问,就是在分类器训练完后(选定attribute也给值了),要将模型实际应用时,使用者如果给数字,要如何对应到模型中的文字分数?例如使用者想要一百块台币以内,要如何对应到“食物价钱”那一块呢?感谢您
作者: chia0712 (掐子)   2020-05-10 14:27:00
推认真回文
作者: nchunerdy120 (batman)   2020-05-15 00:08:00
真的非常非常非常非常非常感谢您这么详细的回复QQ小弟会照您的建议努力,如果有其他疑问再在版上发文,太感谢您了!!!
作者: nini200 (200妮妮)   2020-05-15 17:50:00
优文!推

Links booklink

Contact Us: admin [ a t ] ucptt.com