Re: [问题] 从评论提取特征并做成分类器 ddavid PTT批踢踢实业坊

Re: [问题] 从评论提取特征并做成分类器

楼主: ddavid (谎言接线生) 2020-05-09 00:36:08

※ 引述《nchunerdy120 (batman)》之铭言：
: 小弟目前是学生，有个专案是要从几万笔的评论中提取出几个重要的特征，并且将这些特
: 征拿来制造筛选器。
: 例如从餐厅的评论中得出“食物种类”、“食物价钱”、“食物口味”非常重要，就用这
: 三个当作分类器的attribute。然后在给定这些attribute值的时候，就能够导向对应的餐
: 厅。
: 自己思考一下作法后，归类出两个问题：
: 首先是该如何提取特征？我目前的想法是使用tf-idf向量化，找出tf-idf最高的前几个字
: 当作晒选器的attribute（X）。请问还有其他更适合的方式吗？
不一定更适合但可以并行或组合使用的方式：简单的自然语言分析（不一定要是
全套，依情况可能是词性或经验法则挑出某些特定句型）跟语意分析来补充关键字候
选。
比如食物种类一定是个名词，然后一般位于句子中前后可能有哪些位置与前后文
的特征（例如，“吃起来”前面如果是接个名词，该名词可能很高机率就是个食物名
称吧），借此捞出一些机率比较高的关键字候补。
: 第二个问题是该如何把餐厅（Y）跟选定的attribute（X）做连结？毕竟无法连结的话就
: 无法训练分类器，所以该怎么把这些attribute（X）跟餐厅（Y）是个大问题... 目前怎
: 么解决这件事情小弟完全没有头绪，不知道有没有大神可以解答Orz ［编辑］：选定att
: ribute之后该怎么将评论中对应attribute的文字量化，例如评论中提到“食物很好吃”
: ，那该如何将“好吃”量化放入食物口味的attribute中
关键字：Opinion mining / Sentiment analysis / 情感语意分析
有一些公开的数据库把许多的词语设定好了positive/negative的正负面分数。
例如“好吃”可能是+0.73，“恶心”是-0.91之类。
于是当你已经抓到关键词所在句子并分好词，则可以利用这些数据库得到各同句
中相关词语对应的正负面情感分数，然后看要进行加总或其他特殊加权处理得到最终
该关键字的情感分数是正面或负面、值有多大，就可以以此情感分数做为某种结论或
后续进一步分析的feature。
要注意的是，情感分数计算有可能会因为文章类别或内容领域而有所差异，因此
可以先就取得的数据库套用手上的文章，确认一下文章中用到词语对应出来的分数是
否合理、适用或者还有缺漏，然后手动把分数值修正到更适合手上Case的状态，经过
这样的校正后可以得到更好的结果。
另外这可能只是你需要的一小部分feature，另外你还提到食物种类或价钱等等
，这些则可能是靠前一部分关键字筛选来尝试解决。找出了多少不同的食物名称就可
能关连到食物种类的方面、找到某些跟价位有关的词语或前后文形容词就可能对应到
价钱之类的。
这有些部分非常需要分析者先手动阅读一些文章并分析可能的规则，再针对这些
规则去选择并调整你的text mining model，然后把model应用到其他文章看看结果，
再反复进行这种验证调整直到model整体表现看起来不错，才进入实用。
: 麻烦各位乡民们替小弟解惑，如果有上述方法以外的作法也麻烦各位不吝提出，感谢！

作者: nchunerdy120 (batman) 2020-05-09 09:38:00

感谢您的解惑！小弟还有疑问，就是在分类器训练完后（选定attribute也给值了），要将模型实际应用时，使用者如果给数字，要如何对应到模型中的文字分数？例如使用者想要一百块台币以内，要如何对应到“食物价钱”那一块呢？感谢您

作者: chia0712 (掐子) 2020-05-10 14:27:00

推认真回文

作者: nchunerdy120 (batman) 2020-05-15 00:08:00

真的非常非常非常非常非常感谢您这么详细的回复QQ小弟会照您的建议努力，如果有其他疑问再在版上发文，太感谢您了！！！

作者: nini200 (200妮妮) 2020-05-15 17:50:00

优文！推

继续阅读

[问题] 从评论提取特征并做成分类器nchunerdy120 [问题] Regular expression quizsmith2603 Re: [问题] 弹出式网页如何爬取boboye [问题] 新手发问xup6yvu06 Re: [问题] 人脸辨识MasterChang [问题] 档案处理问题miwuz [征求] python 顾问Friend5566 [问题] datetime模组能抓民国年吗?LukeSkywaker [范例] 公开观测站 -- 股利报告书爬虫yahoo168 [问题] win32com PPT 操控图片大小harry0073