[问题] 新手请教简体中文编码问题

楼主: youngberry (Asheqetam)   2013-12-31 03:16:59
各位好,
目前在windows英文接口中使用python2.7 IDLE欲处理大陆的文本分类语料库时
遇到了中文编码的问题。主要是想利用该语料库找搭配词和文本类别之间的关连
首先,我利用NLTK工具包里的CategorizedPlaintextCorpusReader
让python将文本及其所属的类别对应起来。
用chardet测出文件使用的是gb2312编码。
当我试着印出某一篇文章(中英夹杂)时
print reader.raw('C11-Space/C11-Space0001.txt').decode('gb2312',
errors='ignore').encode('cp950', errors='ignore')
虽然大部分的中文字可以印出来。但是许多重要的字却呈现?,这样可能会影响结果
不知道各先进有没有比较好的处理方式呢?
另外,在网络上看到有人推荐结巴分词对中文进行分词,
还是说能不能用nltk里的分词工具对中文进行分词?
最后想请教该如何清除中文的停止词呢?nltk包里的停止词语料库似乎不包含中文。
感谢回答先
作者: mail6543210   2012-01-01 00:13:00
可能是big5编码没有简字,转成utf8或直接用unicode处理?或是套繁简转换成正体?
楼主: youngberry (Asheqetam)   2012-01-01 18:45:00
感谢回复,昨晚对编码找到了解决办法先在第一行宣告# -*- coding: utf-8 -*-程式码encode的部分相对改成.encode('utf-8') 即可

Links booklink

Contact Us: admin [ a t ] ucptt.com