[问题] 新手请教简体中文编码问题 youngberry PTT批踢踢实业坊

[问题] 新手请教简体中文编码问题

楼主: youngberry (Asheqetam) 2013-12-31 03:16:59

各位好，
目前在windows英文接口中使用python2.7 IDLE欲处理大陆的文本分类语料库时
遇到了中文编码的问题。主要是想利用该语料库找搭配词和文本类别之间的关连
首先，我利用NLTK工具包里的CategorizedPlaintextCorpusReader
让python将文本及其所属的类别对应起来。
用chardet测出文件使用的是gb2312编码。
当我试着印出某一篇文章（中英夹杂）时
print reader.raw('C11-Space/C11-Space0001.txt').decode('gb2312',
errors='ignore').encode('cp950', errors='ignore')
虽然大部分的中文字可以印出来。但是许多重要的字却呈现?，这样可能会影响结果
不知道各先进有没有比较好的处理方式呢？
另外，在网络上看到有人推荐结巴分词对中文进行分词，
还是说能不能用nltk里的分词工具对中文进行分词？
最后想请教该如何清除中文的停止词呢？nltk包里的停止词语料库似乎不包含中文。
感谢回答先

作者: mail6543210 (mail6543210) 2012-01-01 00:13:00

可能是big5编码没有简字，转成utf8或直接用unicode处理?或是套繁简转换成正体?

楼主: youngberry (Asheqetam) 2012-01-01 18:45:00

感谢回复，昨晚对编码找到了解决办法先在第一行宣告# -*- coding: utf-8 -*-程式码encode的部分相对改成.encode('utf-8') 即可

继续阅读

[问题] 请问顺时针旋转座标，出现乱码jeeyi345 Re: [问题] fslove 传递变量KSJ Re: [问题] google trend APINeisseria [问题] fslove 传递变量diesnow Re: [问题] class str继承问题ya790206 [问题] google trend APIb92299 [问题] class str继承问题tumc [问题] variable的定义popjuice [问题] 怎么让这段程式跑更快？Neisseria Re: [问题] 请问怎么宣告输入为不同型态？MAGICXX