[问题] Python2 unicode转日文 TZULIU PTT批踢踢实业坊

[问题] Python2 unicode转日文

楼主: TZULIU (消费券收购商) 2017-06-05 14:55:15

想请问各位一下，
近日我正在使用日文进行text clustering，
但当我将日文字/词转换成dictionary之后，
dictionary key就变成unicode而非日文，
请问该如何解决此问题？
Code 如下：
## load data
allWrdMat10 = pd.read_csv("../../data/allWrdMat10.csv.gz", encoding='CP932')
## Set X as CSR Sparse Matrix
X = np.array(allWrdMat10)
X = sp.csr_matrix(X)
## create dictionary
dict_index = {t:i for i,t in enumerate(allWrdMat10.columns)}
freqrank = np.array(dict_index.values()).argsort()
X_transform = X[:, freqrank < 1000].transpose().toarray()
##################################################################
若输入 allWrdMat10.columns 仍会显现日文，如下：
Index([u'?', u'．', u'・', u'％', u'０', u'１', u'１０月', u'１１月', u'１２月', u'１つ',
...
u'沈阳', u'疆', u'卢', u'笼', u'绊', u'胚', u'谏早', u'赵', u'铉', u'镕基'],
dtype='object', length=8655)
但若输入 dict_index.keys() 时，则会变成unicode:
[u'\u77ed\u9283',
u'\u5efa\u3066',
u'\u4f0a',
u'\u5e73\u5b89',
u'\u6025\u9a30',
u'\u897f\u65e5\u672c',
u'\u5e03\u9663',
...]
请问各位高手该如何解决此一问题？谢谢。

作者: minikai (一肚子拐) 2017-06-05 19:23:00

我之前也碰过python2的字典key如果不是英文或数字就会这样，网络上好像没有比较好的解法。

作者: ides13 (juso) 2017-06-05 21:16:00

先.encode('utf8')，再.decode('utf8')，试试看。3.0以上只要使用str即可，str(dict_index.keys())

作者: darkgerm (黑骏) 2017-06-05 21:36:00

2 的编码显示问题...还是早早换到 3 吧

作者: ides13 (juso) 2017-06-05 23:30:00

https://goo.gl/sQ6Nd3

继续阅读

[问题] 在terminal下执行有引数的python档warex14 [问题] 用循环request网站无法取得资料drmexro [问题] simplecv 使用手机当作ip camny397789 [问题] 抓取脸书资料限定日期范围p2p8ppp [问题] Python3.4.3有升级的必要吗？yimean [问题] Selenium 撷取跳出视窗ntumath [问题] PTT爬虫请问如何送出 end?CodingMan [问题] opencv 取得座标之后的截图问题neil987 [问题] 字串切割问题LessonWang [问题] 新手爬虫遇到Refresh如何解决？jakeasa123