楼主:
TZULIU (消费券收购商)
2017-06-05 14:55:15想请问各位一下,
近日我正在使用日文进行text clustering,
但当我将日文字/词转换成dictionary之后,
dictionary key就变成unicode而非日文,
请问该如何解决此问题?
Code 如下:
## load data
allWrdMat10 = pd.read_csv("../../data/allWrdMat10.csv.gz", encoding='CP932')
## Set X as CSR Sparse Matrix
X = np.array(allWrdMat10)
X = sp.csr_matrix(X)
## create dictionary
dict_index = {t:i for i,t in enumerate(allWrdMat10.columns)}
freqrank = np.array(dict_index.values()).argsort()
X_transform = X[:, freqrank < 1000].transpose().toarray()
##################################################################
若输入 allWrdMat10.columns 仍会显现日文,如下:
Index([u'?', u'.', u'・', u'%', u'0', u'1', u'10月', u'11月', u'12月', u'1つ',
...
u'沈阳', u'疆', u'卢', u'笼', u'绊', u'胚', u'谏早', u'赵', u'铉', u'镕基'],
dtype='object', length=8655)
但若输入 dict_index.keys() 时,则会变成unicode:
[u'\u77ed\u9283',
u'\u5efa\u3066',
u'\u4f0a',
u'\u5e73\u5b89',
u'\u6025\u9a30',
u'\u897f\u65e5\u672c',
u'\u5e03\u9663',
...]
请问各位高手该如何解决此一问题?谢谢。