Re: [问题] Bag of words 中文单字词问题

楼主: ctr1 (【积π】)   2018-06-27 08:42:43
我自己来回答
默认过滤掉一个字符长度的词
text = ["我|,|爱你|白Z",
"他|爱狗",
"猫|爱鼠"
]
vectorizer = CountVectorizer(min_df=1, token_pattern='(?u)\\b\\w+\\b')
vectorizer.fit(text)
vector = vectorizer.transform(text)
print (vectorizer.vocabulary_)
print (vector.shape)
print (vector.toarray())
作者: b24333666 (比飞笨)   2018-06-27 08:55:00
你怎么把上一篇的推文修掉了....
楼主: ctr1 (【积π】)   2018-06-27 08:59:00
兄弟 你留言在另一个版~
作者: b24333666 (比飞笨)   2018-06-27 10:45:00
不好意思XDD

Links booklink

Contact Us: admin [ a t ] ucptt.com