[问题] Clustering 问题求解

楼主: moodoa3583 (金牌台灣啤酒)   2020-10-13 23:22:09
嗨大家好
我现在有约莫 2000 个 entity,每个 entity 都有自己的 features,例如:
”LeBron”:[”NBA” ,”篮球”,”美国人”]
”电风扇”:[”家电”,”机械”]
...之类
而我的目的是要让 entity 分群,例如 LeBron 就会跟 Westbrook 分成一堆,电风扇就会跟吹风机分成一堆。
目前有两个卡住的点
1.每个 entity 所带的 features 长度不同,可能有些有 5,6 个 features 有些只有一个,这样子是否有方法可以喂给模型?
2.每个 entity 的 features 不尽相同,即使他们表示同一事物,例如 A 球员被标 NBA , B 球员被标 国家篮球协会,我得怎么让模型知道 NBA = 国家篮球协会 这件事?
以上两点,还请不吝告知关键字,让我有个查询方向,谢谢各位。
作者: mirror0227 (镜子)   2020-10-14 00:29:00
李宏毅好啦认真回,自然语言处理 NLP
楼主: moodoa3583 (金牌台灣啤酒)   2020-10-14 00:46:00
感谢回应,NLP 算是我比较陌生的领域,想问有没有处理类似问题的 repo 可以推荐给我呢?谢谢
作者: mychiux413 (小邱)   2020-10-14 11:57:00
NBA 篮球 还不是feature,你要先把他们train成embedding向量,这样每个词都会是一个可能512的向量,那feature尺寸就都一样了关键字:embedding
作者: tsoahans (ㄎㄎ)   2020-10-14 14:02:00
非NN做法:bag of words+LSA/LDA来抽entity的特征再分群

Links booklink

Contact Us: admin [ a t ] ucptt.com