楼主:
hawick (刺猬哲学)
2020-08-29 12:24:53一、人物出场次数分析
https://reurl.cc/MdALXX
二、人物共现分析
https://reurl.cc/Oq0LER
三、亲密度分析
层次聚类方法
https://reurl.cc/Oq0LVR
空间聚类方法
https://reurl.cc/gmWpDz
我们选择词向量模型对人物关系进行分析。词向量模型是将word映射到一个新的空间中,
并以连续多维的实数向量进行表示(即Word Represention或Word Embedding)。
我们选择最近比较的Word2Vector模型,其利用深度学习的思想,可以通过训练,把对文
本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文
本语义上的相似。
我们使用了Python中的gensim包进行分析,将人物进行向量化。我们选取了与韦小宝最相
似(亲密度最高的)人物
https://reurl.cc/gmWpaR
综上,我们可以发现韦小宝与康熙的关系很不一般。种种分析的结果都指向二者有着异常
密切的关系——常常结伴出现,亲密系数又是最高的,空间距离(人物关系)又是最近的
,聚类又首先被聚到一起。连几个世纪前一段尘封的感情纠葛的真相都能大白于天下,还
有什么是大数据挖掘做不到的呢?
来源(简体不喜勿入)
https://reurl.cc/m9L4yl