初次发文,如有违规或排版问题还请指教
大家好,我是实习五学家兼菜鸟工程师,虽然至今为止都在潜水
最近在常看到例如“日本三玖派很多”等等...
想来尝试不同于问卷,而是行为面上的一些验证。
这里我尝试使用twitter API来抓取推特用户上的一些资料做了一些小统整。
◆ 资料来源
从五等分官方推特帐号(@5Hanayome)上的follower名单中,
撷取其中公开有效的76165名使用者帐号,取得其个人页面资料、时间轴等资讯
收集日期:2019/11/16
◆ 使用者党派判定
从使用者的个人页面中,取得其使用者名称及自我介绍,
从其中寻找是否含有派系的关键字:
■ 一花派:一花、ichika
■ 二乃派:二乃、nino
■ 三玖派:三玖、miku
■ 四叶派:四叶、yotsuba
■ 五月派:五月、itsuki
从其关键字的数量中寻找出现次数最多的判定为党派,
而若有复数同时最高特别归为“multiple”,都没有提到任何关键字的就是无党派。
而从这些使用者中有98.2%人没有这么明显的表现出是哪一派的
不过即使是这样也是有一千多人在名称或自我介绍中表明了自己的党派
而其中的分布如下:
https://i.imgur.com/Wqm7mgK.png
可以看到三玖派的确是最多的
◆ 单一推文党派判定
从使用者最近的200则推/转推文中针对每一则进行文字比对,
有出现一次以上关键字(同上)的即被归为该派别,
因此同一则推文可能会被判定为多个派别。
可能大部分的人并不会这么明显地在名称里表态,但可以从推文行为判断
因此统计了提到这五人的推文数量:
https://i.imgur.com/AAcptJ5.png
三玖相关的推文仍然是最多的
然后把刚才调查有表态的使用者中,统计他们提到各角色的推文数,看看是否相符
https://i.imgur.com/xh0NaOc.png
看起来大致是相符的,不过三玖文比较多,这是只看其他四人的状况:
https://i.imgur.com/ygRaDkH.png
◆ 推文模式判定
针对每一个使用者的“单一推文党派判定”可得到该使用者近200则发文提到过的关键字
推文次数,例如以下:
■ 一花:10次
■ 二乃:0次
■ 三玖:9次
■ 四叶:14次
■ 五月:0次
我们取至少一次发言过当作判断,则这个使用者将会被判定为“1+3+4”这样的推文模式
使用者。
这里是想知道喜欢什么角色的可能同时也喜欢另外哪个角色(CP?),
当然,事实上有非常多的使用者只针对单一角色发过推文。
以下节录部分,从高到低排序
https://i.imgur.com/SxrVkYq.png
only三玖的使用者非常多,甚至超过了全都提过的,只发过四叶的甚至比2+3少
◆ 使用者帐号地点判定
尽管官推是日文,follow的也不全然是日本人,因此也顺便收集了关于地点的资料
只是这里能从API得到的资讯不多,实际所处的地点没有办法确实地取得。
这里是从使用者页面中的“地点”中的文字加以计数统整。并使用文字云来呈现:
https://i.imgur.com/Xs8MjzV.png
结语
碍于API和我自己电脑的一些限制,也可能是一些我不了解的问题,
只能得到的一些粗浅的统计,有一些没那么有趣但也姑且做的统计
我做了一个可互动的展示用网页放在github,有兴趣的版友们可以来看看
https://miksin.github.io/5hanayome-twitter-user-analysis/
感谢各位