[分享] 邦邦连败期间棒球板声量分析

楼主: wwwh0225 (SeaWave)   2022-06-16 00:12:00
适逢昨日(6/15)邦邦又输了,宗贤又E了,又经历一场欢乐的比赛。
小弟我就想说分享本人这学期 Python 课程期末报告的部分内容给大家,中间会省
略一些艰涩或是太理论的部分。
本文的目的是期许大家持续让棒球板维持高流量呀~(虽然流量密码掌握在某队的手上)
好的,废话不多说,就让我们进入正题!
本研究将搜集 PTT baseball 板中,自中华职棒 33 年开季富邦首战至富邦悍将对乐天
桃猿三连胜前 PTT 文章资料并特别针对富邦悍将进行分析。
文章资料日期取自 2022/04/03 至 2022/05/18,一共 9317 篇文章。
本研究使用繁中版本 jieba 切词套件进行断词分析,但其实用中研院的 CKIP 套件
应该会更好,但跑太慢了,所我还是用 jieba。
资料分析环境预先处理:
在进行切词之前,我特别先针对 ptt 棒球板的一些专有名词加入字典之中, 比如:
‧ 现役球员、教练名称
‧ 各队暱称,如:“邦邦、爪爪、吱吱、龙龙、喵喵”等
‧ 棒球板专有梗,如:“煮粥、满垒计”等
‧ 移除停止词,如:一些标点符号和了、吗等语助词
那我们直接来看文字云~
首先,这是文章“标题”进行断词后所绘制的文字云:
https://i.imgur.com/EFx3QX4.jpg
谁是流量密码,就不用多说了吧,连各种今日文、炸裂文都打败不了的富邦悍将,
真是怀念那段单纯的时光。
再来看看大家的“留言”分析出来的文字云:
https://i.imgur.com/LX85Jye.jpg
正如我前面所述的,我有针对你各位的口语把邦邦放进去,所以可以看到富邦跟
邦邦两者可说是平分秋色。除此之外,“笑死”也算大家常说的话,看来还是
不能忽视某位高中生的影响力。
再者,我们来看看大家想到邦邦会想到什么东西,在这里我使用 word2vec 模组计算
个单词的词向量并计算余弦相似度用以取得个字词之间的相关性。
https://i.imgur.com/iO6hfYt.jpg
反正这个表,懂的人就懂。(煮/粥)
最后,我们来看看在这段期间,中华职棒五队每日相关发文的折线图,这张图是这样画
的,我会去看每篇文章标题的关键字(队名、球员名、教练名、暱称等等)然后去比较
出现的数量,如果平手就以“邦、爪、吱、喵、龙”的顺序进行分类。
(若文章都没有关键字,则不纳入讨论范围)
https://i.imgur.com/VshOR2G.jpg
我们可以看到“邦文”的数量可说是海虐各队,百万爪迷已不复存在,邦迷才是王道!
而这张折线图约有五个高峰,而我们在对其进行事件回顾分析,来看看当时是发生了什
么事情,导致邦文有极高的产量。
1. 04/08:富邦悍将阳耀勋于延长赛 11 局击败中信兄弟,开季三连败后 取得首胜。
2. 04/15~04/16:富邦悍将守备核炸连两战投手非自责分为 9 分和 6 分 且
李宗贤单局3E,开季 9 战 8 败平联盟纪录。富邦与兄弟发生
板凳冲突及跑垒争议。
3. 04/24:富邦悍将对战味全龙,单场帐面 3 次失误且有不少守备瑕疵, 且吞下 15 次
三振。
4. 04/30~05/01:4/30: 富邦悍将 7 连败同时外带 2E。05/01: 富邦悍将 取得本季第二
胜且对为本季对狮队首胜,富邦悍将单月胜率 100%。
5. 05/13:富邦领队说要找业余游击手补洞,引发譁然。富邦悍将
8连败,共 4 胜 22 败。
就简单的分享到这里,感谢邦邦这段时间给我的欢乐,大家本季还是要踊跃进场呦,
尤其是新庄的悍将家人们~~
(附上本季进场新庄人权)
https://i.imgur.com/uB9XU36.jpg
富邦悍将 We will win !?
作者: bban7225 (DarenLin)   2022-06-16 00:14:00
看不懂先推再说
作者: access4096 (汪洋般的杀意)   2022-06-16 00:16:00
你富邦系?
作者: luvuhahasiao (我爱你哈哈笑)   2022-06-16 00:19:00
开季9战8败 打错了
作者: amio5213 (阿妙妙)   2022-06-16 00:20:00
笑死我大学学弟在做大数据分析报告也把富邦连败拿来写大家都在消费富邦XD
作者: edhuang (随便啦)   2022-06-16 00:22:00
那个“好”是因为发钱吗
作者: kenny123 (山哥)   2022-06-16 00:23:00
作者: hhhhh11 (hhhhh11)   2022-06-16 00:25:00
笑死 分析这个干嘛啦
作者: MrBigTree (Mr.BigTree)   2022-06-16 00:25:00
笑死 要是以前学程式能有这么有趣的就好了
作者: S0323109 (Milk1215)   2022-06-16 00:26:00
推推
作者: lulala101 (外川圣一)   2022-06-16 00:26:00
推 年初也做过类似的报告XD
作者: QQ101   2022-06-16 00:30:00
就一堆人 看笑话 看邦能多烂啊
作者: maxLOVEmimi (touch Me!!)   2022-06-16 00:30:00
其实常驻在板上我也有发现 富邦的讨论文真的很多……
作者: a925a05 (程程)   2022-06-16 00:31:00
这真的要推 做的太详细XD
作者: maxLOVEmimi (touch Me!!)   2022-06-16 00:31:00
棒球迷果然是一群没有同理心的人(笑死原PO太强了 这要花很多时间
作者: Waitaha (Waitaha)   2022-06-16 00:38:00
作者: RandyPerseus (France_RT)   2022-06-16 00:38:00
有没有印象这句:我是和乡民进来看热闹的
作者: lrhn0289 (lrhn0289)   2022-06-16 00:39:00
唯一只有4/17那天输给发狂的喵喵
作者: tsaichichi   2022-06-16 00:41:00
纯推专业分析
作者: Ramarque666 (台大菜比八)   2022-06-16 00:44:00
推推推
作者: yongxchen (404 not found)   2022-06-16 00:45:00
推分析
作者: ssmr392 (ssmr392)   2022-06-16 00:45:00
推分析哈哈哈
作者: carl2003 (宅错了ㄇ)   2022-06-16 00:47:00
笑死 推分析
作者: Notif520 (小鸽子)   2022-06-16 00:52:00
笑死 推分析
作者: jsstarlight (飞往蓝天)   2022-06-16 00:55:00
好 推
作者: iori9060920 (Qmo)   2022-06-16 00:55:00
笑死
作者: ragrance (ragrance)   2022-06-16 00:55:00
笑了
作者: lyt5566 (无糖奶茶很难喝)   2022-06-16 00:56:00
笑死
作者: sdolphinyo (史哆芬喔)   2022-06-16 01:04:00
干分析真的笑死
作者: hunterhsu91 (猎人哥)   2022-06-16 01:08:00
人才
作者: nashQ (小N)   2022-06-16 01:08:00
算你厉害
作者: slimfat0202 (slimfat0202)   2022-06-16 01:08:00
所有棒球迷都在帮邦找解方,除了酸,其中还是有人提出不少高见
作者: Nakazone (央人)   2022-06-16 01:15:00
又认真又好笑 XDDDDD
作者: luyeegi (路易吉)   2022-06-16 01:15:00
这个分析很赞!
作者: Spade (JACK)   2022-06-16 01:17:00
有够没同理心 共勉之
作者: naiyomin (梅花7)   2022-06-16 01:22:00
你在认真什么啦哈哈哈
作者: its0130 (its)   2022-06-16 01:25:00
笑死
作者: aleximba2 (satori)   2022-06-16 01:30:00
类似的期末报告也在写邦 邦邦真好用
作者: chihcsck (xxxxXD)   2022-06-16 01:40:00
果然要人邦
作者: manchenlee (曼成)   2022-06-16 01:43:00
作者: beerhsieh (啤尔谢)   2022-06-16 01:44:00
帮强者同学推一个
作者: FourLi (火龙果葛格)   2022-06-16 01:44:00
笑死 认真分析文给推
作者: CCptt (CC P TT)   2022-06-16 01:47:00
笑死
作者: taiwanstrike (阿树)   2022-06-16 01:55:00
笑死
作者: gggaaammm (李剛)   2022-06-16 01:56:00
NLP都拿来用了
作者: sorrry30000   2022-06-16 01:56:00
没有流量密码了
作者: oncemore (超级喜欢林玮恩)   2022-06-16 02:02:00
给推,一直很期待有人做
作者: gggaaammm (李剛)   2022-06-16 02:05:00
慢的原因在于ckip要跑tensorflow 整个前置训练就要快20秒 不过应用起来其实很快 官方有提供gpu版加速(离题了
作者: rei196 (棉花糖)   2022-06-16 02:26:00
里面的关键字怎么可能没有我就问?
作者: jason7111994 (爸妈嘴)   2022-06-16 02:26:00
笑死 求学回忆都回来惹
作者: GoIce (去冰)   2022-06-16 02:28:00
笑死
作者: jt0711t23 (踢踢Y)   2022-06-16 02:31:00
jieba自订词字典要设定多一点才能切出更多资讯 cos那个表可看出切词不够好太多噪声
作者: sam830219 (汤都熬了你跟我说LNG不开)   2022-06-16 02:47:00
好!
作者: johnbill (cj钟钟)   2022-06-16 02:48:00
可以试试用LDA跑看看主题分析XD结巴那边可把版上常用的词放进去词库 断词效果会比较好一些
作者: flowerabby01 (羽羽)   2022-06-16 02:50:00
太无情了
作者: johnbill (cj钟钟)   2022-06-16 02:50:00
原来已经放了
作者: ImMACACO (Clean the world)   2022-06-16 02:59:00
笑死
作者: OnjojiToki (园城寺怜)   2022-06-16 03:03:00
好 好个头啦
作者: johnbill (cj钟钟)   2022-06-16 03:08:00
既然跑了词频 看试试跑共现词 最简单就Pointwise MutualInformation之类的比如笑死 会跟大谷一起出现XDD
作者: wu5834 (美柑我老婆!)   2022-06-16 03:09:00
笑死 靠北喔
作者: james4807   2022-06-16 03:47:00
好三小啦XD
作者: sleepmilk (sleepmilk)   2022-06-16 07:01:00
笑死 有够强
作者: hsnu2000 (请让我一雕毙命)   2022-06-16 07:04:00
还以为来到八卦版
作者: JLPT (日检小恶魔)   2022-06-16 07:35:00
粗暴的言论倒可不必
作者: hgs000sss (小郭)   2022-06-16 07:46:00
推!
作者: abcs4587888 (看看笑笑)   2022-06-16 08:06:00
原来单局3E已经两个月了
作者: S100A4 (S100A4)   2022-06-16 08:07:00
太猛啦!有数据有推!
作者: s29961091   2022-06-16 08:13:00
太神拉
作者: sharkpops (T-Rex)   2022-06-16 08:18:00
原PO 拿这篇去应征富邦金的资料科学家吧
作者: jacklinjia (Jacklin嘉)   2022-06-16 08:28:00
笑死
作者: double5915   2022-06-16 08:33:00
收视保证
作者: lmf770410 (凯文)   2022-06-16 08:35:00
作者: winda6627 (Fallen Wing)   2022-06-16 08:56:00
看得出来你含泪在支持..
作者: BuBuLoop (肠胃不服从)   2022-06-16 08:59:00
这是不是你NLP或是IR 的期末报告?
作者: cnshi (可是啊)   2022-06-16 09:01:00
笑死
作者: scott29   2022-06-16 09:14:00
好!笑死
作者: kixer2005 (可恶想__)   2022-06-16 09:28:00
浪费才能
作者: gary67 (洄澜)   2022-06-16 09:42:00
看不懂,但用心给推
作者: prettypaty (美丽蟹堡)   2022-06-16 10:09:00
这断词有点糟 不知道jieba有没有使用者自订辞典
作者: evan19983314 (天circle)   2022-06-16 13:03:00
nlp 专业推原 po 有没有考虑写成 blog 文丢到hackmd或medium想看程式码
作者: csylvia (Sylvia》加油!)   2022-06-17 01:47:00
认真分析给推XD

Links booklink

Contact Us: admin [ a t ] ucptt.com