楼主:
wwwh0225 (SeaWave)
2022-06-16 00:12:00适逢昨日(6/15)邦邦又输了,宗贤又E了,又经历一场欢乐的比赛。
小弟我就想说分享本人这学期 Python 课程期末报告的部分内容给大家,中间会省
略一些艰涩或是太理论的部分。
本文的目的是期许大家持续让棒球板维持高流量呀~(虽然流量密码掌握在某队的手上)
好的,废话不多说,就让我们进入正题!
本研究将搜集 PTT baseball 板中,自中华职棒 33 年开季富邦首战至富邦悍将对乐天
桃猿三连胜前 PTT 文章资料并特别针对富邦悍将进行分析。
文章资料日期取自 2022/04/03 至 2022/05/18,一共 9317 篇文章。
本研究使用繁中版本 jieba 切词套件进行断词分析,但其实用中研院的 CKIP 套件
应该会更好,但跑太慢了,所我还是用 jieba。
资料分析环境预先处理:
在进行切词之前,我特别先针对 ptt 棒球板的一些专有名词加入字典之中, 比如:
‧ 现役球员、教练名称
‧ 各队暱称,如:“邦邦、爪爪、吱吱、龙龙、喵喵”等
‧ 棒球板专有梗,如:“煮粥、满垒计”等
‧ 移除停止词,如:一些标点符号和了、吗等语助词
那我们直接来看文字云~
首先,这是文章“标题”进行断词后所绘制的文字云:
https://i.imgur.com/EFx3QX4.jpg
谁是流量密码,就不用多说了吧,连各种今日文、炸裂文都打败不了的富邦悍将,
真是怀念那段单纯的时光。
再来看看大家的“留言”分析出来的文字云:
https://i.imgur.com/LX85Jye.jpg
正如我前面所述的,我有针对你各位的口语把邦邦放进去,所以可以看到富邦跟
邦邦两者可说是平分秋色。除此之外,“笑死”也算大家常说的话,看来还是
不能忽视某位高中生的影响力。
再者,我们来看看大家想到邦邦会想到什么东西,在这里我使用 word2vec 模组计算
个单词的词向量并计算余弦相似度用以取得个字词之间的相关性。
https://i.imgur.com/iO6hfYt.jpg
反正这个表,懂的人就懂。(煮/粥)
最后,我们来看看在这段期间,中华职棒五队每日相关发文的折线图,这张图是这样画
的,我会去看每篇文章标题的关键字(队名、球员名、教练名、暱称等等)然后去比较
出现的数量,如果平手就以“邦、爪、吱、喵、龙”的顺序进行分类。
(若文章都没有关键字,则不纳入讨论范围)
https://i.imgur.com/VshOR2G.jpg
我们可以看到“邦文”的数量可说是海虐各队,百万爪迷已不复存在,邦迷才是王道!
而这张折线图约有五个高峰,而我们在对其进行事件回顾分析,来看看当时是发生了什
么事情,导致邦文有极高的产量。
1. 04/08:富邦悍将阳耀勋于延长赛 11 局击败中信兄弟,开季三连败后 取得首胜。
2. 04/15~04/16:富邦悍将守备核炸连两战投手非自责分为 9 分和 6 分 且
李宗贤单局3E,开季 9 战 8 败平联盟纪录。富邦与兄弟发生
板凳冲突及跑垒争议。
3. 04/24:富邦悍将对战味全龙,单场帐面 3 次失误且有不少守备瑕疵, 且吞下 15 次
三振。
4. 04/30~05/01:4/30: 富邦悍将 7 连败同时外带 2E。05/01: 富邦悍将 取得本季第二
胜且对为本季对狮队首胜,富邦悍将单月胜率 100%。
5. 05/13:富邦领队说要找业余游击手补洞,引发譁然。富邦悍将
8连败,共 4 胜 22 败。
就简单的分享到这里,感谢邦邦这段时间给我的欢乐,大家本季还是要踊跃进场呦,
尤其是新庄的悍将家人们~~
(附上本季进场新庄人权)
https://i.imgur.com/uB9XU36.jpg
富邦悍将 We will win !?
作者:
bban7225 (DarenLin)
2022-06-16 00:14:00看不懂先推再说
作者: luvuhahasiao (我爱你哈哈笑) 2022-06-16 00:19:00
开季9战8败 打错了
笑死我大学学弟在做大数据分析报告也把富邦连败拿来写大家都在消费富邦XD
作者:
edhuang (随便啦)
2022-06-16 00:22:00那个“好”是因为发钱吗
作者:
hhhhh11 (hhhhh11)
2022-06-16 00:25:00笑死 分析这个干嘛啦
作者:
MrBigTree (Mr.BigTree)
2022-06-16 00:25:00笑死 要是以前学程式能有这么有趣的就好了
作者:
S0323109 (Milk1215)
2022-06-16 00:26:00推推
作者: QQ101 2022-06-16 00:30:00
就一堆人 看笑话 看邦能多烂啊
其实常驻在板上我也有发现 富邦的讨论文真的很多……
作者: a925a05 (程程) 2022-06-16 00:31:00
这真的要推 做的太详细XD
棒球迷果然是一群没有同理心的人(笑死原PO太强了 这要花很多时间
作者:
Waitaha (Waitaha)
2022-06-16 00:38:00好
作者:
lrhn0289 (lrhn0289)
2022-06-16 00:39:00唯一只有4/17那天输给发狂的喵喵
作者: tsaichichi 2022-06-16 00:41:00
纯推专业分析
作者: Ramarque666 (台大菜比八) 2022-06-16 00:44:00
推推推
作者:
yongxchen (404 not found)
2022-06-16 00:45:00推分析
作者:
ssmr392 (ssmr392)
2022-06-16 00:45:00推分析哈哈哈
作者:
ragrance (ragrance)
2022-06-16 00:55:00笑了
作者:
lyt5566 (无糖奶茶很难喝)
2022-06-16 00:56:00笑死
作者: hunterhsu91 (猎人哥) 2022-06-16 01:08:00
人才
作者:
nashQ (小N)
2022-06-16 01:08:00算你厉害
作者: slimfat0202 (slimfat0202) 2022-06-16 01:08:00
所有棒球迷都在帮邦找解方,除了酸,其中还是有人提出不少高见
作者:
luyeegi (路易吉)
2022-06-16 01:15:00这个分析很赞!
作者:
Spade (JACK)
2022-06-16 01:17:00有够没同理心 共勉之
作者: naiyomin (梅花7) 2022-06-16 01:22:00
你在认真什么啦哈哈哈
作者: its0130 (its) 2022-06-16 01:25:00
笑死
作者:
chihcsck (xxxxXD)
2022-06-16 01:40:00果然要人邦
作者:
FourLi (火龙果葛格)
2022-06-16 01:44:00笑死 认真分析文给推
作者:
CCptt (CC P TT)
2022-06-16 01:47:00笑死
作者:
oncemore (超级喜欢林玮恩)
2022-06-16 02:02:00给推,一直很期待有人做
慢的原因在于ckip要跑tensorflow 整个前置训练就要快20秒 不过应用起来其实很快 官方有提供gpu版加速(离题了
作者:
rei196 (棉花糖)
2022-06-16 02:26:00里面的关键字怎么可能没有我就问?
作者:
GoIce (去冰)
2022-06-16 02:28:00笑死
jieba自订词字典要设定多一点才能切出更多资讯 cos那个表可看出切词不够好太多噪声
作者: sam830219 (汤都熬了你跟我说LNG不开) 2022-06-16 02:47:00
好!
可以试试用LDA跑看看主题分析XD结巴那边可把版上常用的词放进去词库 断词效果会比较好一些
作者:
ImMACACO (Clean the world)
2022-06-16 02:59:00笑死
既然跑了词频 看试试跑共现词 最简单就Pointwise MutualInformation之类的比如笑死 会跟大谷一起出现XDD
作者:
wu5834 (美柑我è€å©†ï¼)
2022-06-16 03:09:00笑死 靠北喔
作者:
sleepmilk (sleepmilk)
2022-06-16 07:01:00笑死 有够强
作者:
hsnu2000 (请让我一雕毙命)
2022-06-16 07:04:00还以为来到八卦版
作者:
JLPT (日检小恶魔)
2022-06-16 07:35:00粗暴的言论倒可不必
作者:
S100A4 (S100A4)
2022-06-16 08:07:00太猛啦!有数据有推!
作者: s29961091 2022-06-16 08:13:00
太神拉
作者: double5915 2022-06-16 08:33:00
收视保证
作者:
winda6627 (Fallen Wing)
2022-06-16 08:56:00看得出来你含泪在支持..
作者:
BuBuLoop (肠胃不服从)
2022-06-16 08:59:00这是不是你NLP或是IR 的期末报告?
作者:
cnshi (可是啊)
2022-06-16 09:01:00笑死
作者: scott29 2022-06-16 09:14:00
好!笑死
作者: kixer2005 (可恶想__) 2022-06-16 09:28:00
浪费才能
作者:
gary67 (洄澜)
2022-06-16 09:42:00看不懂,但用心给推
这断词有点糟 不知道jieba有没有使用者自订辞典
nlp 专业推原 po 有没有考虑写成 blog 文丢到hackmd或medium想看程式码
作者: csylvia (Sylvia》加油!) 2022-06-17 01:47:00
认真分析给推XD