[评价] 109-1 陈建锦 文字探勘初论

楼主: kamelus (骆驼)   2021-07-08 11:39:43
※ 本文是否可提供台大同学转作其他非营利用途?(须保留原作者 ID)
(是/否/其他条件):否
哪一学年度修课: 109-1
ψ 授课教师 (若为多人合授请写开课教师,以方便收录)
陈建锦
λ 开课系所与授课对象 (是否为必修或通识课 / 内容是否与某些背景相关)
资管系选修/商业资料分析学程课程
δ 课程大概内容
Term Vocabulary
Term Weighting and Vector Space Model
Text Classification and Naive Bayes
Vector Space Classification
Flat Clustering
Hierarchical Clustering
Latent Semantic Analysis
Language Models
Link Analysis
Concept of Neural Network
Word2Vec & Bert
Deep Learning for Classification
Ω 私心推荐指数(以五分计) ★★★★★
★★★★★
η 上课用书(影印讲义或是指定教科书)
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction
to Information Retrieval, Cambridge University Press, 2008.
μ 上课方式(投影片、团体讨论、老师教学风格)
老师会在课前上传投影片,上课就会照这个投影片讲,有时会demo一些python范例。
σ 评分方式(给分甜吗?是扎实分?)
程式作业 30% (3 x 10%)
期末专题 35%
期末考 35%
扎实甜
ρ 考题型式、作业方式
[程式作业]
PA1:给一堆文件txt档,要算出TF-IDF vector和两个文件的cosine similarity
PA2:给一堆文件txt档,要分别用Bernoulli Naïve
Bayes、SVM Linear kernel、SVM RBF kernel来做分类,并写报告评估其表现
PA3:给一堆文件txt档,首先使用 BERT 将文章转为
word vectors, 再以SVM Linear kernel 进行分类,要把结果丢到kaggle上排名,并写
报告评估其表现
[期末专题]
最多五人一组,要想办法应用课堂所学的技术,主题不拘,并需上台简报与缴交书面报告
。同学们都蛮有创意的,看到了很多丰富的主题,很有趣,像是:匈牙利新闻对欧盟的态
度、PTT政治人物舆论、歌词产生器、输入歌词推荐歌、澳洲新闻预测经济指标、新闻主
题分析、黄国昌质询跟部会表现相关、Google评论产生器、自杀言论侦测、美国死囚遗言
分析...
[期末考]
基本上是上课概念的问答,比如要解释某个概念,或分析两种方法的优劣等,不难。
ω 其它(是否注重出席率?如果为外系选修,需先有什么基础较好吗?老师个性?
加签习惯?严禁迟到等…)
加签习惯:
资管系跟学程生先签,但最后人没有到太爆满,所以基本上全签了。
修课基础:
Python,因作业要用python写。此外懂一点机率会比较好。
Ψ 总结
这门课是新开的,不过老师一直以来都有开一班给资管系的“资讯检索与文字探勘导论”
,据说两者课程内容大致差不多,只是因这门课修课同学的组成比较复杂,老师表示在不
确定大家程度如何的情况下会把难度拿捏的稍微低一点,像是有些比较复杂的数学证明老
师会跳过(但我其实蛮爱听的xD),且作业也允许使用套件而不要求手刻(因此有点过于简
单)。毕竟课名叫“初论”,自然许多地方就不会讲太深,然而课程也不失丰富度,
一学期下来还是能对文字探勘的许多重要议题有基本的认识。
这个领域是老师的专长,可以感受到老师很有热忱,概念都讲解得很清楚。而且我觉得老
师人很nice,也很乐意回答同学们的课堂问题,有次我半夜寄了一长串的问题,老师隔天
早上九点就回信了!一学期下来就我一个毫无基础的人而言收获不少,也觉得这领域
蛮有趣的,未来蛮想去修修看这方面再进阶一点课程,不知道各位大大有没有推荐的xD。
总之很推。
作者: hsnuyi (羊咩咩~)   2021-07-09 09:43:00
资工那有进阶的课 但不一定推 然后这些模型的原始概念有用在很多地方 数学 电类都有类似的 经济 财金说不定也有到头来都是在某个高维空间找某种距离罢了 重点是要怎转换过去 不然就是要怎过滤

Links booklink

Contact Us: admin [ a t ] ucptt.com