[评价] 110-1 陈建锦 文字探勘初论

楼主: unmolk (UJ)   2022-01-30 03:12:05
※ 本文是否可提供台大同学转作其他非营利用途?(须保留原作者 ID)
(是/否/其他条件):是
哪一学年度修课:
110-1
ψ 授课教师 (若为多人合授请写开课教师,以方便收录)
陈建锦
λ 开课系所与授课对象 (是否为必修或通识课 / 内容是否与某些背景相关)
资管系选修
商资学程(?)选修
δ 课程大概内容
Text Proeprocessing
Term Weighting and Vector Space Model
Text Classification
Naive Bayes Classification
Vector Space Classification (KNN, linear and nonlinear classification, SVM)
Flat Clustering
Hierarchical Clustering (including K-Means)
Latent Semantic Analysis
Word Vectors (including BERT introduction)
Language Models
Deep Learning for Text (W2V embedding, RNN)
Ω 私心推荐指数(以五分计) ★★★★★
想学会使用文字探勘的套件:★★★★☆
想知道文字探勘能用来做什么:★★★★☆
想学得很扎实:★★★
η 上课用书(影印讲义或是指定教科书)
老师自编讲义
但很多内容是从 Stanford NLP Group 网站上找下来的XD
μ 上课方式(投影片、团体讨论、老师教学风格)
投影片讲解,搭配程式操作(使用jupyter notebook)。
这学期疫情关系有录影,后来可以实体上课时有恢复实体授课。
老师讲得很清楚,而且不会很快,下课有不清楚都可以问,加上这门课导论性质很重,学
习品质应该很好。
σ 评分方式(给分甜吗?是扎实分?)
三次作业共30%(7.5/11.25/11.25)、期末考35%、期末专案35%。
应该算甜,作业基本上可以拿满,期末考给分有点谜(我没去阅卷但比我想像中的低,身
边的朋友也拿得偏低),平均27.5/35。
期末专案给分算不错,平均31.5/35,而且不会花很多时间,主要时间应该都在处理资料
跟选模型?我是拿快33,不过期末报告不是最高分让我有点想见识看看最高分的报告到底
写了什么XD
ρ 考题型式、作业方式
作业:
三次程式作业,第一份是做text preprocess后计算文本的TFIDF;第二份是做classifica-
tion,分别用Naive Bayes/SVM Linear/SVM Kernal做,再把结果丢上Kaggle;第三份也
是做classification,只是是使用word embedding,也是丢上Kaggle。三次作业都要交一
份报告跟source code,注意source code要能reproduce在助教那边,所以在报告内要把
需要的环境与套件写好,或是直接写一份requirements.txt包在作业档案夹内,总之写清
楚、让助教可以跑你的code就没事了。
考试:
只有一份期末考,题目都是简答题、名词与模型解释什么的满符合课程的设计,觉得没有
很难,期末考前再准备也来得及,至少我是期末考当天凌晨才开始读,只读讲义,最后拿
78。
专案:
内容与文字探勘有关系的就好,有人做电影的评价之类的,我们这组是做社交媒体上的政
治情感分析,有使用到的技术大概是BERT、DNN,和一些人家写好的情感分析套件,最后写
了六页左右的报告,结果也满不错的。原本以为应该是最高分没想到不是,有够气XDD
专案基本上比较花时间的应该是想题目以及处理资料,会爬虫的话佳,但不会的话上
kaggle之类的拿现成资料应该也可以?
ω 其它(是否注重出席率?如果为外系选修,需先有什么基础较好吗?老师个性?
加签习惯?严禁迟到等…)
没有出席分,会写python、数学会条件机率就够了。
加签的话有优先级,商资学程优先加签,资管本系会被赶去上另一个比较难的班,最后
应该签到100多人。
Ψ 总结
作者: jamestsai1   2022-07-02 09:57:00
会写R 但不会写python 不知道会不会负担很大?

Links booklink

Contact Us: admin [ a t ] ucptt.com