※ 本文是否可提供台大同学转作其他非营利用途?(须保留原作者 ID)
(是/否/其他条件): 是
哪一学年度修课: 103
ψ 授课教师 (若为多人合授请写开课教师,以方便收录)
李宏毅
λ 开课系所与授课对象 (是否为必修或通识课 / 内容是否与某些背景相关)
电机工程研究所
δ 课程大概内容
主要就是讲Deep Learning和Structured Learning,不过由于这门课是完全
由作业决定成绩,且到后来的内容就越来越和作业没有关系,我也就不常去
上课了...。老师的网站上写得很清楚,有兴趣可以自己去看,而虽然我没
修过林轩田的机器学习,不过老师表示他会在内容上尽量和林轩田老师的课
错开来,所以应该不用怕学不到新东西。
Ω 私心推荐指数(以五分计)
★★★★★
η 上课用书(影印讲义或是指定教科书)
无
μ 上课方式(投影片、团体讨论、老师教学风格)
投影片上课,不过由于这门课修的人实在太多,老师有开隔壁教室做同步,
老师把投影片和课程录影录影公开在课程网页上,所以我觉得如果只是要听
老师讲机器学习的话,不一定要修课。老师上课常会用很多动漫哏,尤其是
凉宫春日,喜欢的人应该会觉得满有趣的。另外老师很喜欢大家问问题,有
人举手就会很激动的停下来给发问的人讲,然后几乎都会说“我觉得这个问
题问得非常好”,才继续回答。偶尔也会请专家来演讲,像是请NVIDIA的人
来讲GPU在机器学习的应用,还有请徐宏民教授讲 convolutional neural
network,Final Stage(等下说明)时也有请联发科的人讲机器学习有用在手
机的什么什么功能。
ρ 考题型式、作业方式
因为作业就占了全部所以这里我会讲详细一点,我尽量用比较浅显的方式说
明每个作业在做什么。其实作业做的都是语音处理,只是这门课不需要相关
基础也能做。而作业基本上都是分组进行,一组两到四人,这次大概有五十
组左右。
作业一:手刻DNN(Deep Neural Network)
目标是把一句不知内容为何语音转成“phone”,phone可以就想做音标,像
是apple 是由 ae p el 三个音标组成的。每一个声音片段都会对到一个音标
,所以我们要做的就是把声音片段的音标找出来,我们拿到每个声音片段都
是用一个向量表示,所以DNN的输入就是一个向量,输出就是它的音标,当然
助教会给有标记的资料让我们train。会讲手刻是因为助教几乎禁止所有机器
学习的Library,除了计算需要的GPU加速的套件以外。
作业二:Structure Learning
作业二是直接承袭作业一的,虽然现在一句话对应到的 phone sequence
已经决定,但是如果考量每个phone的前后出现机率的话,可以让结果更好
。这个步骤就是这个作业的目的,而助教是希望我们用 Structured SVM的
Library,搭配Viterbi算法完成。
作业三:手刻 RNN(Recurrent Neural Network)
RNN和一般NN不同的是它有记忆性,而做的事和作业一类似,只是这次输入
是有挖空并附选项的福尔摩斯小说的句子,而我们要利用RNN找出正确的选
项。train的资料是助教给的十九世纪小说集(只能用这个train)。助教有
另外同意让我们用google word2vec,只是RNN基本上还是要自己写。
Final Project:实际完成一个ASR(Automatic Speech Recognition system)
其实前几次作业都是在做语音辨识系统的一部分,Final Project就是希望
我们把它全部合起来,流程大概是这样:
hw1 hw2 WFST hw3
一堆向量