[评价] 103-2 李琳山 数位语音处理概论

楼主: frankshyu (frankshyu)   2015-07-12 20:22:31
:
※ 本文是否可提供台大同学转作其他非营利用途?(须保留原作者 ID)
(是/否/其他条件):

哪一学年度修课:
103-2
ψ 授课教师 (若为多人合授请写开课教师,以方便收录)
李琳山
δ 课程大概内容
Lecture1. Introduction to Digital Speech Processing
给你整个课程的big picture
介绍语音处理的大架构、过去发展、未来可能
Lecture2. Fundamentals of Speech Recognition
先说明信号的前端处理,像是Pre-emphasis、End-point detection等
接着说明怎么把signal变成feature,这门课主要讨论MFCC
变成Feature之后就可以用
Hidden Markov Model (HMM)
还有Gaussian Mixture Model (GMM)
来计算一个信号属于某个声音的机率,这是phoneme level
phoneme level完成之后就可以往上来到language model level
整个语音辨识的大架构就在这里先架构起来了
Lecutre3. Map of Subject Area
这只是李大师漫谈语音大未来XD 介绍可能发展
Lecture4. More about HMM
这章开始(大概第二周)就真的很难
基本上老师会把HMM讲到满细的,让同学通透了解HMM的运用
基本上一个phoneme可以用一个独特的HMM来描述
声音的feature会一个state一个state跳,借此算出机率
我觉得之前在机率学到的Markov chain都忘光了QQ
所以我这边满辛苦的
Lecture5. Acoustic Modeling
这里主要说明如何用entropy, decision tree建构一个完整的
Acoustic model。也就是说一个字如何被更细致地拆解成连续
的声音信号
Lecture6. Language Modeling
讲Language model, 描述一个句子出现的机率为何。同时会导
入perplexity的观念,说明如何用perplexity找jargon或是关
键字,之后做文字所引的时候还会再用到。和一些smoothing
的方法,像是Good-Turing, Back-off等等。
Lecture7. Speech Signals and Front-end Processing
这边就和必修课的信号与系统比较有关系了,资工系的同学可
能会比较辛苦。主要是描述如何用convolutional method把声
音描述成不同的组成。一些第二章讲到的MFCC, pre-emphasis
也都会在这里说明得更清楚。然后怎么消去杂音等等
Lecture8. Search Algorithm for Speech Recognition
一开始说dynamic time warping(DTW),满重要的,算是一个高
准确度但是很旷日废时的算法。之后说最有名的Viterbi alg
末端大致带过Heuristic Search和A* Search,比较像是补充
========== 期中考到这里 ==========
Lecture9. Speech Recognition Updates
前面几章(4~8)在讲比较细的technical details,这里又开始看
大方向。这章就是因为对于过去的这些发展比较了解了,老师可
以开始带大家看今天的发展。包含一些提升准确性的方法。和更
精准的training method。然后讲了一点点DNN、RBM,和这两者怎
么和speech recognition结合
Lecture10. Speech-based Information Retrieval
在Recognition成功之后,总要做点用途。这边就介绍最值观的
用途,用声音搜寻。老师会介绍不少搜寻的算法,像是word-
lattices、vector space model等。还有神奇的weighted-finite
-state transducer。还有要做classification的时候用到的
support vector machine等把data分群的方法,都很实用
Lecture11. Spoken Document Understanding and Organization for
User-content Interaction
这个章节比较平淡无奇,主要就在说怎么把资料建档和下标题
、摘要。比较有趣的大概是maximum margin relevance,MMR,
描述怎么建构摘要。
Lecture12. Computer-Assisted Language Learning
主要在描述怎么利用机器辅助人类学习语言,但是笔者私下认为
比较无趣一点Q~Q
Lecutre13. Speaker Variabilies: Adaptation and Recognition
这章满精彩的,主要在说明怎么从有限的speaker-dependent data
结合database比较大的speaker-independent data去制造每个人
专属的语音辨识模型。中间描述了一些调整model的方法,如
MLLR、PCA、Eigenvoice等,都是信号处理上很有用的东西。
这章的数学又比较难了,但是相当值回票价
Lecture14. Latent Topic Analysis
这章数学也比较多,但同样很酷炫。主要讲用Singular Value-
Decomposition找 字汇 - 文件 中的关系。SVD以前线性代数
学的时候根本觉得没用,没想到在这边被杀到没穿裤子
Lecture15. Robustness for Acoustic Environment
又回到信号处理的部分,在讲述怎么处理掉背景噪声。这边
有修过信号与系统会满吃香的。因为convolution等观念都
已经先有了
Lecture16. EM algorithm
神奇的 Expectation - Maximization Algorithm (EM)
前面章节只要用出来,每题都秒杀。但根本不知道背后原理XD
这总算见识到了...只能说好险老师没有多考这边的东西...
Lecture17. Spoken Dialogues
大概讲述了 人类 - 机器 的对话形成方式,用FSM来模拟
Lecture18. Conclusion
进阶版信号与人生,聆听老师的学术生涯经验,受用满多的
可惜时间比较短,只有一节课
Ω 私心推荐指数(以五分计) ★★★★★
满分
甜、内容丰富、考试难易度适中、学得到东西、容易补课、可以一睹大师风采
想不到任何缺点
η 上课用书(影印讲义或是指定教科书)
有很多本指定参考书,都在总图参考资料区可以找到,但不强制要用
μ 上课方式(投影片、团体讨论、老师教学风格)
用投影片 + 一点点黑板
老师强调见树又见林,整体教学结构很明确
先给大家看到大方向(林),再把细部的数学(树)建构起来
上课很清楚
σ 评分方式(给分甜吗?是扎实分?)
无敌甜,世界甜,我修完这门课的暑假看了四次牙医
全班40% A+,80% A-以上,请大家低调
但是作业是满需要花时间的啦,期中考期末考也要好好准备
ρ 考题型式、作业方式
考试:
因为数学太难,主要考试都是论述。期中考有手爆一题HMM...有点残忍
但除此之外只要有准备都可以考不错。可以带大抄,笔者自己大概期中
考期末考都做了十来页、二十来面的大抄,满有用的。也可以考试前把
老师上课的录音都听过一遍
作业:
三次,#1, #3 比较难,大概是DSnP半次到一次作业这样? 我C++很烂,
大概都写了一整个周末。但有些资工系比较强的同学大概是一个晚上。
第二次只是操作软件,了解一些data特性,一个下午就可以解决
Final Project:
占分很重,大概都30%以上。可以选择实作或是paper survey
实做的话可以demo给老师看,据说可以获得和老师吃饭的机会?!
ω 其它(是否注重出席率?如果为外系选修,需先有什么基础较好吗?老师个性?
加签习惯?严禁迟到等…)
没有,老师比较不喜欢上课吵闹。有信号与系统当基础为佳
Ψ 总结
好课,笔者以前修电机系必修都觉得"这到底哪里用得到?"
修完之后才知道原来每门工程数学都很重要Orz
而且绝大部分的必修、选修都是学比较基础、古老的东西
但是这门课横贯古今?!提到过去的发展、数值模型
也囊括未来的可能性,真的是见树又见林
很懊悔大三下才修,真的是值得一修得好课!
作者: kenCHLEE (kenCHLEE)   2015-07-13 22:42:00
推好课!!
作者: LYHsyuhong (aoi)   2015-07-15 22:48:00
好详细推个 原PO是老师指定要请吃饭的强者>///<另外作业#1,3个人认为比起DSnP后期作业应该不到一半
楼主: frankshyu (frankshyu)   2015-07-19 17:49:00
原PO DSnP只修到作业六就停休了QQQ
作者: yunchuchen (竹子)   2015-07-19 19:21:00
你的评价文都好详细喔好猛XD

Links booklink

Contact Us: admin [ a t ] ucptt.com