[评价] 109-1 李琳山 数位语音处理概论

楼主: unmolk (UJ)   2021-02-02 08:44:21
※ 本文是否可提供台大同学转作其他非营利用途?(须保留原作者 ID)
(是/否/其他条件):是
哪一学年度修课:
109-1
ψ 授课教师 (若为多人合授请写开课教师,以方便收录)
李琳山
λ 开课系所与授课对象 (是否为必修或通识课 / 内容是否与某些背景相关)
电机、资讯系选修
δ 课程大概内容
依据ceiba
1. 本课程专为大学部同学所开授。所需要的最主要基础能力是数学模型(机率、线性代数
)及软件程式,所有难题由数学模型分析,并由程式求解;其中大部份核心观念均与机器
学习(Machine Learning)密切相关。前半学期强调基础背景知识,后半则着重研究课题,
让修课同学体会由基础走入研究的历程。内容深度适合电机系或资工系大三或大四同学选
修。评分依据含期中期末考(35%)、程式作业(35%)、期末专题(30%)。
2. 在Apple、Google、Microsoft等全球性产业推出行销全球的主流产品后,语音技术如
何将成为人类生活之一关键部份已广为人知。无线网络环境下日新月异并具多元功能的智
慧型手机及各种新型的随身及可穿戴(Wearable)电子设备如眼镜、手表(iwatch),加上云
端资讯(Cloud Computing)、巨量数据(Big Data)之实现,智慧汽车、智慧家庭等愿景,
语音技术未来的发展已是无可限量。在轻薄短小的硬件及丰富的应用环境下,原有的键盘
、鼠标等个人电脑上网接口不再方便,语音很显然成为最方便自然的网络接口之一;而网
路上的数位内容多以多媒体形式呈现,它们未必有文字档案,却都带着语音讯息。文字和
语音终将成为人类语言资讯的两种对等形式,今日人类生活中的诸多以文字达成的功能(
例如上网输入文字指令、透过文字搜寻数位内容等)均可能用语音达成。这些都是语音讯
号处理技术未来可能的空间。
Part I: Fundamental Topics
1.Introduction
2.Basic Concepts in Speech Recognition
3.Research Roadmap in this Area
4.More about Hidden Markov Models (HMM)
5.Acoustic Modeling
6.Language Modeling
7.Speech Signals and Front-end Processing
8.Linguistic Decoding and Search Algorithm
Part II: Research Topics
9. Speech Recognition Updates
10. Speech-based Information Retrieval
11. Spoken Document Understanding and Organization for User-content
Interaction
12. Computer-Assisted Language Learning (CALL)
13. Speaker Variabilities: Adaption and Recognition
14. Linguistic Processing and Latent Topic Analysis
15. Robustness for Acoustic Environment
16. Some Fundamental Principles–EM Algorithm
17. Spoken Dialogues
18. Conclusion
基本上就是用一学期的时间告诉你语音处理技术的发展应用与背后的数学工程观念。
Ω 私心推荐指数(以五分计) ★★★★★
想了解数位语音处理:★★★★★
想一睹大师风范:★★★★★
不喜欢到班上课:★★★★★
程式高手:★★★★★
程式苦手(如我):★★★★
其他课很忙但又缺学分:★★★★☆
很懂Gaussian:★★★★★
η 上课用书(影印讲义或是指定教科书)
老师自制的讲义,ceiba上有几本参考书目,不过完全不用买,老师已经把那些书的内容
浓缩撷取到讲义了。
但还是附上参考书目:
1. X. Huang, A. Acero, H. Hon, “Spoken Language Processing”, Prentice Hall,
2001,松瑞
2. C. Becchetti, L. Prina Ricotti, “Speech Recognition- Theory and C++
implementation”, Johy Wiley and Sons, 1999, 民全
3. L. Rabiner, B.H. Juang, “Fundamentals of Speech Recognition”, Prentice
Hall, 1993, 民全
4. F. Jelinek, “Statistical Methods for Speech Recognition”, MIT Press,
1999
5. D. Jurafsky, J. Martin, “Speech and Language Processing- An Introduction
to Natural Language Processing, Speech Recognition, and Computational
Linguistics, 2nd edition”, Prentice-Hall, 2009 (3rd edition draft parts
on-line)
6. G. Tur, R. De Mori, “Spoken Language Understanding- Systems for
Extracting Semantic Information from Speech”, John Wiley & Sons, 2011
7. D. Yu, L. Deng, “Automatic Speech Recognition - A Deep Learning Approach
”, Springer, 2015
μ 上课方式(投影片、团体讨论、老师教学风格)
投影片为主,偶尔辅以板书讲解模型。
老师讲课讲得超清楚,能够把大局观与细节处理都讲到你听懂,且老师咬字与发音超级清
晰不含糊,语速偏慢但不会过于平坦让人想睡,而且语音技术是老师深耕多年的研究领域
,所以有额外的问题想问老师也可以。
σ 评分方式(给分甜吗?是扎实分?)
期中考:25%
期末考:10%
作业:三次共35%,作业一与三各占15%,作业二占5%
期末专案:30%
我觉得超甜...考试都是开书考而且不难,基本上有读就会写,期中跟期末平均分别是82
跟76,不少人9x以上,跟电子电磁比真的超高,考试分数没意外可以稳稳拿。
作业的部分都要用C/C++写,作业一是实作HMM,作业二是处理音讯与调整模型参数,作业
三是做编码跟注音文的处理。作业一我大概写3、4个晚上(2,3小时每晚),主要是那时候
在研究用lldb来debug花了不少时间,其实不会很难,而且header file助教已经写好了所
以把后面HMM model的处理做完就好。作业二也是助教都弄完绝大部分的东西,我大概只
写3小时吧。作业三比较麻烦,不过因为都有弄好的docker image,所以其实也还好(?
)。作业基本上都一样,所以可以问学长或是上某个吉特中心参考一下,而且助教的讲义
也算是半手把手教学了,真的不会去问助教应该都能得到帮助。
期末专案可以写term paper或是做专案,跟课程内容有关即可。不一定要做语音处理,做
nlp相关的专案也行,我感觉是不要太混乱作乱写分数都不难拿,最后好像还有调分,要
A+的话肯乖乖写作业应该是不难...
ρ 考题型式、作业方式
作业上面讲完了,考试是全问答题,比较特别的是要用中文作答。基本上内容讲义上都找
得到,而且是开书考,所以不用太担心。
ω 其它(是否注重出席率?如果为外系选修,需先有什么基础较好吗?老师个性?
加签习惯?严禁迟到等…)
加签是去跟助教登记然后最后决定谁可以签,不过筛选标准不确定就是了。
会微积分、线代、机率就能修了,不过也不需要很强大的数学能力也能应付课程内容。
完全不注重出席,甚至老师每周的课程内容都会录音放到课程网页上...超佛。而且这门
课也有录ocw,我这学期几乎都是看ocw度过(有点对老师不好意思QQ)
Ψ 总结
大推03大师!
作者: Lyu7 (永远的初学者)   2021-02-02 09:44:00
推,被抢先写了 > <容易 A+……QAQ 不知道是不是期末 project 的问题
作者: cuteSquirrel (松鼠)   2021-02-02 10:18:00
推好老师补推

Links booklink

Contact Us: admin [ a t ] ucptt.com