※ 本文是否可提供台大同学转作其他非营利用途?(须保留原作者 ID)
(是/否/其他条件):
是
哪一学年度修课:
107-2
ψ 授课教师 (若为多人合授请写开课教师,以方便收录)
王钰强 教授
λ 开课系所与授课对象 (是否为必修或通识课 / 内容是否与某些背景相关)
电信所
δ 课程大概内容
第0周 2/20 Course Logistics + Intro to Computer Vision
第1周 2/27 Machine Learning 101
第2周 3/06 Image Representation & Recognition; HW #1 out
第3周 3/13 Intro to Neural Networks + CNN (I)
第4周 3/20 Intro to Neural Networks + CNN (II)
Tutorial on Python, Github, etc.
第5周 3/27 Detection & Segmentation; HW #2 out
第6周 4/03 Spring Break
第7周 4/10 Segmentation, Visualization,
and Adversarial Attacks of NNs
第8周 4/17 Generative Adversarial Networks
(Guest Lecture by Prof. Wei-Chen Chiu);
HW #2 due & HW #3 out
第9周 4/24 Transfer Learning and Representation Disentanglement
(I)
第10周 5/01 Transfer Learning and Representation Disentanglement
(II)
第11周 5/08 Deep Learning for Video Frame Interpolation
& Object Co-Segmentation
(Guest Lecture by Dr. Yen-Yu Lin); HW #3 due
第12周 5/15 Recurrent NNs and Seq-to-Seq Models (I); HW #4 out
第13周 5/22 Recurrent NNs and Seq-to-Seq Models (II);
Invited talk by Dr. Taiyi Huang (ASUS AICS)
第14周 5/29 Learning Beyond Images (2D/3D, depth, etc.)
第15周 6/05 Audio-Visual Event Localization and Synthesis; HW #4 due
Invited talk (1) by Dr. Wei-Sheng Lai, UC Merced)
Invited talk (2) by Dr. Shang-Hong Lai (Principal
Researcher, Microsoft)
第16周 6/12 Few-Shot Learning
Ω 私心推荐指数(以五分计) ★★★★★
★★★★★
η 上课用书(影印讲义或是指定教科书)
老师自制的投影片,也有放到实验室的课程网站上
μ 上课方式(投影片、团体讨论、老师教学风格)
投影片上课,学期初先用一堂课讲一些基本ML(Bayesian, PCA, SVD, K-means cluster)
和Bag of Word for image等传统CV方法,接着讲DNN、CNN,之后就进入DL的部分
HW1是非deep作业,弄图片的PCA、eigenface、BoW、filtering等等
因为HW1难度较低只占5%
教完CNN之后会进入Detection & Segmentation
会讲R-CNN、Mask R-CNN、YOLO(v1~v3, 9000)、SSD等Detection模型
Segmentation有点快速带过,稍微讲一下FCN、U-Net等方法
HW2就是要实作YOLO-v1
之后会介绍一下t-SNE跟visualize CNN kernel的方法
和Adversarial Attack(大金Youtube讲得比较清楚XD)
然后请交大邱维辰教授来讲GAN
HW3的前半就是实作GAN跟ACGAN
接着讲Transfer Learning有关的主题
会介绍Unsupervised Domain Adaptation(DANN, DSN, ADDA...)
跟Represenation Disentanglement(ACGAN, InfoGAN)
最后是Image Translation & Disentanglement(pix2pix, CycleGAN, UNIT...)
这段我觉得是课程最精彩的一段,发展的脉络很清楚
也有讲到老师实验室分别上CVPR跟NIPS的Work(CDRD, UFDN)
HW3的后半就是实作DANN,跟任意improved model,我跟几个同学都是选ADDA来做
最后会介绍Video跟Speech跟CV混在一起的应用
为了处理Video Speech所以会先介绍RNN(LSTM, GRU)和Attention(没有Transformer XD)
HW4就是用RNN来做Video的Action Recognition
最后几堂课还会讲2D/3D跟Few-Shot Learning,但就没有作业实作了
这学期好像完全把RL拿掉了 QQ
学期后半请了蛮多人来演讲的
像是中研院的林彦宇老师
华硕副总裁黄泰一
微软AI R&D Center的赖尚宏老师
还有在UC Merced的B97电机系学长分享美国实习经验
整学期算学到蛮多东西的,不过毕竟是Deep相关课,内容都是近年研究主题很新很杂
蛮多地方都是一系列的paper report,没有作业实作就容易会带过去有个印象而已
日后要深入了解的话,还是去找原paper看会比较深入一些
ρ 考题型式、作业方式
作业有上述说的HW1~HW4,都是一人一组自己做,loading的话HW1很快大概4~6小时内
HW3、HW4大概是以前做大金ML作业的1.5倍loading,大概15~20小时可以解决
HW2的话因为这次YOLO很多人包括我自己都遇到train不起来的问题
我最后是发现加了warm up optimizer之后就起飞了(前面还找了超久问题...
但每个人遇到的状况好像都不太一样就是了
然后老师有给每个人3天迟交不扣分的扣打可以用,后来HW2之后又加了两天
我自己只有在HW2用掉一天,整体时间还算充裕
Final Project的部分是3~4人一组
有两个题目可以选,第一个是今年ICCV workshop的
Visual Domain Adaptation Challenge (http://ai.bu.edu/visda-2019/)
就是做很多个Source Domain的UDA
第二个则是Cast Search by Portrait Challenge
也是今年ICCV另一个workshop的,从电影画面辨识演员
两个Challenge都有开Kaggle让我们爬榜
σ 评分方式(给分甜吗?是扎实分?)
应该算颇甜
因为这次hw2 YOLO有点难搞,所以后来给分改成hw2 hw3 hw4各自分别由高到低
占30% 20% 10%,hw1一样是5%,final project占剩下的35%
另外每次作业都有一些bonus可以做,可以另外拿超过100分
像hw1可以拿120(但只占5%),其余我hw2~4分数都拿90~110之间
final的话因为我们这组有拿到Challenge #1的第一名,
kaggle leaderboard跟人气奖也都有额外加到分
最后35%是给了32.01分
给分很大方,我学期成绩有拿A+
ω 其它(是否注重出席率?如果为外系选修,需先有什么基础较好吗?老师个性?
加签习惯?严禁迟到等…)
这门课助教都人很好,我们hw2搞不出来的时候都有去问助教,也都很热心帮我们找问题
另外后面作业竟然还有开放给同学revision(改code)机会补救,部分给分,修过这么多课
实在没遇过几门有这么好心的...真的是辛苦助教了Orz
Ψ 总结
这门课算是可以让你快速review过一次近年DL for CV的发展,也实作了一些有趣的topic
让你在日后能有兴趣深入研究,收获很多~