[请益] 机器学习如何做好version control

楼主: littleyuan (baby)   2018-04-14 07:27:46
大家好
我是ML新手 跟的前辈是很优秀的超强者
但是前辈很不organized 写的code总是不commit
主管希望下个项目之前我可以提出报告要如何改进并且希望前辈能跟进
我是觉得ML和其他写程式有点不同
因为不断测试参数 每次调参数都commit的话好像太繁杂 所以我一般是有了好结果才com
mit一次 不知道大家一般怎么做的
另一个问题是数据库会更新 更新过程那原来的model 不变读到的数据就不一样了那出来
的结果也还是不一样
这样要怎么reproduce做出和原来一样正确率??
大家会写个word档纪录每次Data的变化吗?
想知道大家实际工作上是如何管理的呢?
作者: Mchord (Mchord)   2018-04-14 07:47:00
测试出来的正确率只能对应到该次的model和dataset版本,两者其一有变动就应该要重测一次数据
作者: backprog (back-propagation)   2018-04-14 07:54:00
每次都commit啊,因为你有可能下次调参就变差了。 资料变动的话,就另外add一个描述资料的文件一起commit
作者: elements (Helianthus annuns)   2018-04-14 09:15:00
我比较好奇 jupyter 怎么版控
作者: janus7799 (Janus逍遥)   2018-04-14 09:46:00
写一份实验数据分析之类的
作者: Murasaki0110 (麦当劳欢乐送)   2018-04-14 10:09:00
你的问题只是要好好把实验config整理好包括dataset内容,augment用哪些这些细节都应该要记
作者: f496328mm (为什么会流泪)   2018-04-14 10:13:00
就跟做实验一样啊
作者: enthos (影斯作业系统)   2018-04-14 10:39:00
我在家自用的script在dropbox目录下修改,自动备份所有存盘
作者: maxqq (max)   2018-04-14 12:11:00
强者搞自己的?这样叫强者?强者若要搞自己的,干嘛找人?
作者: cobrasgo (人鱼线变成鲔鱼线,超帅)   2018-04-14 12:56:00
如果db一直会更新就比较麻烦
作者: mraaa (重新出发....)   2018-04-14 15:43:00
我以为Machine Learning就是让机器去分析学会“调参数”,而不是一直“手动”调参数。是我误会什么了吗?
作者: clairehuei (不是clairehuei 是桂)   2018-04-14 15:54:00
原po说的调参数 指的应该是超参数吧
作者: SmallpTsai (Smallp Tsai)   2018-04-14 18:36:00
你没有提问题在那里? code不commit有什么实际的影响?长官对什么地方不爽?
作者: chchan1111 (123)   2018-04-14 19:10:00
妳那些超参数都是写死在程式里?我的话会另外用个档案存超参数 程式一开始去取值版控就只要做程式的部分就好了吧另外数据一值更新 是不是可以先固定一组训练/测试集这样新model才能做比较 有变好再上线使用也比较方便记录不同组超参数在同样资料下的结果
作者: pwh17 (胖丁)   2018-04-14 19:43:00
Data version control is a new tool. You could check their article on Medium
作者: poloball (吃不胖真无奈…)   2018-04-14 20:18:00
做影像的话 通常会测固定的dataset 每版commit model跟parameter 你的应用听起来input不固定比较复杂
作者: shietsd (123)   2018-04-14 21:09:00
把每次跑的model存起来啊,这样资料集固定了至于超参数,好像也只能另写config档来存做版控,看其他高手有无较好的方法。
作者: chedbens0729 (Vi冬冬a)   2018-04-15 16:43:00
用config纪录hyperparamater和结果以及model档名称吧,不太懂你说db一直变动什么意思,有人在commit db的吗…
作者: cory8249 (Cory)   2018-04-15 18:54:00
这确实是蛮困扰的问题 data 跟 code 同时在变的话
作者: Mchord (Mchord)   2018-04-16 00:02:00
除了刷数据投paper以外,现实中固定dataset然后狂调参数意义不大吧?
作者: Wush978 (拒看低质媒体)   2018-04-16 02:21:00
管理机器学习的程式码在几年前还是Open Problem, 没答案近年应该满多Talk在分享相关议题, 我自己是看Google的论文才注意到这个问题:https://research.google.com/pubs/pub43146.html

Links booklink

Contact Us: admin [ a t ] ucptt.com