https://ithelp.ithome.com.tw/m/questions/10220070
看到有人做了一个鲁肉饭评论器
觉得蛮有趣的..
毕竟我自己也蛮喜欢吃的
不过鲁肉饭都长一个样
AI要区分感觉挺难的
很多细节差异,像是肥瘦比例
酱汁颜色、肉燥颗粒大小、油亮程度,甚至配菜等等..
现在的视觉模型不晓得能不能辨别?或是需要fine-tuning,或重新训练?
作者:
DrTech (竹科管理处网军研发人员)
2026-03-30 08:35:00看要做到多准而已吧。技术都有。不过很多人半桶水而已,例如这个连结,文字相似度用CLIP?如果是 OpenAI 版本的CLIP,不支援中文。很多人跟本乱用。用import clip 根本搞笑。OpenAI版本的CLIP完全看不懂中文。这就是我常说的,claude写的程式码很有效率。但专业领域一直很烂,日常工作很难用。连CLIP不支持中文都不知道,乱套。然后一堆外行人,还以为自己程式是对的,觉得很好用。
看了一下,这个工具用的CLIP好像是图对图的KNN比对,我对这块比较没研究
作者:
DrTech (竹科管理处网军研发人员)
2026-03-30 10:17:00对喔,对店家照片。不过CLIP本身就没有对店家照片这种资料做训练,embedding出来,几乎纯乱数,算相似度也没意义。真的要这样搞。dinov2, dinov3这种学通用特征的模型比较适合。
除非训练资料也都是用同个装置拍 不然色调那些就无法校正了吧
直接用通用LLM丢个照片说"看起来好不好吃"感觉都还准些我刚刚做了实验 直接丢几张卤肉饭进去让gemini 挑...还真的挑出那张我觉得看起来最好吃的