楼主:
neo5277 (I am an agent of chaos)
2025-01-25 03:46:24终究是走向CP值,最后是要变现的
LLM只是其中一种,重点是后面的神经网络
他在的架构,可以处理那些问题,LLM
就是有意义的接龙,Deepseek某种程度上是优化这个过程,优化的招式不错,$$用的少
有差不多效果,觉得怀疑可以用ollama 拉R1回来试试模型,还算可以啦。
但终究就是,transfermer改,nlp word embedding这样 ,只有这招解决问题是不够的,
从单一模型,到后来MoE,最近软件都是往代理走,但是满普通的,真要说有什么影响就
是对董事会跟投资人不好交代,以后不好融资,我相信openai,跟其他真正在做模型创新
跟落地的都还在一起卷,特别是像deepmind开始各种传统算法的异质结合,最近是遗传演
算法跟模型结合这个很酷,相信会加速发展。
股点来说就是算力需求没有变动,中国有一个新方法让训练可以变快,花的时间短又便宜
,但是还是llm,该算还是要算,缺电还是缺电,温度高还是温度高。
v3 400多b参数不是一般电脑跑得动的
大家还是可以期待digits,跟机器人核心芯片这两块,业内其实很夯这两个东西都很想给
你钱快点出这样,过去受限于,大平台跟硬件的部分可以被解放,那个时候才是软件部份
百花齐放的时候,MOE中不同的模型,使用同一套沟通格式。
化为agent沟通解问题
不难,设计上也是,但是没有方便的装置可以,本地端测试,中国这个没有骗人,方法也
没有不好,要类比的话就是从头开始煮菜
,跟已经备好料,半成品,再产生最后料理是类似。
重点还是在不同神经网络,如何用统一标准彼此沟通分享,解决问题,特别是解决哪些问
题,才是重点,meta一众会烦恼,是不好交代,跟赢不过华人转个弯绕过的思维的卷。