※ 引述《derekhsu (浪人47之华丽的天下无双)》之铭言:
: ※ 引述《logical01 (logical)》之铭言:
: : https://i.imgur.com/omWjjTa.jpeg
: : 中国一家人工智能公司开源
: : 与openAI o1同等级的deepseek R1
: : LLM, 商业利用也可以
: : 这是不是没再甩美国的AI禁令了?
: 不是,这是遵守美国的AI禁令做出来的模型,他们的模型以及以及程式全部开源,公布当天就已经上架 Ollama ,用 qwen 以及 llama 作为 学生模型做出来一个不同参数的模型萃取的小模型,在 32B的 qwen 上达到跟 o1 mini 同等水准。(qwen 是阿里巴巴的通义千问模型,一样是开源的)
: 人家的东西全部开源,当天就可以下载测试,验证资料都是公开的,使用本地模型,隐私还远高于云端模型。
: 全球排名前10的模型除了OpenAI Claude Google 以外,能排进去的只有阿里巴巴跟DeepSeek 其中只有中国的模型开源。
中国+香港 其实有很多个模型,除了以前的bat,通义、文言、元宝,
还有后起直追的抖音云雀(豆包)跟
第一家以 ai 企业上市但前几年赔得一屁股的商汤日日新
除了这几家之外,中国专门搞大模型有名的,至少还有七家(包括deepseek的深求)
深求比较奇葩的地方是他们不算正规特种作战部队,像是特别行动计画征召.
所以他们不是全都是科班顶尖,不精确的形容就是,不管鸡鸣狗盗,反正各显本事.
科技新创就是这样,你不一定要当学界业界第一强,认清自己本事到哪,目标合理就好.
所以他们运气不错,另辟蹊径摸到一条路出来.于是获得超过预期的收获.
但是十大排行榜这东西并不是一个绝对的评估指标,因为标准都是人订的...
并且这个排行榜变化性很大,过几天谁发了一个新模型,搞不好又变了
比如说,我手上一个前十大的榜,现在前十名的中国模型是 深求 跟 零一...
为什么说这个榜的评估标准不能直接当成选用的考虑依据?
因为测试有他的考虑,但你实际要用的时候,有可能必须要考虑他测试的以外的东西.
比如我最近常说我在叫 AI 帮我写 未成年不要看 的 AV 剧本,
写了几幕后 AI 就开始发神经,公公叫成老公,太太看成娘...
这种问题,你要考虑的就不单纯是某个 LLM 排行榜的排名...
中国人比较让人讨厌的地方是,普遍爱出脏手,
像是十之七八都会去弄 GPT 的资料出来训练自己的模型.
搞了半天,你就是说你用他的测验卷把自己的小孩卷得比他的小孩考得更好...
第二个就是,中国的商业模型,在中港澳以外的地方不好弄到使用(试用),
因为要必须中国境内的电话号码.
我曾经为了试用某个模型,绕了一点路弄了一个帐号,
但那个帐号本来是用在它的其他业务项目的,
结果没两天,我就接到一个有礼,声音甜美的女企业窗口经理电话,问我想对她做什么..
啊,不是,是问我注册那个帐号是对她公司的什么服务有需求,有什么可以帮我的.