Re: [标的] NVDA/AMD 讨论 多哪只

楼主: LDPC (Channel Coding)   2024-05-18 08:39:51
人类离变成电池之日越来越近了QQ
这边是一个openai的demo整理
https://youtu.be/VP2-8jIurUE?si=BlFPm94-752XEkF0
稍微细拆一下上面的demo一些隐藏意义 诚如之前所说的2023 Text-Based GPT4出现后
业界就直接看到战场要往多模态拼杀 多模态意思就是喂给这些LLM模型从文字理解世界
进化到 把影像声音转成文字意涵 在喂食给LLM去理解 大概到去年年中 大家影像刷完
就开始刷声音多模态 (当然 LeCun很反对把多模态用文字当anchor来理解世界)
到此为止 多模态大概已经刷得差不多 也就是LLM可以透过各类型资料理解世界
多模态资料有
声音: 可以透过声音知道你情绪 理解你是大人或小孩
比方说:你如果问LLM 这世界有圣诞老人吗 LLM听到你声音
会叫你 滚 你这死肥宅 如果听到是可爱萝莉 就会说 是的 世界是有圣诞老人唷!
这些是传统声音转文字(ASR)再给Text-LLM办不到的
其余多模态资料诸如
影像: 理解图片
生医: 心跳 血压 呼吸
金融: 各种时间序列资料
温度 热成像
这些都会以文字为anchor (text token)去喂给LLM
那接下来 下个问题 多模态LLM 最佳落地场景为何?->答案是 手机
因为手机是最好的携带装置 可以去理解世界 手机上所有数据都是多模态
就连GPS/WiFi 你如果需要 也可以当作多模态资讯丢给LLM
第二个最佳落地场景是 AR眼镜 这也解释为何前几天Google IO
在替Project Astra铺路 而事实上多模态LLM其实最适合AR眼镜
因为 "所见所听既所知"
戴上眼镜后 下棋 炒股 把妹 打台球算角度 全知全能
而多模态LLM其实就是扮演虚拟助手 帮助人类处理现实世界资讯和情报
这也是为何我觉得果家明明有机会可以打一场漂亮战 但因为果家的内存饥饿行销
注定Gemini-Nano (3B模型) 无法放到iphone (4~6GB) 注定只能走云端
云端多模态LLM之王就是openai了 至于为何有人会质疑on-device (<3B)以下模型为何有开发
必要性?都用云端就好了 答案就是因为有很多模态资料有私密性 不方便上云端跑
目前针对这类投资就是AMD/NVDA/MU/QCOM MU原因来自多模态吃内存 需要HBM这类设计
作者: darkangel119 (星星的眷族)   2024-05-18 10:00:00
死肥仔错了吗 哭哭
作者: bustinjieber (贾小斯汀)   2024-05-18 10:18:00
好,250出清
作者: herculus6502 (金麟岂是池中物)   2024-05-18 11:45:00
谢教主明牌

Links booklink

Contact Us: admin [ a t ] ucptt.com