楼主:
sxy67230 (charlesgg)
2025-08-06 08:13:32看你想走应用还是理论面,应用面如果只是你有一个ideal想做,务实一点就是找个闭源或
开源的LLM(vLLM)架起来,Prompting调一调大部分能力可能都比你传统模型来的好太多了。
如果是应用想做深一点之类的,大概就大金->李沐那些听一听,想再涉及ML一点就吴恩达->
轩田。
如果还想要再深一点就需要涉及理论数学知识而且这时候就分面向了。
模型的部分数学会占更重,尤其是线性代数,最多再一点点机统跟最佳化理论,现代的DL其
实反而不会太强调很硬的统计或非凸最佳化,大多假设DL在自监督后天然的就从海量数据中
提取了某些自然分布。除非你真的有兴趣到爆就可以往DL的最核心基础理论迈进,那还会需
要一些消息论去探讨模型压缩跟模型内部学习时候的非凸优化转换(high entropy 跟low e
ntropy LLM 可能会是一个很有趣的问题)。
如果是想就业的话,我自己会觉得接下来比较热门的面向就是GPU optimization跟LLMOps,
前者主要就是要非常懂GPU计算底层,包含如何实作GPU并行,可能同事有基础的LLM模型你
要把这个prototype implement进某些极端Edge的环境,后者就涉及分布式服务器架构如何
架构带有GPU群集的分布式server用来做training跟inference,虽然说离核心LLM/DL理论很
远,但我认为是就业市场未来最稳的。
这边补充一下,很多人觉得AI要很硬的数学才能发Paper,但是从去年ICLR的一些收录文章
看其实现在不少Multi Agent的应用类,关键在于你有很好的智能体实作想法,然后再理论
系统性的描述做消融实验。这些不见得涉及数学知识,就是要去研究能有什么方式系统性的
开发智能体。
差不多4酱