楼主:
pacino (carry me)
2026-03-07 10:12:44看了这两串, 充满了疑问..
想讨论一下这个主题: token
(1) 每个LLM 都有自己的max. tokens
这是在training model时就要决定的
(2) max output tokens是让agent在送给LLM 之前处理用的,避免超过LLM model的max. to
(3) rules 没被执行,有可能是context可能超过LLM model的max. tokens, agent 主动压?
这样不就解释了两串原po的问题?
麻烦指正,若我的了解有误。
作者:
DrTech (竹科管理处网军研发人员)
2026-03-07 22:26:001. LLM什么时后会停止回答,跟你设定多长的 max output token无关。2.max output token不是写在prompt里面。LLM要停止输出,不看max output tokens,是看有没有算出EOS token。与你怎么设定OS环境变量,是否放在prompt无关。按错,我不是要嘘。完全错误。首先,LLM本身不会回传error或output error。丢太长的文字序列或向量进去,向量长度不合,"应用层程式码"(例如pytorch)就报error了。LLM根本没处理,更不会回传error,。另外,Max output token,不是给agent看的。在默认的情况,agent 做任何选择,agent输出什么文字,根本不看Max output token设定多少。 max output tokens通常是设定在serving service层(例如vllm)跟agent根本无关。简单话:控制LLM输出的长度,永远不是LLM在做。是应用层程式码在做。agent或LLM不会把关长度的。