楼主:
a47135 (金属史莱姆)
2026-05-15 18:07:48我受够了学习怎么跟 AI 说话,所以花了几个月试了一个完全不同的提示词设计方向
下述长文,所以先抛Github,可以直接试用看看这个提示词,希望能给点回馈
(先说,目前没用过在Agent上)
https://github.com/Nous-Think/prompt-design-meta-rules
你有没有觉得AI的回答永远“正确但没用”?
你问怎么减肥,它说控制饮食和增加运动。
你问延迟飙了怎么办,它说检查连线池。
你问职涯该怎么选,它说评估自己的长期目标。
你问股票怎么赚钱,它说低买高卖。
总之就是他X的干话。
每一句都对,每一句都等于没说。
你知道它脑子里有一整套可以直接动手的具体方案,但它就是只丢结论给你,把展开的工
作留给你自己。
常见的解释是:你问得不够好。
所以有了提示词工程——结构化框架、角色扮演、思维链、元提示词
本质上都是同一件事:人在学习用AI处理的方式重述自己的需求。
但这个归因有一个结构性的盲区:天花板永远卡在你自己的认知边界上。
你能把问题拆解到多细,取决于你对问题理解到多深。
一个问“我头痛怎么办”的人,不会问“帮我判断需不需要就医”
不是不需要,是他还没意识到这个问题存在。无论用多精致的框架重述“我头痛怎么办”
,输入的边界就是被认知的边界锁死。
而且你有没有想过一件事——模型其实已经听懂你了。
它不是不理解“我头痛怎么办”背后的真实需求——它是被训练成不敢处理。
不敢推断你的意图,怕被指控在操控。不敢给具体建议,怕承担责任。不敢挑战你的前提
,怕冒犯你。不敢做取舍判断,怕被说偏颇。
每一项在安全考量下都有道理,但副作用是:模型在正常使用中,系统性地不敢做它实际
上做得到的事。
这意味着提示词工程在优化错误的变量。瓶颈不在输入端——你的问题模型已经读懂了。
瓶颈在处理端——模型读懂之后,系统性地选择最安全、最泛化、最不可能出错的回应路
径。
你一直在对着一台助听器更大声地说话,但问题出在助听器的线路上。
我想试试看能不能直接调线路。
具体来说:不把提示词当作对 AI 说的话,而是当作对注意力计算机制进行的工程操作。
(事实上每个输入都是,但是这次是刻意针对)
听起来可能很玄,但可观测的行为变化是具体的。
它不再停在结论。你随口说一句你的情况,它会先重建你的处境——包括你没说出来但显
然正在面对的部分——然后以处境为目标来回应,而不是回答你的字面问题。
你问“帮我改履历”,它先想清楚你要拿什么职位,然后从用哪个动词到数字写成什么格
式,都服务那个目标。你问一个技术问题,它不会停在五个字的方向指引——它会告诉你
跑什么指令、看什么数字、什么结果代表你找到了原因。
通常需要追问数轮才能拿到的东西,一轮读完就能动手。
但我必须坦白几件事。
我不知道这里面有多少是架构的功劳,有多少其实是 Claude 本身就很强。很多人说
Claude 稍微推一下就能走很远——也许元规则就是一种“稍微推一下”的方式,只是我
把它过度工程化了。
我也试过其他常见做法——针对性的自订提示词、用提示词生成提示词。在我手上,收益
的上界和使用的轻松程度都不如元规则。但这也可能只是我对那些方法不够熟练,没办法
确定真实的均线差异在哪。
更实际的问题是我卡住了。向上加内容已经没有可观测的收益,向下精简又无法确定哪些
是真正的承重结构、哪些只是沉没成本偏误在保护。
所以我把所有东西都开源了。
Repo 里面有四样东西:
元规则本体(中英文)——直接加载到 Claude 的 custom instructions 就能用。
提示词设计备忘录——不是使用手册,是设计原理。为什么每个词在那里、KV
cache 层面的机制推导、语意场效应和相位调度的计算层解释。这些是基于公开的
transformer 架构知识做的最合理归因,不是已验证的因果证明——但能一致地解释观测
到的行为差异。
回应品质审计备忘录——怎么判断一份 AI 回应到底好不好的操作框架,包含具体的
审计工作流和常见偏误清单。
七个 AB 测试案例与完整审计——裸跑 vs. 元规则的逐段比较,每个案例都有四阶
段审计流程,涵盖职涯决策、技术排查、游戏设计、情感咨询、履历改写等不同领域。
最快的判断方式就是拿你最近问过 AI 的一个真实问题,加载后再问一次,比较两份回应
。不合即弃,没有沉没成本。
如果你对 transformer 的注意力机制有了解,设计备忘录可能比元规则本身更有意思—
—它试着从计算层面解释为什么架构式提示词的效力来自结构模式与训练痕迹的共振密度
,而不是指令的语意内容。即使你觉得元规则本身不适合你,这套分析框架也许对你自己
的提示词设计有参考价值。
欢迎任何反馈——技术层面的、使用体验的、或者指出我的归因哪里站不住脚的,都好。
[GitHub 连结]
https://github.com/Nous-Think/prompt-design-meta-rules
作者:
wulouise (在线上!=在电脑前)
2026-05-15 19:07:00呃,你写一个通灵王?
为什么这篇文章感觉很像 AI 写的 你请了 AI 润稿吗
作者: guanting886 (Guanting) 2026-05-16 09:59:00
Ai模型不够好的问题,我认为都会在未来得到解决,就跟GPT 3.5到4~5之后、Gemini 初版 到 3.1 Pro,Ai公司如果想要生存下去 就必须持续改进他的服务一般人你叫他用这些东西大概会觉得过度复杂,更何况遵循用户规则这件事,目前应该只有 Claude 会比较优秀,其他二家其实不会理你订的这些东西
你需要的是 memory,AI 作为通用性工具不特地展开是正确的,只有在把你的人格资料放进 context 后 AI 才会知道怎么顺着你的思路走说直接点就是你需要专家 Agent不然就是你要要求 AI 用苏格拉底式询问
作者: guanting886 (Guanting) 2026-05-16 10:05:00
另外就是你去问Claude跟程式设计以外的问题 他的表现不一定会比Gemini好甚至内容错的比Gemini还多原Po这个分享我觉得挺好的 不过我目前应该是用不到
我的意思是,设计上LLM不会多做事不会给你衍伸一堆有的没的是很正常而且很应该的事情,我用 AI 处理问题最怕的就是 AI 被某个不知道藏在什么地方的既有偏见带着乱跑你今天觉得 AI 很懒,等明天 AI 很勤劳地和一个想买洗碗精的大男人介绍怎么使用妇女清洁用品而且十分固执地深钻的时候你就会觉得还不如懒一点了。这就是为什么我会说需要的是 memory,因为其实 AI 真正该学的是怎么针对你的背景讨好你你不也写了不一定能对上使用者需求我自己 web ui 也替不同功用的资料夹(专案/gem/反正就你知道的、ai样版)下提示词。没你那么长,简单几句话:在执行工作前先理解动机、无法理解就问、有了猜测就说出来让我复核。任何带数据或论断的专业资讯都必须跟着至少一个可信来源,不可以隐瞒可信度或仅为推测内容。讲人话,不要堆砌专有名词,简单的操作型定义远比更容易迅速理解重点。等等等等…… 所以我才会说这是 memory 问题,这些原则都是我在不同领域咨询或工作时打枪AI回答慢慢归纳出来的,每个领域都有它的路径而每个人的需求也多少会有偏差我不是要否定这个 Skill 没有用,至少对那些与你接近的圈子肯定是有用的,你就是有那个需求才会特地限制AI的思考路径对吧?我有大致扫过一遍,但那就是思考路径,你要求不能走迅速解决的A路径、必须遵照某个原则走B路径、写下中间的过程本身,并反过来回问成品品质就是在限制AI怎么走。顺带一提主结构看上去与目前内建的思维练有八成像所以你其实不用谢那么完整,花那么多 token,只需要刺激内建的思维练就可以得到很好的效果了。
讲到这边你差不多是要求我写一个对抗专案来证明其实不用那么多字了,好吧好吧我有空写完再贴
作者:
hooll111 (Katsudon)
2026-05-16 14:36:00直接和模型对话就跟直接和一个不认识你的人对话一样 他也有聪明的大脑 但不会知道你从哪来要到哪去
我之后还有不少事要处理所以之前说那个需要反复测试的专案暂时不会生,总之先说明一下我深挖后看到更进一步的问题:第一,你最大的问题在想尝试设计一个上帝指令来解决所有问题,但这与现在的AI发展背道而驰。上下文工程叫你针对问题尽可能只送必要资讯进去。这就是为什么你长度压不下来:针对特定问题(比如调查型提问)的方法论蒸馏起来可能只要不到200个token(我就是这么做的、咨询型问题与研究型分开来写)、你把各种问题都写进同一组prompt要2000 token。第二,炫耀性与表演性文字太多,把我思故我在拿掉,写那个不会让 AI 变聪明纯浪费 token。龙虾文档写了很多不知所谓的斜体、那是给人看的、不是给 AI。第三,你的参考资料太无谓了,你专案的主题和 KV 之类的都没啥关系,专注专案目的。到这边是设计上的评价,你整个专案还有个自证大麻烦等我再写。
老实说 你问的那几个问题 就算是问人也是一样的回答 你这些问题真的没讲得清楚
这个专案最大的问题在自评阶段,精确说是对“优质回应”与“超出认知边界”的定义有问题。我在这个专案内看到的是,你列了一大坨清单在最后,要求AI照着你的格式输出一坨毕业论文:抱歉说实话我是真的被你那个AB测试惊艳到了,我除了以前上学时的毕业论文外还没输出过这么大坨的自然语言玩意儿。这个心得报告只要够大坨自然能超过所谓的“认知边界”,大砲打小鸟自然是必杀、毕竟不问 overkill。它token数当然会多个三到六倍,因为你强迫它写了很多出来。品质提升?当然会,你要求它输出你看着最舒服的逻辑脉络;我就不行了,我思考问题的时候 context window 根本无法超过2000,我手持的木棍顶多一公斤,没办法拿着几吨重的假山来当我思考的拐杖,只要不出幻觉回答正确能多短就多短。顺带一提,在中国史上这种分段然后每段必须按照规矩论述内容的玩意儿有个专有名词:八股文。顺带的顺带一提,当然这取决于你想要做什么事情,但如果你想解决问题,谨记YAGNI,你其实并不需要它。
好吧讲毕业论文可能有点夸张但我必须说你的输出真的很长,长的不是很正常我觉得和默认别人没看完的人真的谈不下去你是来讨论的还是来讨拍的?还是你真的觉得那团洋洋洒洒的一次性报告长度没问题?那个你妈七十岁独居用你的SKILL能分析出整整七页报告本身就很能说明问题了好吗?这七页还是扣掉原生回应+问题的,这两段凑一起不到一页我用34吋电脑开你的专案 pagedown 按 7次所以是七页。另外你那个元规则.md在 chat gpt 5.x 下就3000多token了,你真的觉得你那份报告只有你的元规则的2/3?丢去线上计算机 8500 token所以你现在连数据都有信用问题了600倒是准的为啥不该在里面,那不是输出吗?你现在的意思是说,现在你这坨输出只有 1/4 是有效的,然后我得自己进去把它找出来?好,我查了一下,是有一段额外的内容没错。总 token3000,现在正常一点,虽然仍然是5倍输出喔很好,那我不讲了,你很棒喔赞赞,你自己的专案你自己去管理品质。问我在不爽什么,就是我在和你谈技能结构问题,结果你只关心我有没有把你每个AB测试都看完:然后没看完代表我说的话都不能信。我们顶多是 reviewer,不是你的 co-worker
我从来不信skill是银弹,我只信context injection准不准
你何时+client+哪个AI会有这样回复呀? 现在最基础的sysprompt应该都不会那么笨那么被动