您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center 汽车系统工程   模型库  
会员   
   
AI辅助企业网络安全&治理
6月11-12日 北京+线上
基于模型的数据治理与数据中台
6月16-17日 北京+线上
Spec Driven Development 工程化实践
6月12-13日 北京+线上
     
   
 订阅
写Skill别急着动手,先问自己这四个问题

 
作者:小爽爽鸭
 
  70   次浏览      4 次
 2026-6-1
 
编辑推荐:
本文主要介绍了如何写好Skill相关内容。希望对你的学习有帮助。
本文来自于微信公众号小爽爽学智能体鸭,由火龙果软件Alice编辑,推荐。

你是如何写skill的?

有个想法直接就写?我之前就是这样的。

不过后来我明白了,做Skill的人,需要有工程思维。不是上来就干,而是干之前要想清楚。

什么叫工程思维?不靠一次性的感觉做决定,靠可重复的验证做判断。

比如说一个Skill"效果好",跟什么比?好了多少?换个模型还稳吗?以前这些问题只能拍脑袋。

改了指令,跑两个例子瞅一眼,觉得行就可以。后来出问题,你连当初怎么改的都忘了。

有一个思路给了我很大启发:把软件工程里成熟的测试和迭代方法,搬到skill创作里来,并且尽量降低技术门槛,让不懂代码的领域专家也能用起来。

很多写Skill的人不是工程师,他们懂业务,但没工具去验证两件要命的事:模型升级之后,Skill还跑得动吗?我改了指令,效果真的变好了吗?以前只能靠感觉,靠手工一遍遍试。

Evals、基准测试、版本对比、保鲜期检查。我们后面聊的这些方法,都来自这个思路的延伸。看不懂这些词不会怕,它其实就是评估-对比-测试。

01 问自己:需求值得做成Skill吗?

并不是所有需求,都最适合被固化成Skill。

高频复用,而且流程够固定,才值得制作成skill。

什么叫高频?你每周都在做,甚至每天都在做。

什么叫流程固定?每次做的步骤、标准、产出格式,都差不多。

skill的本质,就是解决你当下需求的流程指导手册。

最近我在想一个问题,我现在用的最多的技能是哪些?哪些已经从没打开过了?

文章插图Skill

每次写完文章都要配图。以前每次都手写图生文提示词,次次重来。后来把常用的画面风格、尺寸、构图偏好全固化成Skill。现在要配图,直接用。

省的不是一次的事,是每一次。

公众号排版Skill

我发文有一套固定习惯:段落空多少、哪里加粗、引用块怎么用、小标题什么格式。以前每次手动调,或者把同样的排版指令重新发给模型。做成Skill之后,一口输入原文,一口输出成品。

固化的是流程,不是某一次的输出。

标题生成Skill

如何起标题以前对于我来说是一个头疼的事情,后来我学到一个非常好的思考思路,主体词+修饰词+句式套路组合+人性(恐惧,欲望),那基于它的思路,我就可以封装成一个技能,后来可以反复使用这个skill解决问题。

后面就是不断完善标题的技巧的拼图,比如说看到一个文章说某某的标题比较不错,那就直接在句式套路组合中添加。

随着不断积累,当我需要标题的时候,大模型可以在我的skill的组合中选择合适的,给我起标题。

我一般习惯于让AI多给我提供不同方向的标题,给我做选择。

同样的道理,如果要写爆款文章的skill,也是同样的思路,组合拼接,不同爆款文章的架构组合拼接,就是新的"爆款"文章。比如说开头套路+中间转折方式+结尾套路。

N的开头N转折N结尾,就是N^3的套路组合,可以高效地支撑批量内容创作。当然,真正的内容价值仍然依赖于洞察和素材质量,结构只是提效工具,不是万能公式。就是因果理论+方法沉淀+组合拼接。

不同人对于爆款的理解不同,文字习惯不同,虽然它所设计的底层逻辑相似,但还是带有不同人的特色。

前面这些Skill共同点是什么?

固化的是我的流程偏好,不是补模型的能力短板。

反面教材我也踩过。

之前做过一个小红书风格优化Skill。逻辑特简单:把任意文本转成小红书调性,口语化、加emoji、分段短、带感叹词。

当时模型自己还不太会拿捏这种风格,或者说是风格不符合我的习惯,Skill确实有用。但后来模型升级了,自己加的emoji更自然,分寸感更好,而我的Skill还在按旧脚本套固定模板。Skill的输出,反而不如裸模型。后面我就没怎么用了,直接让大模型帮我改了。

这件事教会我一个道理:不是所有需求都值得做成Skill,也不是做出来的Skill都值得一直留着。

02 动手之前,先问三个问题

需求值得做,也别急着打开编辑器。先回答三个问题。

第一问:你是补能力,还是固偏好?

能力补充型,教模型做它原本搞不定的事。比如处理特殊格式的PDF、生成特定结构的文档。模型自己有短板,Skill把技巧编进去。

偏好编码型,模型本来也能做,但你要它按你的规矩来。比如按公司法务标准逐条审合同,每周从多个数据源汇总数据写周报。

两种Skill盯的东西不一样。

补能力的,盯保鲜期,模型升级之后,这Skill还用的上吗?

固偏好的,盯忠实度,它还在按你的规矩办事吗?

小红书Skill就是补能力型的典型下场。模型学会了,Skill从帮手变累赘。

标题生成Skill是偏好型,模型自己会起标题,但不知道怎么按我的标准起。

第二问:输入、输出、边界是什么?

这是Skill的契约。输入什么格式?输出长什么样?绝对不能碰什么?没这个契约,你连它干没干活都判断不了。

第三问:单Skill,还是主Skill套子Skill?

解决问题,一个Skill干到极致。插图、排版、标题,各管各的。

解决流程,主Skill管编排,子Skill管执行。

将来我要是做"文章发布全流程"Skill,会挨个调用排版Skill、插图Skill、标题Skill。

但子Skill各自跑得好,不等于串起来就好。上游的输出格式,可能刚好是下游不喜欢的输入。多Skill组合,必须做集成测试。

目前我还没制作过流程技能,基本都聚焦在解决单一问题上。

三个问题答完,再动手写第一行。

03 Skill和Agent,到底什么关系?

聊到这儿,得澄清一个很多人搞混的概念。

有人说Skill就是轻量版Agent。这个说法听着顺耳,但不准。

Agent是决策者。它看环境、定计划、选动作、看反馈、修正自己。它有运行时的反思能力,是一个活的推理循环。

Skill是一本写好的操作手册。它告诉执行者"遇到这种情况,按这个步骤做"。不观察,不决策,不反思。改进不发生在跑的时候,而发生在你设计它的时候,你改它、测它、迭代它。

拿公众号排版Skill来说就清楚了。它没有自己的想法,只是忠实地执行我预设好的段落间距、加粗规则、小标题格式。哪天我觉得段落间距要改,我不会让它自己拿主意,我会在设计阶段改规则,然后跑测试验证。

把Skill当Agent设计,你会给它不该有的自由度,它开始乱发挥,你又没评估机制管它。当然,有些Skill在设计时也可以在参数范围内定义一些灵活判断的空间,让它在约束下自己选择,但它的边界是预定义好的,不是开放式的自主决策。

把Skill当手册设计,你会盯着操作步骤、输入输出契约、可验证的结果。你可以对它做测试、做对比、做保鲜期检查。

所以,Agent做决策,Skill做执行。Agent在跑的时候反思,Skill在设计的时候迭代。

 

这个区别不是咬文嚼字,是整个工程化体系的根。

04 Skill怎么长出来的?归纳,然后演绎

搞明白Skill是什么了,下一步是怎么设计。

设计Skill的思维过程,本质就是归纳和演绎来回倒。

归纳的过程中,要学会拆解思维。从普遍到抽象的过程。

拿标题生成Skill举例子。

我把看到的好标题翻出来,几十个,一个个拆共同点:口语化、带悬念、读起来像在聊天。提炼成规则,写成第一版。这叫归纳。

从一堆具体例子里抽出通用的东西。

演绎的过程中,要有目标思维。从抽象到普遍的过程。

然后用这版去给新文章起标题。

起完一看,有几个太标题党了,不符合我的目标风格。

补一条:口语化可以,但"惊呆了""万万没想到"这种词不能用。这叫演绎,从通用规则回到具体场景。

再跑,再发现问题,再补。这个循环没完。我的标题生成Skill到现在还在调,每次用都有小改。

归纳,演绎,再归纳,再演绎。这就是假设、实验、修正、再实验。

 

Skill不是一次写成的,是一轮一轮养出来的。

05 怎么判断一个Skill好不好?看数据,别看感觉

Skill写好了。但你真知道它好吗?

以前我们凭感觉:嗯,输出瞅着还行,过了。

判断好不好?看对比。

第一个:Evals,给Skill写"单元测试"。(Evals是评估)

提供一组测试提示词,说清楚"好的输出该长什么样",自动帮你验。两个用途:一是抓质量退化,模型一直在更新,上个月好好的Skill这个月可能就挂了,evals提前报信。

二是判断Skill过没过时,主要针对补能力型,裸模型不用Skill也能通过evals,说明这Skill的招数基本被模型学走了,价值已经大幅缩水。

对应第一个对比:有Skill vs 没Skill。

小红书Skill放这套框架里,裸跑新版模型直接过测试,当场就该被判退役。反过来,去掉排版Skill让模型自己排,段落间距就是不对,这Skill有存在的理由,数据说的。

第二个:Comparator,A/B盲测。(Comparator是对比裁判)

同时跑两个版本,第三方裁判在不知道谁是谁的情况下评判输出质量,看改动是不是真变好了。

对应第二个对比:新版本 vs 旧版本。改了标题Skill的规则,新版本起的标题真比旧版强吗?用Comparator做双盲,别靠"我感觉"。

第三个:Benchmark模式,性能仪表盘。

批量跑同一组evals,看通过率、执行时间和token消耗,每次模型更新后跑一遍,追踪趋势。

对应第三个对比:模型升级后 vs 升级前。底层模型一换,排版Skill还稳吗?插图Skill的风格还一致吗?

三种对比,把"我觉得"干成了"我证明"。

评估集也要分层。

  • 基准测试集看存在价值,

  • 回归测试集防修改搞坏旧能力,

  • 版本对比测试集专盯旧版本不行的场景。

每次线上出了坏例子,必须沉成新的回归用例。同一个坑,不能摔两次。

06 一个Skill的一辈子:从出生到退休

以前很多人踩同一个坑:写一个长长的SKILL.md,试几条提示词,觉得"能用",上线。

然后模型或环境一更新,效果悄悄跑偏。就需要让Skill从一次性交付,变成持续迭代的工程资产。

先说开发阶段,8步循环:定义任务、写草稿、小规模测试、看结果、人工复核、修改、扩大测试集、继续迭代。

用排版Skill过一遍。

定义任务: 输入Markdown原文,输出按我公众号格式排好的成品。边界:不改内容,只调格式。

写草稿: 把脑子的排版规则倒出来:段落间空一行,金句加粗,引用块用灰色。先别想完美,倒出来再说。

小规模测试: 找一篇文章丢进去。跑通了,第一关过。

看结果: 仔细瞅。引用块格式对了但里面第二段没空行,金句加粗漏了一句。记下来。

人工复核: 这次看风格。连续三句金句都加粗,太密了。补一条:金句挨着的话,只加粗最要命的那句。

修改Skill: 把问题全改进去,草稿变v0.2。

扩大测试集: 找三篇不同类型的:纯议论、带对话、有表格清单。测试分层的道理,这就具体怎么干。

继续迭代:新测试又发现表格排版对不齐。补规则,再跑。排版Skill到现在还在调。

这就是敏捷开发的MVP思维:先用最小劲做出能跑的东西,靠反馈推着改进。

不是一口气憋完美,是一轮一轮长出来的。

再说CI/CD流水线。(它就是提交代码、自动测试、自动部署、发送通知的流水线)

这8步手工跑一遍,改一次半小时。Skill一多根本管不过来,得自动化。

任何修改都用版本管理工具管住。敲完commit一条,出问题随时回滚。

每次改完提交后,自动跑测试集。

回归测试和版本对比一起上,跑完自动出报告:哪些持平、哪些跌了、哪些涨了。跟benchmark模式一样,把Skill质量管理接进CI/CD体系。

人只看报告。新版本整体好于旧版本,没有退化,打版本标签,发布。

报告显示明显退步,回去改,再跑一轮。

这就是Skill的CI/CD:改、测、审、发,四个动作串成一条自动化流水线。Skill不再是死文件,是持续交付的工程资产。

跑起来之后,还得持续盯着。定时重跑基准测试,查保鲜期。

能力补充型Skill会随着模型改进而过时,evals会告诉你什么时候发生,这样你就不用维护死代码了。

最难的一步,很多人做不到:敢删。

补能力型Skill,模型学会了还留着,就是负资产。

偏好型Skill,你标准变了还留着,它就在把输出往过时了拉。

没有退役机制的Skill库,早晚变成没人敢动的垃圾堆。

07 从造一个Skill,到管一群Skill

前面聊的都是怎么造好一个Skill。但当你手上攒了十个、二十个,新问题就来了:怎么让它们搭伙干活?

这就是Skill驾驭者的活儿。核心还是工程思维,只不过从管单个模块的质量,升级到了管整个系统的效能。

Skill不是提示词,是一份交互策划书

一个熟透了的Skill,不是一段长提示词,是你和Agent之间的一份交互策划书。

它告诉Agent:什么情况启动我?启动之后按什么流程走?每一步用什么格式跟你说话?哪里是变量,哪里是死规矩?什么时候停,什么时候叫别的Skill帮忙?

提示词只是策划书里的"正文"。完整策划书还包括流程图、数据格式约定、异常处理办法、跟其他模块的接口。成熟的Skill目录,看着更像一个小软件项目,不是你想象中一段长文字。

给Agent分配两种脑子

既然Skill是我和Agent的交互策划书,我就得想清楚:这场交互里,我需要Agent用哪种脑子?

我发现可以分成两种:理性脑和感性脑。

理性脑管精确的、结构化的、能验证的事。按JSON schema输出数据、按Mermaid流程图走分支、按Evals测试集跑验证。这类活儿得用程序词汇约束,JSON、YAML、占位符{{placeholder}}、MUST声明。它不需要文笔好,只需要格式对。

感性脑管模糊的、创造性的、要审美的事。标题要有对话感、文案要有画面感、配图提示词得描述氛围。这类活儿得用风格种子引导,给它一个seed,朝那个方向靠。用自然语言描偏好,不用JSON锁死它。

好的Skill驾驭者,不是把什么事都塞进僵硬结构里,也不是让Agent放飞自我。而是知道什么时候用程序词汇卡死理性脑,什么时候用风格种子引导感性脑。

一张速查卡:

问自己一句:这个任务的输出,能不能写成"if A then B"的规则?

能,走理性脑。用JSON、schema、流程图锁死它。改规则时跑回归测试。

不能,走感性脑。用风格种子、自然语言偏好引导它。改规则时用Comparator做A/B盲测。

(风格种子Seed,打比方就是给它参考风格,比如说文章风格,它就会按照我的说话风格改写)

 

四大骨架

有了两种脑子,再往上抽象一层,整个Skill系统可以拆成四个能组合的维度,我叫它四大骨架。

流程骨架。先干啥,后干啥,分支条件是什么。这是时间线。

规范骨架。每一步按什么标准来。安全边界、排版规则、合规检查点。这是锚点。

能力骨架。每一步谁来干。子Skill、工具、API,还是裸模型。这是工具箱。

任务骨架。这一次启动到底要解决什么问题。输入是啥,输出是啥,怎么算成功。这是起点和终点。

好的Skill系统,就像搭乐高。面对新需求,不是从零写提示词,而是从四个维度各抽合适模块,拼成新策划书。

比如搭一个"竞品分析报告生成系统":

  • 流程骨架

    数据采集、信息提取、分析对比、生成报告

  • 规范骨架

    报告固定结构、分析维度要求、结论必须带数据

  • 能力骨架

    数据采集Skill、竞品信息提取Skill、对比分析Skill、排版Skill

  • 任务骨架

    这次分析的行业和竞品名单、输出格式、交付时间

四大骨架一搭,系统就立起来了。

怎么用四大骨架搭新系统?三步走:

1.先写任务骨架

这次要干什么?输入什么、输出什么、怎么算成功。写死。

2.再翻能力库

库里有没有现成的Skill能复用?有就用,没有就新建。考虑这个任务给理性脑还是感性脑。

3. 最后串流程和规范

画出步骤图,标出每步要遵守的硬规矩。

如果每次做新系统都按这三步走,你会发现大部分时间不是在"创造",而是在"组合"。组合的速度比创造快十倍。

别一上来就写提示词。先翻翻你的能力库。

克制创造欲,是成为驾驭者的第一课。

 

驾驭者看全局

回头看,前面聊的所有东西,都可以放回这个"驾驭者"视角重新理解:

定性定界,就是决定任务交给理性脑还是感性脑。

归纳演绎,就是不断校准风格种子和约束声明的过程。

三种对比,就是用数据验证规范骨架还站不站得住。

CI/CD流水线,就是让策划书的版本管理和测试自动化。

退役机制,就是对整个系统做断舍离,不让旧拼图干扰新拼图。

从写提示词,到设计Skill,再到驾驭一个Skill系统,三个层次。第一层靠灵感,第二层靠工程,第三层靠全局视角。

贯穿三层的,永远是同一个东西:工程思维。

08 最后,给你讲一个小故事

讲个故事做个对比。

A是提示词高手,库里塞了几十个Skill。每次做新项目,第一反应是"这个得新写一个"。库就像一个塞满衣服却永远找不到穿的衣柜。

B是系统思维者。Skill不到十个。排版、标题、插图、数据分析、案例拆解。每次接新项目,先用十分钟在脑子里用四大骨架拼一遍:哪些能复用,哪些要微调,哪些真得新写。大部分时候,新写的只有任务骨架。

A的产出很高,但总觉得累。

B的产出也高,但他不累。

因为他在用系统,不是用蛮力。

B的秘诀是什么?

"Skill不是你的武器库,Skill是你把脑子里的隐知识,变成能传给明天自己的工程资产。"

 

所以,下次你想写一个新Skill之前,先问自己四个问题:

这个需求我每周都在做吗?流程够固定吗?

这Skill是补能力还是固偏好?要是补能力,我准备好接受它有一天会过时吗?

我的验证方案,能不能用数据替掉感觉?

如果有一天它该退役了,我有勇气删掉它吗?

最后一个问题,最要命。我的小红书Skill教了我一件事:敢承认一个Skill没用了,比敢写一个新Skill更难,也更值钱。

Skill不是攒得越多越牛。留下来的每一个,都得是经过验证的、值得维护的工程资产。就像我的排版Skill、插图Skill、标题Skill,它们不炫技,不追新,就是把我翻来覆去做的事,一次性固下来。

 

而当你把这些工程资产组合成一个系统,能复用、能迭代、能淘汰,你就不再是一个写提示词的人。

你就是这个系统的驾驭者。

最后

用软件工程的思维来编写skill。

问问自己

这个skill值得制作吗,它是否是高频,可复用的需求?

如果是补能力的skill,要不要使用官方已经被验证过的?

你要做的skill是解决什么问题?输入,输出,以及边界是什么?

你制作的skill是补充agent哪一块的手脚执行问题?

做归纳和演绎

从内容中提炼出共性,快速制作MVP

然后不断进行测试修正循环

做对比测试

基准测试: 有skill和没有skill的效果对比

A/B测试: 优化前后版本,效果变好还是变差

性能测试: 新模型和旧模型,效果变化差距

能不能做自动化检测?

Skill的CI/CD的流程,改,测,审,发,如何设定?

一个skill的流程

定目标-写草稿-小测试-看结果-看审查-去修改-大测试-再迭代

   
70   次浏览       4 次
相关文章

基于图卷积网络的图深度学习
自动驾驶中的3D目标检测
工业机器人控制系统架构介绍
项目实战:如何构建知识图谱
 
相关文档

5G人工智能物联网的典型应用
深度学习在自动驾驶中的应用
图神经网络在交叉学科领域的应用研究
无人机系统原理
相关课程

人工智能、机器学习&TensorFlow
机器人软件开发技术
人工智能,机器学习和深度学习
图像处理算法方法与实践

最新活动计划
AI辅助企业网络安全与治理 6-11[北京]
基于模型的数据治理 6-16[北京]
Spec 驱动开发(SDD)实战 6-12[北京]
具身智能技能与实践 6-11[厦门]
AI智能体开发技术实践 6-24[上海]
AI辅助软件测试方法与实践 6-26[在线]
 
 
最新文章
AIGC技术与应用全解析
详解知识图谱的构建全流程
大模型升级与设计之道
自动驾驶和辅助驾驶系统
ROS机器人操作系统底层原理
最新课程
人工智能,机器学习和深度学习
人工智能与机器学习应用实战
人工智能-图像处理和识别
人工智能、机器学习& TensorFlow+Keras框架实践
人工智能+Python+大数据
成功案例
某综合性科研机构 人工智能与机器学习
某银行 人工智能+Python+大数据
北京 人工智能、机器学习& TensorFlow
某领先数字地图提供商 Python数据分析
中国移动 人工智能、机器学习和深度学习