如何评估一个 prompt 的效果?

1 月 21 日
 renmu123

在开发 AI 应用时,prompt 的变化带来的效果天差地别,但是在业务中又往往需要更改

但是修改后的 prompt 和原来的到底哪个效果更好,结果好像不得而知,你们是如何来评估 prompt 的效果的,就大致随意测试一下还是有一套完整的流程进行评估

1615 次点击
所在节点    问与答
3 条回复
yrom
1 月 22 日
1. 人,显而易见,太费人了。比如各种大模型比赛 arena ,由人来评价
2. LLM ,是的又当运动员,又当裁判。LLM-as-a-Judge 关键字,一搜一大把
cxh116
1 月 22 日
claude code 的话,用 plan 模式,更复杂的用 speckit 。
renmu123
1 月 22 日
我还是乖乖去写评估脚本吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1187423

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX