RAG 系统如何做 Evaluation 呢

2 天前
 v3rocket
想和各位大神请教一下,RAG 系统都怎么做 evaluation 呢? 如果创建 golden dataset 呢? 尤其是海量文档的情况下。

可以付费请教!
1137 次点击
所在节点    程序员
6 条回复
Latin
2 天前
Asimov01
2 天前
也是我困惑的问题,关注一下,等大佬
wuyazuofeiji
2 天前
ragas
Zhuzhuchenyan
1 天前
我司很粗犷的,有新的变化之后直接灰度给所有使用者然后对比使用者在多个版本之间的满意度的差异
专门分了一个人做生产环境的数据采集+分析
Asimov01
1 天前
@Zhuzhuchenyan 粗暴但合理,直接让用户做 A/B Test 。但是在正式上线之前怎么做一个合格的效果评估,还是挺重要的,否则就没有用来做 A/B Test 了 😂
Zhuzhuchenyan
1 天前
@Asimov01 我们是给公司内部员工使用的,所以不担心用户问题,不过免不了一些批评的声音了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1162878

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX