V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  siriussilen  ›  全部回复第 1 页 / 共 18 页
回复总数  354
1  2  3  4  5  6  7  8  9  10 ... 18  
55 天前
回复了 lstz 创建的主题 OpenAI 用贵的国产大模型 API 是否效果堪比 GPT4?
@sighforever 问题的关键字在于效果吧,“基础的简单任务还是能胜任的,比如翻译,总结,扩写,代码补全” 这些在过去几年,非 decoder only 架构的模型同样也做的很好。 如果没有推理能力就无法胜任更复杂的任务,就不会引发新一轮的生产力变革。
82 天前
回复了 Davy 创建的主题 OpenAI Claude 3 超越 ChatGPT 4
@cat9life chatbot arena 本身就是一个盲测,大众从实际体验出发的评测平台
111 天前
回复了 shakespark 创建的主题 宽带症候群 北京联通海外宽带加速(9929)体验
@shakespark 我开了三个月,还是退订了(我办理的是 9929+固定公网 ip 的)价格太贵,另一方面梯子完全可以没问题,而且梯子成本更低,我就不折腾了
用 IBKR 呗,利率低
112 天前
回复了 shakespark 创建的主题 宽带症候群 北京联通海外宽带加速(9929)体验
@playingangel “我是开了 9929 跑的,1000 可以跑满,前两天下载 mac 上一个 70 多 g 的游戏测试的”
有确定流量走了 9929 吗?
112 天前
回复了 shakespark 创建的主题 宽带症候群 北京联通海外宽带加速(9929)体验
@shakespark 我的是 2000M ,但是只能跑 300 ,是不是可以联通投诉一波啊,就说网速不达标
112 天前
回复了 shakespark 创建的主题 宽带症候群 北京联通海外宽带加速(9929)体验
@shakespark 我说错了,是 300 左右,330
112 天前
回复了 shakespark 创建的主题 宽带症候群 北京联通海外宽带加速(9929)体验
@playingangel 真的测过吗? 坐标朝阳,warp 最多只能跑 230M ,怀疑局端有限速模版
112 天前
回复了 shakespark 创建的主题 宽带症候群 北京联通海外宽带加速(9929)体验
“9929 的带宽是和原有带宽一致的,即原有家宽千兆上行百兆,则测速 9929 到海外也是这么高(没有千兆海外机器,但是至少不是之前有人说的 200m ),这就有点牛了”
其实应该看的是 vps 的下行,和家宽上行没关系啊,如果看的话,能测出来 speedtest 只有 230M
113 天前
回复了 412999826 创建的主题 Apple 看“再次感叹 airdrop 的黑科技”的帖子有感
同意很多人只是喜欢输出自己的情绪而已,并不是真正讨论问题
115 天前
回复了 lmx07 创建的主题 阅读 学习批判性思维看什么书?
@ooee2016 独立思考和核心就是批判性思维吧
115 天前
回复了 Jinnrry 创建的主题 程序员 Google Gemma 开源没人讨论下吗?
@keepRun gpt3.5 是 20B 的模型……
115 天前
回复了 Jinnrry 创建的主题 程序员 Google Gemma 开源没人讨论下吗?
中文社区讨论大部分都在知乎上
139 天前
回复了 onikage 创建的主题 问与答 ai 训练(非大模型)现在可以用 cpu 跑吗?
可以,就是慢了点
@TXisfine 还能备案?????
140 天前
回复了 TESTFLIGHT2021 创建的主题 宽带症候群 北京联通 AS9929 谁测试过?
用上了 限速 200M ,speedtest 最多能跑 230M
@Azure99 看错了,5.98 是某个单项的。不是总分,如果只看这两个评测结果来看的话,确实感觉这批数据的效果还不错,不过我感觉还是说不清这个收益的提升是因为你的数据多样性、高质量带来的,还是因为引入中文语料的所带来提升,感觉再补充更多的评测证明工作的有效性会更好一点,已 star
@Azure99 求解释下上面的信息👆
是这样,我们都知道 sft 的时候需要保证样本的多样性以及使用高质量的样本是吧,以及你在上面也提到了现有的大部分 sft 工作就是把 chatgpt 或者人类编写的高质量回复作为一个 teacher 模型来指导相对小模型的学习。Orca 的意义在于给你了一种看似还不错的数据加工方法,让你能够在某一批通用数据的基础上使用这种方式组织样本后能够最大限度发挥 teacher 的能力,通过 sft 的方式迁移到小模型上还能取得一个不错的效果。Orca 也只是在 Flan 工作的基础上证明这条技术路线的有效性而已。

我刚刚看了一下您的数据精调模型( blossom-v4-qwen-14b )和其他通用精调模型( qwen-14b-chat )的对比
我看在你的 github 里 AlignBench 评估中,blossom-v4-qwen-14b 是 5.66 分,qwen-14b-chat 是 5.41 分。
但是我在 Align Bench 的 github ( https://github.com/THUDM/AlignBench )中看到的评测信息,qwen-14b-chat 是 5.98 分,这个怎么理解啊?
1  2  3  4  5  6  7  8  9  10 ... 18  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5305 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 07:52 · PVG 15:52 · LAX 00:52 · JFK 03:52
Developed with CodeLauncher
♥ Do have faith in what you're doing.