V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Azure99  ›  全部回复第 1 页 / 共 3 页
回复总数  47
1  2  3  
7 天前
回复了 helllkz 创建的主题 宽带症候群 群辉的 DDNS 会被查吗
ddns 好几年了,直接裸 http 也没被查,当然有可能是因为我域名有备案
12 天前
回复了 junwind 创建的主题 程序员 大佬们好, JWT 如何防止多端登录 ?
jwt 本身就是为了无状态设计的,你要是服务端再维护一个状态,和 session 有什么区别?
@zhlenmao 训练可以租卡,推理用 vllm 13b 左右的模型两张 4090 足够,文档问答这类任务并不难
装火绒,简单无伤让 Windows defender 闭嘴,还有就是用一下流量悬浮框
@siriussilen 首先得澄清一下,我并没有任何贬低 orca 工作的意思,只是说由于 flan 的局限性,数据集的指令多样性并不丰富,所以才需要引入其他的数据来弥补这一块。

训练模型主要用到了 orca wizard math chat 四种数据,wizard 基本就是靠不断的 self instruct 来变异指令。orca(flan)的指令不够多样,但数据多样(上下文),而 wizard 的指令多样但数据不够多样(self instruct 的弊端),他们两个刚好互补。
个人的实验中发现,在不断增加 wizard 的比重时,常规任务表现更好,但阅读理解 抽取 文档问答这种带上下文的任务更差。如果增加 orca 的比重,结果相反。
math 数据集没什么特殊的。
只用 orca wizard 和 math 的话,还有两个很欠缺的点,一个是人类输入的鲁棒性,另一个是多轮对话,chat 数据集是基于 share gpt 重新构建的,这批数据的输入完全由人类产生且由用户主动分享,先天的就过滤了很多简单问答。(实际上只用 chat 数据,就能达到目前指标的 90%,但是阅读理解这类任务稍弱)。

由于 chat 数据量远少于其他数据,最终训练的时候用了多阶段训练,这个可以搜一下 有不少人这么搞。
还有一个就是输出风格的一致性,最早的版本我尝试直接用 sharegpt 的数据来训练(vicuna 的做法),但是原始 sharegpt 的 output 是来自多个不同 chatgpt 版本的,效果并不太好,于是我做了另一个实验,一批用 3.5 0301 0613 和 davinci 多种模型的蒸馏结果混合,一批只用 0613 ,发现只用 0613 的效果明显好于混合来源的,这也是为什么我的所有数据都要重新用同一个模型蒸馏的原因。
这个问题其实很好理解,像那个泰山和嵩山哪个高的问题,0613 倾向于列举高度然后推理谁高,而 davinci 倾向于直接输出谁高,如果把他们混到一起训练,推理的一致性自然会下降,训练时也能很直观的看到 loss 震荡更严重。

关于评估,实际上目前所有的开放评估集的方式都已经不可信了,太多人靠训练阶段加入评估集来作弊。mtbench alignbench 这种基于 llm 裁判的评估,实际上也是在测与裁判员模型的偏好,局限性非常大。
这个项目是个人业余搞着玩的,所有的数据蒸馏,训练都是自费,像训练还是在单卡上用 qlora 跑的,如果跑的起全量 sft ,效果可能还有提升空间。但目前确实是囊中羞涩了,也没有那么多时间和精力去做外围的事情 还请见谅。
@zhlenmao 对于没有标注团队的个人来说,最简单的方法还是蒸馏 chatgpt ,你可以先找一些需要抽取的文本( 1k 条足够),然后让 chatgpt 来完成这个任务,并把数据收集起来(最好人工核对一下正确性),然后在开源模型上微调,虽然违反了 openai 的 tos ,但目前社区基本都是这么做的。
@siriussilen 1800 种多么?基本都是改写、翻译、推理、抽取这类比较传统的任务,最常用的 coding 和 role playing 是缺失的。
此外,在真实的 c 端场景里,用户往往不会那么精心的编写 prompt ,比如"请详细的为我介绍一下大型语言模型是什么",用户的 prompt 可能是"啥是大语言模型",甚至语义、标点都不明确。如果只用这种 input 非常工整的数据训练,那么对于真实人类的输入的鲁棒性就会很差。当然,这不是贬低 orca 的工作,而是说在混合数据的时候,应该特别关注任务的多样性和输入的多样性,不能仅仅依赖单一数据集。
实际上,orca 的"良好"表现基本只存在于论文精心编写的 prompt 中,换成随意的输入就歇菜了。

举例
prompt: whats large lm

blossom: "LM" typically stands for "language model." In the context of artificial intelligence and natural language processing, a large LM refers to a language model that has been trained on a large amount of data and has a high number of parameters. These models are designed to understand and generate human-like text based on the input they receive. xxx 后面还有一些内容,省略。

orca2: I'm sorry, I don't understand your question. Could you please rephrase it or provide more context?

再举一个 case ,带有逻辑陷阱的推理任务,一样无法完成。
prompt: Joe has 10 apples. He washed 3 apples. How many apples does he have now?

blossom: Joe initially had 10 apples, and after washing 3 apples, he still has 10 apples. Washing the apples does not reduce their quantity.

orca2: Given:
Joe has 10 apples
He washed 3 apples
Goal: How many apples does he have now?
Steps:
To find the number of apples Joe has now, we need to subtract the number of washed apples from the number of original apples.
We can use the subtraction algorithm to do this.
10
- 3
----
7
此处省略一些内容
### Final answer: Joe has 7 apples now.
@siriussilen orca 是基于 flan 构建的,虽然数据(input)的多样性不错,但任务(instruct)的多样性还是不够强 我记得只有一千多种,所以一般得混合上其他数据集,不然对于输入的鲁棒性太差了,我搞了一个中文的 orca 数据集,有兴趣可以在仓库里看下
@lyping 能不能跑起来基本只跟显存有关,34b 的模型 4bit 量化后,24G 显存勉强能跑起来,但量化毕竟是有精度损失的。消费级硬件 3090 性价比最高,一张不够就两张,两张不够就四张。
@siriussilen 是的,我已经强调了本质还是数据样本不够均衡。怀疑他们的数据是蒸馏 chatgpt 搞出来的,蒸馏的时候无脑加了 think step by step ,又没有仔细的人工审查
@siriussilen 举一个例子
SFT 标注数据
inst:泰山和嵩山哪个高?
output1:泰山的海拔高度为 1545 米,而嵩山的海拔高度为 1491.71 米。因此,泰山比嵩山高。
output2:泰山高。
在这种需要多步推理的任务中,output1 实际上是更易于模型推理的,然而,如果训练数据中都是这种 target ,甚至在指令中明确要求了不要输出无关内容,但依旧标注了推理链路,就会造成下面这种不遵循指令的情况。(本质还是数据样本不够均衡)

推理
inst:请判断下面的评论是好评还是差评,好评输出 true ,差评输出 false 。评论:真难看,不推荐购买
output1:"真难看,不推荐购买"有明显的消极观点,因此是差评,所以,输出 false 。
output2:false
假设我们的业务只需要 true 或 false ,那么 output1 实际上不可用。
@yplam yi 的 base 模型还是不错的,但是对齐的时候可能用了大量 cot 数据,导致做一些需要直接输出的任务很差,比如抽取?也会给你先分析一通,基本不可用
@siriussilen demo 是 yi 34b base 做 sft ,推理 demo 4bit 量化过。未量化版本 mtbench 7.30 ,alignbench 5.93 ,至于评估的严谨度,这种 llm as judger 只能做个参考 更多的反应的是是否符合裁判员模型的偏好。

像那些 ceval mmlu 之类的选择题任务,已经没有评估的意义了,很多"高分"的模型(或者说绝大多数国产模型)都是通过预训练阶段加评估集实现的,然后公关说是无意的语料泄露,懂得都懂。
@stimw 因为 llama 在预训练的时候并没有多少中文语料 中文 ppl 会非常高,所以中文任务最好用国产的预训练模型
@skyqqcc581 @lstz 具体还是要看场景的,举个极端的例子,假设是离线跑批量预测的场景(例如生成文章),那么你用 vllm/tgi 一张 4090 推理 7b 的模型,是几乎能达到千 token/s 的,那么一小时能生成 3600k token ,成本只有两块钱,而阿里云上 7b 的模型跑这么多 token 需要花 0.006 * 3600 = 21.6 元。
另外,假设你需要微调模型的生成风格,直接用 API 也是无法做到的。
@yuyue001 可以选择租卡,训练的话,4090 24G 显存用 lora 就足够微调 7b 甚至 13b 的模型了,一小时不到两块钱,a100 40G 也就 4 块钱,还是可以接受的
开源大模型比较不错的有 qwen baichuan yi ,也有领域特化的,像 deepseek coder 这种。
具体看你是什么任务,如果是比较简单的问答 文本生成,或者传统 nlp 任务,又或者你希望在下游微调一些特定任务,那么开源模型是能不错的完成的,但是代码和数学与 gpt 3.5 有明显差距。

另外推荐一下自己微调的 LLM ,主旨是提供一套公开的 SFT 数据(因为目前大部分中文开源模型只公开了权重,但是训练数据,尤其是指令对齐的数据并不公开,导致从 Base 到 Chat 的复现有一定难度)
https://github.com/Azure99/BlossomLM
在线 Demo
https://blossom-chat.com/
85 天前
回复了 crazyTanuki 创建的主题 Node.js 你们是怎么部署 nodejs 的?
自己的项目 4
有没有可能,有种分表策略叫哈希分表?
2023-01-14 00:51:02 +08:00
回复了 houhaibushihai 创建的主题 VPS 搬瓦工神鸡来了 2c2g40g 1T 月流量,虽然要 99 刀/年
还是抱着我 29 刀 2C2G 40G 1T 的 DC3 CN2GT 吧
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1637 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 16:50 · PVG 00:50 · LAX 09:50 · JFK 12:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.