别在用 GPT 的 API 了，自己训练一个 GPT3 LIKE 吧，成本几十美金

swulling

2023-03-25 09:49:18 +08:00

还是得看效果。

技术上有一个可用的临界点，低于这个点就没有产品化的必要。

swulling

2023-03-25 09:50:05 +08:00

目前看这个临界点在 GPT 3.0 和 3.5 之间，3.0 其实已经出来挺久了，但是一直不温不火，就是因为它没有越过临界点。

cattrace

2023-03-25 10:00:41 +08:00

@swulling 最后拼的是高质量数据

今天打算搞一波试试

Merlini

2023-03-25 10:01:05 +08:00

其实部署模型也是一个很复杂的事情，这种大模型本地用还可以，如果想把他做成服务，那需要下太多功夫了

zhleonix

2023-03-25 10:01:07 +08:00

搞一些领域专用模型作为助理工具够用了，也容易在企业应用里面集成。

cattrace

2023-03-25 10:03:42 +08:00

@zhleonix 赞同

dacapoday

2023-03-25 11:25:04 +08:00

@swulling 不过作为追赶者，可以试试找到达到这个临界点所需的最小数据集。进而让模型实现 portable ，打破巨头垄断的局面。

iloveoovx

2023-03-25 11:34:21 +08:00

关于这个临界点其实需要注意自己思维里的盲点
我们会认为是技术上线性提升，是一种增量思维
表面上看也的确符合，多用了 RLHF
但这是关键了，RLHF 可以通过被训练好的 model 迅速传递到下一个 model 里。也就是说，openai 吃了螃蟹，别人可以很低成本地消化它吃过的。
同时，175B 参数一定是那个临界点的阈值吗？不一定。6b + RLHF 说不定也行，可能会好过纯粹 175b 的能力。就这一个变量，就导致线性思维毫无用处，基本会把自己带坑里错过机会

zagfai

2023-03-25 18:24:16 +08:00

3.5 和 4 就是小学生和高三生的差距

Wenbobobo

2023-03-25 18:46:23 +08:00

这个和斯坦福那个羊驼 lora 有什么区别？👀

cattrace

2023-03-25 21:28:20 +08:00

@Wenbobobo 借鉴了那个，这个主要是训练成本很低，作者说是几十美元就有 gpt3 差不多的效果，具体得亲自试试才知道

leimao

2023-03-26 00:17:06 +08:00

低质量的数据集容易生成低质量的模型不说，模型还可能受数据集质量产生各种仇恨负面等言论。这也就是为什么 OpenAI 的模型都有 Human-In-The-Loop ，他的模型说话可以让人接受。

Wenbobobo

2023-03-26 16:48:36 +08:00

@cattrace 这个有部署的 colab 或者教程嘛，好像没找到。之前斯坦福有 colab

cattrace

2023-03-27 07:32:17 +08:00

@Wenbobobo git 里有写用 darabricks

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/927026

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.