部署了一个 Llama3 [8B 和 70B] 欢迎来尝试

2024-04-23 12:43:14 +08:00
 xingfukuaile

一键直达

8B 版本很惊喜,回复很快,70B 的回复有点慢

4580 次点击
所在节点    分享创造
34 条回复
codingBug
2024-04-23 12:45:42 +08:00
能问问是部署在哪里的吗?
blackwhites1977
2024-04-23 12:47:08 +08:00
用的是啥框架啊?
haiku
2024-04-23 13:19:49 +08:00
groq 应该是目前最快的服务,定制芯片
cwcc
2024-04-23 13:21:39 +08:00
llama3 不微调的话还老是回复英语,即使强制 prompts 中文也老是忘记。等个微调中文的。
zackzergzeng
2024-04-23 13:29:04 +08:00
楼主审批通过了? UI 是 Llama3 自带的吗?
goodryb
2024-04-23 13:57:23 +08:00
@cwcc 同感,本地跑个 8b ,感觉总是记不住中文
NikoXu
2024-04-23 15:33:49 +08:00
ollama 吧
NikoXu
2024-04-23 15:34:23 +08:00
70b 用的什么配置的机器 ?
gongquanlin
2024-04-23 16:09:17 +08:00
翻译方面 80b 够用了
gongquanlin
2024-04-23 16:09:33 +08:00
8b ,不是 80b 。而且效果不错
@gongquanlin
siknet
2024-04-23 17:59:16 +08:00
测试了一下,好像比 3.5 略微聪明。8B 的话大概要多少显存?
zsxzy
2024-04-23 18:13:06 +08:00
我也部署了一个, 在 3060 6G , 跑得很慢
john990
2024-04-23 19:38:40 +08:00
@gongquanlin #10 我试过之后,llama3 不管是 8b 还是 70b ,加上一些限定条件,翻译就完全崩了。
中文翻译只能返回一些标点符号
renmu
2024-04-23 19:56:06 +08:00
llama 的中文语料太少了,中文还是等微调吧
onionnews
2024-04-23 20:38:52 +08:00
@cwcc 用这个:Always response in Chinese, not English.
qloog
2024-04-24 08:25:55 +08:00
@goodryb
@renmu 中文微调版: https://huggingface.co/UnicomLLM/Unichat-llama3-Chinese-8B

由中国联通 AI 创新中心发布业界第一个 llama3 中文指令微调模型(全参数微调),2024 年 4 月 19 日 22 点上传
goodryb
2024-04-24 11:35:54 +08:00
@qloog 看反馈似乎只是微调效果不是很好,看联通回复说可能二次训练,在等等吧
moyuge
2024-04-24 15:35:58 +08:00
mkroen
2024-04-24 16:22:58 +08:00
部署了 llama-8b ,P40 大概占了 16G 显存,感觉英文交流的效果比中文交流好很多,也试了第三方的中文微调模型,效果还是不尽人意。不过速度比较快,效果相比于 Qwen1.5-7b 的效果要好。
craiiz
2024-04-25 09:29:53 +08:00
有大神有网盘链接嘛,不知道为什么申请下来的网址在运行 download.sh 时,选择完要下载的模型后就报错:Forbiden...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1034919

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX