Anthropic 发布了更强大的 Claude 3 AI,性能超越 GPT4!

64 天前
 lcwing

昨天晚上,Anthropic 公司推出 Claude 3 系列模型 ,被视为迄今最快且最强大的聊天机器人,能总结大约 20 万个单字(约一到两本长篇小说),使用者可上传照片、图表、文件等进行分析和解答,全面超越 GPT-4 ,大型语言模型(LLM) 的霸主一夕换人!

Anthropic 是一家人工智能初创公司,得到了亚马逊(以及其他公司)的支持,投资额达 40 亿美元。该公司是有效利他主义运动的松散一部分,这实际上意味着它试图以安全、负责任的方式开发人工智能技术,造福公众,而不仅仅是股东。

Claude 3 包括三个顶尖的模型,按能力递增排序:Claude 3 Haiku 、Claude 3 Sonnet 和 Claude 3 Opus 。

Anthropic 表示,Claude 3 系列模型在推理、数学、编码、多语言理解和视觉方面,都竖立了新的产业基准。

Claude 3 模型系列

Claude 3 绰号涵盖了三个新的 LLMs ,其中最有能力的是 Claude 3 Opus 。这是 Anthropic 的全新高级 AI 模型,仅适用于 Claude Pro 用户。根据该公司的基准测试,其研究生水平推理能力在测试时得分为 50.4%,而 GPT-4 的得分为 35.7%。

接着是 Claude 3 Sonnet ,如果您不想支付 Claude Pro 订阅费用,可以使用它。当然,它仍然被认为是非常有能力的,其研究生测试分数为 40.4%(再次与 GPT-4 的 35.7% 分数相比)。

最后是 Claude 3 Haiku ,这是目前尚未发布的第三个模型。就复杂性和大多数功能而言,它位于家族树的底部,但其设计目的是成为最快的版本并提供近乎即时的响应。

Claude3 与 GPT4 的比较

以下是 Claude 3 与多个模型的比较:

由此可见,Claude3 已经超越了 GPT4 ,成为当前最强大的模型!

极快的响应速度

Claude 3 可以支持实时客户交流、自动文本补全和数据提取等任务,这些任务要求响应迅速且即时。Haiku 模型是最快速度和高成本效益的,它能够在短短三秒内处理和解读 arXiv 上的信息密集研究论文(约 10k 个字符),包括论文中的图表和图形元素。我们预期 Haiku 在发布后将进一步优化性能。相比之下,Sonnet 在处理速度上比 Claude 2 和 Claude 2.1 快两倍,并展现出更高的智能水平。它特别适用于需要快速反应的场景,如知识查询或销售流程自动化。至于 Opus ,则在保持与 Claude 2 和 2.1 相似的处理速度的同时,提供了更高级别的智能。

超强的视觉能力

Anthropic 发表了一份长达 42 页的技术报告,以介绍自家这 3 款模型。Claude 3 系列模型能够支援即时使用者交流、自动完成和资料撷取等任务(需要立即且即时的回馈)。Anthropic 预计,在模型发布后,其效能还将得到进一步的最佳化。Claude 3 模型拥有与其他领先模型相当的复杂视觉能力。它们能够处理包括照片、图表、图形和技术图纸在内的各种视觉格式。

更精准的答案

Claude 使用了一套大型的复杂、事实性问题集,这些问题针对当前模型的已知弱点。他们将响应分类为正确答案、错误答案(或幻觉),以及不确定性的承认,即模型表示它不知道答案,而不是提供错误信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上展示了两倍的准确度提升(或正确答案),同时还降低了错误答案的水平。

也就是说模型会告诉你他不懂,而不是乱说从而误导你。(深受 GPT4 的欺骗)

更长的记忆

Claude 提供了长达 200k 的上下文窗口。为了有效处理长篇的上下文提示,模型需要强大的回忆能力。"大海捞针"( Needle In A Haystack ,NIAH )评估衡量模型从大量数据中准确回忆信息的能力。我们通过使用 30 个随机针/问题对中的一个来增强这一基准测试的健壮性,并在多样化的众包文档库上进行测试。Claude 3 Opus 不仅实现了近乎完美的回忆能力,准确率超过 99%,而且在某些情况下,它甚至识别出了评估本身的局限性,通过识别“针”句似乎是人为插入到原始文本中的。

修正过度拒绝的问题

Claude 旧模型常因为不够理解而拒绝回答,Claude 3 系列已在此方面显著改进,Opus 、Sonnet 和 Haiku 在面对可能触及系统安全边界的询问时,大大减少了拒绝回应的情况。

价格方面

虽然 Claude3 现在能够吊打 GPT4 ,但是价格实在是不太友好。API 比起 GPT4-Turbo 要贵很多。

现在这样看来还是 GPT4 比较划算。

GPT-4 Turbo (128K): $10 / $30

Claude 3 Opus: $15 / $75

Sonnet:$3 / $15

Haiku:$0.25 / $1.25

上面是 API 的价格,订阅 Claude Pro 也是可以使用 Claude 3 Opus 的,订阅价格跟 ChatGPT Plus 一样是每月 20 美元。

Claude 官网:Claude \ Anthropic

参考文章:Claude3 深夜发布,全面超越 GPT4 !

2585 次点击
所在节点    分享发现
15 条回复
xiaoz
64 天前
Claude 封号比 OpenAI 还狠
kneo
64 天前
开发订阅了吗?
kneo
64 天前
这个开放了吗?还是要等?
lekai63
64 天前
claude 以前有个号,不过没开通订阅。

关于 ai 能力的化,我觉得评分是一方面,具体还是要看自己的使用情况,比如这位推主可能并不觉得 claude 超越 gpt-4
https://twitter.com/RubenHssd/status/1764692641436827842
lcwing
64 天前
@kneo 能用了 但是很容易封号
andrew2558
64 天前
试了下,效果是真的可以
Pepega
64 天前
目前来看,编程是 claude 的优势,附上比较视频
<amp-youtube data-videoid="sX8Ri3w2MeM" layout="responsive" width="480" height="270"></amp-youtube>?si=mQJoqH8FbSr16UQD
min
64 天前
测试了一下在特定任务上和 gpt4 互有胜负,有竞争对用户来说是好事啊
James369
64 天前
为什么我在注册页面输入手机号码地方找不到 China ,但是有 TW 。。
nicoljiang
64 天前
测了一个写程序,差了 gpt4 不少。
flynnlemon
64 天前
200k 的长文本输入月之暗面已经做了吧,感觉不是什么太新鲜的事情了
uses090
63 天前
Claude 3 确实写代码比 GPT4 和 Team 强很多,但是审查也比对手严重,稍微涉及到爬虫的东西即便有时候骗过去了他发现生成的代码有爬的倾向就立刻又给撤回了
d29107d
63 天前
geniusmyn
63 天前
刚注册完还没来得及绑手机号就被封了 请问有无大佬有解决办法
Kamiimeteor
63 天前
有人拼车 Claude3 pro 吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1020886

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX