https://www.swebench.com/index.html
Django 项目
作用: Django 是一个高级的 Python Web 框架,旨在帮助开发者快速构建和部署数据库驱动的 web 应用程序。它遵循 "不要重复自己" (DRY) 原则,并提供了一整套完整的开发工具,包括用户认证、数据库管理、URL 路由等功能。
Astropy 项目
作用: Astropy 是一个用于天文学的 Python 库,它提供了处理天文数据的工具,例如坐标转换、时间计算、天体物理常数、单位转换等,广泛应用于天文学领域的数据分析和建模。
Matplotlib 项目
作用: Matplotlib 是一个 Python 2D 绘图库,用于生成静态、动态和交互式图表。它支持多种图表类型,如线图、散点图、直方图等,广泛应用于数据分析、科学研究和数据可视化。
SymPy 项目
作用: SymPy 是一个 Python 库,用于符号数学计算。它支持代数运算、微积分、方程求解、矩阵运算等。SymPy 提供了符号计算功能,是数学、工程、科学等领域计算的利器。
Flask 项目
作用: Flask 是一个轻量级的 Python Web 框架,非常适合开发简单且灵活的 Web 应用程序。与 Django 相比,Flask 更加简洁并且易于扩展,它允许开发者以自己的方式配置应用,通常用于小型应用或微服务。
Sphinx 项目
作用: Sphinx 是一个用于生成文档的工具,主要用于 Python 项目的文档生成。它支持从源代码中提取注释、自动生成 API 文档,并将其输出为 HTML 、PDF 等格式。Sphinx 广泛用于开源项目的文档管理。
Requests 项目
作用: Requests 是一个非常流行的 Python 库,简化了 HTTP 请求的处理。它提供了简单易用的接口来发送 HTTP 请求(如 GET 、POST 、PUT 、DELETE ),并处理响应。广泛用于 web 爬虫、API 集成等场景。
Xarray 项目
作用: Xarray 是一个 Python 库,用于处理多维数组数据。它在 Pandas 的基础上扩展了支持多维数据的功能,主要应用于气候、遥感和其他需要处理多维数据的科学计算领域。
Pylint 项目
作用: Pylint 是一个 Python 代码静态分析工具,用于检查代码质量和风格。它能够发现潜在的代码错误、编程规范问题、重复代码等,并给出改进建议,帮助提高代码的可读性和可维护性。
Pytest 项目
作用: Pytest 是一个用于 Python 的单元测试框架。它提供了一个简单易用的接口,支持自动化测试、并发测试、断言等功能。Pytest 具有丰富的插件支持和扩展性,是 Python 开发者进行测试的常用工具。
Scikit-learn 项目
作用: Scikit-learn 是一个广泛使用的机器学习库,提供了一整套常见的机器学习算法(如回归、分类、聚类、降维等)以及相关工具(如模型选择、评估指标、数据预处理等)。它广泛应用于数据科学、机器学习项目中。
为了确定基准性能,使用多语言数据集评估了 SWE-agent + Claude 3.7 Sonnet 。在成本限制为 2.50 美元的情况下,该配置能够正确解决 43% 的任务。
解决率因语言而异(图 2 ),其中 Rust 的解决率最高,C/C++ 的解决率最低。
也解释为什么 ai 编程公司用 Rust 实现 浏览器~ c 语言编译器
| Model | % Resolved | Avg. $ | TrajsNew! | Org | Date | Release |
|---|---|---|---|---|---|---|
| Claude 4.5 Opus medium (20251101) | 74.40 | $0.72 | 2025-11-24 | 1.16.0 | ||
| Gemini 3 Pro Preview (2025-11-18) | 74.20 | $0.46 | 2025-11-18 | 1.15.0 | ||
| GPT-5.2 (2025-12-11) (high reasoning) | 71.80 | $0.52 | 2025-12-11 | 1.17.2 | ||
| Claude 4.5 Sonnet (20250929) | 70.60 | $0.56 | 2025-09-29 | 1.13.3 | ||
| GPT-5.2 (2025-12-11) | 69.00 | $0.27 | 2025-12-11 | 1.17.2 | ||
| Claude 4 Opus (20250514) | 67.60 | $1.13 | 2025-08-02 | 1.0.0 | ||
| GPT-5.1-codex (medium reasoning) | 66.00 | $0.59 | 2025-11-24 | 1.16.0 | ||
| GPT-5.1 (2025-11-13) (medium reasoning) | 66.00 | $0.31 | 2025-11-20 | 1.15.0 | ||
| GPT-5 (2025-08-07) (medium reasoning) | 65.00 | $0.28 | 2025-08-07 | 1.7.0 | ||
| Claude 4 Sonnet (20250514) | 64.93 | $0.37 | 2025-07-26 | 1.0.0 | ||
| Kimi K2 Thinking | 63.40 | $0.44 | 2025-12-10 | 1.17.2 | ||
| Minimax M2 | 61.00 | $0.43 | - | 2025-11-24 | 1.17.0 | |
| DeepSeek V3.2 Reasoner | 60.00 | $0.03 | 2025-12-01 | 1.17.1 | ||
| GPT-5 mini (2025-08-07) (medium reasoning) | 59.80 | $0.04 | 2025-08-07 | 1.7.0 | ||
| o3 (2025-04-16) | 58.40 | $0.33 | 2025-07-26 | 1.0.0 | ||
| Devstral small (2512) | 56.40 | - | - | 2025-12-09 | 1.17.2 | |
| Qwen3-Coder 480B/A35B Instruct | 55.40 | $0.25 | 2025-08-02 | 1.0.0 | ||
| GLM-4.6 (T=1) | 55.40 | $0.10 | 2025-12-01 | 1.17.1 | ||
| GLM-4.5 (2025-08-22) | 54.20 | $0.30 | 2025-08-22 | 1.9.1 | ||
| Devstral (2512) | 53.80 | - | - | 2025-12-09 | 1.17.2 | |
| Gemini 2.5 Pro (2025-05-06) | 53.60 | $0.29 | 2025-07-26 | 1.0.0 | ||
| Claude 3.7 Sonnet (20250219) | 52.80 | $0.35 | - | 2025-07-20 | 0.0.0 |
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.