一个来自中国创业者 L5 自主编程能力的探索

54 天前
 yafeilee

大家好,我是 ShowMeBug 的创始人亚飞,全栈工程师,连续创业者。今天非常高兴跟大家介绍一下,我们自主研发的、带有 L5 自主编程能力的 1024Code 云端开发平台和进展情况,目前我们已经启动了公测邀请。

1024Code 云端开发平台介绍视频: https://www.bilibili.com/video/BV1YF4m1c7rH/?share_source=copy_web&vd_source=9bb16af47f4ff115bffa964190f6fa4b

1024Code 的核心能力

1024Code 是采用 1024PaaS (全栈自研的云端编程环境)为核心,通用大模型为基座,花费了 10 多个月构建一套自主决策链 AI Agent (目前称为 AI 导师),提供了编程环境感知,代码编辑,Shell 、Console 的自阅读,运行与自主 Debug 。

简单来说,就是将 AI Agent 安装了手与脚,让其自主完成需求分析到编码调试的过程。

1024Code 尝试定义 AI 与人类编程交互的新方式

在当前阶段,1024Code 更相信人类的代码,所以 AI 在修改人类代码时需要人类确认,AI 在修改自己的代码时可以立刻生效。

得益于我们全栈自研的技术,我们的团队能够深度定义编辑器的内核,实现快编辑的能力,能够准确区分代码是来自 AI 生成还是人类编写。

具体能力介绍

从零开发一个小项目

1024Code 可以根据你的需求介绍,进行 MVP (最小可行版本)拆解需求,然后实现第一版 MVP 。它可以实现一个小型项目(至多不超过 10 个)多个文件的生成和编辑。

解决一个小的需求

你提出需求,1024Code 的 AI 导师会首先自行感悟编程环境(例如是哪个语言哪个框架),然后分析需求(如遇需求不清楚时会自行跟你互动),构建代码语义树,确定需要创建新的文件或者修改哪些文件,生成对应代码,利用 1024PaaS 提供的更新代码块能力进行逐字处理。最后尝试运行代码并检查控制台输出,完成本次需求实现。

自动 Debug 错误

发现控制台的错误时,它会自行开始 Debug 调试错误。读取报错信息并决定如何修复,然后读取对应代码进行修改。

与人类在代码归属上创新互动

AI 导师可以直接修改它自己之前完成的代码,修改人类代码需要一个确认与 diff 比较的过程。

1024Code 中 AI 导师的能力限制

AI 导师在 1024Code 中是一个完全拟人的存在,它有自己独立的交互界面,甚至人类可以直接观察它的每一步操作。由于当前大模型的智能还不足够,我们看一下能力上的限制。

决策能力上的限制

目前超出 10 个文件的较大项目表现会出现成功率大幅下降的情况。

在网页项目、命令行项目、Python 游戏外的项目,目前没有针对优化。

浏览器眼睛视觉还未添加

在更理想的情况下,AI 导师应该能主动识别浏览器网页上的界面错误,并进行修复,但这个依赖于现有大模型的多模态能力与 Token 成本,目前还未实现相关能力。

未来的展望

未来的编程世界将发生重大范式变化,云端编程+原生 AI 编程将彻底改变传统本地开发方式,就如同文档在线化置于本地编辑,Figma 置于 PS ,网盘置于本地 USB 存储。80% 的代码由 AI 完成,人类完成剩下的架构工作是接下来 AI 时代相当长时间持续的一种新的编程常态。

具体案例

同事跑了几个项目,大家可以点击视频链接了解:

  1. 尝试使用 1024Code 的 Agent 智能体功能修复 Chart.js 里一个 Bughttps://www.bilibili.com/video/BV1Lj421f7UK/?share_source=copy_web&vd_source=9bb16af47f4ff115bffa964190f6fa4b

  2. 使用 Agent 智能体功能补全&迭代音乐播放器项目代码https://www.bilibili.com/video/BV1uK421v74Z/?share_source=copy_web&vd_source=9bb16af47f4ff115bffa964190f6fa4b

  3. 国内也有 Devin 了?一句话需求生成 2048 游戏!https://www.bilibili.com/video/BV1m2421N7eN/?share_source=copy_web&vd_source=9bb16af47f4ff115bffa964190f6fa4b

我们已经发布邀请码公测

1024Code 目前已经启动了邀请码公测,大家可以通过朋友或者主动申请获取邀请码来体验和使用产品,目前整个产品完全免费,AI Agent 的体验使用是积分消耗模式。

如果你在商业、投资或大模型能力上想与 1024Code 合作可以直接加创始人微信号:lyfi2003

让我们一起打造下一代全新 L5 全自主编程新范式吧!

5730 次点击
所在节点    分享创造
34 条回复
kkk9
54 天前
李彥宏 2.0😅
rina
54 天前
赞一个
qsgy123456
54 天前
AI 做自动化软件测试效果会不会更好一点?我写了代码,但是不知道哪里有问题,AI 自己搞测试案例,自动测试,或者使用软件测试。
单元测试让 AI 来做,感觉有戏。
amon
54 天前
很好的尝试,看了音乐播放器和修改 Chartjs issue 的视频,感觉交互上挺完善。
不过目前还是偏玩具性质,距离工业级应用不知道有多远。
Rrrrrr
54 天前
自主模型?
yafeilee
54 天前
@Rrrrrr 用的通用大模型底座,上面自己研发的决策链 agent
yafeilee
54 天前
@kkk9 😂,不管怎么样,李彦宏还是更有成就。希望他少吹点😅
matrix1010
54 天前
Devin 我估计不太可能被墙,就看他们想不想做国内。如果到时候发布而且国内能用的话 op 这个就比较危险了,很有可能被 ioi 金牌团队降维打击
paopjian
54 天前
用你们的能力评测已经怀疑人生了
yafeilee
54 天前
@paopjian 抱歉有啥问题可以反馈给我们客户成功那边会帮你修复
pixelbook
54 天前
未来不需要像李彦宏一样的人类 CEO ,决策层最容易被 AI 替代
Xs0ul
54 天前
code llama?
alexhx
54 天前
这类产品,定位角色应该是助手吧,导师什么的,一听就像是来骗钱的~
不过感觉主要面向的用户是学生或者刚入门的初学者,导师倒是比较让人容易有信赖感
要在程序员里推,怎么也得把 VSCode 和 JetBrain 插件版配上啊,不然怎么推广的开
keepRun
54 天前
很有意思,思路跟一般的辅助编程产品思路不一样,不过我提出几个问题:
1. 如何更好的整合到 ide 中?通义灵码这种产品已经可以在 IDEA 和 vs code 中使用,如果你的产品只有网页端无论是从推广还是使用体验上都不够好
2. 到时候如何付费? copilot 像是陪伴程序员,可以按月付费,可是你的产品似乎用于 mvp 阶段,用不了多少次,如果没有其它功能刺激用户一直使用,那就难以持续
zsmer
53 天前
我们公司之前找人体验过这款产品准备用在面试上,两点体验:
一是对小屏用户不太友好,UI 还有改进设计的空间,多文件不能同时展示得来回切
二是代码提示不够快
locoz
53 天前
决策能力方面看起来是模型的问题,可以试试在用 Claude 3 的情况下能达到什么程度,我现在让 AI 改代码、加功能都是几个文件直接丢过去了,可工作的上下文长度长带来的效果极其明显。
locoz
53 天前
@matrix1010 #8 不至于的,都是依赖别人的模型实现的效果,在用的模型一致的情况下做不到多大的能力差距。
有些类型的问题,当下的语言模型搞不定就是搞不定,哪怕是人专门去精选输入内容和调整 prompt 都很难搞定,这是模型基本能力的问题,再优化也解决不了。
locoz
53 天前
@pixelbook #11 在决策层被 AI 取代之前,底下干活的早就被取代完了。决策层最核心的能力之一就是想法要具有前瞻性、能看透一个甚至多个行业找到最合适的路线,指望靠着以大众发布的内容为主的数据去训练出一个能站在更高的角度看问题的 AI ,在当下属于是做梦。当下这种训练方式能做到的 AI 仅限于把客观的信息概括出来,在没有人去引导的情况下是完全做不到跨多行业“思考”出能称得上是“决策”的东西的。
matrix1010
53 天前
@locoz devin 到底依赖的是什么似乎没公布。但效果可以跑 swe bench 对比
locoz
53 天前
@matrix1010 #19 小公司没有任何 [自己训练一个能跟 GPT4 之类头部级别的模型 PK 的模型] 的可能性,所以为了效果好只能是基于 GPT4 或者 Claude2/3 这种头部的大模型来实现,否则模型的基础能力差会导致很多问题完全解决不了。

另外,新智元 介绍 Devin 的文章最后有提到:“CEO Wu 并没有详细说明他们的智能体背后使用的 AI 技术,只是笼统地解释说,团队找到了将大语言模型(例如 OpenAI 的 GPT-4 )与强化学习技术相结合的独特方法。”,很显然也只能是行业头部的大模型了。

效果方面我觉得没什么好对比的,根据官方的说法和演示视频中的效果来看,大概率是加了个提取关键信息的模型,代替了人提取关键信息给 AI 的步骤,做到在使用尽可能压缩上下文的情况下丰富信息量,自动化地让 AI 在输入信息密度极高的情况下输出东西,这效果当然会比上下文长度受限、可输入信息不全的情况下只能直接丢问题给 AI 的情况要好。

但其实随着像 Claude 3 这种支持更长上下文的模型进一步发展,未来完全可以在不需要那么精细地提取关键信息的情况下让 AI 得到所需的所有信息,哪些文件相关那就直接把文件都丢给 AI 就行了。在这个前提下,Devin 做的这种优化其实优势是会越来越小的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1024090

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX