![]() |
1
totoro52 2 天前
传统大模型普遍采用 Transformer 架构,其计算复杂度随序列长度呈平方级增长,导致训练和推理成本居高不下。SpikingBrain-1.0 突破性地引入脉冲神经元技术,构建了线性( 7B 参数)和近线性( 76B 参数)复杂度模型。测试数据显示,在 GPU 环境下处理 100 万长度序列时,其首个 Token 生成速度较主流模型提升 26.5 倍;处理 400 万长度序列时,保守估计速度提升超过 100 倍。移动端测试同样亮眼,在手机 CPU 上处理 6.4 万至 25.6 万长度序列时,解码速度较同规模 Llama3.2 模型提升 4.04 至 15.39 倍。
|
![]() |
2
totoro52 2 天前
问了 8.6 和 8.10 哪个大? 回答如下:
8.10 大于 8.6 。 原因: 版本号中的数字从左到右依次递增,且每位数字按十进制比较大小。例如: 。主版本号(第 1 位)相同的情况下比较次版本号(第 2 位)。若主版本号不同,则直接对比主版本号 结论:8.10>8.6 。 |
3
KinBob 2 天前
问题:我叫我的姐姐的女儿的舅舅的儿子叫啥
|
4
brsyrockss 2 天前
@KinBob 回答:我 dnmd 回家问你姐去
|
![]() |
5
cherryas 2 天前
@totoro52 你这个回答的是版本号是正确的。 我加了个数学中:
在比较两个小数时,应先比较整数部分,再依次比较小数部分的每一位。 整数部分均为 8 ,相等。 8.6 的小数部分为 0.6 8.10 的小数部分为 0.10 0.10 (十分位上的 1 ,百分位上的 0 )。 结论: 8.6 大于 8.10 。 |
6
hanbing135 2 天前
@totoro52 已经修正了
|
7
deplives 2 天前
|
![]() |
8
c4923 2 天前
@KinBob 你叫你的姐姐的女儿的舅舅的儿子叫"曾侄子或曾侄女"。
详细推理过程: 起点:你自己 → "我" 姐姐的女儿 → 表妹的孩子,即你的外甥或外甥女。 舅舅的儿子 → 表兄弟姐妹的孩子中的一个(舅舅一般有多个儿子)。 舅舅的儿子的儿子 → 孙辈,即你的曾侄子或曾侄女。 因此,最终的答案是第三代亲属,即曾侄子或曾侄女。 |
![]() |
9
WillBeethoven 2 天前
眼一花看成了 SpringBrain
|
10
lance07 2 天前
随便问了个系统设计问题, 纯胡言乱语啊, 不管啥都给你扯什么模型啥的, 还有一堆莫名其妙的概念
|
11
hongc 2 天前
它说:““你爸爸的妈妈”指父亲的外婆。”
...... |
![]() |
12
joshuacavell 2 天前
笑死,我问"我和我的七舅姥爷是什么关系"
推理过程:"“舅”通常指父亲的兄弟,也就是姑父。“姥”则是母亲的姐妹,也就是姨妈。" |
![]() |
13
Goooooos 2 天前
还有很多优化空间
|
![]() |
15
v2tex 2 天前
想起来一张图:不管对不对,你就说我算的快不快吧(
|
![]() |
17
yb2313 1 天前
问了一下感觉智力过低, 中科院做出 ai 成果有可能, 但做成跨时代成果不可能
|
![]() |
18
siriussilen 1 天前
“传统大模型普遍采用 Transformer 架构,其计算复杂度随序列长度呈平方级增长,导致训练和推理成本居高不下” 不然嘞,linear attention 没什么问题,就是性能拉跨, 你想想为什么大家都在用 transformer 呢?
|
![]() |
19
coefu 1 天前 ![]() 目前只是 1.0.
完全不同的技术路线,能走通,并有一定的效果,就是很好的了。 脉冲神经网络( SNN )目前硬件没有跟上,当硬件跟上配合的时候,能在极低的功耗下工作,比当前的 ANN 有搞头的多。 这就像是 gpt1 ,你不能用 gpt5 的水平去要求 gpt1 。 很遗憾,在程序员这个节点,没有看到前瞻性的老铁。可能大家的知识点都被框在了 web 体系。整个计算机科学与技术,不止 web/移动端 这些。 |
![]() |
20
coefu 1 天前
@siriussilen 2017 年 transformer 出来之后,谁会预料到 gpt3.5 在 2023 年就起来了呢?当然了,snn 做 LLM ,因为可以摸着石头过河,所以比之 gpt1~gpt3 的原创突破性有所不足,但至少也填补了一条非 transformer 路线的空白,并且因为 snn 的低功耗和时序处理优势,可能会走出一条更好的路线。
transformer 的各种变种都已经是强弩之末了( LLM 的功能和性能的边际效应递减,导致代际提升放缓,gpt4~5 的提升并没有 1~3 激烈),你不想想为什么要找新路线? |
![]() |
21
coefu 1 天前
前瞻性预测,如果第一作者李国齐,因为这个瞬悉获得国家进步科技奖,国家科技进步二等奖足矣,那么大概率后续会评院士。因为他目前已经是杰青了。截止 2025.9 ,snn 目前国内 team 本就不多,一部分做硬件,算法这块出成果的鲜有。所以也算是填补了空白,往往这种填补空白的工作收益很大。
插个 flag ,后续有新闻了,且看老夫的前瞻性眼光如何。 |
![]() |
22
siriussilen 1 天前 via iPhone
@coefu gpt3.5 出来和 sparse attention 没啥关系啊,我在和你就事论事,你在说新技术新路线新变革就算是 gpt6 出来了,也和 Sparse attention 一点关系都没有,二次方复杂度就带来二次方的效果,仅此而已。无数的实验都表明 Sparse attention 性能就是有损,拿 Sparse attention 当新变革我只能说你是一个半吊子
|
![]() |
23
siriussilen 1 天前 via iPhone
@coefu 这玩意就是骗经费用的,实用价值是 0 ,没错,就是 0
|
![]() |
24
coefu 1 天前 ![]() @siriussilen #22 我半吊子,你就是全吊子?就事论事搞人身攻击?我也是就事论事啊,脉冲神经网络和人工神经网络,底层构造就不同,你有真正了解过吗?开口闭口就这玩意儿。NLP 是不是就只能搞 transformer ?是不是只有 attention 机制绝对正确?这么狂,你几斤几两啊?放点你的学术成果也让我长长见识?
当然了,脉冲神经网络未来的发展,也不是你说实用价值是 0 就是 0 ,只能说你这个人,水平一般,口气很大。有你这种毫无远见的人,才能凸显别人的成就。 不用再回我,已经 block 你了。👎 |
![]() |
25
siriussilen 1 天前 via iPhone
@coefu 笑死😂 愿你永远活在愚昧中
|
![]() |
26
siriussilen 1 天前 via iPhone
@coefu 没有经过时间检验的就是 bullshit 指标刷上去再谈变革,ok👌?
|
27
testy 1 天前 via Android
为什么用 cf 隧道?还是临时的
|
28
Meteora626 18 小时 12 分钟前
非 tf 的大模型又不是没有,就看谁能卷出效果了。
|