中科院发布SpikingBrain类脑大模型：基于国产GPU实现超长序列高效处理

来源：新智元发布时间：2025年09月09日浏览：192 0 收藏

中国科学院自动化研究所的科研团队近日取得重大突破，推出国内首个自主可控的类脑脉冲大模型SpikingBrain（瞬悉）-1.0。该模型通过模拟人脑神经元工作机制，构建了全新的线性复杂度架构，在超长序列处理领域展现出显著优势，为人工智能发展开辟了新路径。

传统大模型普遍采用Transformer架构，其计算复杂度随序列长度呈平方级增长，导致训练和推理成本居高不下。SpikingBrain-1.0突破性地引入脉冲神经元技术，构建了线性（7B参数）和近线性（76B参数）复杂度模型。测试数据显示，在GPU环境下处理100万长度序列时，其首个Token生成速度较主流模型提升26.5倍；处理400万长度序列时，保守估计速度提升超过100倍。移动端测试同样亮眼，在手机CPU上处理6.4万至25.6万长度序列时，解码速度较同规模Llama3.2模型提升4.04至15.39倍。

研发团队创新性地将生物神经元动力学特性融入模型设计。通过构建自适应阈值神经元模型，精准模拟神经元脉冲发放机制，配合虚拟时间步策略实现电位与脉冲的转换。这种动态阈值脉冲编码方案，将传统模型中占比超90%的稠密矩阵运算，转化为事件驱动的稀疏脉冲计算，使神经元在静息状态下保持极低能耗。结合网络层的混合专家（MoE）架构，形成微观神经元与宏观网络的双重稀疏化机制，实现计算资源的高效分配。

在模型兼容性方面，研究团队建立了脉冲神经元动力学与线性注意力机制的数学关联，证明现有线性注意力是树突计算的简化形式。基于此理论突破，开发出标准自注意力机制到低秩线性注意力模型的转换技术，并适配脉冲编码框架。为支持国产算力生态，团队还研发了面向国产GPU集群的高效训练框架，包含定制化Triton/CUDA算子库、模型并行策略及集群通信协议。

性能验证显示，7B参数模型仅需传统模型2%的训练数据，即可达到同等语言建模水平。76B混合线性模型通过优化注意力机制设计，在保持基座模型性能的同时，激活参数量较同类模型减少40%。在长序列处理场景中，51.2万长度序列的推理速度较Qwen基准模型提升13.88倍，百万长度序列下提升26.5倍。当序列扩展至400万长度时，传统模型已无法完成测试，而SpikingBrain仍保持稳定性能。

该模型已实现全流程国产化部署，训练和推理均在国产GPU平台完成。研究团队开源了7B参数版本，并上线76B参数模型的在线试用端口，支持数百人并发访问。移动端部署方案显示，1B参数压缩模型在6.4万至25.6万长度序列处理中，解码效率显著优于国际主流模型。这项突破为超长序列科学计算提供了新工具，在分子动力学轨迹分析、DNA序列建模等领域具有广泛应用前景。

注：本文转载自新智元，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权行为，请联系我们，我们会及时删除。

上一篇：青岛：机器人竞技赛出未来

中科院发布SpikingBrain类脑大模型：基于国产GPU实现超长序列高效处理

专家观点

热点资讯

EEPT.ORG.CN