最强大脑什么时候更新一次(Deepseek五一前突袭了数学证明领域的卷王大模型,...)


最强大脑什么时候更新一次(Deepseek五一前突袭了数学证明领域的卷王大模型,...)

五一劳动节来临之际,AI领域的巨头DeepSeek再次带来了令人振奋的更新。他们最新开源的模型名为prover V2671B,拥有高达6710亿的参数规模,架构基于广受欢迎的DeepSeek V3。

此模型在happyface开源社区引发了热烈讨论,仅仅不到一个小时就收获了数千个点赞。这款模型以其卓越的数学推理能力而著称,能够处理长达16万字的上下文推理任务。

值得一提的是,prover V2671B采用了创新的混合专家架构(MOE),每一层都是MOE层,总共由61层Transformer构成。每个MOE层包含一个共享专家和256个路由专家,每个输入的TOKEN都会同时激活8个专家。这一设计使得模型在处理复杂任务时具有更高的效率和灵活性。

该模型还采用了fp8量化技术,在保持高性能的能够更快地进行部署。这一技术的应用标志着AI领域的又一次技术突破,预示着新一轮的AI军备竞赛即将开启。

最近DeepSeek的更新速度令人瞩目,我们一直在关注从R2到千万三的发展路径。现在看来,DeepSeek率先推出了prover V2系列模型,这也意味着小米的Miro技术也加入了这一行列。预计五一期间,DeepSeek的新模型将会引发更多关注和讨论,但这并不意味着R2不会出现。DeepSeek始终低调而出招,未来或将继续展示其在英伟达方面的实力和技术成果。此次更新将引发更多的研究热潮和创新热潮的到来。


最强大脑什么时候更新一次(Deepseek五一前突袭了数学证明领域的卷王大模型,...)