32k16k和a4一样大吗


近日,Together AI与Agentica的研究团队发布了名为DeepCoder-14B的新编程模型。这款模型的性能表现引人注目,能够与领先的专有模型如OpenAI的o3-mini相提并论。

DeepCoder-14B是基于DeepSeek-R1构建的,它为高性能代码生成和推理能力的实际应用提供了更大的灵活性。更令人欣喜的是,研究团队已经将该模型、训练数据、代码、日志和系统优化完全开源,这将极大地推动研究人员的改进和加速科技进步。

这款编程模型虽小但功能强大。据研究团队的实验显示,DeepCoder-14B在多个具有挑战性的编程基准测试中表现出色,包括LiveCodeBench (LCB)、Codeforces和HumanEval+。在描述该模型的博客文章中,研究人员表示:“我们的模型在所有编程基准测试中都表现优异,其性能可与o3-mini (low)和o1相媲美。”

有趣的是,尽管该模型主要针对编程任务进行训练,但在数学推理方面也有所提升。在AIME 2024基准测试中,其得分达到了73.8%,相较于基础模型DeepSeek-R1-Distill-Qwen-14B,提升了4.1%。这显示了通过代码强化学习开发的推理技能可以有效地推广到其他领域。

最令人瞩目的是,DeepCoder-14B仅使用140亿参数就达到了如此高的性能水平。这使得DeepCoder比许多前沿模型更小,运行效率可能更高。

在开发DeepCoder模型的过程中,研究人员解决了使用强化学习(RL)训练编码模型的一些关键挑战。整理训练数据是其中的一大挑战。强化学习需要可靠的奖励信号来表明模型的输出是否正确。研究团队通过严格的流程,从多个数据集中收集示例,并进行有效性、复杂性和重复性的筛选,产生了24,000个高质量问题,为有效的RL训练提供了坚实的基础。

研究团队还设计了一个简单的奖励函数,只有在生成的代码在特定时间限制内通过所有采样单元测试时才会提供正向信号。这种以结果为导向的奖励系统结合高质量的训练示例,可以防止模型学习一些技巧,如为公开测试打印记忆的答案或仅针对简单边缘情况进行优化而不解决核心问题。

对于使用强化学习训练大型模型,特别是在需要长序列生成的任务上,计算密集且速度慢是一个主要挑战。为了加速这一过程,研究团队开发了verl-pipeline,这是一个对开源verl库的优化扩展,用于人类反馈的强化学习(RLHF)。他们的实验表明,与基准实现相比,他们的一次性流水线为编码RL任务提供了高达2倍的加速。这种优化对于在合理的时间范围内训练DeepCoder至关重要。

该研究团队将DeepCoder-14B的所有资料都放在了GitHub和Hugging Face上,并采用了宽松的许可证。他们表示:“通过完全共享我们的数据集、代码和训练方案,我们使社区能够复制我们的工作,让RL训练对所有人都可以访问。”DeepCoder-14B的出现标志着AI领域一个更广泛、加速发展的趋势:高性能且高效、开放访问的模型的崛起。对于企业界来说,这种转变意味着更多选择和更高的先进模型可访问性。现在各种规模的都能利用复杂的代码生成和推理来定制解决方案并在其环境中安全部署。这一趋势将降低AI的采用门槛并培养一个更具竞争力和创新的生态系统通过开源协作推动进步。