什么是Light-R1?
Light-R1是360智脑开源的AI模型,专注于数学领域的长思维链推理,具体型号为Light-R1-32B。该模型基于Qwen2.5-32B-Instruct,通过7万道数学题数据和两阶段课程学习(SFT+DPO)训练,实现了从零开始超越DeepSeekR1-Distil-Qwen-32B的性能。在AIME24测试中,Light-R1获得76.6分,显著高于DeepSeek-R1-Distil的72.6分。模型训练成本极低,仅需12台H800机器运行6小时,成本约1000美元。模型支持完全开源,包括模型、数据集、训练框架和评估代码,以促进开源社区发展,并为领域专用模型的低成本训练提供参考。
Light-R1主要功能
高效数学解题:能快速准确解决复杂数学问题,涵盖代数、几何、概率等领域
推理能力提升:具备强逻辑推理能力,支持处理长思维链问题
泛化能力:在其他领域(如逻辑推理、语言理解)展现泛化能力
低成本训练部署:以极低成本实现高性能,适合资源有限的用户或企业快速部署应用
Light-R1技术原理
基础模型与起点:基于Qwen2.5-32B-Instruct开发,实现从零到超越DeepSeek-R1-Disti的性能提升
课程学习:
SFT(监督微调):按难度分级筛选数据,分两阶段进行监督微调。第一阶段使用7万条数据,第二阶段筛选出难度最高的3000条数据进一步微调
DPO(直接偏好优化):在SFT基础上,基于多重采样和偏好对构建,优化模型输出质量
数据处理与去重:训练数据来自多个开源数学数据集(如OpenR1-Math-220k、OpenThoughts-114k等),并严格去重避免测试数据泄露对模型性能的影响
模型融合:最终通过整合SFT阶段2、DPO及另一个DPO版本模型得到Liaht-R1-328,进一步提升模型性能与稳定性
训练框架与优化:使用360-LLaMA-factory训练框架,支持序列并行和高效分布式训练。基于优化后的训练流程,Light-R1仅需12台H800机器6小时即可完成训练
Light-R1项目地址
GitHub仓库:https://github.com/Qihoo360/Light-R1
HuggingFace模型库:https://huggingface.co/collections/gihoo360/light-r1z
Light-R1应用场景
教育领域:作为数学学习工具,帮助学生解决复杂题目,提供解题步骤与思路,适合数学竞赛与日常学习
科研学术:辅助数学研究及跨学科问题求解,如物理论证、工程优化等
企业应用:用于解决数据分析、风险评估、供应链优化等复杂问题
软件集成:集成至智能助手、数学软件中,增强推理与解题功能
开源与开发者:支持开发者定制扩展模型,促进开源社区发展