机器之心报道机器之心编辑部OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— ...
论文中,来自微软亚研院的全华人团队,提出了全新算法rStar-Math,证明了SLM无需从高级模型蒸馏,就能在数学推理上,媲美甚至一举超越o1。 团队借鉴了AlphaGo中蒙特卡洛树搜索(MCTS)技术,设计了一个由2个协同工作的SLM组成的系统: ...
小声说,微软最近有一股在小·大模型圈子里重拳出击的态势:昨天刚开源了目前最强的小·大模型,14B的phi-4;今天又推出了rStar-Math,论文中直指其面向小语言模型 (SLM)。