为了提高覆盖率,采用了一种简单的策略:对于16轮MCTS回合后仍未解决的问题,增加执行64轮回合,必要时增至128轮。并对不同随机种子进行多次MCTS扩展。成功将奥林匹克级问题的成功率提高至80.58%。
多知1月11日消息,微软近日宣布了其新的 rStar-Math 技术,这一创新的推理方法可以应用于小型语言模型(SLMs),该技术目前仍处于研究阶段,相关研究论文已发布在 arXiv.org 上,由微软、北京大学和清华大学的八位作者共同完成。rStar-Math核心在于,让小模型具备深度思考的能力,利用蒙特卡罗树搜索,这种方法模拟人类的 ...