reinforcement 强化 - 搜索 News

娜塔莎·雅克（Natasha Jaques）是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间，她曾开发一种语言模型微调技术，后被用于 OpenAI 使用基于人类反馈强化学习（RLHF，Reinforcement Learning from ...

5 天

当地时间12月5日-20日，人工智能巨头OpenAI完成了连续12个工作日的12场直播，从首日的满血版o1模型重磅发布，再到期待许久的Sora Turbo正式发布，最终又以新一代推理模型o3收官，OpenAI CEO山姆·奥特曼（Sam Altman ...

历史上第一次有公司会连续开12天的产品发布会——当OpenAI宣布这个决定之后，全球科技圈的期待值被拉满了。但直到发布会接近尾声，“就这？就这？”一位AI从业者如此表达他的观感。这似乎代表了某种主流看法：此次OpenAI发布会，亮点不大、低于预期。前 ...

6 天

近期，人工智能领域发生了一项重大的技术突破：OpenAI宣布其新的强化微调（Reinforcement Fine-Tuning, ...

6 天

在2016年的NeurIPS会议上，图灵奖得主Yann ...

一些您可能无法访问的结果已被隐去。