reinforcement 强化 - 搜索 News

娜塔莎·雅克（Natasha Jaques）是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间，她曾开发一种语言模型微调技术，后被用于 OpenAI 使用基于人类反馈强化学习（RLHF，Reinforcement Learning from ...

3 天

OpenAI如何叩响AGI之门：12天12场直播，秀出哪些新肌肉

当地时间12月5日-20日，人工智能巨头OpenAI完成了连续12个工作日的12场直播，从首日的满血版o1模型重磅发布，再到期待许久的Sora Turbo正式发布，最终又以新一代推理模型o3收官，OpenAI CEO山姆·奥特曼（Sam Altman ...

虎嗅网3 天

从OpenAI 12天发布会里，我们看到了行业的四个关键问题

历史上第一次有公司会连续开12天的产品发布会——当OpenAI宣布这个决定之后，全球科技圈的期待值被拉满了。但直到发布会接近尾声，“就这？就这？”一位AI从业者如此表达他的观感。这似乎代表了某种主流看法：此次OpenAI发布会，亮点不大、低于预期。前 ...

4 天

OpenAI强化微调的突破：AI大模型革命的下一个阶段

在2016年的NeurIPS会议上，图灵奖得主Yann ...

4 天

OpenAI强微调API发布，强化学习稳固发展新篇章

在2024年的AI领域，OpenAI宣布了一项令人振奋的技术突破——强化微调API（Reinforcement ...

6 天

12天人工智能马拉松式直播结束，一口气看完OpenAI所有要点

这场发布会是由OpenAI的首席产品官Kevin Weil和他的两个同事Drew Schuster和Thomas Dimson一起主持的。Kevin Weil在直播里说，现在可以把熟悉的ChatGPT功能都整合到项目里，或者，只单独使用项目功能。

9 天

图像领域再次与LLM一拍即合，idea撞车OpenAI强化微调，西湖大学发布 ...

无独有偶，齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程：模型从高斯噪声开始的多步去噪过程也类似一个思维链，逐步「思考」怎样生成一张高质量图像，是一种图像生成领域 ...

腾讯网9 天

OpenAI把强化学习的门槛给打下来？

为期12天的OpenAI，在第二天的时候发布了一个名叫“强化学习微调”的技术。不同于传统的监督微调（SFT），强化微调不仅仅是让模型“记住答案”，而是通过高质量的任务数据与参考答案，强化模型的推理能力，使其在特定领域中学会如何找到正确答案。可以将强化 ...

51CTO15 天

被OpenAI带火的强化微调RFT技术解析

OpenAI年终大戏第二场推出了强化微调RFT (Reinforcement Fine-Tuning)，它可以让你用几十到几千个的训练数据，为特定的复杂任务构建专家模型，加强了模型如何处理类似问题的推理，微调后的o1-mini得分提高80%，反超o1正式版！强化微调技术的一种实现方式：首先通过 ...

51CTO18 天

突破！自然语言强化学习(NLRL)：一个可处理语言反馈的强化学习框架

来自伦敦大学学院、上海交通大学、布朗大学、新加坡国立大学和布里斯托大学的联合研究团队提出了全新的自然语言强化学习（Natural Language Reinforcement Learning, NLRL）范式，成功将强化学习的核心概念类比为基于自然语言的形式，开辟了一条通向更智能、更自然 ...

腾讯网20 天

OpenAI 推出“强化微调”计划，让创建专家大模型更简单了 | 最前线

12月7日北京时间凌晨两点，OpenAI公司带来了连续12天发布会的第二场直播。本次直播中，OpenAI带来了新的方案——强化微调（Reinforcement Fine-Tuning）。该方案和功能预计将于2025年正式推出。强化微调是一种全新的模型定制方法，它将一个预训练好的通用模型 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果