搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
17 天
OpenAI重磅推出强化微调技术:少量样本即可训练出专属专家模型
近期,OpenAI在其持续的产品发布周期中推出了一项备受瞩目的新功能——强化微调(Reinforcement ...
3 天
OpenAI强化微调技术突破,LeCun的“蛋糕比喻”再度得到验证
近期,人工智能领域发生了一项重大的技术突破:OpenAI宣布其新的强化微调(Reinforcement Fine-Tuning, ...
腾讯网
8 天
OpenAI把强化学习的门槛给打下来?
为期12天的OpenAI,在第二天的时候发布了一个名叫“强化学习微调”的技术。不同于传统的监督微调(SFT),强化微调不仅仅是让模型“记住答案”,而是通过高质量的任务数据与参考答案,强化模型的推理能力,使其在特定领域中学会如何找到正确答案。可以将强化 ...
19 天
on MSN
OpenAI 活动第二弹:“强化微调”打造领域专家 AI 模型
IT之家 12 月 7 日消息,OpenAI 启动了为期 12 天的“shipmas”新品发布周期,将推出一系列新功能、新产品以及相关演示。本次活动第二日,OpenAI 推出了强化微调(Reinforcement ...
1 天
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得 ...
12月7日,OpenAI微调团队的John Allard此前发布过一份关于评分器背后思路的说明,以及相关配置的屏幕截图,基本思路是把待评分的回复分解成一个结构化的对象,然后对每一项的数值进行比较,得到精确率、召回率等指标。
腾讯网
19 天
OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为 ...
OpenAI连续12天“王炸”的第二弹来了。不同于第一日聚焦人工智能(AI)模型,第二日的王炸专注于服务企业等组织的一款新功能,虽然看起来不太侧重于普通消费者,但据介绍它甚至可以简易版推理模型o1 ...
8 天
图像领域再次与LLM一拍即合,idea撞车OpenAI强化微调,西湖大学发布 ...
无独有偶,齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程:模型从高斯噪声开始的多步去噪过程也类似一个思维链,逐步「思考」怎样生成一张高质量图像,是一种图像生成领域 ...
18 天
on MSN
OpenAI 推出“强化微调”计划,让创建专家大模型更简单了 | 最前线
12月7日北京时间凌晨两点,OpenAI公司带来了连续12天发布会的第二场直播。 本次直播中,OpenAI带来了新的方案——强化微调(Reinforcement Fine-Tuning)。该方案和功能预计将于2025年正式推出。 强化微调是一种全新的模型定制方法,它将一个预训练好的通用模型 ...
新浪网
26 天
流式深度学习终于奏效了!强化学习之父Richard Sutton力荐
流式学习是 Q 学习和 TD 等经典强化学习 (RL) 算法的运作方式,它通过使用最新样本而不存储样本来模仿自然学习。这种方法也非常适合资源受限 ...
来自MSN
18 天
OpenAI 发布ChatGPT 新功能Reinforcement Fine-Tuning,满足企业特定需求
品玩12月7日讯,在今天凌晨的第二场OpenAI 新品发布会上,OpenAI 宣布为ChatGPT 增加新功能Reinforcement Fine-Tuning。 据悉,Reinforcement ...
来自MSN
19 天
OpenAI宣讲第二天:推出强化微调研究项目,能够使用多个高质量任务 ...
格隆汇12月7日|12月6日,OpenAI连续12个工作日的宣讲进入第二天,今天介绍的是强化微调研究项目(Reinforcement Fine-Tuning Research ...
新浪网
9 天
图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布 ...
OpenAI最近推出了在大语言模型LLM上的强化微调(Reinforcement Finetuning,ReFT),能够让模型利用CoT进行多步推理之后,通过强化学习让最终输出符合人类 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈