Reinforcement - 搜索 News

1 天

其次用于微调的基础模型初始化在编辑距离上呈现出高度倾斜的分布（图 ...

10 天

o1 改变了 Scaling 范式？Self-Play 还值得 All In 吗？

事件：OpenAI 新发布的 o1 模型在数学和理科推理能力上取得极大突破，其技术博客隐隐指出 Scaling Law 的范式正在转向推理，且这种 Scaling 形式与预训练有很大不同。这一说辞和「草莓」火热期间所引发的 Scaling 范式转向 ...

1 天

深度剖析：RLHF如何让AI具备「说谎」能力？

随着语言模型能力的进一步提升，如何有效管理AI的行为，避免潜在的道德风险和社会影响，将成为整个行业亟待解决的问题。加强对RLHF带来的影响研究，以及对AI输出的全面解析，不仅有助于增强人类对AI的信任，也为未来的技术开发与应用提供了重要的借鉴。此外， ...

来自MSN2 小时

AI产品经理必知的100个专业术语

一、机器学习与数据科学1、监督学习（Supervised ...

凤凰网15 天

“生命不过是算法”的神话限制精神视野，贬低了对生命的看法

数字助手迷人的声音是我们这个时代叙述心智是运行在人脑这台计算机上的软件的鲜活证据。意识不过是几个聪明的黑客。我们只是肉身的机器，没有什么优势，越来越不如计算机。用技术产业内鼓吹胜利主义者（triumphalist）的话来说，我们应为人类即将面临的淘汰 ...

3 天

OpenAI新模型o1-mini引领AI编程变革，程序员的角色迎来巨大转变

在人工智能的快速发展中，编程技术成为了各大企业竞相争夺的焦点之一。近日，OpenAI推出的新一代大模型o1-mini和o1-preview备受关注，尽管在HumanEval基准测试中的提升幅度仅为2.2%，但其背后的技术先进性和应用潜力不容小觑。这一 ...

11 天

OpenAI o1 模型登场：开启 AI 通用复杂推理新篇章，模拟人类思考 ...

报道称 OpenAI 在训练 o1 模型中使用一种称为强化学习（reinforcement learning）的技术，来自行解决问题，该技术通过奖励和惩罚来教导系统。随后，o1 采用“思维链”来处理查询，类似于人类通过逐步推理来解决问题的方式。

生物通4 天

Nature Machine Intelligence：去中心化高效多智体强化学习方法

近日，北京大学人工智能研究院助理教授杨耀东课题组及合作团队在人工智能顶级学术期刊Nature Machine Intelligence上发表题为“Efficient and scalable reinforcement learning for ...

36氪9 小时

人被异化的投影，正在被机器人消除

打败围棋冠军李世石的AlphaGo就是强化学习的典型例子。强化学习示意图，图片来源：Lil'Log《A (Long) Peek into Reinforcement Learning》而模仿学习则可以看做是强化学习的一种特殊形式，智能体通过模仿专家的行为来学习策略，而不是通过与环境的交互试错的方法来 ...

3 天

Open o1不会“消灭”程序员

在当前大模型快速发展中，编程技术成为了许多企业争夺的焦点领域之一,通用大模型的发布往往伴随着诸如HumanEval等测试基准来衡量模型在编程领域的性能。此外，OpenAI CEO ...

wap.stockstar2 天

南财合规周报（第159期）：“全民仅退款”APP京淘淘爆雷？网信办拟 ...

中秋节后，秋意渐浓。这两周，合规动态频频。

中华网10 天

OpenAI 再次给大模型 “泡沫” 续命

但 OpenAI CEO 山姆·阿尔特曼（Sam Altman）的好心情很快就被打断。在他宣布 o1 全量上线的推文下，排在第一的评论是：“到底什么时候能用上新的语音功能？？” 他立刻反击：“能不能先花几个星期感谢感谢这魔法般的智能，然后再要新玩具？

当前正在显示可能无法访问的结果。

隐藏无法访问的结果