评测 - 搜索 News

得益于多模态能力的提升，AI模型最新K12学科测验综合得分相较于半年前提升了12.86%，但是仍与北京海淀学生平均水平存在差距。不过，AI模型普遍存在“文强理弱”的偏科情况，在英语和历史文科试题的表现上，已有AI模型超越了人类考生的平均分。

这些榜单的最大争议聚焦于一点，“评测集应该是封闭的，避免被作弊，但一个好的大模型评测应该是过程公开的评测，方便大家对评测做监督。”但当时只有两家国内机构具备将大模型评测过程公开的实力，一是上海人工智能实验室；另一家就是智源。

来自MSN8 小时

智东西作者 | 徐豫编辑 | 漠影还有不到一周就2025年了，各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年，AI模型这份年终答卷，自然也少不了。

来自MSN6 小时

12月初的时候，我拿到了蓝戟intel B580显卡的首发资格。按照计划，这篇内容在一周前就应该跟大家见面了；但因为中途出差了几天，再加上7个游戏都去深度玩一玩确实要比只跑Benchmark费时费力，所以姗姗来迟。

1 天

智源研究院的大模型评测平台FlagEval自2023年6月上线以来，已覆盖全球800余个开闭源模型，超过200万条评测题目，成为全球大模型评测的重要平台。此次评测，FlagEval在评测方法与工具上联合了全国10余家高校和机构合作共建，不仅扩展、丰富 ...

10 小时

微星MPG 321URXW QD-OLED显示器作为上一代27寸旗舰的升级版，在保持了高素质显示效果的同时，将屏幕尺寸放大到了32寸，更加完美不留遗憾。当然，微星也不是没有考虑过游戏玩家在某些游戏中对小尺寸屏幕的偏好。微星MPG 321URXW ...

智源研究院百模评测结果。2024年12月19日，智源研究院举办了一场秋冬评测发布会，其中一场大模型辩论赛引人注目。参与辩论的大模型能够引用经典文献，并根据对手的论点进行反击。尽管这些大模型的表现与真人辩手仍有差距，但这场辩论展示了大模型的能力。

2 天

近日，智源研究院发布最新的FlagEval‌ 大模型评测排行榜。结果显示，在多模态模型评测榜单的文生图模型中，腾讯混元的文生图能力位居榜首。随后分别为字节跳动的豆包模型，以及国外Ideogram研发的文本生成图像模型 Ideogram 2.0。

12 小时

加佳科技长期深耕国产替代数字科技的技术研发、平台运营与解决方案提供。旗下曦源一号SADA万卡集群通过构建开放、标准、高效的计算架构，实现了计算资源、数据资源和智能服务的全面整合与优化。为人工智能的创新应用与融合发展提供了强大支撑。

2 天

智源最新评测：豆包视觉理解模型排名全球第二,评测,视觉,文生,豆包,模态,算法 ...

一些您可能无法访问的结果已被隐去。