搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
腾讯网
8 小时
AI大模型评测:豆包中文对话最强,OpenAI o1推理和数学占优
得益于多模态能力的提升,AI模型最新K12学科测验综合得分相较于半年前提升了12.86%,但是仍与北京海淀学生平均水平存在差距。不过,AI模型普遍存在“文强理弱”的偏科情况,在英语和历史文科试题的表现上,已有AI模型超越了人类考生的平均分。
腾讯网
17 小时
模型评测不是用来刷榜的,智源要用“辩论赛”的方式找回评测该有 ...
这些榜单的最大争议聚焦于一点,“评测集应该是封闭的,避免被作弊,但一个好的大模型评测应该是过程公开的评测,方便大家对评测做监督。”但当时只有两家国内机构具备将大模型评测过程公开的实力,一是上海人工智能实验室;另一家就是智源。
来自MSN
8 小时
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优
智东西 作者 | 徐豫 编辑 | 漠影 还有不到一周就2025年了,各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年,AI模型这份年终答卷,自然也少不了。
来自MSN
6 小时
确实不错!蓝戟intel B580显卡7款热门游戏评测(对比A770)
12月初的时候,我拿到了蓝戟intel B580显卡的首发资格。 按照计划,这篇内容在一周前就应该跟大家见面了; 但因为中途出差了几天,再加上7个游戏都去深度玩一玩确实要比只跑Benchmark费时费力,所以姗姗来迟。
1 天
“百模”争锋,云知声山海大模型在智源FlagEval12月评测中位居前列
智源研究院的大模型评测平台FlagEval自2023年6月上线以来,已覆盖全球800余个开闭源模型,超过200万条评测题目,成为全球大模型评测的重要平台。此次评测,FlagEval在评测方法与工具上联合了全国10余家高校和机构合作共建,不仅扩展、丰富 ...
10 小时
微星MPG 321URXW QD-OLED评测:一步到位没有短板 显示器的版本答案
微星MPG 321URXW QD-OLED显示器作为上一代27寸旗舰的升级版,在保持了高素质显示效果的同时,将屏幕尺寸放大到了32寸,更加完美不留遗憾。 当然,微星也不是没有考虑过游戏玩家在某些游戏中对小尺寸屏幕的偏好。 微星MPG 321URXW ...
中华网
2 天
智源研究院“百模”评测结果:字节跳动多项第一
智源研究院百模评测结果。2024年12月19日,智源研究院举办了一场秋冬评测发布会,其中一场大模型辩论赛引人注目。参与辩论的大模型能够引用经典文献,并根据对手的论点进行反击。尽管这些大模型的表现与真人辩手仍有差距,但这场辩论展示了大模型的能力。
2 天
智源FlagEval最新评测: 腾讯混元文生图位列榜首
近日,智源研究院发布最新的FlagEval 大模型评测排行榜。结果显示,在多模态模型评测榜单的文生图模型中,腾讯混元的文生图能力位居榜首。随后分别为字节跳动的豆包模型,以及国外Ideogram研发的文本生成图像模型 Ideogram 2.0。
12 小时
加佳科技曦源一号SADA算力集群通过权威认证评测
加佳科技长期深耕国产替代数字科技的技术研发、平台运营与解决方案提供。旗下曦源一号SADA万卡集群通过构建开放、标准、高效的计算架构,实现了计算资源、数据资源和智能服务的全面整合与优化。为人工智能的创新应用与融合发展提供了强大支撑。
2 天
智源最新评测:豆包视觉理解模型排名全球第二
智源最新评测:豆包视觉理解模型排名全球第二,评测,视觉,文生,豆包,模态,算法 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈