评测 - 搜索 News

2 天

2024年AI大模型评测：豆包对话实力强劲，OpenAI推理和数学技术领先

在2024年即将结束之际，各大社交平台纷纷推出年度报告。而在人工智能（AI）领域，这场竞争的另一场角逐也在进行中，最新的AI大模型评测成果近日公布，引发了行业内的广泛关注。根据智源研究院于12月19日发布的FlagEval“百模”评测结果，国产AI大 ...

2 小时on MSN

《死亡空间》曾险遭EA冷落，只因内部评测《镜之边缘》更抢眼？

在电子游戏行业的激烈竞争中，营销预算的分配往往决定了游戏的曝光度和市场反响。近日，原版《死亡空间》的游戏总监Bret Robbins揭露了一段鲜为人知的历史，揭示了当年EA（电子艺术公司）在两部大作之间的营销决策差异。

腾讯网6 小时

评测：斯普林费尔德兵工厂公司2020型“边界”高品质的栓动猎枪

2020型“边界”有两种枪管类型：传统的带凹槽的不锈钢枪管和不锈钢主体的碳纤维枪管。《枪械与弹药》杂志测试的样枪配备的是碳纤维枪管，一组三发，可以实现斯普林费尔德兵工厂公司的0.75 MOA射击精度保证。

来自MSN2 天

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

智东西作者 | 徐豫编辑 | 漠影还有不到一周就2025年了，各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年，AI模型这份年终答卷，自然也少不了。

1 天

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测 ...

在当今迅速发展的人工智能时代，大语言模型（LLMs）在各种应用中发挥着至关重要的作用。然而，随着其应用的广泛化，模型的安全性问题也引起了广泛关注。探讨如何评估和提升这些模型在复杂的法律、政策和伦理领域的安全性，成为了学术界和工业界亟待解决的重要议题。

3 天

“百模”争锋，云知声山海大模型在智源FlagEval12月评测中位居前列

智源研究院的大模型评测平台FlagEval自2023年6月上线以来，已覆盖全球800余个开闭源模型，超过200万条评测题目，成为全球大模型评测的重要平台。此次评测，FlagEval在评测方法与工具上联合了全国10余家高校和机构合作共建，不仅扩展、丰富 ...

3 小时

只因内部评测太火爆《死亡空间》差些被 EA放弃

Robbins最近在接受采访时表示，EA是如何使用模拟评测来估计《死亡空间》可能会达到70分左右的得分，而《镜之边缘》则有可能获得90分的高评价。他解释说：“他们实际上是削减了我们营销预算的资金，并且把所有资源都集中在了《镜之边缘》身上。”“他们进行了内部测试，如Metacritic分析和模拟评测，最终给《镜之边缘》打出了90分的高分，而对于《死亡空间》，他们预计只会得到72分。” ...

4 天

智源FlagEval‌最新评测：腾讯混元文生图位列榜首

近日，智源研究院发布最新的FlagEval‌ 大模型评测排行榜。结果显示，在多模态模型评测榜单的文生图模型中，腾讯混元的文生图能力位居榜首。随后分别为字节跳动的豆包模型，以及国外Ideogram研发的文本生成图像模型 Ideogram 2.0。

中华网4 天

智源研究院“百模”评测结果：字节跳动多项第一

智源研究院百模评测结果。2024年12月19日，智源研究院举办了一场秋冬评测发布会，其中一场大模型辩论赛引人注目。参与辩论的大模型能够引用经典文献，并根据对手的论点进行反击。尽管这些大模型的表现与真人辩手仍有差距，但这场辩论展示了大模型的能力。

当前正在显示可能无法访问的结果。

隐藏无法访问的结果