在2024年即将结束之际,各大社交平台纷纷推出年度报告。而在人工智能(AI)领域,这场竞争的另一场角逐也在进行中,最新的AI大模型评测成果近日公布,引发了行业内的广泛关注。根据智源研究院于12月19日发布的FlagEval“百模”评测结果,国产AI大 ...
在电子游戏行业的激烈竞争中,营销预算的分配往往决定了游戏的曝光度和市场反响。近日,原版《死亡空间》的游戏总监Bret Robbins揭露了一段鲜为人知的历史,揭示了当年EA(电子艺术公司)在两部大作之间的营销决策差异。
2020型“边界”有两种枪管类型:传统的带凹槽的不锈钢枪管和不锈钢主体的碳纤维枪管。《枪械与弹药》杂志测试的样枪配备的是碳纤维枪管,一组三发,可以实现斯普林费尔德兵工厂公司的0.75 MOA射击精度保证。
智东西 作者 | 徐豫 编辑 | 漠影 还有不到一周就2025年了,各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年,AI模型这份年终答卷,自然也少不了。
在当今迅速发展的人工智能时代,大语言模型(LLMs)在各种应用中发挥着至关重要的作用。然而,随着其应用的广泛化,模型的安全性问题也引起了广泛关注。探讨如何评估和提升这些模型在复杂的法律、政策和伦理领域的安全性,成为了学术界和工业界亟待解决的重要议题。
智源研究院的大模型评测平台FlagEval自2023年6月上线以来,已覆盖全球800余个开闭源模型,超过200万条评测题目,成为全球大模型评测的重要平台。此次评测,FlagEval在评测方法与工具上联合了全国10余家高校和机构合作共建,不仅扩展、丰富 ...
Robbins最近在接受采访时表示,EA是如何使用模拟评测来估计《死亡空间》可能会达到70分左右的得分,而《镜之边缘》则有可能获得90分的高评价。他解释说:“他们实际上是削减了我们营销预算的资金,并且把所有资源都集中在了《镜之边缘》身上。”“他们进行了内部测试,如Metacritic分析和模拟评测,最终给《镜之边缘》打出了90分的高分,而对于《死亡空间》,他们预计只会得到72分。” ...
近日,智源研究院发布最新的FlagEval‌ 大模型评测排行榜。结果显示,在多模态模型评测榜单的文生图模型中,腾讯混元的文生图能力位居榜首。随后分别为字节跳动的豆包模型,以及国外Ideogram研发的文本生成图像模型 Ideogram 2.0。
智源研究院百模评测结果。2024年12月19日,智源研究院举办了一场秋冬评测发布会,其中一场大模型辩论赛引人注目。参与辩论的大模型能够引用经典文献,并根据对手的论点进行反击。尽管这些大模型的表现与真人辩手仍有差距,但这场辩论展示了大模型的能力。