搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按时间排序
按相关度排序
凤凰网
1 天
deepseekv3模型意外泄露,跑分超越claude3.5sonnet
据悉,该模型目前在Aider多语言编程测试排行榜中的成绩已经超过了 Anthropic 的Claude 3.5 Sonnet,排名第二,仅次于 OpenAI 的O1 模型。据悉,DeepSeek V3 模型采用MOE ...
来自MSN
1 天
小模型可用更长运算时间换取更高精准度,Hugging Face发布测试阶段 ...
由于目前大型语言模型的性能,主要依赖大量的训练计算资源,而正是这种昂贵的成本模式,驱使开发公司寻求替代方案。而Hugging Face的研究显示,通过测试阶段运算扩展(Test-Time Compute ...
1 天
Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet
为了进一步了解Deepseek-v3的升级程度,机器学习爱好者Vaibhav (VB) Srivastav (以下简称瓦哥) 还深入研究了配置文件,并总结出 v3与v2、v2.5的关键区别 。 第一 ...
7 天
TuSimple 更名 CreateAI:自动驾驶巨头转型 AI 动画与游戏
自动驾驶卡车公司 TuSimple 宣布完成转型,正式更名为 CreateAI,并将业务重心转向生成式人工智能领域,涵盖动画和游戏开发。这次品牌重塑标志着 TuSimple 放弃了自动驾驶卡车业务,迈入全新赛道。
8 天
“Transformer八子”之一,让AI大模型学会了主动“忘记”
据介绍,该“人工智能科学家”由 日本人工智能初创公司 Sakana AI 打造,其中一位联合创始人为“Transformer 八子”之一 Llion Jones,投资方包括 Lux Capital、Khosla Ventures ...
8 天
14万亿token训练量加持:Falcon3挑战主流开源AI模型
阿布扎比技术创新研究院(TII)发布新一代开源AI模型Falcon3,凭借14万亿token的训练量和优化的架构设计,在消费级硬件上的性能表现创下新纪录。这一训练规模是其前代产品Falcon2的两倍有余。
9 天
图森未来正式更名为CreateAI,并发布多项重大进展
2024年12月19日-图森未来(TuSimple)今日正式启用全新品牌CreateAI,并发布多项在生成式AI领域的重大进展。CreateAI宣布获著名武侠IP《金庸群侠传》正版授权,将开发一款大型武侠开放世界RPG游戏。CreateAI还将与著名 ...
9 天
Meta 推出 Apollo 开源模型,让 AI “看懂”视频
在视频处理方面,研究人员发现,保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型使用两个不同的组件,一个处理单独的视频帧,而另一个跟踪对象和场景如何随时间变化。 在模型训练方面,团队研究表明训练方法比模型大小更重要。Apollo ...
10 天
美媒:一些中国大模型已经追平甚至超越美国产品
CNBC报道称,中国想在AI领域成为统治者,这种尝试可能已经获得回报。一些美国AI业内人士和科技分析人士认为,中国AI模型已经相当流行,从性能角度看,中国的一些模型与美国产品齐头并进,甚至超越。
orientaldaily
10 天
中国欲称霸AI江湖 LLMs功力超越美国对手
(上海、纽约17日讯)中国称霸人工智能(AI)领域的努力可能逐渐奏效。业界和分析师向《CNBC》表示,中国的AI模型广受欢迎,就效能而言正直追甚至超越美国对手。AI已成为美中之间最新战场,双方均将此视为有战略意义的技术。华府持续管制中国取得最先进的A ...
新浪网
22 天
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging ...
值得一提的是,这篇文章受到了广泛的关注,登顶 Hugging Face 每日论文榜首。 2)token 生成,即模型关注 KV 缓存并自回归生成新令牌,同时用新的 KV ...
IT之家
22 天
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging ...
值得一提的是,这篇文章受到了广泛的关注,登顶 Hugging Face 每日论文榜首。 2)token 生成,即模型关注 KV 缓存并自回归生成新令牌,同时用新的 KV 向量更新缓存。 在许多长上下文任务中,输入由一个长上下文后跟一个短查询和一个短答案组成。当大模型的 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈