Hugging - 搜索 News

来自MSN1 天

小模型可用更长运算时间换取更高精准度，Hugging Face发布测试阶段 ...

由于目前大型语言模型的性能，主要依赖大量的训练计算资源，而正是这种昂贵的成本模式，驱使开发公司寻求替代方案。而Hugging Face的研究显示，通过测试阶段运算扩展（Test-Time Compute ...

23 天

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

【新智元导读】大模型如今已具有越来越长的上下文，而与之相伴的是推理成本的上升。英伟达最新提出的Star Attention，能够在不损失精度的同时，显著减少推理计算量，从而助力边缘计算。为此，已有多种优化方案提出，例如Flash ...

23 小时

马斯克说中国聪明人很多，谷歌前CEO说限制他们居然还能追上美国

CNBC说中国希望在AI领域占据主导，部分模型已经击败美国竞争对手。这话听着挺提气，但我觉得还是要保持清醒。毕竟，AI不是简单的技术竞赛，更像是一场马拉松。美国的技术积累确实深厚，我们追赶的路还很长。不过话说回来，"后发优势"这个词挺有意思。当你看到 ...

腾讯网20 小时

重磅！“AI界拼多多”再发力，国产大模型DeepSeek-V3开源后刷屏，总 ...

整理 | 屠敏出品 | CSDN（ID：CSDNnews）就在今天，素来被硅谷视为“来自东方神秘力量”的中国大模型创业公司 DeepSeek 再次悄悄惊艳了国内外的 AI ...

来自MSN21 天

Hugging Face发布SmolVLM开源 AI 模型：20 亿参数，用于端侧推理

IT之家 11 月 27 日消息，Hugging Face 平台昨日（11 月 26 日）发布博文，宣布推出 SmolVLM AI 视觉语言模型（VLM），仅有 20 亿参数，用于设备端推理 ...

腾讯网1 天

把训练成本打下来99%！吊打GPT又“征服”OpenAI创始成员，DeepSeek ...

整理 | 华卫、核子可乐一家中国 AI 初创公司创建出被用户称作 “真正的‘Open’AI ”的人工智能模型。昨晚，DeepSeek 发布了最新系列模型 DeepSeek-V3 首个版本并同步开源。该模型可以处理一系列基于文本的工作负载和任务，如编码 ...

凤凰网1 天

deepseekv3模型意外泄露，跑分超越claude3.5sonnet

据悉，该模型目前在Aider多语言编程测试排行榜中的成绩已经超过了 Anthropic 的Claude 3.5 Sonnet，排名第二，仅次于 OpenAI 的O1 模型。据悉，DeepSeek V3 模型采用MOE ...

中国新闻周刊20 小时

阿里发布大模型报告：发展“负责任的技术”，推动AI走进千行百业

会上，阿里巴巴集团携手中国电子技术标准化研究院，联合发布《大模型技术发展及治理实践报告》。记者了解到，这是阿里巴巴连续第三年发布《AI报告》，贯穿三年的主线是“负责任的技术”。阿里巴巴集团副总裁钱磊介绍，“负责任的技术”有两层含义：一是“守己”，负责 ...

20 小时

脑机接口和 AI，一个硬币的两面

在彭雷看来，脑机接口和 AI 分别象征着桥的两端，一端代表碳基生命拥抱硅基生命，一端代表硅基生命模拟碳基生命。他相信，soon or later，这两个技术都会在桥的中间合拢。

GitHub8 天

ssfun/hf-space-manager

HF Space Manager 是一个用于管理 Hugging Face Spaces 的 Web 应用程序。它提供了直观的界面和API 接口，让你能够方便地查看和管理多个账号下的所有 Spaces。 HF Space Manager 是一个用于管理 Hugging Face Spaces 的 Web 应用程序。它提供了直观的界面和API 接口，让你能够方便地 ...

腾讯网1 天

Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

2024年12月26日，DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3，每秒处理 60 个 token，比 V2 快 3 倍！MoE架构,6710 亿参数，激活 370 亿参数，训练基于 14.8 万亿高质量 ...

腾讯网1 天

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

且在LiveBench测评中，它是当前最强开源LLM，并在非推理模型中仅次于gemini-exp-1206，排在第二。目前Hugging Face上已经有了Deepseek-v3（Base）的开源权重，只不过还没上传模型介绍卡片。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果