
昨晚,DeepSeek-R1 悄悄更新了一波。
你以为这是DeepSeek的一次小更新 实际上它又超神了
和上次 V3-0324 版本一样,这回 DeepSeek 又又又往 Hugging Face 上默默扔了一个 DeepSeek-R1-0528,Model Card 和官方的更新公告都没出。DeepSeek R1在2025年5月完成了一次重要的小版本升级,版本号为DeepSeek-R1-0528。但这次更新再次超神!
新版DeepSeek R1在复杂推理任务中的表现大幅提升,特别是在数学、编程和通用逻辑等基准测评中,成绩位居国内模型前列,接近国际顶尖模型如o3和Gemini-2.5-Pro。例如,在AIME2025测试中,准确率从旧版的70%提升至87.5%,平均每题使用的tokens数量从12K增加到23K,表明模型在解题过程中进行了更深入的思考。
新版本能够进行类似Google先进模型的深度推理,支持每个任务最多30-60分钟的持续工作,为用户提供更深层次的解决方案,
针对“幻觉”问题进行了显著改进,幻觉率降低了45-50%,在改写润色、总结摘要和阅读理解等场景中能够提供更准确、可靠的结果。在议论文、小说、散文等文体的生成上进行了优化,能够输出篇幅更长、结构更完整的作品,写作风格更贴近人类偏好。
新版本支持工具调用(不支持在thinking中调用),在Tau-Bench测评中,airline和retail任务的成绩分别为53.5%和63.9%,与OpenAI的o1-high相当。在网页端、App和API接口中的响应速度更敏捷,尤其在处理超长文本输入时,延迟降低了约10%-20%。上下文记忆更稳定,尤其在超长对话(支持最多128K上下文)中,减少了“遗忘设定”或“跑偏”的情况。
API调用方式、参数和返回结构完全不变,用户无需调整现有集成即可无缝使用新版本。DeepSeek-R1-0528仍然保持开源,允许用户利用模型输出或通过模型蒸馏等方式训练其他模型。虽然模型参数量增加到6850亿,但优化后的版本在消费级硬件上无法直接运行,不过用户可以通过第三方平台调用上下文长度为128K的开源版本。
在代码生成、理解和修正能力上表现出色,部分任务表现优于全球领先的编码模型Claude 4。虽然目前主要集中在文本生成和推理能力的提升,但未来可能会进一步拓展多模态交互功能。
用户普遍对此次升级表示满意,认为新版本在处理复杂问题、生成高质量文本以及长时间思考支持方面表现出色。许多用户认为DeepSeek R1-0528已经成为他们日常工作中的重要工具。总体来看,DeepSeek R1-0528的更新在推理能力、用户体验和稳定性方面都取得了显著进步,使其在国内外大语言模型中更具竞争力。
从模型开源到上线仅用不到1天时间,腾讯即宣布腾讯元宝、ima、搜狗输入法、QQ浏览器等多款产品再次迎来升级,率先接入DeepSeek R1-0528,多项能力全面提升。腾讯表示,用户打开元宝(电脑版、网页版可抢先体验)、ima(任意版本)、搜狗输入法(Windows版侧边栏)、QQ浏览器(任意版本),选择DeepSeek模型R1深度思考,即可免费不限量使用。