热点新闻

2025 年 2 月，西北工业大学王鹏教授解读《2025 年 DeepSeek 核心技术白话解读报告》，揭秘这款开源大模型的突破性创新。DeepSeek 定位 “低成本、高性能”，性能比肩 GPT-4 等顶尖模型，训练成本仅为其 5%-10%，其 V3 语言模型与 R1 推理模型通过蒸馏、量化等技术实现高效能。

核心技术逻辑聚焦 “少投入多产出”：学习策略上，首次在后训练阶段用强化学习替代监督微调，减少数据标注成本；模型结构采用混合专家（MOE），细分前向网络提升效率；工程实现通过 FP8 混合精度训练，提速 30% 并保障精度。应用上分为青铜到王者多段位，覆盖日常使用至全流程训练。报告同时指出，模型仍需攻克幻觉消除与压缩难题，未来将向多模态与具身智能拓展，为 AI 普及注入新动能。