定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《DeepSeek深度:市场表现、发展展望、产业机遇及相关公司深度梳理-250214(30页).pdf》由会员分享,可在线阅读,更多相关《DeepSeek深度:市场表现、发展展望、产业机遇及相关公司深度梳理-250214(30页).pdf(30页珍藏版)》请在薪酬报告网上搜索。
1、1/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告行业研究报告慧博智能投研DeepSeek深度:深度:市场表现、发展展望、产市场表现、发展展望、产业机遇及相关公司深度梳理业机遇及相关公司深度梳理DeepSeek 近期分别发布大模型 DeepSeek-v3 和推理模型 R1,前者在大模型主流榜单的开源模型中位列榜首,并与世界上最先进的闭源模型不分伯仲;后者性能对标 OpenAI 的 o1 正式版,在数学、代码和自然语言推理等任务上表现卓越。以上两个模型均通过算法和架构的创新,大幅降低了训练成本和推理成本,为 AI 技术的普及与创新作出了卓越的贡献。DeepSeek
2、相关模型自从推出后,立刻占据全球科技头条并引发巨大关注,相关人士认为,DeepSeek 呈现出的算法创新、性能表现、开源属性等多重因素,将对 AI 应用与算力行业产生深远的影响。DeepSeek 开源模型将直接推动 AI 产业模型能力普遍提升,同时低廉的使用成本搭配卓越的性能倒逼OpenAI 降低 GPT 使用成本、加速模型迭代,促进产业生态繁荣。大模型能力普遍提升一方面将利好 AI应用开发,尤其小模型易于在端侧落地;另一方面,从更长远的角度看,DeepSeek 带来的也将是算力层面的杰文斯悖论,整体 AI 应用生态繁荣将带来推理算力的更大需求。以下内容我们就将聚焦 DeepSeek,对产业相
3、关问题展开分析。DeepSeek 当前呈现怎样的基础现状?其发布以来市场表现如何?在技术创新方面,DeepSeek 有哪些创新之处?在应用场景上,DeepSeek 将对相关场景带来怎样的赋能?以及 DeepSeek 的加速适配,将会对哪些层面带来市场机遇?相关企业发展情况如何?后续产业将会呈现怎样的发展趋势?立足以上问题,我们为大家一一解析。目录目录一、行业概况.1二、市场表现.3三、技术创新解析.7四、应用场景.15五、产业机遇.18六、相关公司.22七、发展展望.26八、参考研报.30一、行业概况一、行业概况1、版本有序落地,版本有序落地,DeepSeek 的产品体系不断丰富的产品体系不断
4、丰富模型厚积薄发,技术能力不断突破模型厚积薄发,技术能力不断突破。DeepSeek(中文名为深度求索)成立于 2023 年,是一家位于杭州的人工智能公司,为量化巨头幻方量化的子公司。公司自成立以来就不断研发迭代大模型,幻方目前拥有 1 万枚英伟达 A100 芯片,2023 年 4 月幻方宣布成立新组织,集中资源和力量,探索 AGI(通用人工智能)的本质,在一年多时间里进展迅速。2/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告DeepSeek 的产品体系不断丰富,每个模型都在不同的领域和任务中展现出了独特的优势和性能特点。随着时间的推移,DeepSeek 在不断优
5、化模型性能的同时,也在推动着人工智能技术的发展和应用。从版本迭代来看,公司历经一年已然迭代多个版本,目前模型能力可比肩 OpenAI o1-mini,从下载量来看,根据 AI 产品榜数据显示,DeepSeek 成为全球增速最快 AI 应用,上线 20 天日活突破 2000 万。2、Deepseek:AI 生产函数的根本性改变生产函数的根本性改变简单来说,DeepSeek 是一款大语言模型(LLM),主打“极致性价比”。它能写代码、解数学题、做自然语言推理,性能优越,但成本却低到离谱训练费用仅 557.6 万美元,是 GPT-4o 的十分之一,API调用成本更是只有 OpenAI 的三十分之一。
6、3、科技巨头纷纷接入科技巨头纷纷接入 DeepSeek,推动全球,推动全球 AI 生态发展生态发展gZjVrQsQmPrNtObRaO8OsQnNoMtOkPnNoMkPmNqP9PoOuNuOmMyRxNqNrQ3/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告英伟达英伟达于 2025 年 1 月 30 日正式宣布,DeepSeek-R1 模型已作为 NVIDIANIM 微服务预览版上线;2025 年1 月 29 日,微软微软正式宣布将 DeepSeek-R1 模型纳入 Azure AI Foundry 平台。企业可以在 Azure AIFoundry 上通过模
7、型目录以无服务器端点的形式访问 DeepSeek-R1。此外 DeepSeek-R1 还上线了 GitHubModels,开发者可以在 GitHub 上免费试用该模型;2025 年 2 月 1 日,硅基流动硅基流动和华为云华为云团队双方联合首发并上线基于华为云昇腾云服务的 DeepSeek R1/V3 推理服务。得益于自研推理加速引擎加持,硅基流动和华为云昇腾云服务支持部署的 DeepSeek 模型可获得持平全球高端 GPU 部署模型的效果。提供稳定的、生产级服务能力,让模型能够在大规模生产环境中稳定运行,并满足业务商用部署需求。华为云昇腾云服务可以提供澎湃、弹性、充足的算力。二、二、市场表现
8、市场表现1、DeepSeek-V3 性能表现不输全球顶尖模型性能表现不输全球顶尖模型2024 年 12 月 26 日,杭州深度求索(DeepSeekAI)发布 DeepSeek-V3 并同步开源,据介绍,DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。具体而言,DeepSeek-V3 在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模
9、型 Anthropic 公司于 2024 年 10 月发布的 Claude-3.5-Sonnet-1022;在长文本评测(DROP、FRAMES 和 LongBenchv2)方面,V3 平均表现也超越其他模型。在算法类代码场景(Codeforces),V3 远远领先于市面上已有的全部非 o1 类模型,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。而在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3 大幅超过了其他所有开源闭源模型。4/302025 年年 2 月月 14 日日
10、行业行业|深度深度|研究报告研究报告另外,DeepSeek-V3 通过算法和工程上的创新,将生成吐字速度从 20TPS(Transactions Per Second 每秒完成的事务数量)大幅提高至 60TPS,相比 V2.5 模型实现了 3 倍的提升,可以带来更加流畅的使用体验。同时,模型 API 服务定价也将调整为每百万输入 tokens0.5 元(缓存命中)/2 元(缓存未命中),每百万输出 tokens8 元,因此,V3 模型在性能实现领先的同时,定价大幅低于市面上所有模型,性价比优势明显。5/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告2、R1 模型实
11、现了比肩模型实现了比肩 OpenAI o1 的推理能力的推理能力2025 年 1 月 20 日,DeepSeek 再次扔出重磅炸弹,发布了推理模型 R1,该模型在后训练阶段大规模使用了强化学习技术,在仅仅使用极少标注数据的情况下,极大提升了模型推理能力,在数据、代码、自然语言推理等领域均实现了比肩 OpenAI o1 模型的能力。DeepSeek 不仅开源了 R1-Zero 和 R1 两个 660B 模型,还通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。同时,DeepSeek 还
12、修改了产品协议,支持用户进行“模型蒸馏”,即允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。6/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告除了开源相关模型外,DeepSeek-R1 上线 API,对用户开放思维链输出,服务定价为每百万输入 tokens1元(缓存命中)/4 元(缓存未命中),每百万输出 tokens16 元,与 OpenAI o1API 调用相比,继续保持超高的性价比。与此同时,DeepSeek 还上线了 APP 并更新官网,打开“深度思考”模式,即可调用最新版 DeepSeek-R1 完成各类推理任务。3、DeepSeek-V3、R1
13、模型在产业中引发巨大反响模型在产业中引发巨大反响DeepSeek-V3DeepSeek-V3、R1R1 两款模型最让人印象深刻的不仅在于其比肩业内最佳表现的性能,更在于超低的训练两款模型最让人印象深刻的不仅在于其比肩业内最佳表现的性能,更在于超低的训练成本成本:DeepSeek 在 V3 相关的论文中披露,V3 仅仅使用 2048 块 H800 GPU 训练 2 个月的时间,共消耗278.8 万 GPU 小时,而按照 OpenAI 创始成员之一 Andrej Karpathy 介绍,Llama3-405B 则消耗了 3080万 GPU 小时,是 V3 的 11 倍;如果按照 H800 GPU
14、每小时 2 美金的租赁费用计算,意味着 V3 模型正式训练仅仅需要 557.6 万美金,而此前同等性能的模型则需要 0.6-1 亿美金。而 R1 模型是在 DeepSeekV3 的基础上,通过引入大规模强化学习(Reinforcement Learning)和多阶段训练,进一步提升推理能力的模型,据专家判断,在 V3 的基础上生产 R1 模型的成本可能非常低廉。DeepSeek-V3DeepSeek-V3、R1R1 两款模型的推出,犹如在两款模型的推出,犹如在 AIAI 行业投入了两颗重磅炸弹,行业投入了两颗重磅炸弹,DeepSeekDeepSeek 迅速成为科技产业迅速成为科技产业最耀眼的明
15、星企业,并引发了巨大的讨论与关注最耀眼的明星企业,并引发了巨大的讨论与关注。相较于各科技巨头不断构建更大规模算力集群来训练7/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告更强大的模型,DeepSeek 向大家展示了通过精巧的算法优化,可以在低一个数量级算力消耗的情况下生产出顶尖性能的模型。DeepSeekDeepSeek 已经成为众多科技领域领袖重点关注的对象已经成为众多科技领域领袖重点关注的对象:微软 CEO 纳德拉在财报电话会议上称 DeepSeek“有一些真的创新”,并透露 R1 模型已经可以通过微软的 AI 平台获取;Meta CEO 扎克伯格表示Met
16、a 将 DeepSeek 视为竞争对手并正在学习;ASML CEO 则在接受采访时表示 DeepSeek 这样的低成本模型将带来更多而非更少的 AI 芯片需求;Anthropic 创始人认为 V3 是真正的创新所在;人工智能专家吴恩达也发文认为中美 AI 差距正在迅速缩小。OpenAI CEO 山姆奥特曼更是在发布 o3-mini 后罕见地承认“在开源上 OpenAI 站在了历史的错误一方”。在超高的热度下,DeepSeek 成为了全球增速最快的 AI 应用,仅上线 18 天日活就达到了 1500 万,而ChatGPT 过 1500 万花了 244 天,增速是 ChatGPT 的 13 倍;1
17、 月 26 日同时登顶苹果 AppStore 和谷歌PlayStore 全球下载榜首,目前仍然在 100 多个多家/地区维持领先。三、技术创新解析三、技术创新解析1、模型蒸馏增强小模型推理能力,视觉解耦统一多模态理解和生成模型蒸馏增强小模型推理能力,视觉解耦统一多模态理解和生成DeepSeekDeepSeek 采用模型蒸馏技术,极大提升模型推理能力采用模型蒸馏技术,极大提升模型推理能力。DeepSeek 官方技术文档显示,研究人员使用DeepSeek 模型遴选了 80 万个样本,并且基于 DeepSeek-R1 模型的输出对阿里 Qwen 和 Meta 的 Llama 开源大模型进行微调。评测
18、结果显示,基于 DeepSeek-R1 模型蒸馏的 32B 和 70B 模型在多项能力上可对标OpenAI o1-mini 的效果。DeepSeek 研究结果表明,蒸馏方法可以显著增强小模型的推理能力。8/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告DeepSeekDeepSeek 采用蒸馏技术得到的模型效果优于同等条件下使用强化学习(采用蒸馏技术得到的模型效果优于同等条件下使用强化学习(RLRL)的效果)的效果。技术文档显示,DeepSeek-R1-Zero-Qwen-32B 模型是研究人员在 Qwen-32B-Base 模型基础上使用数学、代码、STEM 数
19、据进行超过 10,000 步的 RL 训练得到,其各项测评结果均差于 DeepSeek-R1 模型通过蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 模型。考虑 RL 方法需要大量的计算资源,蒸馏方法在性能和性价比方面均呈现出显著的优势。anus-Proanus-Pro 是是 DeepSeekDeepSeek 发布的一款统一多模态理解与生成的创新框架,通过解耦视觉编码的方式,极大发布的一款统一多模态理解与生成的创新框架,通过解耦视觉编码的方式,极大提升了模型在不同任务中的适配性与性能提升了模型在不同任务中的适配性与性能。其中,Janus-Pro 的 SigLIP 编码器专
20、门负责理解图像,能提取图像的高层语义特征,并关注图像的整体含义和场景关系;而 VQ tokenizer 编码器,专门用于创作,将图像转换为离散的 token 序列,这样架构创新使得 Janus-Pro 在 7B 参数规模下,仅用 32 个节点、256 张 A100 和 14 天的时间就完成训练并取得出色性能表现。9/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告2、DeepSeek 创新技术架构:打破传统内存和算力瓶颈创新技术架构:打破传统内存和算力瓶颈DeepSeekDeepSeek 通过多方面创新实现在低算力的同时性能优异通过多方面创新实现在低算力的同时性能优
21、异。DeepSeek 模型对算力要求相比以往大模型大幅降低,主要得益于其在架构设计、训练策略、算法优化以及硬件适配等多方面的创新。多头潜注意力(MLA)、深度求索混合专家系统(DeepSeekMoE)的创新架构显著降低训练和推理时的内存占用和计算量。传统计算方式存在对 KV 矩阵重复计算的问题,这不仅浪费了大量的计算资源,还会导致显存消耗过大,影响模型的运行效率。而 MLA 技术巧妙地解决了这个难题,它通过独特的算法设计,减少了对 KV 矩阵的重复计算,大大降低了显存的消耗。而 MOE 技术将模型分解为多个专家模型和一个门控网络,门控网络根据输入数据的特点,智能地选择合适的专家模型来处理,这样
22、不仅减少了知识冗余,还提高了参数利用效率。在自然语言处理的语言模型任务中,使用 MOE 结构的 DeepSeek 模型可以用相对较少的参数,保持甚至提升语言生成的质量,同时显著降低训练和推理时的内存占用和计算量,根据 CSDN,DeepSeekMoE 在保持性能水平的同时,实现了相较传统 MoE 模型 40%的计算开销降低。10/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告DeepSeek-R1 在继承了 V3 的创新架构的基础上,在后训练阶段大规模使用了强化学习技术,自动选择有价值的数据进行标注和训练,减少数据标注量和计算资源浪费,并在仅有极少标注数据的情况下
23、,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,DeepSeek 在 AIME2024 测评中上获得79.8%的 pass1 得分,略微超过 OpenAI-o1;在 MATH-500 上,获得了 97.3%的得分,与 OpenAI-o1 性能相当,并且显著优于其他模型。DeepSeekDeepSeek 的蒸馏技术为模型的广泛运用打开想象空间的蒸馏技术为模型的广泛运用打开想象空间。模型蒸馏(Knowledge Distillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。在深度学习领域,模型参数数量通常被视为衡量模型复杂度和能力的一个重要指标
24、,一般认为参数越多,模型能够学习到的知识和模式就越丰富,性能也就越强。然而,大参数模型也带来了诸多问题,如训练成本高昂,需要大量的计算资源和时间;部署和运行时对算力要求极高,限制了其在一些资源有限场景下的应用。11/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告DeepSeekDeepSeek 的蒸馏模型在计算资源、内存使用和推理速度方面都实现了显著的优化的蒸馏模型在计算资源、内存使用和推理速度方面都实现了显著的优化。蒸馏模型的参数量大幅减少,例如 DeepSeek-R1-Distill-Qwen-7B 的参数量仅为 7B,相比原始的 DeepSeek-R1(67
25、1B 参数),计算复杂度显著降低。由于参数量的减少,蒸馏模型在内存占用方面也表现出色。且 DeepSeek的蒸馏模型在推理速度上实现了显著提升。例如,DeepSeek-R1-Distill-Qwen-32B 在处理复杂的推理任务时,推理速度比原始模型提高了约 50 倍。且在多个基准测试中,DeepSeek 的蒸馏模型表现优异。例如,DeepSeek R1-Distill-Qwen-7B 在 AIME2024 基准测试中实现了 55.5%的 Pass1,超越了 QwQ-32B-Preview(最先进的开源模型)。DeepSeek-R1-Distill-Qwen-32B 在 AIME2024 上实
26、现了 72.6%的 Pass1,在 MATH-500 上实现了 94.3%的 Pass1。这些结果表明,蒸馏模型在推理任务上不仅能够保持高性能,还能在某些情况下超越原始模型。3、多层面技术提升训练效率,测试性能领跑开源模型多层面技术提升训练效率,测试性能领跑开源模型(1)模型层:在多项测评中能力领先其他开源模型模型层:在多项测评中能力领先其他开源模型模型采用模型采用 MoEMoE 架构,运用架构,运用 R1R1 提炼推理能力提炼推理能力。据 DeepSeek-V3 Technical Report,DeepSeek-V3(以下简称模型)采用 MoE(专家混合模型)架构,总参数量达 6710 亿
27、,每个 Token 激活 37 亿参数。在预训练阶段,模型使用 14.8T 的高质量数据集进行训练,并在后续对模型进行了两个阶段的上下文长度扩展,第一阶段将上下文长度扩展至 32K,第二阶段进一步扩展至 128K。在后训练部分,DeepSeek 使用了监督微调(SFT)和强化学习(RL)来提升模型能力,并从 DeepSeek R1 系列模型中提炼推理能力,以提高模型在实际运用中的表现。在实际测评中,在实际测评中,DeepSeekDeepSeek 表现领先开源模型,并进一步缩小与闭源模型的差距表现领先开源模型,并进一步缩小与闭源模型的差距。知识层面知识层面:在教育类基准测试如 MMLU、MMLU
28、-Pro 上,模型超越了目前所有开源模型,其表现与领先的闭源模型如 GPT-4o 和Claude-Sonnet-3.5 相当。在常识性测试中,模型在 SimpleQA 和 Chinese SimpleQA 中的评分领先,在英语事实性知识(SimpleQA)方面稍逊于 GPT-4o 和 Claude-Sonnet-3.5;代码、数学与推理层面代码、数学与推理层面:在数学相关测试中,模型在所有非思维链推理模型中表现出色,在 MATH-500 等特定测试中超越了 o1-preview。模型在编程竞赛基准测试中表现领先,在工程类任务中模型表现略逊于 Claude-Sonnet-3.5。12/30202
29、5 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告(2)架构层:基本沿用架构层:基本沿用 V2 架构,引入架构,引入 MTP 等全新技术等全新技术沿用沿用 V2V2 基本架构,引入无辅助损失的负载均衡策略基本架构,引入无辅助损失的负载均衡策略。模型在架构层面沿用 V2 模型中的多头潜在注意力(MLA)以及 DeepSeekMoE 架构,以实现经济训练。在此基础上,模型引入了无辅助损失的负载均衡策略,以减少因负载均衡所带来的性能下降。MLA 架构用于减少注意力键值(KV)缓存时的空间占用,通过对注意力键和值进行低秩压缩来实现,帮助模型在维持性能的同时减少计算资源的消耗。13/30
30、2025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告DeepSeekMoEDeepSeekMoE 较传统较传统 MoEMoE 有多方面改进有多方面改进。与传统 MoE 架构相比,DeepSeekMoE 使用了更细粒度的专家,并将部分专家设置为共享专家,能够更精确地针对特定的问题提供解决方案。同时,传统 MoE 架构采用辅助损失来鼓励负载平衡,以免不平衡的专家载荷导致计算效率降低,但这可能在某些情况下影响模型性能。DeepSeekMoE 引入了无辅助损失的负载平衡策略,在每个专家模型的任务匹配程度评分中添加一个偏置项,用于调整每个专家在决定哪些专家应该处理哪些任务时的负载,同
31、时使用补充序列级辅助损失,以此来优化整个系统的性能和效率。模型通过模型通过 MTPMTP 提升数据利用效率提升数据利用效率。DeepSeek 在模型训练时设定了多 Token 预测(MTP)目标,将预测范围扩展到每个位置的多个未来 Token。MTP 增加了模型训练过程中的信号密度,提高模型对数据的整体利用效率,同时增强模型生成文本的连贯性。MTP 策略主要旨在提高主模型的性能,在推理过程中可直接丢弃 MTP 模块,主模型独立正常运行。(3)训练层:通过工程优化,进一步实现成本控制训练层:通过工程优化,进一步实现成本控制为了促进模型的高效训练,为了促进模型的高效训练,DeepSeekDeepS
32、eek 实施了工程优化实施了工程优化。首先,模型使用了 DualPipe 算法,以实现高效的管道并行。与现有方法相比,DualPipe 具有更少的管道气泡(等待数据处理或通信延迟形成的停滞区域),在模型训练的前向和后向传播过程实现了重叠计算和通信,从而提高了整体的训练效率。其次,DeepSeek 引入了 FP8 混合精度训练,优化了训练期间的内存占用。DualPipeDualPipe 技术优化通信成本技术优化通信成本。在大规模分布式训练系统中,每个计算节点需要频繁地与其他节点交换信息,导致部分时间在等待数据的传输,计算资源不能持续进行数据处理,资源利用率低下。以 DeepSeek-V3 为例,
33、在模型训练时跨节点的专家并行性带来的通信开销导致计算与通信的比率约为 1:1。为了解决这一问题,DeepSeek 在单独的前向和后向块内部重叠计算和通信,通过采用双向管道调度,同时从管道的两端供给数据,使大部分通信可以完全重叠,从而实现通信成本的降低。14/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告使用使用 FP8FP8 数据格式提升训练效率数据格式提升训练效率。DeepSeek 在训练模型时提出了使用 FP8 数据格式的细粒度混合精度框架,大部分计算密集型操作在 FP8 精度下进行,少数关键操作保持在原始的数据格式中。这种设计理论上使计算速度比传统的 BF1
34、6 方法提高了一倍。同时,使用 FP8 精度存储可以减少内存需求,使得训练过程更加高效。然而,低精度计算可能会引入更多的数值不稳定性和精度损失,为了解决这一问题,DeepSeek 在 GEMM(通用矩阵乘法)操作的内部维度引入了每组缩放因子,根据较小的元素组调整缩放比例,使量化过程能更好地适应离群值,从而保障了低精度训练结果的准确性。(4)推理层:将推理层:将 R1 推理能力迁移至模型中推理能力迁移至模型中推出类推出类 o1o1 推理模型,为推理模型,为 V3V3 模型提供基础模型提供基础。2024 年 11 月 20 日,DeepSeek 发布 DeepSeek-R1-Lite,R1系列模型
35、使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字,在数学、代码以及各种复杂逻辑推理任务上,取得了与 o1-preview 相似水准的推理效果。目前该系列模型仍处于迭代开发阶段,正式版 DeepSeek-R1 模型技术仍未开源。以以 R1R1 推理能力为底座,将能力迁移至推理能力为底座,将能力迁移至 V3V3 中中。在后训练部分中,对于推理相关的数据集,DeepSeek 利用内部的 DeepSeek-R1 模型生成数据。DeepSeek 首先开发一个专门针对特定领域(如编程、数学或一般推理)的专家模型,使用结合了监督式精调(SFT)和强化学习(RL)的训练管道,使用这个专家模型
36、作为最终模型的数据生成器。这种方法确保了最终训练数据保留了 DeepSeek-R1 的优势,使用此训练数据训练的 V3 模型能够极大的提升自身的推理能力。对于非推理数据,DeepSeek 使用 DeepSeek-V2.5 生成响应,并招募人类注释员来验证数据的准确性和正确性。通过从 DeepSeek-R1 系列模型中提取推理能力,V3 模型实现了在数学、编程等领域性能上的提升。推理算力包含 GB300、博通、marvell 等各类 asic 芯片。15/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告四、应用场景四、应用场景DeepSeek 的技术创新不仅降低了成本
37、,还推动了 AI 技术在各行各业的应用。以下是具体的应用场景分析:1、AI+影视:重塑影视创作与生产影视:重塑影视创作与生产AIGC(生成式 AI)在影视生产全环节得到广泛应用,从剧本生成到场景渲染,AI 技术大幅降低了影视制作的成本和时间。例如,AI 可以根据导演的创意快速生成剧本大纲,甚至生成详细的场景描述和对话。在后期制作中,AI 可以自动完成特效渲染、画面修复等工作,提高制作效率。此外,AI 还可以通过分析观众反馈,实时调整剧情走向,提升影视作品的吸引力和观众满意度。16/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告2、AI+游戏:提升游戏开发效率与体验
38、游戏:提升游戏开发效率与体验AI 技术在游戏资产生成、仿真场景渲染等多个环节的应用,提升了游戏开发的效率和多样性。AI 可以自动生成游戏中的角色、道具、场景等资产,减少人工设计的工作量。同时,AI 驱动的 NPC(非玩家角色)能够根据玩家的行为做出更智能的反应,增强游戏的互动性和趣味性。此外,AI 还可以优化游戏的渲染效果,提高画面质量和帧率,为玩家带来更流畅的游戏体验。3、AI+社交陪伴:满足个性化社交需求社交陪伴:满足个性化社交需求AI 驱动的虚拟助手和虚拟角色能够提供情感支持和个性化服务,满足用户的社交需求。例如,虚拟助手可以根据用户的兴趣爱好、情绪状态等,主动发起对话,提供陪伴和安慰。
39、在社交平台上,AI 可以生成虚拟角色,与用户进行互动,甚至参与社交活动。这些虚拟角色可以根据用户的反馈不断学习和优化,提供更贴心的服务,缓解用户的孤独感。17/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告4、AI+电商:提升运营效率与用户体验电商:提升运营效率与用户体验AI 技术通过分析用户行为数据,实现精准推荐和自动化客户服务,提升了电商平台的运营效率和用户体验。AI 可以根据用户的浏览历史、购买行为等,精准推荐符合用户需求的商品,提高用户的购买转化率。同时,AI 驱动的聊天机器人可以实时解答用户的问题,提供 24 小时不间断的客户服务。此外,AI 还可以优化
40、电商平台的物流配送、库存管理等环节,降低运营成本,提高运营效率。5、AI+营销领域营销领域:实现个性化的营销策略:实现个性化的营销策略在 AI+营销领域,DeepSeek 凭借其强大的 AI 能力,为营销行业带来了新的变革。DeepSeek 能够通过深度学习和数据分析,精准地识别和预测消费者的偏好和需求,实现个性化的营销策略。它可以根据用户的浏览历史、购买行为等多维度数据,构建详细的用户画像,为每个用户推荐符合其兴趣的商品,从而提高用户的购买转化率。同时,DeepSeek 的 AI 技术还可以优化广告投放策略,实时调整广告的投放时18/302025 年年 2 月月 14 日日行业行业|深度深度
41、|研究报告研究报告间和渠道,确保广告能够在最合适的时机触达目标受众。此外,DeepSeek 的生成式 AI 能力能够自动生成高质量的营销文案、图片、视频等内容,为品牌商提供多样化的创意素材。这些内容不仅具有高度的创意和吸引力,还能精准传达品牌的核心价值。通过这些创新应用,DeepSeek 帮助企业在海量用户中精准触达目标客户,提升营销效果和投资回报率,为营销行业注入新的活力。五五、产业机遇产业机遇1、产业加速适配产业加速适配 DeepSeek,“Jevons 悖论悖论”下算力需求或将提升下算力需求或将提升(1)国产国产 Deepseek 模型爆火,高端算力模型爆火,高端算力/高集群能力并非唯一
42、解高集群能力并非唯一解R1 模型在技术上实现了重要突破用纯深度学习的方法让 AI 自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性能比肩美国开放人工智能研究中心(OpenAI)的 o1 模型正式版,该模型同时延续了该公司高性价比的优势。深度求索公司 R1 模型训练成本仅为 560 万美元,远远低于美国开放人工智能研究中心、谷歌、“元”公司等美国科技巨头在人工智能技术上投入的数亿美元乃至数十亿美元。根据新智元援引外媒报道,他们在短短两个月时间,在 2048 个 H800GPU 集群上,训出 6710 亿参数的 MoE 语言模型,比顶尖 AI 效率高出 10 倍。DeepseekDeep
43、seek 突破不是用突破不是用 CUDACUDA 实现的,而是通过大量细粒度优化以及使用英伟达的类汇编级别的实现的,而是通过大量细粒度优化以及使用英伟达的类汇编级别的 PTXPTX(并(并行线程执行)编程行线程执行)编程。在训练 V3 模型时,DeepSeek 对英伟达 H800GPU 进行了重新配置:为了最大化性能,DeepSeek 还通过额外的细粒度线程/线程束级别调整,实现了先进的流水线算法。这些优化远超常规CUDA 开发水平,但维护难度极高。然而,这种级别的优化恰恰充分展现 DeepSeek 团队的卓越技术实力。(2)“Jevons 悖论悖论”或说明算力需求有望持续提升或说明算力需求有
44、望持续提升19/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告DeepSeekDeepSeek 激活激活 AIAI 产业链,云厂商加速适配产业链,云厂商加速适配。基于 DeepSeek 的开源属性,AI 产业链企业正加速适配DeepSeek。据不完全统计,2 月以来,已有超 20 家云服务和智算企业宣布支持 DeepSeek,包括华为云、腾讯云、阿里云、百度智能云、火山引擎、京东云、三大运营商云、国家超算互联网平台等。同时,海外科技巨头微软、英伟达、英特尔、AMD、亚马逊等也已上线 DeepSeek。DeepSeek 作为开源的大模型技术,正持续激发产业拥抱新技术
45、,加速 AI 技术升级迭代。DeepSeekDeepSeek 持续火爆,官网多次宕机持续火爆,官网多次宕机。据 AI 产品榜数据显示,1 月 20 日 DeepSeekR1 模型发布后,1 月DeepSeek 用户增长达 1.25 亿(含网站(Web)、应用(App)累加不去重);1 月 27 日,DeepSeek 应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜;同时,根据 QuestMobile 数据显示,DeepSeek 日活跃用户数在 2 月 1 日突破 3000 万大关,成为史上最快达成这一里程碑的应用。与此同时,访问量激增导致 DeepSeek 服务状态在 1 月 2
46、7 日多次出现异常,影响 API 服务和网页对话服务;2 月 6 日,DeepSeek 开放平台由于服务器资源紧张,暂停了 API 服务充值。在服务需求高增的同时,算力不足仍是目前制约产业发展的瓶颈之一。“JevonsJevons 悖论悖论”或说明算力需求有望持续提升或说明算力需求有望持续提升。“Jevons 悖论”指出:当资源利用效率提高时,实际上可能会导致资源消耗的增加,而不是减少。由于 DeepSeek 的技术突破使得大模型训练成本大幅优化,或将驱动企业开发此前因预算受限而搁置的创新项目,最终加大了整体技术支出。同时,随着人工智能变得更加高效,其使用量也将激增。因此,长期视角下,高质量开
47、源低价模型将带动 AI 大繁荣,算力需求不增反降。DeepSeekDeepSeek 加速加速 AIAI 平权,算力需求或将持续提升平权,算力需求或将持续提升。随着 DeepSeek 在大幅降低 AI 大模型使用成本的同时,进一步提升了应用质量,或将在其基础上催生大量垂类应用,并加速 AI 应用落地,进而进一步带动算力需求的爆发。(3)多家云厂适配多家云厂适配 DeepSeek,第三方云厂有望受益,第三方云厂有望受益20/302025 年年 2 月月 14 日日行业行业|深度深度|研究报告研究报告云资源成为云资源成为“硬通货硬通货”,云厂商手握算力资源,打开阈值上限,云厂商手握算力资源,打开阈值
48、上限。DeepSeek 通过开源实现了与 OpenAI 的o1 模型性能相媲美的 R1 系列模型,不仅降低了技术门槛,还为中小企业和初创公司提供了平等的技术获取机会,从而推动了 AI 生态的完善。广大研究人员、开发者以及企业,无需依赖商业公司的闭源模型,能够基于 DeepSeek 的开源成果进行更深入的研究和开发。企业争相部署 DeepSeek 模型的背景下,算力模型的平铺最后,云厂商会因后天积累的算力资源而受益。DeepSeek 模型的部署不仅降低了算力门槛,还为云厂商带来了新的收益机会。在大模型之间的差距被拉平的的趋势下,能赢得“胜局”的决定权落回到算力层面,云厂商在具备充足的算力“弹药”
49、与广泛的用户覆盖的天然优势前提下,有望迅速反哺。算力短缺让模型的使用捉襟见肘算力短缺让模型的使用捉襟见肘。在 DeepSeek-R1 发布后,用户访问量短时间内激增,导致服务器压力过大。DeepSeek 在 1 月 26 日发布 R1 模型后连续多日出现了服务中断的情况,DeepSeek 表示出自服务的不稳定性源自多重复杂因素:突发流量激增、系统升级适配中的问题以及底层基础设施的临时性波动。云厂商有望通过提供云厂商有望通过提供 MaaSMaaS 服务(模型即服务)受益于服务(模型即服务)受益于 AIAI 应用爆发中推理需求的崛起应用爆发中推理需求的崛起。对于很多不具备专业数据科学团队、缺乏模型