您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
   
业务架构设计
4月18-19日 在线直播
基于UML和EA进行系统分析设计
4月25-26日 北京+在线
AI 智能化软件测试方法与实践
5月23-24日 上海+在线
     
   
 
 订阅
一文了解DeepSeek及应用场景
 
作者:辩思
  92  次浏览      2 次
 2025-3-28
 
编辑推荐:

本文详细介绍了DeepSeek及其应用场景,涵盖了大模型的发展历程、基本原理和分类(通用与推理模型)。文章分析了DeepSeek的具体特性、性能优势、低成本训练与调用特点,以及其技术路线(如MoE、MLA架构),并与竞品进行了对比。此外,还探讨了DeepSeek在金融风控等领域的应用前景。希望对你的学习有帮助。
本文来自于微信公众号阿里云开发者 ,由火龙果软件Linda编辑,推荐。

阿里妹导读

本文详细介绍了DeepSeek及其应用场景,涵盖了大模型的发展历程、基本原理和分类(通用与推理模型)。文章分析了DeepSeek的具体特性、性能优势、低成本训练与调用特点,以及其技术路线(如MoE、MLA架构),并与竞品进行了对比。此外,还探讨了DeepSeek在金融风控等领域的应用前景。

一、大模型发展回顾

1.1. 大模型发展历程

从OpenAI看大模型发展趋势

2024年5月,OpenAI发布了GPT-4o,模型能够处理和生成文本、图像和音频。GPT-4o 在语音、多语言和视觉基准测试中取得了最先进的成果,创造了语音识别和翻译的新纪录。

2024年7月,OpenAI发布了GPT-4o mini,取代 ChatGPT 界面上的 GPT-3.5 Turbo,API 成本显著降低,适用于企业、初创公司和开发者。

2024年9月,OpenAI 发布了 o1-preview(更适合推理任务)和 o1-mini(更适合编程任务)模型,这些模型设计为在生成回答时花费更多时间思考,从而提高准确性。

2024年12月,OpenAI 发布了 o1,比 o1-preview 更智能、更快,功能更多(比如多模态功能)

2025年2月,OpenAI 发布了o3-mini,o3-mini在大多数情况下o3-mini比o1-mini产生更准确、更清晰的答案,同时响应更快,其平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。

2025年2月9日,OpenAI发布全新的智能体-deep research,可以进行网络浏览和数据分析,可以利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF文件,并根据搜集的信息进行灵活调整。

2025年2月9日,OpenAI表示内部已达到了GPT-4.5,表示接下来的重点是高能力的推理模型、多模态以及智能体。

2025年2月28日,OpenAI发布GPT-4.5,最大、知识最丰富、情商最高的大模型。

*GPT-4o的o表示omni,意为“全知全能的”;o1/o3的o表示OpenAI.

从OpenAI的发展过程看大模型的发展趋势:

GPT-x系列: 更强的通用能力;

GPT-4o等:多模态输入输出能力;

o系列: 推理模型,复杂推理能力, CoT;

-mini: 更低成本、更快响应速度;

deep research等: 大模型agent;

1.2. 大模型基本原理

大模型是如何构建的?

引用论文 Large Language Models: A Survey [1]

Step 1: 准备数据和数据清洗。数据集源于网页、书籍、博客、知乎、百科等。

Step 2: 分词,转化为模型可用于输入的token

Step 3: 位置编码

Step 4: 进行模型预训练,即输入文本,让模型做next token prediction等任务。

Step 5: 通过SFT等手段微调和指令微调, 教会大模型如何对话和完成特定任务

Step 6: 通过RLHF等手段进一步对齐人类偏好,引入人类反馈,指导模型优化方向,生成更加符合人类需求,缓解有害性和幻觉的问题

Step 7: 通过贪心搜索等生成策略,逐步生成下一个词

Step 8: 优化与加速训练推理过程

核心的三个步骤: 预训练,有监督微调和人类反馈强化学习。

1.3. 推理模型与通用模型

大模型发展至今,可以分为: 通用大模型与推理大模型。

通用大模型: 适用于大多数任务,侧重于语言生成、上下文理解和自然语言处理,而不强调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像推理模型那样复杂的推理和决策能力。

推理大模型: 在传统模型基础上,强化推理、逻辑分析和决策能力。

思维链(Chain of Thought, CoT)通过要求/提示模型在输出最终答案之前,显式输出中间逐步的推理步骤这一方法来增强大模型的算数、常识和推理的性能。从该角度,可以将大模型的范式分为两类: 概率预测(快速反应模型)和链式反应(慢速思考模型),前者适合快速反馈,处理即时任务,后者通过推理解决复杂问题。

一个例子,问: 1+2+3+4+5+6+7+8+9+10=多少,直接告诉我答案

快速反应模型回答:

慢速思考模型回答:

二、DeepSeek

2.1. DeepSeek是什么

DeepSeek(深度求索)是中国的人工智能公司,成立于 2023 年7月,由知名量化资管巨头幻方量化创立,专注于探索通用人工智能(artificial general intelligence,AGI)的实现路径,主攻大模型研发与应用。

DeepSeek-V3是其开源的通用自然语言处理模型,对标GPT-4o.

DeepSeek-R1是其开源的推理模型,擅长处理复杂任务,对标OpenAI o1 / o1-mini.

DeepSeek主流模型的竞品对标

2.2. DeepSeek可以做什么

直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持联网搜索与深度思考,同时支持文本上传,能够扫描读取各类文件及图片的文字内容。

2.3. DeepSeek的模型对比

2.3.1. DeepSeek模型发展史

资料来源: 彩云之南公众号,浙商证券研究所。[相关链接2]

我们常说的DeepSeek的大模型,是指当前主流的DeepSeek-V3和DeepSeek-R1。

2.3.2. V3与R1的对比与选择

总结: 不考虑调用成本,复杂推理任务(例如数学、代码等)或者希望获取思维链,优先DeepSeek-R1;内容创作、文本生成等优先DeepSeek-V3。

DeepSeekV3与DeepSeek-R1的对比

选择V3和R1的指南

2.3.3. 竞品-OpenAI的大模型

*o3-mini的一个介绍: [3], o1-mini的一个介绍: [4], GPT-4o的一个介绍: [5], GPT-4o-mini的一个介绍: [6]

2.3.4. 竞品-通义千问的大模型

引用: 通义千问官网[7]

2.4. DeepSeek为什么大火

2.4.1. 性能优越

DeepSeek-v3推断速度快:吐字速度从v2的20TPS提升到60TPS.

DeepSeek-v3性能优越: 在目前大模型主流榜单中,DeepSeek-V3 在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。

DeepSeek R1专注于推理能力,尤其是密集推理任务(reasoning-intensive tasks),比如代码、数学、科学、逻辑推理这些带有明确答案的良定义的问题。DeepSeek R1在数学、代码、自然语言推理等任务上性能可比肩OpenAI o1模型正式版

在AIME 2024数学基准测试中,DeepSeek R1得分率79.8%,OpenAI o1得分率79.2%。

在MATH-500基准测试中,DeepSeek R1得分率97.3%,OpenAI o1得分率96.4%。

顿悟(Aha)时刻: 单纯的RL(没有显式地提供CoT数据,而是告诉模型先思考,再回答)就可以激发模型产出带有长思维链(甚至是反思)的回复的能力,在DeepSeek-R1-zero训练过程中,在某个特定阶段,模型突然学会了重新评估自己的初始方法,并为复杂问题分配更多的思考时间。这个时刻不仅标志着模型能力的质的飞跃,也是研究者们的重大发现,它展示了强化学习在培养AI自主思考和问题解决能力方面的巨大潜力。

蒸馏小模型:在R1的发布中,同时探索了如何将大模型的推理能力高效地蒸馏到小模型中,使用DeepSeek-R1生成80万条训练样本,直接对开源的小模型(如Qwen和Llama系列)进行微调,开源了方便本地部署的一众蒸馏小模型。

*AIME 2024: 数学题,涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。

*MATH-500: 包含500个测试样本的MATH评测集,全面考察数学解题能力。

*GPQA: 研究生水平的专家推理,一个通过研究生级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。

2.4.2. 训练便宜

结论: DeepSeek-V3 较 OpenAI竞品,训练成本约为1/20~1/3

DeepSeek-V3训练成本 557.6万美元,但不包括架构、算法等成本。以H800算力为例,训练消耗278.8万个GPU小时,租用价格为2美元/GPU小时;

根据第三方测算,OpenAI o1与训练需要3.2万张H100训练90天,需要6912万H100 SXM GPU小时,预计训练成本数亿美元。据此估算,DeepSeek-V3训练成本是Meta 的1/10,OpenAI 的1/20;

保守估计,现在在美国预训练几千亿参数的一个模型其实也就不到2000万美元的成本,DeepSeek 把成本差不多压缩到三分之一。

*注, H800为针对中国市场定制,性能和价格略低于H100.

2.4.3. API调用便宜

结论: DeepSeek-V3 API调用价格约为OpenAI o3-mini的1/4,为GPT-4o的约1/10. 但要高于GPT-4o-mini, 性能强于GPT-4o-mini.

以下为当前调用价格,以token为单位,1个英文字符约0.3个token,1个中文字符约0.6个token,即1 token可对应1-2个中文汉字,或对应3-4个英文字符,或0.75个英文单词,截止到2025年2月8日

*o3 mini思维链: 2025年2月7日,openAI公开o3 mini思维链,业界猜测非原始思维链,而是总结之后的思维链输出。

*缓存命中: 在大模型 API 的使用场景中,用户的输入有相当比例是重复的。举例说,用户的 prompt 往往有一些重复引用的部分;再举例说,多轮对话中,每一轮都要将前几轮的内容重复输入。启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。该技术不仅降低服务的延迟,还大幅削减最终的使用成本。

*MMLU(大规模多任务语言理解)是一种新的基准测试,涵盖STEM、人文、社会科学等57个学科,有效地衡量了综合知识能力。

2.4.4. 其它因素

开源:代码仓库选择了大气的MIT开源协议,模型适用自建开源许可证,完全不限制商用。

作为鲶鱼,让全球大模型竞赛进一步提速。OpenAI发布全新推理模型o3-mini,并首次向免费用户开放推理模型。OpenAI CEO奥尔特曼首次承认,在开源上OpenAI站在了历史的错误一方。过去一周多的时间里,国内外大模型厂商从“紧急上线”新模型,到降价、免费,种种措施表明,在DeepSeek的刺激下,AI大模型行业的竞争正变得越来越激烈。

学术上:DeepSeek-R1-Zero展示了自我验证、反射和生成长CoT等功能,这标志着研究界的重要里程碑。这是第一个验证的开发研究,可以纯粹通过RL来激励的LLMs推理能力,而无需SFT,解决了CoT数据获取困难的问题。

2.5. DeepSeek为什么又好又省-技术路线

2.5.1. 主要技术路线

模型结构和训练方法上: 省

参考: DeepSeek-v3技术文档 [8]

DeepSeekMoE: 混合专家模型,推理时,仅动态激活部分专家(37B 参数),而非全模型参数(671B 参数),减少计算负担。

引入无辅助损失的自然负载均衡来解决不同专家的负载均衡问题。

采用MLA (Multi-Head Latent Attention)架构,扩展了传统的多头注意力机制,引入潜向量(latent variables),可以动态调整注意力机制,捕捉任务中不同的隐含语义。在训练中减少内存和计算开销,在推理中降低KV缓存占用空间,把显存占用降为MHA架构的5%~13%。

采用多步token预测 MTP(Multi-Token Prediction)。一般LLM一次生成1个token,DeepSeek在特定场景下能同时预测多个token,来提高信号密度。一方面能够减少上下文漂移、逻辑更连贯,也能减少一些重复中间步骤,在数学、代码和文本摘要场景能提升效率。

采用了GRPO(Group Relative Policy Optimization)的强化学习算法。核心思想是:对于每个问题,从旧策略中采样多个输出,然后根据这些输出的奖励计算相对评分来优化新策略。跳过传统RL中与策略模型等规模的critic网络,减少开销。

模型结构和训练方法上: 好

Cot:Chain of thought。将复杂的问题拆分成小步的中间逻辑,细分逻辑链条。在训练阶段,DeepSeek-R1用标注的Long CoT数据微调模型,让模型生成更清晰的推理步骤,在强化学习中用CoT设计奖励优化,增强长链推理能力,并且在此过程中观察到了模型的反思(回溯推理路径)、多路径推理(能给出多个解)、aha时刻(通过策略突破瓶颈)等自发行为。

拒绝采样: 当针对推理的强化学习收敛后,研究者们使用训练得到的模型进行拒绝采样,生成多个答案,然后只选择最优的答案来继续训练,生成新的监督微调(SFT)数据。这个阶段的目的是提高模型在非推理任务(如写作、角色扮演等)上的表现。

工程上:省

FP8混合精度训练:引入了FP8 混合精度训练框架,相比传统的FP16 精度,数据内存占用更少,但在一些算子模块、权重中仍然保留了FP16、FP32 的精度,节省计算资源。

底层通信优化:专门开发了高效的跨节点全对全通信内核,优化对带宽的利用,保证数据传输效率,并能支持大规模部署。

DualPipe跨节点通信:传统训练信息流水线会产生一些等待时间、有“流水线气泡”,DeepSeek设计了一个双重流水线,让一个计算阶段在等待数据传输时可以切换到另一批数据,充分利用空闲时间。

并行:对硬件的极限使用. 在系统架构层面,DeepSeek就使用了专家并行训练技术,通过将不同的专家模块分配到不同的计算设备上同时进行训练,提升了训练过程中的计算效率。并对算力做极致压缩。

2.5.2. Mixture of Experts (MoE) 混合专家模型

MoE在NLP、CV、多模态和推荐系统中有广泛的应用(时间线上面的开源,下面的闭源)。

参考: A Survey on Mixture of Experts [9]

核心想法: 模型的不同参数, 作为专家,针对不同的任务或者不同的数据定制化。

优点: 给定输入,只有部分相关的专家会被激活,使得计算量减少,但受益于丰富的定制化的知识池。

两种典型的MoE: Dense MoE VS. Sparse MoE

Dense MoE: 每次前向传播,所有专家参与,计算负担大

Sparse MoE: 在每次前向传播时只选择专家的一个子集,即Top-k专家

往往会带来负载均衡问题,即专家工作量的不均衡分布,部分专家频繁更新,其它专家很少更新,大量研究专注于解决负载均衡问题。

DeepSeek的MoE结构: DeepSeekMoE

DeepSeek-R1: 1个共享的专家+63个路由的专家,每个专家是标准FFN的1/4大小.

2.5.3. Multi-Head Latent Attention (MLA)

低秩联合压缩键值:MLA通过低秩联合压缩键值(Key-Value),将它们压缩为一个潜向量,从而大幅减少所需的缓存容量,降低计算复杂度。

优化键值缓存:在推理阶段,MHA需要缓存独立的键和值矩阵,会增加内存和计算,而MLA通过低秩矩阵分解技术,显著减小了存储KV的维度,从而降低了内存占用。

2.5.4. R1的训练范式:冷启动与多阶段RL

参考: 知乎@绝密伏击 [10]

Step 1 冷启动: 先收集一部分高质量CoT冷启动数据(约几千条),使用该数据fine-tune DeepSeek-v3-base模型,记为模型A;

Step2 大规模RL: 使用A模型用GPRO训练,使其涌现推理能力,收敛的模型记为B;

Step3 : 使用B模型产生高质量SFT数据,并混合DeepSeek-V3产生的其它领域的高质量数据,形成一个高质量数据集;

Step4 再次SFT: 使用该数据集训练原始DeepSeek-v3-base模型,记为模型C;

Step5 最终RL: 使用C重新进行Step2,但是数据集变为所有领域,收敛后的模型记为D,这个模型就是DeepSeek-R1

Step6: 训练C模型的数据对小模型进行蒸馏,得到蒸馏的相对较小的模型。

2.6. DeepSeek与竞品对比

2.6.1. 几个竞品的对比

DeepSeek:适合需要行业定制化、高性价比的企业用户、研究者,尤其是中文垂类场景。

GPT系列:优势在于通用性、多模态能力和全球化知识覆盖。

豆包:定位轻量级C端应用,交互简单、内容偏娱乐化,依赖字节生态,知识偏国内。

2.6.2. DeepSeek的缺点

DeepSeek-V3在一些层面上是有偏科的。它的创意生成相对薄弱,开放性任务表现一般,结构化思维的能力远高于发散思维。甚至在专业领域比通用领域表现的更好。

DeepSeek-R1 专注于推理,在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的能力不及 DeepSeek-V3。

民间测试: 在经典的编写重力小球弹跳可视化脚本的实验中,从物理学的遵循程度来讲,与OpenAI o3-mini相比还是有差距的。

2.6.3. DeepSeek的影响

推动了大模型开源进程,作为鲶鱼,让全球大模型竞赛进一步提速。

2.7. DeepSeek使用建议

DeepSeek提示词库[11]

2.7.1. DeepSeek使用的不同点

DeepSeek-R1作为推理模型

其已内化推理逻辑,prompt应该更加简洁,只需明确任务目标和需求;

无需逐步指导,模型自动生成结构化推理过程,如果强行拆解步骤,可能会限制其能力。

DeepSeek-v3作为通用模型

对于复杂推理任务,需显式引导推理步骤;

依赖提示语补偿能力短板,如要求分析思考、提供示例等。

2.7.2. R1的正确打开方式

对于推理大模型,存在欺骗技巧失效和“启发式提示”失效的问题:

参考: 知乎田威AI[12]

欺骗技巧失效

角色扮演和结构化提示词等“启发式提示”失效。过去角色扮演和结构化提示词可以显著提升AI生成内容的质量,但在R1等推理模型上,DeepSeek并没有真的在扮演我们让它扮演的角色,而是通过推理分析用户的需求来生成内容,并且自主完成思维链的构建,因此启发式提示可能会干扰逻辑主线。

2.7.3. DeepSeek使用建议

自然语言优先。DeepSeek在交互方式上追求自然,我们只需要像跟人对话一样描述你的实际需求与真实场景。一个可能的提问模板

[前情]+[任务]+[要求]+[补充]

善用DeepSeek-R1的深度思考能力

1. “批判视角”,帮我们识别潜在风险

2. “逆向推演”,强制验证逻辑漏洞

3. “跨界迁移”,引入其他领域解决方案

多看思考过程,了解解题思路。

警惕AI幻觉。尤其是处理大量史实类信息、日期类信息时会有大量错误。

 
   
92 次浏览       2
相关文章

基于图卷积网络的图深度学习
自动驾驶中的3D目标检测
工业机器人控制系统架构介绍
项目实战:如何构建知识图谱
 
相关文档

5G人工智能物联网的典型应用
深度学习在自动驾驶中的应用
图神经网络在交叉学科领域的应用研究
无人机系统原理
相关课程

人工智能、机器学习&TensorFlow
机器人软件开发技术
人工智能,机器学习和深度学习
图像处理算法方法与实践

最新活动计划
DeepSeek软件测试应用实践 4-12[在线]
DeepSeek大模型开发实践 4-19[在线]
UAF架构体系与实践 4-11[北京]
AI智能化软件测试方法与实践 5-23[上海]
基于 UML 和EA进行分析设计 4-26[北京]
业务架构设计与建模 4-18[北京]
 
 
最新文章
AIGC技术与应用全解析
详解知识图谱的构建全流程
大模型升级与设计之道
自动驾驶和辅助驾驶系统
ROS机器人操作系统底层原理
最新课程
人工智能,机器学习和深度学习
人工智能与机器学习应用实战
人工智能-图像处理和识别
人工智能、机器学习& TensorFlow+Keras框架实践
人工智能+Python+大数据
成功案例
某综合性科研机构 人工智能与机器学习
某银行 人工智能+Python+大数据
北京 人工智能、机器学习& TensorFlow
某领先数字地图提供商 Python数据分析
中国移动 人工智能、机器学习和深度学习