编辑推荐: |
本文主要介绍了大模型Agent相关的研究痛点、应用场景、发展方向等内容。希望对你的学习有帮助。
本文来自于微信公众号AINLPer,由火龙果软件Linda编辑,推荐。 |
|
引言
去年曾发文说大模型Agent是2024年的发力点,现在随着基模能力越来越强,今年的AI
Agent仍将是热门话题,而且一些最新学术研究都与Agent相关。作为今年特别重要的一个风口,躺在风口上也能稍你一程。那么什么是Agent呢,可能每个人对Agent的理解都不一样。今天给大家重新梳理一下Agent的知识,其中主要包括Agent组成、各部分面临痛点、应用场景、未来发展、以及相关开源框架等,其中穿插了一些个人思考,有错误地方还请批评指正。
初识Agent
之前的AI模型,主要依赖输入指令,让模型按照步骤一步一的执行,最终完成任务。而Agent,它不需要依赖明确的指令,而是基于目标进行思考,规划、执行、反思等过程,来达到既定目标。其实,它就像人类在处理复杂问题时,先对问题进行分析,根据分析思路来解答问题,在此过程中人类也可能会用到书籍、搜索引擎等工具,最终得到答案,最后再对结果做一下核算。
随着LLM技术的发展,生成式 AI 模型也具备了自我思考的能力,也可以通过工具访问实时信息并执行现实世界的任务。这种结合推理、逻辑和外部信息访问能力的
AI 体系被称为Agent(智能代理),其能力超越了单一 AI 模型的独立运作模式。  再举个简单的例子,假设你正在计划一次旅行,你需要了解目的地天气、航班信息,并预订酒店。如果你单独使用
AI 模型,它只能根据已有的训练数据提供建议,可能无法给出实时准确的信息。但如果这个 AI 模型配备了天气
API、航班查询工具和酒店预订系统,它就可以实时获取最新的天气情况、查询最佳航班,并直接帮你完成预订操作。这个AI
体系就可以理解为一个智能代理(Agent)。
Agent定义
最近大家都在提Agent,例如AutoAgent、Dify、Manus等,突然想到一个问题,那么什么才是Agent,有没有明确的定义呢?为此关于Agent的定义,网上搜索了一圈,说其最早“Agent”这个词可以追溯到古罗马时期,并且还能够从一些哲学家的哲学作品找到影子。
一篇文章中说Agent的哲学概念泛指具有自主性的概念或实体,它可以是人造的物体,可以是植物或动物,当然也可以是人。这定义挺好的,我没意见。感兴趣的小伙伴可以就这个定义去搜索了解一下,把故事线梳理清楚了可以整篇论文了。个人认为一个东西能够对外界环境做出反应,并修正自己的行为,这就可以是一个智能体(当然你可以有自己的想法)。
在人工智能领域应用方面,作者主要接触下面两种类型智能体(小工具智能体除外):
一种是基于小模型+规则的智能体,通过模型做意图分类、实体识别、情感分类等,然后人为添加流程控制和固定外调接口,让智能体在不同的流程节点,给出对应的答案,就比如当前大多数公司使用的智能客服,首层一般都是一个意图分类模型做菜单导航,每个业务都对应的业务流程节点,每个节点人为配置,通过实体识别、意图识别进入下一个节点,最终实现业务办理或者介绍。尽管每家都说智能客服准确率怎么样,解决了多少问题,节约了多少人力,但对于实际用户来说,还是人工方便。
一种是基于大模型+规则智能体,由于大模型(LLM)具备逻辑推理、任务规划、工具调用等相关能力,相当于融合了小模型的实体识别、意图分类、人为流程编排、接口外调等功能。为此,目前主流的AI
Agent以大模型为核心,Agent能够自主感知、规划、执行和反馈,从而完成复杂任务,比如最近的Manus就引起了大家的注意。相比
传统的AI 仅限于被动响应,Agent更强调自主决策和任务执行能力。(未来发展方向基本都会依赖大模型能力吧~)
然而,不管Agent最早出自哪里,你是怎么理解Agent。我们参考一下去年Google发布了一篇Agent的白皮书,给出了Agent的定义:Agent
是一个能够自主决策并采取行动的软件系统,它能够观察环境、使用工具,并以目标为导向执行任务。Agent具备以下几个关键特征:
自主性:可以在无人工干预的情况下运行,独立做出决策。
目标驱动:具备主动性,即使没有明确指令,也会推理如何完成任务。
环境感知:能够处理外部输入,如用户请求、传感器数据或数据库信息。
可扩展性:可以整合不同的工具(API、数据库、计算模块等),提升执行能力。
适应性:能根据任务需求调整行为,优化执行路径。
从这个定义来看,突然发现,这不就指的身为“牛马”的我们吗?导师、领导下达指令,我们结合所学知识、搜索引擎、产出工具(微软三大件)完成工作;提交上去领导发现错误,我们就会被批评,还要PUA一下:这种事情你就不能主动思考、主动检查一下吗?还要我提醒!做的好一些呢,奖励一下(多发200百)。巧了,对上了!Agent==“牛马”==我,这么考虑的话,Multi-Agent,不就是对应现实的课题小组、xx项目团队么,再放大一些,世界就也是一个Agent。(说多了~)
Agent的组成部分
Agent 由多个组件协同工作,以实现高效决策和任务执行。看到很多文章都提到说:大模型Agent由规划、记忆、工具与行动四大关键部分组成,分别负责任务拆解与策略评估、信息存储与回忆、环境感知与决策辅助、以及将思维转化为实际行动。但实际上现在的大模型Agent最主要几个关键部分为:base大模型的动态推理规划、工具模块、记忆模块。如下图所示: 
Agent工作流程
基于上面对Agent的组成部分,一个典型的Agent运行流程一般会包括感知、推理、决策、执行、反馈等几个流程。其中:
感知(Perception) 主要是接收输入信息,这个信息可以是用户输入或者是通过传感器在环境中获取信息;
推理(Reasoning):主要是综合上下文、环境感知信息等,分析输入数据并规划任务执行步骤;
决策(Decision Making):通过推理得到的结果来选择合适的工具或操作;
执行(Action Execution):调用 API、数据库或计算模块,完成任务;
反馈(Feedback & Learning):分析执行结果,优化未来决策。
举个例子:比如在电商智能客服场景下,有一个 AI 智能客服 Agent 来解答客户问题。当用户输入为:“请帮我查询这件商品的库存。”;Agent接收到输入信息之后,首先会通过上下文正确解析用户请求,然后会调用库存数据库
API 查询数据,即通过订单号查询订单信息、获取商品ID,结合通过商品ID再获取库存;最后结合用户问题和数据库结果来生成对客回复;输出给用户:“该商品目前有
15 件库存,可立即发货。”
举一反三,通过整合语言模型、工具和智能编排,Agent 能够动态响应不同类型的用户需求,实现更强大的自动化和智能化服务。
一、LLM动态推理规划
作为 Agent 的核心决策引擎,它决定 Agent 如何分析信息、精准的拆解任务、动态推理、做出选择、执行。在此过程中通常会用到各种Prompt框架、多Agent协同、模型微调等方法,来提高LLM推理规划能力。(这是学术研究的一个重要研究方向)
1、Agent中LLM能力
大语言模型作为Agent系统的智能核心,扮演着不可替代的中枢角色。其主要需要具备以下能力:
1)理解分析 大模型凭借深厚的理解与分析能力,从模糊或间接的表述中提取真正的用户需求,补充用户未明确说明但对任务执行必要的信息,并判断问题的难度和所需资源,当遇到在信息不完整时请求澄清或做出合理假设。当用户说"帮我查一下明天去上海的航班"时,大模型能自动识别出需要使用航班搜索工具,并了解需要确定出发地、日期和偏好等关键参数。
2)规划决策 该项能力可以让Agent能够处理复杂多步任务,即将复杂目标分解为可管理的子任务,设计工具调用序列,并根据中间结果动态调整执行计划,在此过程中它还可以评估不同解决方案的效率和成本,预判可能的失败点并准备备选方案,最终确定任务执行的最佳顺序。这里一般都会用到思维链、ToT、ReAct等一些推理方法,当执行如"为我的创业项目创建一个市场分析报告"这样的复杂请求时,大模型会规划出搜索市场数据、分析竞争对手、生成图表、撰写分析等一系列步骤。
3)工具调用规划 将任务需求精确映射到适当应用工具上,构建符合工具API要求的结构化参数,确定何时调用工具以及何时使用自身知识,识别需要多个工具协同的场景,当首选工具不可用时找出替代方案,生成符合特定工具要求的精确调用指令。例如,对于"分析这组数据并创建可视化"的请求,大模型能判断需要先使用数据处理工具,然后是统计分析工具,最后是可视化工具,并为每个工具生成适当的参数。
4)上下文整合 大模型的上下文整合能力保证了Agent系统的连贯性和一致性,它追踪任务状态,融合历史交互信息,维护长期记忆。预训练获得的广泛知识使大模型能够补充专业背景,应用常识推理,并将知识从一个领域迁移到相关问题。面对工具返回的原始数据,大模型提供关键的再处理能力,将技术性输出翻译为普通语言,提取核心信息,整合多源结果为统一答案。
5)大模型知识 大模型经过海量知识的淬炼,具备庞大的知识体系。它可以补充工具可能缺乏的专业知识,应用基本世界知识辅助决策,它还可以将专业概念转化为用户可理解的说明。在跨领域场景下,发现不同知识领域间的联系,将另外一个领域的知识经验应用到当前场景。
6)解释再处理 大语言模型能够将复杂的技术输出转化为通俗易懂的语言,提取关键信息,重构数据格式,并综合多个工具的结果,形成统一且易于理解的答案。它还能对不同工具的结果进行比较分析,并提供最适合的可视化建议。例如,当搜索工具返回大量信息时,模型可以提取相关内容并以简洁的方式呈现给用户。
7)反馈自适应 大语言模型赋予了Agent系统学习和适应能力。它能够识别工具调用失败或结果异常,根据反馈调整策略,并自我评估解决方案的质量。模型还可以监测用户满意度,根据用户反馈逐步优化解决方案。例如,当用户对初始结果不满意时,模型会理解具体原因并调整策略,比如提供更详细的信息或尝试其他工具。
通过这些深入的能力,大模型不只是Agent系统的一个组件,而是真正的智能核心,协调和增强了整个系统的功能,使之远超各部分能力的简单叠加。
2、研究痛点
大模型Agent虽然拥有强大的能力,但仍面临多重技术瓶颈。
1)在推理能力方面,Agent常在复杂任务中出现推理链断裂,抽象思维不足,且自我纠错能力有限,导致在科学研究等高度抽象领域表现欠佳。同时,因果推理能力的缺乏使其难以区分相关性与因果性,进一步限制了其分析复杂问题的能力。
2)在工具使用效率方面,同样是制约Agent发展的关键因素。从工具选择到参数配置,从错误处理到多工具协同,Agent在与外部工具交互的各个环节都存在明显短板。特别是当外部API发生变更时,Agent适应新接口的能力更是微弱,这严重影响了其在实际应用中的可靠性和稳定性。
3)在长期规划能力方面,大模型长期规划能力不足也是Agent的显著弱点。任务分解不当、优先级管理薄弱、计划调整能力差等问题使Agent难以胜任需要长期规划的复杂任务。同时,资源分配不合理和反馈循环不闭合进一步降低了其执行效率,尤其在动态环境中更为明显。
4)在可信度方面,幻觉问题则是影响Agent可信度的主要障碍。知识边界模糊导致模型在不确定时仍给出看似确定的答案;语言生成的流畅性往往掩盖了事实错误;上下文污染和锚定效应又使错误在交互过程中被不断放大,最终导致用户对Agent产出的信任危机。
5)在长期记忆方面,上下文窗口限制则从根本上制约了Agent的长期记忆能力。随着交互的延长,早期信息的记忆衰减、信息检索困难、上下文压缩不足等问题日益凸显,使Agent难以在长时间交互中保持一致性和连贯性,极大地限制了其在复杂场景中的应用价值。
6)在安全控制方面,确保工具使用的安全性与合规性是不可忽视的研究方向。这包括权限管理框架,限制Agent可访问的工具范围;需要对agent行为制定一定的约束机制,防止危险操作;在审计跟踪系统,需要记录工具使用历史以供审查;同时需要考虑伦理决策模型,评估工具使用的伦理影响;以及对抗性测试方法,发现并修复潜在的安全漏洞。目前有研究者还在开发形式化验证技术,从理论上保证Agent的工具使用行为符合预定规范。
3、相关研究
1)北大提出元计划优化框架:MPO,增强LLM Agent规划能力。MPO利用元计划辅助代理规划,并根据代理任务执行的反馈持续优化元计划。实验表明,MPO在两个代表性任务上显著优于现有基线,且分析显示MPO提供了即插即用解决方案,提高了任务完成效率和在未见场景中的泛化能力。  2)Meta提出
MLGym 和 MLGym-bench:用于评估和开发大模型Agent。其中MLGym 是首个针对机器学习(ML)任务的
Gym 环境,旨在促进强化学习(RL)算法在训练此类 Agent 方面的研究。MLGym-bench
基准包含 13 个来自计算机视觉、自然语言处理、强化学习和博弈论等不同领域的开放式 AI 研究任务,为评估和提升
AI 研究 Agent 提供了全面的平台。  3)悉科大提出ATLAS,以提高大语言模型(LLM)Agent
的效率和泛化能力。ATLAS通过聚焦关键步骤,减少过拟合风险,提升不同环境和任务中的泛化性。实验表明,ATLAS选择的关键步骤微调的LLM在性能上优于全步骤微调的LLM及最新的开源LLM代理。  4)复旦提出大模型Agent自动化方法:SELFGOAL,增强大模型复杂任务能力。SELFGOAL,旨在增强大模型Agent在有限的人类先验和环境反馈下实现复杂任务解决能力。实验结果,SELFGOAL
显著提高了大模型Agent在各种任务(包括竞争、合作和延迟反馈环境)中的表现。 
二、工具(Tools)
Agent中的工具(Tools),主要用于扩展 Agent 访问外部世界的能力,例如 API、数据库等,使其能够执行检索、计算、数据存储等操作,注意:在多Agent情况下,其它Agent也可以理解为工具。它是现代AI发展的关键方向,它显著扩展了模型的能力边界,使AI能够执行原本无法完成的操作,如网络搜索、复杂计算和API调用等。
通过工具使用,Agent不仅能与外部世界进行实时交互,获取最新信息,还能在特定领域发挥专业优势,比如利用代码编辑器或数据分析工具解决专业问题。这种能力大幅提高了任务完成的质量和准确性,减少了幻觉现象,同时增强了AI系统的自主性,降低了人工干预的需求。
1、工具使用
1)传统方式写好API代码接口,让模型解析出代码接口所需要的参数,然后调用接口拿到结果。比如:写了一个机票查询的接口。用户说:我要买一张北京到上海的机票,让模型提取文中上海、北京两个地址,才能调用接口拿到结果。但是如果直接说:我要买一张到上海的机票,这个时候API接口就无法调用,可见这种方法维护性和扩展性都很差。
2)大模型function call,当前大模型基本上都具备了外调function的能力。大模型识别用户意图后,从预定义的函数列表中自动选择合适的函数,生成结构化的JSON格式参数,然后系统执行实际的函数调用。这允许模型以标准化方式与外部API和服务交互,是目前商业API中最常见的工具使用形式。下图是一个工具应用流程。  3)工具增强型提示,在提示词中直接描述可用工具及其使用方法,让模型生成调用工具的指令。这种方法简单直接,但对提示工程要求较高。
4)工具库将大模型可能用到的工具存储起来,当面对不同的问题的时候,去工具箱中检索,并选择合适的工具。其实RAG技术,只是向量数据库中存储的工具API的详细介绍。如下图所示:  5)模型微调通过特定的训练或微调,教会模型如何使用特定工具。这种方法将工具使用能力直接编入模型参数,使模型在特定工具上表现更佳。
2、存在的问题
1)工具选择:杀鸡焉用宰牛刀!开发更精确的工具选择算法,使Agent能够根据任务需求、工具功能特性和历史使用效果做出最优决策。这包括上下文感知型选择机制,能够理解任务的细微差别;元认知能力,让Agent评估自身是否需要外部工具辅助;以及基于不确定性的决策框架,在信息不完全情况下做出合理选择。
2)工具应用效率优化:API接口调用那么贵!提高工具使用效率是减少资源消耗的关键。研究重点包括精简工具调用流程,减少不必要的API请求;开发工具调用缓存机制,重用之前的调用结果;设计参数优化技术,自动调整工具参数以获得最佳输出;以及建立工具使用成本模型,帮助Agent在效率与效果间取得平衡。
3)错误处理机制:查缺补漏!利用异常检测算法,识别工具调用失败或异常输出;失败恢复策略,自动尝试替代方案;错误诊断系统,分析失败原因并提供修复建议;以及渐进式重试机制,根据失败模式调整重试参数。
4)工具协作:解决复杂问题往往需要多工具协作。研究包括工具间信息传递协议,确保数据在工具间无缝流动;工具依赖管理系统,协调具有前后依赖关系的工具调用;工具组合效果预测模型,评估不同工具组合的预期效果;以及工具冲突解决机制,处理多工具间可能出现的冲突或不一致。
5)学习工具使用:从工具使用成功与失败中优化策略;少样本学习技术,快速适应新工具;行为克隆方法,从人类专家示范中学习工具使用技巧;以及持续学习架构,不断更新工具使用知识。
3、相关研究
2025年,山大提出了TOOLRET,一个包含7.6k多样化检索任务和43k工具的异构工具检索基准,旨在评估大型语言模型(LLMs)在工具检索任务中的表现。此外本文作者还贡献了一个超过200k实例的大规模训练数据集,显著优化了IR模型的工具检索能力;  2025年,中科大提出了一种集成外部工具的长链推理大型语言模型:START,其核心之一就是通过在推理过程中插入Prompt有效激发模型使用外部工具;  2024年,港大设计了一个自动化评估工具ToolEvaluator,以评估LLMs在工具使用方面的准确性和效率;  2024年,人大发布一篇关于大模型工具学习(Tool
Learning)最新综述!并且提供了现有基准和评估方法的详细总结,并根据它们与不同阶段的相关性进行了分类。来帮助研究者进一步探索这一有前景的领域。 
三、记忆模块(Memory)
记忆模块主要负责存储和管理信息,从而实现更精准、更个性化的响应。具体来说:它不仅维护即时对话上下文,更承担着知识持久化、经验累积与信息检索的关键功能。在复杂任务处理过程中,记忆模块可以让Agent能够处理超出上下文窗口的长期依赖问题,同时记录工具调用历史与结果,避免重复操作并支持结果整合。
此外,它还负责跟踪多步骤任务的进度状态,确保任务完整执行,并存储Agent的自我评估历史,为元认知和持续改进提供基础支持。
1、长短期记忆
记忆模块通常分为短期记忆和长期记忆,不同类型的记忆模块具有不同的功能和特点。通过记忆模块,AI Agent
可以更好地理解当前情境,生成合理的响应,提供定制化服务,并通过记录交互历史不断改进自身行为模式。其中:
短期记忆主要用于存储临时性信息,例如当前对话的上下文内容或短时间内的用户指令。它具有容量有限、快速响应和时间衰减的特点,通常依赖简单的数据结构(如队列或栈)来实现,能够支持实时任务,但过期内容会被自动清理。
长期记忆用于存储持久化信息,如用户的偏好、历史交互记录以及知识库。它具有持久性、知识积累和个性化服务的特点,能够支持推理和问题回答,通常依赖向量数据库、图数据库或键值对存储等复杂技术来实现。
2、存在的问题
记忆检索:长期记忆一般都会存在向量数据库里面,是个性化服务的关键,如何准确的检索出不同业务场景下的记忆数据,以及平衡检索效率与资源消耗的关系,这个其实和RAG技术相似,可以从整合多个维度的信息。同样参考下图: 
记忆压缩:Agent积累的信息量呈指数级增长,而上下文窗口和计算资源却有明确限制。记忆压缩技术通过提取核心信息、减少冗余,在保持关键语义的同时大幅降低存储和处理成本。
智能化遗忘:协调与整合冲突信息,平衡主动记忆管理与被动记忆获取。个性化与通用性平衡是另一关键挑战,涉及用户特定记忆的隔离与保护,跨用户经验的抽象与泛化,以及隐私保护与记忆共享边界的界定。
3、相关研究
2025年,提出了解耦知识推理三个关键方向,助力构建一个结合训练有素的检索系统和大型外部记忆库的推理系统,以克服现有架构在学习新场景推理时的局限。  2024年,记忆力压缩方面,斯坦福设计了一个名为HippoRAG的新型检索增强模型。装备了这一"类脑"记忆系统的大模型在多种需要知识整合的任务中展现出了惊人的性能提升。HippoRAG的诞生,为大模型赋予"类脑"的知识整合和长期记忆能力开辟了一条全新的路径。 
2024年,AIRI 面对没有一个统一的方法来测试智能体的记忆能力,很难准确地比较不同智能体的记忆能力的问题。通过定义不同类型的记忆(比如长期记忆和短期记忆)来简化这个问题,并提出了一个实验方法来评估智能体的记忆能力。

Agent开源框架
LangChain
网址: https://www.langchain.com
GitHub: https://github.com/langchain-ai/langchain
功能: 构建基于LLM的应用程序,提供链式调用、工具整合和代理功能
AutoGen
网址: https://microsoft.github.io/autogen
GitHub: https://github.com/microsoft/autogen
功能: 多代理对话框架,支持代理间协作
LlamaIndex
网址: https://www.llamaindex.ai
GitHub: https://github.com/jerryjliu/llama_index
功能: 数据连接和检索增强框架
CrewAI
网址: https://www.crewai.io
GitHub: https://github.com/joaomdmoura/crewai
功能: 协作代理框架,专注于角色分配和工作流
XAgent
GitHub: https://github.com/OpenBMB/XAgent
网址: https://x-agent.net
功能: 自主智能体框架,强调规划和执行
LangGraph
网址: https://python.langchain.com/docs/langgraph
GitHub: https://github.com/langchain-ai/langgraph
功能: 基于状态机的代理编排框架
CAMEL
GitHub: https://github.com/camel-ai/camel
功能: 基于角色的代理通信框架
DSPy
网址: https://dspy.ai
GitHub: https://github.com/stanfordnlp/dspy
功能: 以编程方式优化LLM提示和链接
Haystack
Cold网址: https://haystack.deepset.ai
GitHub: https://github.com/deepset-ai/haystack
功能: 模块化NLP框架,专注于问答系统和搜索
Agentverse
GitHub: https://github.com/OpenBMB/AgentVerse
功能: 多代理模拟环境,支持复杂交互
Agent应用场景
大模型 Agent 在医疗、教育、工业、金融服务和操作系统等领域展现出广泛的应用前景,但同时也面临诸多挑战。
医疗领域,Agent 可用于智能问诊、医疗影像分析、个性化健康管理及医学知识库查询,提高诊断准确率并优化医疗资源。然而,医疗数据的隐私保护、法规合规性以及
AI 诊断的可解释性仍是主要难点。此外,医疗行业对 AI 的应用仍需经过严格监管,确保其安全性和可靠性。
教育领域,Agent 可提供智能辅导、自动批改作业、生成教育内容,并辅助语言学习。例如,基于 AI
的个性化学习系统可以根据学生的知识水平定制学习路径,提高学习效率。然而,知识更新问题、误导性信息以及个性化与标准化的平衡仍然是
AI 教育应用的挑战。确保 AI 能够提供准确、可靠的知识,并且适应不断变化的教育需求,是行业发展必须解决的问题。
工业领域 Agent 可应用于智能运维、设备预测维护、智能制造、机器人控制及供应链优化。例如,AI
可以分析工业设备的运行数据,预测故障并优化生产流程,提升生产效率。然而,工业环境对 AI 的实时性要求高,数据往往分散在不同系统,形成“数据孤岛”,如何整合利用这些数据成为挑战(各公司的大数据部门需要考虑)。此外,企业在引入
AI 方案时,还需要考虑投入成本与实际收益的平衡,以确保 AI 解决方案的经济可行性。
金融领域 Agent 可用于智能投顾、量化交易、风险管理、欺诈检测、信用评分及个性化金融服务。AI
通过分析市场数据和用户行为,提供投资建议并提高金融安全性。然而,金融行业的严格监管要求 AI 具有高度的透明度和可解释性,确保合规。此外,金融市场变化迅速,AI
需要具备持续学习的能力,以适应不断变化的市场环境。同时,AI 也可能成为金融攻击的目标,如何防范对抗性攻击是关键问题。
操作系统 Agent可应用于智能助手、代码生成、办公自动化及智能运维。例如,智能助手可以帮助用户完成任务、搜索信息、管理日程,提高工作效率。代码生成工具如
GitHub Copilot 也极大地提升了开发者的生产力。然而,AI 助手在收集用户数据时需要确保隐私安全,同时,不同操作系统和软件生态的兼容性问题也需要解决。此外,提高
AI 的泛化能力,使其能够适应不同用户的使用习惯,也是提升用户体验的关键。
Agent未来发展
1)模型能力持续进化
通过参数规模扩大与架构优化,大模型将突破语言理解、逻辑推理等能力边界。例如,在任务规划、工具使用等方面,效率能力更高;在模型思考推理速度等方面模型响应将更快。难点:千亿级参数模型的分布式推理优化,降低模型所需硬件功耗。
2)多模态融合成为标配
未来的Agent将整合文本、图像、语音等多模态输入输出能力,例如医疗Agent可同时分析CT影像(视觉)和病历文本(语言),生成综合诊断报告。
3)协作生态体系形成
多Agent系统将建立分工协作机制,通过博弈论框架实现动态任务分配。例如在物流调度场景中,路径规划Agent、库存管理Agent等可基于强化学习算法形成协同决策。难点:多Agent协作时的通信容错与冲突消解。
4)知识增强与成本优化
采用RAG(检索增强生成)技术,无需重新训练即可更新知识库。例如金融Agent通过实时接入市场数据源,快速响应政策变化。这就需要了解模型对本身知识和外挂知识整合能力,有研究显示:如果给模型的知识与本身的知识差距不大,模型会更倾向于自己的知识;同时模型更倾向于模型生成的数据知识。
5)伦理安全更加规范
随着应用普及,需解决数据隐私、算法偏见等问题。可以通过联邦学习实现数据隐私保护,目前了解到有一种方案是将模型分块,模型主体放在远程,降低本地资源要求。在客户端和模型服务端,进行加解密转换。 |