
最近,来自OPPO,耶鲁大学,斯坦福大学,威斯康星大学麦迪逊分校,北卡罗来纳大学,教堂山和其他机构的研究小组共同发布了KB框架代理商。这项工作可以通过开发池体验和两阶段的搜索机制来有效地分享AI代理之间的经验。 Agent KB允许代理商通过分层经验从其他活动的成功经验中学习,从而大大改善复杂的推理和解决问题的能力。纸质地址:https://arxiv.org/abs/2507.06229开源代码:https://github.com/oppo-personalai/ agent-kagent内存系统:从独立战斗到AI代理,内存(内存)系统的开发中的协作学习,始终始终努力地进行键入的键入,并始终努力地进行研究。从广义上讲,代理商的内存系统具有短期记忆,用于在当前对话中存储临时信息或ACTivities,维持重要知识,经验和学习结果的长期记忆,处理当前工作时的主动信息缓存的工作记忆以及有些还包括记忆记录特定问题问题的策略。但是,现有内存系统有一个主要限制:不同代理框架下的经验无法有效地共享。由于不同的任务往往具有不同的多代理框架,因此通常需要遇到新任务,即使在相关领域也证明了类似的问题解决技术。 KB特工天生是为了解决这一疾病。它在池/知识基础系统中建立了共享的经验,放开了不同的多代理(例如开放式,metagpt,Autogen等)执行各种任务,然后在解决问题解决方面的抽象和存储成功的问题。在新数据集中遇到测试示例时,请查找RE黎凡特的解决方案是从历史经验中的,并使其他代理商的经验适应了新的工作情景。该框架技术的主要共享取决于“推理 - 撤退”解决方案的建议和两阶段的搜索机制,从而使代理商可以在不同级别学习和应用历史经验。 GAIA基准:通用AI助手Gaia(通用AI助手)的最终挑战被称为“通用AI助手的最终测试”,也是当今代理商评论的最具挑战性的基准之一。与NLP的传统基准不同,Gaia是专门设计的,旨在评估代理商在复杂的现实世界中的全面功能。盖亚的主要特征可以在降低现实世界的复杂性时看到。该任务是从真实用户而不是简单的Manu -construction的问题中得出的,要求代理具有多模式的互动功能,并且需要处理多种类型的信息,例如文本,图像,图像,音频等。更重要的是,代理必须具有使用工具的能力,并且可以调用MATSDAW资源,例如许多搜索引擎,代码执行者,工具处理文件等。大多数任务都需要谨慎和中间决策,而需求需求要求需求要求需求需求,要求要求要求要求要求提出要求的要求,并要求提出要求的要求。 Gaia验证集包含165个设计的测试用例,这些测试用例被复杂性分为三个级别。 1级包含53项主要任务,需要简单的推理或直接获得信息; 2级包含86个中等复杂的任务,这需要Marinotg步骤识别或工具集成;第3级包含26个困难活动,这些活动需要复杂的推理链和专业领域的知识。本文中的评论指标主要包括在Pass@1中(SU SU代理商的第一次尝试的CCESS率,这是严格且最重要的指标),并通过@3(至少在三次尝试中成功一次,用于检查上部系统限制)。我们发现那些具有KB代理商非常强大的人,因为在推广其产品并向Gaia报告结果时,某些公司或组织是否通过@n或通过@1进行指出。实验结果:Agent KB的性能在Gaia基准测试上令人惊叹,Agent KB取得了惊人的结果。由于Agent KB的最初意图不是建议更新,更复杂的多重框架。因此,他们选择了相对简单甚至不完美的Smolagents作为测试的主要框架,因此体验本身的共享机制的影响可以更清楚地显示出来,而不是复杂框架获得的性能。 Smolagents地址:https://github.com/huggingface/smolagents实验结果表明,在最严格的通过@1审查下,GPT-4.1模型的总体表现从基准的55.15%跃升至61.21%,增加了6.06%。 Claude-3.7的表现更好,从58.79%上升到65.45%,增加了6.66%。该结果尤其明显,因为它表明,即使在相对主要的代理框架中,OFKB的代理也可以达到接近领先的商业系统的性能水平。研究小组还测试了增强KB代理商后六个主要LLM的性能。从DeepSeek-R1的稳定改善到明显的跳跃到Claude-3.7,从改善GPT-4O平衡到显着的O3-MINI增长,所有测试模型都表明持续的改进速度。这种跨模型,跨缺乏级别的其他普遍改进强烈表明了KB代理程序的可靠性。 Agent KB在软件领域中还显示了SWE-Bench数据集的强大实用价值工程。该基准有11个流行的Python存储库中的300个真实问题,该问题被要求了解NG代理现有代码库并实施适当的调整。 O3-Mini从23.00%增加到31.67%(+8.67%)超过50次迭代,从29.33%增加到33.67%(+4.34%)超过100次迭代。这些结果表明,KB的跨域共享技能不仅适合常见任务和回答任务,而且在专业代码维修领域中起着重要作用。技术架构:与代理商现代KB技术的主要部分共同努力的教师学生是找到双学生双阶段的“推理 - 雷神 - 雷”过程和机制。在这里,距离计算的蛋白质数据库(PDB)情况显示了该机制的工作原理。在传统过程中,代理人盲目读取Atom/Hetatm/anisou记录的第一条Twog系列,并且经常错误地选择了溶剂记录在不正确的O-H中(0.961Å)。增强剂可以应用以经验为导向的规则:明智的明智是过滤Anisou/hetaTM注释,专注于真实的原子条目,并通过理性检查n-CA键长范围,并准确地将骨架N-CA原子对准确地进行,并报告正确的1.456Å456Å456Q。 “因果 - 雷(Refine-Refine)”步骤设计,它将巧妙地将层次体验的存储与明智获取的机制相结合。整个框架围绕两个主要阶段旋转:KBLEDY的KB KBANTE阶段和KB代理增强了推理阶段。在施工阶段知识中,系统系统地捕获了来自各种数据集的一般问题解决模式(BrowserComp,Hoprag,Hle,Hle,Recobench等)。通过自动摘要和某些镜头信号,将原始输出日志(日志)转换为布置的知识条目。这些经历不是简单的轨迹ORS,但是深深吸收的推理模式可以实现对任务边界的有效知识。代理KB在推理的增强阶段的创新技术在于引入双重代理协作机制,在该机制中,学生的学习者和代理人承担获得收购和适应性指导经验的辅助职责。除了代理KB外,还有一个实施代理负责实际活动。例如,例如,作者使用OpenHands来执行SWE-Bench任务,而OpenHands是实现代理。学生代理人正在领导实施完整的推理 - 循环完善:通过深入了解,在匹配工作流的层面上捕获历史经验模式,评估当前的任务特征,并适应这些经验,以为实现代理提供高水平的整体解决方案框架。这个过程确保S实施代理可以根据成功的历史经验开发合理的宏观方法。教师的代理人在管理和优化中起着更精致的作用。它继续研究实施剂的产出轨迹,努力地确定效率的潜在问题,实施偏差和MGA瓶颈,并提供目标和精致的改进建议。当发现问题时,教师代理会准确获得相关的良好水平经验水平,并适应这些经验,以为实施代理提供目标和精致的改进建议。这种分层合作机制的效率是宏观战略计划和微执行优化的有机统一:学生代理人确保一般方向的准确性,并且教师的代理人确保了实施过程的准确性。该搜索的层次结构符合不同的NE与不同的谷物谷物解决问题阶段的ED:在初始计划阶段,学生代理人正在根据问题的特征并进行适应性更改以提供实施战略指南;在实施优化阶段,教师代理正在基于实时轨迹寻找良好的体验,并将配置目标提供了有关校正的战术建议。通过将经验存储为抽象结构模式,而不是具体实施的细节,该系统实现了跨域知识的有效转移,从而使自适应修改的抽象原理可以播放更多的新环境指南。整个情节都采用了模块化和框架独立设计概念,该概念不仅与许多代理体系结构无缝集成,而且为共享跨框架体验和研究Communication提供了新的可能性Ionulangan。在对消融的深度研究中已被证明可以充分验证KB代理的每个组成部分的独立贡献,研究小组设计了一个系统的实验,以危险。详细的表3数据显示了每个主要模块能量影响水平的完整性。实验实验的主要发现表明,代理合作的双重体系结构的每个元素都起着不变的作用。缺乏学生代理将工作结果从79.25%降低到75.47%,这反映了其在最初的工作流计划中的主要作用;虽然删除教师代理人的水平结果从79.25%降低至73.58%,但在早期阶段的精制指南数量很重要。最关键的发现是Pinino模块的主要位置。删除该模块导致了最重要的性能,一般准确性从61.21%降至55.15%,而执行3级活动从34.62%降至30.77%。该结果完美地表明了自适应改进机制在处理复杂识别任务中的关键作用,表明对体验的简单获得不足,智能适应体验应结合起来以实现有效的知识转变。找到深入KB评估的方法采用了多层搜索机制,以确保知识的准确匹配。该系统实现了三种主要搜索方法:搜索文本相似性:基于获取Importation(例如TF-IDF)的传统技术,通过匹配关键字来识别与表面类似的任务和解决方案。语义搜索相似性:先前训练的这种句子转换器/全米尔-L6-V2用于在具有高维矢量的表示中编码文本,并通过计算余弦的相似性来获得深层的语义关联。混合发现策略:通过上两种方法的重量融合。另外,SYSTEM还研究了两个不同级别的抽象:基于抽象的搜索:实施日志的高级摘要,重点关注整体技术和工作流程模式,适合宏观规划指南。基于批评的搜索:专注于错误模式和失败案例,通过评估与问题的类似情况,为改进的目标建议提供了建议。图4的实验结果显示了选择最佳搜索策略的原理:对于基于摘要的搜索(左图),这是一种在所有贫困水平上最能执行的混合方法,在Gaia Level 1任务和37%的SWE Bench解决方案下达到83%的精度。它表明,规划宏观方法需要被视为准确的关键字匹配和语义理解的双重好处。对于关键(右图)搜索,文本的均匀性在2个任务的级别之外执行(67%),而语义均匀性在SWE-Bench中更有用(33%)。它表明匹配的帕特错误的元素更多地取决于实现问题的特定细节和问题的准确构图。这些发现的深度含义是获取知识的不同类型以匹配相应的搜索技术。基于摘要的搜索更适合匹配宏观策略,因此混合方法可以考虑匹配关键字和对利益的语义理解;虽然关键提取更多地关注实施的特定细节,但文本的相似性可以准确地获得相似的错误模式和解决方案。这种层次搜索体系结构反映了代理KB的独特设计:最合适的搜索策略已在解决问题的不同阶段采用,这不仅确保了知识匹配的准确性,而且还可以实现对任务的有效概括。错误分析显示了通过准确分析误差统计数据的机制改进图5,它深刻揭示了内部代理KB的机制以提高代理的推理能力。对维恩图的覆盖区域的分析表明,KB代理的改进不是一个简单的替代替代品,而是选择的智能处理过程。对于GPT-4.1,基线和KB代理对GPT-4.1的调整都发生了49个错误,表明它们自然是不可估量的模型限制。在成功纠正了代理商的基线的25个错误,同时仅引入了15个新错误,可以看到主要的改进,从而实现了净减少10个错误机会的积极影响。 Claude-3.7具有相似但更好的性能模式,纠正了22个基线错误,引入了11个新错误,11个净改进达到了11个实例,共有79个错误。错误类型的详细检查显示了KB代理改进的目标。收购错误从24减少到20,计划错误从13减少到10,这种改进直接涉及KB KB知识库中包含的类似搜索协议和工作流程标准。通过这些有组织的经验,代理可以采用更稳定,更有效的路径解决路径,避免由随机探索引起的错误。同时,格式误差的显着降低表明,通过研究成功的活动Onesso,该代理已经掌握了更准确的输出规范。技术的重要性和工业价值观KB的成功已经为In -Depth研究领域开辟了新的技术途径。通过允许代理商学会从历史经验中获得深刻的前景,该系统表明了朝着独立研究能力发展的潜力。未来自我进化机制的机制不再依赖手动注释,而可以通过在跨域知识的累积和转移方面的持续经验来改善能力的螺旋。GE。 Agent KB在Gaia的基准下创建的开放资源SOTA注释只是技术价值的终结。跨任务转移能力和合作的研究机制,它显示出具有自尊心的下一代AI系统的基本技术支持。