跳转到主要内容

学术资源

Rosalia avatar
作者:Rosalia
更新于昨天

MGX 与全球顶尖高校和研究机构合作,在多智能体框架、LLM 推理、上下文增强、自动化工作流等方向持续输出学术成果。以下是部分最新论文,涵盖 NeurIPS、ICLR、ACL、EMNLP 等国际顶会。

这些研究成果既推动了前沿理论的发展,也为 MGX 的产品能力(如多智能体协作、数据解释、RAG 增强推理、Prompt 优化等)提供了坚实的技术支撑。

1. You Don’t Know Until You Click: Automated GUI Testing for Production-Ready Software Evaluation

摘要

随着大型语言模型(LLMs)和代码智能体快速发展,它们已经从单一的代码片段生成扩展到能构建完整应用,包括图形界面、交互逻辑和动态行为。然而,现有的评测基准大多依赖静态检查或简单的通过/失败脚本,无法捕捉实际交互和运行时动态,导致生产级应用的可用性评估存在空白。

为解决这一问题,研究团队提出 RealDevWorld —— 一个全新的端到端评估框架,用于自动化测试 LLM 从零生成生产级代码库的能力。

主要贡献

  1. 提出第一个专门面向生产级应用的端到端 GUI 自动化评估框架。

  2. 构建大规模开放任务集 RealDevBench,覆盖多领域、多模态应用场景。

  3. 设计交互式评估系统 AppEvalPilot,提供细粒度诊断反馈。

  4. 实验表明评测结果与人工高度一致(准确率 0.92,相关系数 0.85),显著降低人工依赖。

2. Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

摘要

大型语言模型(LLMs)的出现推动了人工智能的重大转型,催生了能够进行复杂推理、稳健感知和跨领域行动的智能体。然而,这些智能体的设计、评估与持续改进面临着复杂多样的挑战。

该研究系统性地回顾了 基础智能体(Foundation Agents) 的发展路径,从脑启发式的模块化架构出发,结合认知科学、神经科学和计算研究的跨学科视角,提出未来发展和研究的关键方向。文章分为四个部分:

  1. 模块化基础:将认知、感知与操作模块映射到人类大脑功能,探讨记忆、世界建模、奖励处理、目标与情感等核心要素。

  2. 自我增强与进化:研究智能体如何通过自动化优化机制实现自我改进、适应动态环境并保持持续学习。

  3. 多智能体系统:分析群体交互、合作与社会结构中涌现的群体智能。

  4. 安全与对齐:强调内在与外在的安全威胁、伦理对齐、鲁棒性以及可信落地所需的实践对策。

主要贡献

  • 提供了对基础智能体(Foundation Agents)发展的全面综述。

  • 提出脑启发式的模块化智能体框架,结合认知科学与神经科学视角。

  • 系统探讨了自适应进化、多智能体协作以及 AI 安全性等关键问题。

  • 指出跨学科融合带来的研究机遇,呼吁构建技术进步与社会价值协调发展的创新路径。

3. Atom of Thoughts for Markov LLM Test-Time Scaling

摘要

大型语言模型(LLMs)在训练阶段通过规模扩展取得了显著性能提升,而 推理阶段的 Test-Time Scaling 则进一步增强了其推理能力。然而,现有方法在扩展推理规模时往往受到历史信息累积的干扰,不仅浪费算力,还削弱了有效推理。

为此,本文提出 Atom of Thoughts (AoT),其核心思想是将复杂推理拆解为一系列独立的、具备“无记忆性”的原子化问题(Atomic Questions),类似马尔可夫过程(Markov Process)。AoT 的工作机制包括:

  1. 问题分解:将当前问题分解为依赖图(DAG)中的多个子问题。

  2. 问题收缩:对子问题进行收缩,形成一个保持答案等价性的简化问题。

  3. 迭代过程:通过分解-收缩循环,构建出一个自然的马尔可夫推理过程。

这些原子状态可以无缝嵌入现有的 Test-Time Scaling 方法,作为 插件式增强模块 提升推理能力。

主要贡献

  • 提出 原子化推理(Atomic Reasoning) 概念,使复杂问题能够被拆解为马尔可夫链式推理过程。

  • 兼容性强:AoT 可无缝集成到现有推理扩展方法中,提升推理效果。

  • 高效:减少无效历史信息的累积,降低算力浪费。

  • 实证结果显示其在多任务中均有显著提升。

4. Self-Supervised Prompt Optimization (SPO)

摘要

在大语言模型(LLMs)的应用中,高质量的 Prompt 是提升推理能力、对齐任务需求的关键。但手工设计 Prompt 往往需要专业经验与多次试错;现有自动化优化方法也依赖外部数据或人工标注,在现实场景中受限明显。

为此,本文提出 Self-Supervised Prompt Optimization (SPO),一个无需外部参考的高效框架,能够自动发现适用于 封闭式与开放式任务 的优质 Prompt。其核心机制是:

  1. 自监督信号:通过比较 LLM 的输出,直接评估 Prompt 质量。

  2. LLM 自评估:利用 LLM 作为评审器,对比输出结果的优劣。

  3. LLM 优化器:在评估的基础上生成更符合任务要求的 Prompt。

主要贡献

  • 提出 无需外部数据 的自监督 Prompt 优化框架。

  • Prompt 质量的评估与优化 完全建立在 LLM 自身输出的比较上。

  • 在保证高性能的同时,大幅降低计算与数据成本。

5. Improving Context Fidelity via Native Retrieval-Augmented Reasoning (CARE)

摘要

大语言模型(LLMs)在问答和知识密集型任务中常常出现 上下文幻觉(context hallucination),即回答与所给信息不一致或无关。这会导致 用户信任下降系统实用性降低

传统方法存在两类局限:

  1. 监督微调 (SFT) + RAG:需要昂贵的标注数据(ground truth evidence),难以扩展。

  2. 外部检索机制:能够访问额外知识,但常常忽视用户输入中已有的关键信息。

为此,本文提出 CARE 框架 (Context-Aware Retrieval-Enhanced reasoning),一种 原生检索增强推理 的新范式:

  • 在推理链中直接识别并整合输入上下文的证据,而不是将“检索”和“推理”分离。

  • 充分利用 LLM 的语言理解能力进行 原生上下文检索,无需额外索引或嵌入系统。

  • 通过显式证据整合提升推理的准确性和可靠性。

主要贡献

  • 提出 原生检索增强推理,直接在推理链中整合证据,提升上下文一致性。

  • 构建并开放了一个证据整合推理训练数据集。

  • 在多个真实和反事实 QA 基准上显著超越:

    • 传统 SFT

    • 标准 RAG 方法

    • 缺乏上下文检索机制的对照模型

6. FACT: Examining the Effectiveness of Iterative Context Rewriting for Multi-Fact Retrieval

摘要

大型语言模型(LLMs)在长上下文中检索单一事实时表现良好,但在需要同时检索多个事实的任务中却存在明显不足。研究发现了一个新的现象:“中间遗失(lost-in-the-middle)”——模型在生成过程中逐渐遗忘关键信息,导致检索结果不完整或不准确。

为了解决这一问题,作者提出了 FACT (Find All Crucial Texts) ——一种 迭代式上下文重写方法,通过多轮重写逐步优化上下文,使模型能够逐步捕捉并保留多个关键信息。

主要贡献

  • 系统性揭示了 LLM 在多事实检索中出现的 “中间遗失” 现象。

  • 提出 FACT:通过迭代上下文重写提升多事实检索的完整性和准确性。

  • 实验证明 FACT 在多事实检索任务中有显著提升,而在通用问答任务中提升相对有限。

  • 为未来构建更稳健的长上下文检索方法提供了新方向。

7. SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning

摘要

自动化机器学习(AutoML)方法分为两类:

  1. 传统方法:优化固定管道(如模型选择与集成)。

  2. LLM驱动方法:利用语言模型自主生成并调整管道。

然而,LLM智能体在自动化机器学习任务中常出现两个问题:

  • 低多样性:生成的代码模式单一。

  • 次优解:即使多次迭代,结果仍然不够理想。

为解决这些问题,本文提出 SELA (Tree-Search Enhanced LLM Agents),一种结合 蒙特卡洛树搜索 (MCTS) 的新型智能体系统,用于优化 AutoML 流程。

主要贡献

  • 树搜索 (MCTS) 引入 LLM 驱动的 AutoML 智能体,提升了探索效率。

  • 通过实验反馈实现 策略迭代改进,克服低多样性和次优解问题。

  • 提供了一个通用框架,可拓展至更广泛的机器学习任务。

8. AFlow: Automating Agentic Workflow Generation

摘要

大型语言模型(LLMs)在解决复杂任务时表现出巨大潜力,常通过执行带有详细指令和步骤的 智能体工作流(agentic workflows) 来完成任务。

然而:

  • 构建这些工作流需要大量人工精力,难以扩展。

  • 现有方法在一定程度上实现了自动化,但仍依赖 初始人工配置,难以达到完全自动化和高效优化。

为解决这些问题,本文提出 AFlow,一个将工作流优化 重构为搜索问题 的自动化框架:

  • 将工作流建模为代码图,节点为调用 LLM 的操作,边为逻辑连接。

  • 使用 蒙特卡洛树搜索 (MCTS) 自动探索与优化。

  • 通过 代码修改 + 树状经验存储 + 执行反馈,不断迭代改进工作流。

主要贡献

  • 将工作流优化转化为 代码-图搜索问题

  • 提出 AFlow 框架,实现完全自动化的工作流生成与优化。

  • 证明了 低成本模型 + 高效工作流 可以超越大模型的性能。

9. Data Interpreter: An LLM Agent For Data Science

摘要:

基于 LLM 的智能体在多个应用场景中已经展现了强大能力,但在 数据科学 领域仍然面临独特挑战:

  • 长期且复杂的任务链路:任务之间依赖度高。

  • 动态数据调整:中间结果可能随时变化。

  • 需要领域知识:传统方法难以覆盖专业化需求。

现有方法多集中于 单一任务,缺乏对端到端流程的适配,也难以处理动态数据变化。

为此,论文提出了 Data Interpreter —— 一个能够自动解决数据科学全流程任务的 LLM 智能体。

主要贡献

  • 首个面向 端到端数据科学流程 的 LLM 智能体。

  • 提出 基于图的任务分解方法,支持动态任务管理。

  • 通过 迭代节点优化 提升代码生成质量。

  • 在多项基准上大幅领先现有方法。

10. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

概述

随着大语言模型(LLMs)驱动的多智能体系统快速发展,自动化问题求解已经取得了显著进展。

目前的 LLM 多智能体系统虽然能解决 简单对话任务,但在处理 复杂任务 时,容易因级联幻觉(cascading hallucinations)导致逻辑不一致。

为此,研究团队提出了 MetaGPT —— 一个创新的 元编程框架,通过引入人类工作流的标准化方法,让多智能体协作更加可靠和高效。

主要贡献

  • 引入 元编程思路 到多智能体协作中。

  • 将人类团队的 SOPs 引入智能体工作流。

  • 实现复杂任务的 高效分解与角色协作

  • 在实际基准任务中展现出更高的 稳定性与准确性

这是否解答了您的问题?