学术资源 | MGX Help Center

MGX 与全球顶尖高校和研究机构合作，在多智能体框架、LLM 推理、上下文增强、自动化工作流等方向持续输出学术成果。以下是部分最新论文，涵盖 NeurIPS、ICLR、ACL、EMNLP 等国际顶会。

这些研究成果既推动了前沿理论的发展，也为 MGX 的产品能力（如多智能体协作、数据解释、RAG 增强推理、Prompt 优化等）提供了坚实的技术支撑。

1. You Don’t Know Until You Click: Automated GUI Testing for Production-Ready Software Evaluation

摘要

随着大型语言模型（LLMs）和代码智能体快速发展，它们已经从单一的代码片段生成扩展到能构建完整应用，包括图形界面、交互逻辑和动态行为。然而，现有的评测基准大多依赖静态检查或简单的通过/失败脚本，无法捕捉实际交互和运行时动态，导致生产级应用的可用性评估存在空白。

为解决这一问题，研究团队提出 RealDevWorld —— 一个全新的端到端评估框架，用于自动化测试 LLM 从零生成生产级代码库的能力。

主要贡献

提出第一个专门面向生产级应用的端到端 GUI 自动化评估框架。
构建大规模开放任务集 RealDevBench，覆盖多领域、多模态应用场景。
设计交互式评估系统 AppEvalPilot，提供细粒度诊断反馈。
实验表明评测结果与人工高度一致（准确率 0.92，相关系数 0.85），显著降低人工依赖。

详情请见：https://arxiv.org/abs/2508.14104

2. Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

摘要

大型语言模型（LLMs）的出现推动了人工智能的重大转型，催生了能够进行复杂推理、稳健感知和跨领域行动的智能体。然而，这些智能体的设计、评估与持续改进面临着复杂多样的挑战。

该研究系统性地回顾了 基础智能体（Foundation Agents） 的发展路径，从脑启发式的模块化架构出发，结合认知科学、神经科学和计算研究的跨学科视角，提出未来发展和研究的关键方向。文章分为四个部分：

模块化基础：将认知、感知与操作模块映射到人类大脑功能，探讨记忆、世界建模、奖励处理、目标与情感等核心要素。
自我增强与进化：研究智能体如何通过自动化优化机制实现自我改进、适应动态环境并保持持续学习。
多智能体系统：分析群体交互、合作与社会结构中涌现的群体智能。
安全与对齐：强调内在与外在的安全威胁、伦理对齐、鲁棒性以及可信落地所需的实践对策。

主要贡献

提供了对基础智能体（Foundation Agents）发展的全面综述。
提出脑启发式的模块化智能体框架，结合认知科学与神经科学视角。
系统探讨了自适应进化、多智能体协作以及 AI 安全性等关键问题。
指出跨学科融合带来的研究机遇，呼吁构建技术进步与社会价值协调发展的创新路径。

详情请见：https://arxiv.org/abs/2504.01990

3. Atom of Thoughts for Markov LLM Test-Time Scaling

摘要

大型语言模型（LLMs）在训练阶段通过规模扩展取得了显著性能提升，而 推理阶段的 Test-Time Scaling 则进一步增强了其推理能力。然而，现有方法在扩展推理规模时往往受到历史信息累积的干扰，不仅浪费算力，还削弱了有效推理。

为此，本文提出 Atom of Thoughts (AoT)，其核心思想是将复杂推理拆解为一系列独立的、具备“无记忆性”的原子化问题（Atomic Questions），类似马尔可夫过程（Markov Process）。AoT 的工作机制包括：

问题分解：将当前问题分解为依赖图（DAG）中的多个子问题。
问题收缩：对子问题进行收缩，形成一个保持答案等价性的简化问题。
迭代过程：通过分解-收缩循环，构建出一个自然的马尔可夫推理过程。

这些原子状态可以无缝嵌入现有的 Test-Time Scaling 方法，作为 插件式增强模块 提升推理能力。

主要贡献

提出 原子化推理（Atomic Reasoning） 概念，使复杂问题能够被拆解为马尔可夫链式推理过程。
兼容性强：AoT 可无缝集成到现有推理扩展方法中，提升推理效果。
高效：减少无效历史信息的累积，降低算力浪费。
实证结果显示其在多任务中均有显著提升。

详情请见：https://arxiv.org/abs/2502.12018

4. Self-Supervised Prompt Optimization (SPO)

摘要

在大语言模型（LLMs）的应用中，高质量的 Prompt 是提升推理能力、对齐任务需求的关键。但手工设计 Prompt 往往需要专业经验与多次试错；现有自动化优化方法也依赖外部数据或人工标注，在现实场景中受限明显。

为此，本文提出 Self-Supervised Prompt Optimization (SPO)，一个无需外部参考的高效框架，能够自动发现适用于 封闭式与开放式任务 的优质 Prompt。其核心机制是：

自监督信号：通过比较 LLM 的输出，直接评估 Prompt 质量。
LLM 自评估：利用 LLM 作为评审器，对比输出结果的优劣。
LLM 优化器：在评估的基础上生成更符合任务要求的 Prompt。

主要贡献

提出 无需外部数据 的自监督 Prompt 优化框架。
将 Prompt 质量的评估与优化 完全建立在 LLM 自身输出的比较上。
在保证高性能的同时，大幅降低计算与数据成本。

详情请见：https://arxiv.org/abs/2502.06855

5. Improving Context Fidelity via Native Retrieval-Augmented Reasoning (CARE)

摘要

大语言模型（LLMs）在问答和知识密集型任务中常常出现 上下文幻觉（context hallucination），即回答与所给信息不一致或无关。这会导致 用户信任下降 和 系统实用性降低。

传统方法存在两类局限：

监督微调 (SFT) + RAG：需要昂贵的标注数据（ground truth evidence），难以扩展。
外部检索机制：能够访问额外知识，但常常忽视用户输入中已有的关键信息。

为此，本文提出 CARE 框架 (Context-Aware Retrieval-Enhanced reasoning)，一种 原生检索增强推理 的新范式：

在推理链中直接识别并整合输入上下文的证据，而不是将“检索”和“推理”分离。
充分利用 LLM 的语言理解能力进行 原生上下文检索，无需额外索引或嵌入系统。
通过显式证据整合提升推理的准确性和可靠性。

主要贡献

提出 原生检索增强推理，直接在推理链中整合证据，提升上下文一致性。
构建并开放了一个证据整合推理训练数据集。
在多个真实和反事实 QA 基准上显著超越：
- 传统 SFT
- 标准 RAG 方法
- 缺乏上下文检索机制的对照模型

详情请见：https://openreview.net/forum?id=qTsU1QLOph

6. FACT: Examining the Effectiveness of Iterative Context Rewriting for Multi-Fact Retrieval

摘要

大型语言模型（LLMs）在长上下文中检索单一事实时表现良好，但在需要同时检索多个事实的任务中却存在明显不足。研究发现了一个新的现象：“中间遗失（lost-in-the-middle）”——模型在生成过程中逐渐遗忘关键信息，导致检索结果不完整或不准确。

为了解决这一问题，作者提出了 FACT (Find All Crucial Texts) ——一种 迭代式上下文重写方法，通过多轮重写逐步优化上下文，使模型能够逐步捕捉并保留多个关键信息。

主要贡献

系统性揭示了 LLM 在多事实检索中出现的 “中间遗失” 现象。
提出 FACT：通过迭代上下文重写提升多事实检索的完整性和准确性。
实验证明 FACT 在多事实检索任务中有显著提升，而在通用问答任务中提升相对有限。
为未来构建更稳健的长上下文检索方法提供了新方向。

详情请见：https://arxiv.org/abs/2410.21012

7. SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning

摘要

自动化机器学习（AutoML）方法分为两类：

传统方法：优化固定管道（如模型选择与集成）。
LLM驱动方法：利用语言模型自主生成并调整管道。

然而，LLM智能体在自动化机器学习任务中常出现两个问题：

低多样性：生成的代码模式单一。
次优解：即使多次迭代，结果仍然不够理想。

为解决这些问题，本文提出 SELA (Tree-Search Enhanced LLM Agents)，一种结合 蒙特卡洛树搜索 (MCTS) 的新型智能体系统，用于优化 AutoML 流程。

主要贡献

将 树搜索 (MCTS) 引入 LLM 驱动的 AutoML 智能体，提升了探索效率。
通过实验反馈实现 策略迭代改进，克服低多样性和次优解问题。
提供了一个通用框架，可拓展至更广泛的机器学习任务。

详情请见：https://arxiv.org/abs/2410.17238

8. AFlow: Automating Agentic Workflow Generation

摘要

大型语言模型（LLMs）在解决复杂任务时表现出巨大潜力，常通过执行带有详细指令和步骤的 智能体工作流（agentic workflows） 来完成任务。

然而：

构建这些工作流需要大量人工精力，难以扩展。
现有方法在一定程度上实现了自动化，但仍依赖 初始人工配置，难以达到完全自动化和高效优化。

为解决这些问题，本文提出 AFlow，一个将工作流优化 重构为搜索问题 的自动化框架：

将工作流建模为代码图，节点为调用 LLM 的操作，边为逻辑连接。
使用 蒙特卡洛树搜索 (MCTS) 自动探索与优化。
通过 代码修改 + 树状经验存储 + 执行反馈，不断迭代改进工作流。

主要贡献

将工作流优化转化为 代码-图搜索问题。
提出 AFlow 框架，实现完全自动化的工作流生成与优化。
证明了 低成本模型 + 高效工作流 可以超越大模型的性能。

详情请见：https://arxiv.org/abs/2410.10762

9. Data Interpreter: An LLM Agent For Data Science

摘要：

基于 LLM 的智能体在多个应用场景中已经展现了强大能力，但在 数据科学 领域仍然面临独特挑战：

长期且复杂的任务链路：任务之间依赖度高。
动态数据调整：中间结果可能随时变化。
需要领域知识：传统方法难以覆盖专业化需求。

现有方法多集中于 单一任务，缺乏对端到端流程的适配，也难以处理动态数据变化。

为此，论文提出了 Data Interpreter —— 一个能够自动解决数据科学全流程任务的 LLM 智能体。

主要贡献

首个面向 端到端数据科学流程 的 LLM 智能体。
提出 基于图的任务分解方法，支持动态任务管理。
通过 迭代节点优化 提升代码生成质量。
在多项基准上大幅领先现有方法。

详情请见：https://arxiv.org/abs/2402.18679

10. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

概述

随着大语言模型（LLMs）驱动的多智能体系统快速发展，自动化问题求解已经取得了显著进展。

目前的 LLM 多智能体系统虽然能解决 简单对话任务，但在处理 复杂任务 时，容易因级联幻觉（cascading hallucinations）导致逻辑不一致。

为此，研究团队提出了 MetaGPT —— 一个创新的 元编程框架，通过引入人类工作流的标准化方法，让多智能体协作更加可靠和高效。

主要贡献

引入 元编程思路 到多智能体协作中。
将人类团队的 SOPs 引入智能体工作流。
实现复杂任务的 高效分解与角色协作。
在实际基准任务中展现出更高的 稳定性与准确性。

详情请见：https://arxiv.org/abs/2308.00352