深度｜ICLR 2024最佳论文合辑：AI基准测试，推理，和Agent

阅读量：

深度｜ICLR 2024最佳论文合辑：AI基准测试，推理，和Agent

Latent Space Z Potentials 2024年07月11日 10:32

图片来源：Unsplash

Z Highlights:

本文全面介绍了ICLR 2024期间的一系列深入采访、研究论文及学术演讲。具体涉及了如OpenDevin等编码智能体、基准测试框架、推理机制与训练后期流程等相关主题。

基于来自12个热门Python项目总共收集的2,294项技术难题及其相应的代码提交请求所构建而成的SWE-bench评价体系。**评估结果显示，在现有条件下，当前主流的专业模型与我们微调版本SWE-Llama之间仅限于解决最简单的技术难题。经过测试后发现，在所有测试案例中只有性能最优的Claude-2AI系统能够实现准确率仅为1.96%的任务水平。这一创新框架将显著推动语言模型在实用性和智能化方面的进一步发展

**即使是当前最先进的技术，在某些情况下也会导致逻辑上的错误。**为了进一步提升可靠性和准确性,Hunter等研究者采用了转向结果监控与过程监控两种方法:前者通过向最终目标输出提供反馈,后者则针对每一个中间推理环节进行详细指导以优化性能。研究表明,与单一监控策略相比,采用过程监控的方法能够显著提高在复杂数学问题上的解决能力,即在处理复杂的MATH数据集时,采用过程监控的方法能够显著提高性能.具体而言,通过过程监控获得的模型成功解决了78%的测试问题。

Agent在真实网站上的表现仍然受到以下因素的影响：(1) 开放域特征、(2) 短句限制以及(3) 缺乏对HTML标签的归纳学习。

A 部分：代码编辑和沙盒、OpenDevin、学术界 vs 行业

嘉宾

Graham Neubig

Aman Sanger

项目

WebArena

图片来源: Latent Space

Sotopia

图片来源: Latent Space

Learning Performance-Improving Code Edits

OpenDevin

Junyang Opendevin

Morph Labs, Jesse Han

SWE-Bench

SWE-Agent

Aman tweet on swebench

LiteLLM

Livecodebench

代码在推理中的作用

Language Models of Code are Few-Shot Commonsense Learners

行业 vs 学术界

the matryoshka embeddings incident

其他方向

Unlimiformer

B 部分：基准测试

该研究团队（来自普林斯顿大学的Carlos Jimenez与John Yang）：SWE-bench计划探讨如何利用语言模型解决现实世界中的Github问题。

我们发布了一个名为SWE-bench的评估框架。该框架由来自12个知名Python仓库中的总共2,294个软件工程问题及其相应的拉取请求组成。基于给定的代码库和待解决的问题描述，该语言模型需通过修改代码库来实现问题解决。为了解决SWE-bench中的问题，模型需理解并协调多个函数、类以及多个文件的修改，并与执行环境进行交互协作。需处理包含冗长上下文信息的任务，并承担比传统代码生成任务更为复杂的推理任务。

评估结果表明，在现有的专有模型与我们微调的SWE-Llama版本目前仅能应对基础问题的情况下

图片来源: Latent Space

图片来源: Latent Space

Yonatan Oren et al, Stanford University: Analyzing Test Set Degradation in Black-Box Language Models

我们表明了无需直接访问预训练数据或其权重参数即可提供可验证的语言模型测试集污染保证。我们的研究结果表明，在未引入数据污染的情况下，在所有可交换基准测试中出现的排序具有相似的可能性分布。与之相反的是，在正常情况下语言模型倾向于保持示例顺序不变的特性会导致污染语言模型更容易识别出特定排序模式与其非污染版本之间的统计差异性显著增强。当某一特定排序基准数据集出现的概率显著高于其重新排序版本时，则会触发潜在污染样本的检测标记机制

我们通过实验表明该方法具备高度的鉴别能力，在复杂环境下也能稳定可靠地检测到测试集污染现象；具体而言，在规模为14亿参数的小模型架构下，在面对仅包含1千个样本来进行测试的情况，并且这些数据在预训练数据集中仅出现过有限次数的场景下

杰出论文提名： 该方法可应用于评估监督学习数据集中是否存在LLM训练数据。简洁且优雅地检验监督学习数据集是否嵌入LLM训练数据。

图片来源: Latent Space

图片来源: Latent Space

Thierry Scialom（Meta's AI-Fairness Initiative, collaborating with Yann LeCun): GAIA: A Comprehensive Benchmark for General-Purpose AI Assistants

我们提出了 GAIA 基准方案,这一通用 AI 助手框架一旦实现,将在人工智能领域产生深远影响。该方案旨在解决的一组核心问题,包括推理能力、多模态处理、网页检索和工具应用等方面的能力需求。研究结果表明,尽管这些问题对于人类而言本质上并不复杂,但对于大多数先进的 AI 来说仍具有显著的技术挑战性:通过测试评估,普通受访者的表现达到 92%,而集成插件的 GPT-4 只能达到 15%的表现数据。

GAIA的理念不同于目前主流的人工智能基准测试的方向；这些基准倾向于解决那些对于人类而言越来越难以完成的任务。基于系统的稳定性和对人类认知模式的一致性这一前提假设,我们坚信AGI（通用人工智能）的核心特征在于其能够像人类一样可靠地执行广泛且复杂的认知任务.通过采用该系统架构框架构建了466道具有代表性的训练案例及相应的参考解答

图片来源: Latent Space

图片来源: Latent Space

Mortiz Hardt (Max Planck Institute): The emerging science of benchmarks

基准测试是凝聚机器学习社区的重要基石。自20世纪80年代以来,基准测试作为一种研究范式不断得到了发展,但我们却对其了解甚少。在这次演讲中,我将通过选定的实证观察和理论分析,探讨基准测试科学领域的新兴发展。我们将深入探究标注者错误的影响、模型排名适用性以及多任务基准的发展前景。每项研究都带来了对传统智慧的重大挑战,同时也凸显了加强基准测试科学的重要性。

图片来源: Latent Space

图片来源: Latent Space

图片来源: Latent Space

图片来源: Latent Space

图片来源: Latent Space

C 部分：推理与后训练

Akari Asai（University of Washington）及其团队：Self-RAG：掌握检索、生成与批判性思维的方法基于自我反思

该 RAG 实现方式表现为在检索和整合段落时采取了一种无差别策略。不论检索结果是否有必要性或段落间的关联程度如何，在这种策略下都会显著降低语言模型在处理复杂任务时的能力，并可能导致无效的回答输出。

我们开发了名为自我反思检索增强生成（Self-RAG）的新架构，在这项研究中提出了这一创新方法，并详细阐述了其工作原理以及实际应用效果。该架构专为开发通用型AI系统设计，在面对复杂问题时展现出卓越的表现能力。我们的研究重点在于构建一个高度可扩展的知识密集型系统，并展示了其在多领域应用中的有效性

Self-RAG（7B 和 13B 参数）经过实验验证，在多个开放领域问答、推理及事实验证任务中均超越了 ChatGPT 和检索增强的 Llama2-chat 模型，在提升生成文本的真实性与引用准确性方面展现出明显的优势

图片来源: Latent Space

图片来源: Latent Space

Hunter Lightman (OpenAI): Let’s Verify Step By Step

尽管是最先进的AI模型仍会犯错。为了提高模型的可靠性建议采用两种形式的监控机制：一种是针对最终输出结果进行评估另一种是实时监控每个推理步骤。我们的研究表明采用过程监控策略比结果监控更为有效。我们的研究显示使用Process Supervision方法可以正确解答测试集中78%的数学题目。这项研究表明主动学习策略显著提升了Process Supervision的效果。同时，在这项研究中我们开发并发布了PRM800K数据集这是一个包含超过80万步骤级人工标注反馈的数据资源库用于训练最佳奖励模型

图片来源: Latent Space

图片来源: Latent Space

图片来源: Latent Space

Noam Brown - 决策生成模型研讨会

Solving Quantitative Reasoning Problems with Language Models

图片来源: Latent Space

该文档详细概述了从列表中/图片截取的部分《Let’s Verify Step By Step》所对应的快速获取相关图表信息的方法。

图片来源: Latent Space

图片来源: Latent Space

Lilian Weng (OpenAI) - Towards Safe AGI

OpenAI Model Spec

基于《The Instruction Hierarchy》，OpenAI 的指令层级体系旨在训练大型语言模型使其优先处理特权指令。

图片来源: Latent Space

图片来源: Latent Space

图片来源: Latent Space

图片来源: Latent Space

图片来源: Latent Space

图片来源: Latent Space

图片来源: Latent Space

图片来源: Latent Space

D 部分：Agent系统

Izzeddin Gur (Google DeepMind): A Web-based intelligent agent in real-world applications that exhibits intelligent planning capability, demonstrates the ability to comprehend extensive contextual information, and integrates an autonomous program synthesis system.

Agent的行为在真实网站上仍受以下因素制约：(1) 开放度，(2) 受限的信息窗口，(3) 未能有效归纳基于HTML的信息。

我们阐述了WebAgent这一智能代理系统，在大型语言模型的强大支持下实现了自我经验驱动的任务执行能力，在真实 websites 上有效完成了各项操作。该代理系统能够通过对指令进行模块化分解以制定清晰的操作规划，并能够从详尽的 HTML 文档中系统性地提取关键信息并生成相应的摘要。为此开发出了Flan-U-PaLM这一创新工具包，并结合了新型预训练语言模型HTML-T5的技术架构。该系统特别适用于处理长度较长且复杂度高的 HTML 文档内容，并通过融合局部与全局注意力机制以及新型去噪策略实现了更高效的语义理解和精确的任务执行效果。

基于实验数据表明，我们所提出的模块化方法实现了真实网站成功率约50%的显著提升，并且HTML-T5作为最优模型能够高效处理各类HTML理解任务。在MiniWoB网页自动化的基准测试中，该方法的成功率较之前的方案高出18.7%，并在Mind2Web这一离线的任务规划评估中获得了最新的评测结果。

Si-Hui Hong (Affiliated with DeepWisdom): Development of MetaGPT as a Platform for Implementing Meta-Programming in a Multi-Agent Collaborative Framework

我们介绍了一个创新性的元编程框架 MetaGPT。该框架整合了高效的人类工作流程至基于大型语言模型的多智能体协作系统中。MetaGPT通过编码标准操作程序（SOPs）至提示序列中来简化工作流程，并允许具备与人类领域专业知识相当的智能体对中间结果进行验证以降低错误率。该系统采用流水线架构将复杂任务高效分解为多个智能体协同完成的任务片段。

图片来源: Latent Space

附加：关于 LLM 能力的相关论文

以下是一些我们希望重点介绍但未能全部展示的论文。

该研究指出；利用大语言模型训练时遇到反转诅咒的现象；当模型学习"A is B"时；无法有效学习"B is A"。研究团队来自Vanderbilt大学等机构

我们发现自回归LLM在泛化能力上存在显著缺陷。当模型接受“A是B”形式的训练数据时，它无法自然推导出相反形式的“B是A”句子。这种现象即为反转诅咒的表现。

反曲诅咒在不同规模和类型的模型中都显示出很强的稳定性；即使采用数据增强措施也无法有效缓解这一现象的影响。此外，在测试ChatGPT（包括但不限于GPT-3.5和GPT-4）时发现，在涉及现实名人案例的问题解答上表现不一——例如，“汤姆·克鲁斯的母亲是谁？”其给出的答案是正确的；然而，“玛丽·李·菲佛的儿子是谁？”这一反向问题却未能得到准确回应。具体而言，在前一类型的问答任务中（母亲类问题），其准确率达到了79%，但针对后一类型的问题（子女关系类），准确性降至仅33%。

图片来源: Latent Space

Omar Khatib (Stanford): DSPy transforms declarative language model calls into state-of-the-art pipelines.

现有的语言模型管道通常采用预定义的提示模板机制完成功能, 即经过大量实验得出的一串冗长字符串作为基础配置。本研究旨在开发并优化语言模型管道系统, 引入了一种名为DSPy的新编程框架, 该系统采用声明式的模块化设计进行操作, 并支持多种功能组件如文本转换图与命令式计算图的选择与配置。DSPy框架支持参数化配置, 从而能够动态学习并组合应用提示、微调、增强与推理等技术序列以提升性能水平。本研究团队开发了一个高效的编译器, 通过动态生成与收集用户演示案例来优化任意DSPy管路以最大限度地满足特定性能指标需求。

我们进行了两项案例研究,展示了简洁高效的 DSPy 程序能够表达和优化推理数学文字问题、多跳检索、回答复杂问题以及控制 agent 循环的过程与路径。经过几分钟后,DSPy 可以自动生成超过现有预设提示的数量,并构建由专家创建的 GPT-3.5 和 Llama2-13b-chat 演示使用的管道结构。此外,DSPy 程序能够高效地处理包括 770M 参数 T5 以及 Llama2-13b-chat 这类相对较小的语言模型,在依赖于大型专有语言模型 (如 GPT-3.5) 以及由专家编写提示链的方法方面表现出色

图片来源: Latent Space

MuSR: Exploring the Limits of Chain-of-Thought by Employing Multistep Soft Reasoning

Scaling Laws for Associative Memories

DoLa: A novel approach termed Cross-Layer Analysis enhances factual consistency and coherence in Large Language Models

Efficient Streaming Language Models with Attention Sinks

ICLR 2024会议期间将展示精选论文与专题讨论（涵盖基准测试、逻辑推理及智能体领域）——特别邀请了 Graham Neubig、Aman Sanger 和 Moritz Hardt 等学者分享最新研究成果

_https://www.latent.space/p/iclr-2024-benchmarks-agents_

编译: Shayla

-----------END-----------

全部评论 (0)

还没有任何评论哟~

深度｜ICLR 2024最佳论文合辑：AI基准测试，推理，和Agent

深度｜ICLR2024最佳论文合辑：AI基准测试，推理，和Agent LatentSpaceZPotentials2024年07月11日10:32 图片来源：Unsplash ZHighlights:...

ICLR 2022最佳论文解读

微信公众号“圆圆的算法笔记”，持续更新NLP、CV、搜推广干货笔记和业内前沿工作解读后台回复“交流”加入“圆圆的算法笔记”交流群；回复“时间序列“、”多模态“、”迁移学习“、”NLP“、”图学习“、...

ICLR 2024 Oral｜微软推出多模态数学测试基准MathVista，挑战Google Gemini

微软等机构提出了首个以视觉场景为核心的数学推理基准—MathVista。他们提供了一份长达116页的详尽报告，其中深入剖析了包括GPT4V在内的12个大型模型的性能。令人瞩目的是，MathVista已...

16个最佳测试管理工具（2024）

1、前言测试管理解决方案能够帮助你捕捉测试需求、设计测试用例、生成测试执行报告、管理资源等。软件质量的疏忽可能导致公司遭受巨大的经济损失、声誉损害或面临诉讼风险。一个优秀的测试管理工具是防止缺陷和故...

假新闻检测论文分享（29）#ICLR 2024 (EA2N)

EA2N:EVIDENCEBASEDAMRATTENTIONNETWORKFORFAKENEWSETECTION Ea2n:基于证据的抽象语义表示注意力网络假新闻检测摘要：该研究包括来自维基数据的外...

AI Agent在家务场景下的AgentBench基准测试

近日，来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计了一个测试工具——AgentBench，用于评估LLM在多维度开放式生成环境中的推理能力和决策能力。研究者对25个LLM进行了全面评估...

深度学习：论文阅读：（ICLR-2021）Vision Transformer

这里写目录标题论文详情 transormer与cnn 预备知识SelfAttention和MultiHeadAttention SelfAttention Multiheadattention VI...

CVPR2024最佳论文出炉！历年CVPR最佳论文盘点（2000 年—2024 年）

cvpr2024最佳论文出炉，本次论文可谓是万里挑一。作为计算机视觉领域的顶级学术会议CVPR，每年评选出的一篇或多篇最佳论文，不仅为计算机视觉领域的顶级学术荣誉，更代表了将对未来技术或行业发展产生...

AI模型性能测试和基准评估方法论

AI模型性能测试和基准评估方法论 1\.背景介绍人工智能技术近年来飞速发展,各种先进的深度学习模型不断涌现,在计算机视觉、自然语言处理、语音识别等领域取得了令人瞩目的成就。然而,随着模型规模和复杂度...

ICLR 2024中Video Diffusion Models相关论文

DiffusionModels视频生成博客汇总前言：最近ICLR2024出分了，VideoDiffusionModels没有想象中受欢迎高分，不过看审稿人和作者们互喷是一件多么有趣的事情！今日娱乐活...

是否确定退出登录?

深度｜ICLR 2024最佳论文合辑：AI基准测试，推理，和Agent