DISCOVERYBENCH: Towards Data-Driven Discovery with Large Language Models
此篇文章属于LLM系列文章,并基于《DISCOVERYBENCH: Towards Data-Driven Discovery with Large Language Models》的校注完成。
DISCOVERYBENCH:使用大型语言模型实现数据驱动的发现
- 摘要
- 1 引言
- 2 相关工作
- 3 公式化
- 4 DISCOVERYBENCH
- 5 实验
- 6 结论
摘要
基于大型语言模型的方法(LLM),代码生成功能、相关函数调用以及数据分析功能的发展速度加快。为了探讨这一问题是否有助于仅从一组提供的数据集中自动搜索和验证假设?为了深入探讨这一问题, 我们提出了DISCOVERYBENCH, 这是一个将数据驱动发现过程正式化的首次综合性基准测试框架.该基准测试旨在系统地评估现有模型在发现任务中的性能, 并为此类任务提供改进方向的有用资源.我们的基准测试包含了来自六个不同领域的总计264个具体任务(包括社会学与工程学等领域的实例), 其中每个任务均定义了特定的数据集、元数据以及自然语言的目标发现目标, 并通过从已发表论文中手动提取的方式来估计研究人员所面临的真实挑战.此外, 我们还引入了903个综合性的子任务, 以系统地评估这些任务的复杂性水平.我们的数据驱动发现框架采用了结构化的形式支持基于facet的详细评估框架, 从而能够为不同的故障模式提供深入见解.我们在DISCOVERYBENCH基准测试上分别采用了开放型与封闭型LLM作为基线方法来评估几种流行的LLM推理架构, 发现即使是最优系统也只能获得四分之一左右的分数.因此, 我们的基准测试不仅揭示了自主的数据驱动发现所面临的挑战, 而且成为了推动该领域进步的重要资源.
1 引言
2 相关工作
3 公式化
4 DISCOVERYBENCH
5 实验
6 结论
我们成功发布了 DISCOVERYBENCH 系列测试套件,这是首个以数据驱动方式设计的真实科学工作流程基准测试系统。该系统包含 264 项独立的任务模块,旨在反映从已有研究成果中提取的真实科学研究流程。通过补充生成式合成任务集进一步完善系统架构,在此过程中专为评估不同难度级别下的发现代理性能提供了标准化测试环境。采用当前最先进的人工智能推理框架和大语言模型进行性能对比研究后发现,在现有条件下仍无法突破关键指标(如峰值表现),这凸显了项目面临的挑战性问题并促使我们持续改进研究方案以期取得更大突破
