LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models
本文属于LLM系列文章,关于《LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models》的版本翻译。
LogicBench:大型语言模型逻辑推理能力的系统评价
- 摘要
- 1 引言
- 2 相关工作
- 3 LogicBench
- 4 结果和分析
- 5 结论
- 局限性
摘要
最近开发的大型语言模型(LLM)已在多种语言理解任务中展现出色表现。然而,它们是否能真正实现自然语言的"推理"能力,仍是一个值得深入研究的课题。许多推理技巧,如常识推理、数值推理和定性推理,均已获得广泛研究。然而,与"逻辑推理"相关的关键技能,如系统性推理和创造性思维等,仍需进一步探索。目前,关于LLM在推理能力方面的研究,主要集中在命题逻辑和一阶逻辑的几个基本推理规则(如模式匹配和模式子)上。针对上述研究的局限性,我们进行了综合性评估,考察了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。为实现系统评估目标,我们开发了LogicBench,这是一个专注于单个推理规则的自然语言问答数据集。我们通过施加思维链提示,对GPT-4、ChatGPT、Gemini、Llama-2和Mistral等多款LLM进行了系统性分析。实验结果表明,现有LLM在LogicBench上的表现尚不理想;尤其在处理复杂推理和否定情况时,表现欠佳。此外,这些模型有时会遗漏推理所需的关键背景信息。基于以上发现,我们相信我们的研究工作将有助于推动未来对LLM逻辑推理能力的评估和改进。
1 引言
2 相关工作
3 LogicBench
4 结果和分析
5 结论
在本研究中,我们系统性地评估了LLM在25种不同推理规则和推理模式上的逻辑推理能力,这些规则和模式广泛涵盖了PL、FOL和NM逻辑。为此,我们开发了LogicBench,这是一个专注于评估单个推理规则的自然语言问答数据集。基于LogicBench,我们设计了两项任务:(1)BQA任务和(2)MCQA任务。在两项任务中,我们评估了包括GPT-4、ChatGPT、Gemini Pro、Llama-2和Mistral在内的多项模型。实验结果表明,LLM在LogicBench上表现不佳,即使它们只需要应用一个推理规则。此外,我们还将LogicBench增强为LogicBench(Aug),该增强版本可用于训练目的。通过增强LogicBench为LogicBench(Aug),我们展示了使用该增强版本训练的LLM能够更深入地理解逻辑推理,并在现有逻辑数据集上取得了更好的性能。
