Advertisement

LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

阅读量:

本文属于LLM系列文章,并对《LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS》一书进行了翻译工作

大型语言模型中的长形式真实性

  • Abstract
  • Section 1: Introduction
  • Section 2: LONGFACT - An LLM-Driven Framework for Assessing Long-Term Factuality across Multiple Domains
  • Section 3: SAFE - The Role of LLM Agents as Fact Retrievers
  • Section 4: The Advantage of LLM Agents in Explaining Facts Compared to Humans
  • Section 5: F1@K - Enhanced Recall Metrics through Human Reference-Based F1 Calculation
  • Section 6: The Scalability and Realism of Larger LLM Models
  • Section 7: Related Work
  • Section 8: Limitations of Current Approaches
  • Section 9: Conclusion

摘要

大型语言模型(LLM)在回应开放主题的事实查询提示时往往会包含事实性错误。为了在开放领域评估模型的长期事实准确性我们首先基于GPT-4生成了LongFact这一由跨越38个主题总计数千个问题构成的提示集。随后我们提出了名为搜索增强事实评估器(SAFE)的方法作为一种用于自动评估长期事实性的代理系统。SAFE通过将LLM产生的长形式响应分解为独立的事实片段并结合多步骤推理过程来验证每个事实的真实性其中推理过程包括向谷歌搜索引擎发送相关搜索查询并确认搜索结果是否支持具体的事实陈述。此外为了衡量长形式真实性的整体水平我们将F1分数扩展为一个综合指标它综合考虑了支持的事实比例以及与用户首选响应长度相关的超参数比例之间的平衡关系。
从实验结果来看SAFE的表现优于人工标注者:在约16,000个实例中SAFE与人工标注一致的时间占比达72%并且在随机选取的100个不一致案例中SAFE有76%的时间表现更为出色同时SAFE的人工标注成本降低了约20倍。
通过对包括Gemini GPT Claude和PaLM-2在内的四个模型族共13个语言模型进行基准测试发现较大的语言模型通常能够实现更好的长形式真实性评价。

1 引言

2 LONGFACT:使用LLMS生成长形式真实性的多主题基准

3 SAFE:LLM代理人作为事实的自动代理人

4 LLM代理可能比人类更能说明事实

5 F1@K:利用人参考长度的召回扩展F1

6 更大的LLM更真实

7 相关工作

8 局限性

9 结论

本文探讨了如何通过大型语言模型实现长形式真实性基准测试。为此,在本研究中,我们首先利用GPT-4生成了一组名为LongFact的提示集(共包含2280个不同的提示项),这些提示涉及38个主要主题领域的覆盖范围。在此基础上开发了一种称为SAFE的方法(SAFE:Language Model Factuality Proxy),该方法旨在通过支持搜索技术动态评估模型回答的真实性。具体而言,在SAFE框架下将每个长文本回答分解为独立的事实片段,并对每个事实片段进行单独评估以确定其与回答提示的相关性程度。随后通过执行谷歌搜索查询进一步验证每个相关事实的真实可靠性。此外,在这项研究中我们还引入了一个关键参数K值作为辅助指标来模拟人类注释者的选择偏好(即注释者倾向于选择长度较短的回答)。为了量化这种真实性的度量效果,在LongFact基准集上计算了F1@K指标作为综合评价标准。

全部评论 (0)

还没有任何评论哟~