GENRES: Rethinking Evaluation for Generative Relation Extraction in the Era of Large Language Models
发布时间
阅读量:
阅读量
本文是LLM系列文章,针对《GENRES: Rethinking Evaluation for Generative Relation Extraction in the Era of Large Language Models》的翻译。
GENRES:对大语言模型时代生成关系提取评价的再思考
- 摘要
- 1 引言
- 2 前言
- 3 GENRES
- 4 实验
- 5 相关工作
- 6 结论
摘要
关系提取(RE)领域正经历着向生成关系提取(GRE)的显著转变,利用了大型语言模型(LLM)的功能。然而,我们发现传统的关系提取(RE)指标,如精确度和召回率,在评估GRE方法方面存在不足。出现这种不足是因为这些指标依赖于与人类注释的参考关系的精确匹配,而GRE方法通常会产生不同于参考的多样且语义准确的关系。为了填补这一空白,我们引入GENRES,对GRE结果的主题相似性、唯一性、粒度、真实性和完整性进行多维评估。对于GENRES,我们从经验上发现:(1)精确度/召回率无法证明GRE方法的性能;(2) 人类注释的指称关系可能是不完整的;(3) 提示具有一组固定关系或实体的LLM可能会导致幻觉。接下来,我们对GRE方法进行了人类评估,结果表明GENRES与人类对RE质量的偏好一致。最后,我们分别在文档、包和句子级别的RE数据集中使用GENRES对14个领先的LLM进行了全面评估,为GRE的未来研究奠定了基础。
1 引言
2 前言
3 GENRES
4 实验
5 相关工作
6 结论
在本文中,我们介绍了GENRES,这是一个使用大型语言模型评估生成关系提取的框架,标志着NLP领域的重大转变。我们基于广泛测试的发现突出了LLM转变关系提取的潜力,并为未来的研究奠定了基础,有可能彻底改变信息提取过程和各个领域的应用。
全部评论 (0)
还没有任何评论哟~
