Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers

阅读量：

本文属于LLM系列文章中的一个部分，并且特别针对《Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers》一文进行了翻译。

阅读潜台词：与作家一起评价短篇小说摘要的大型语言模型

摘要
1 引言
2 相关工作
3 作家与数据
4 摘要生成
5 人类评估
6 结果
7 讨论
8 结论

摘要

针对总结短篇小说这一极具挑战性的任务（LLM），我们进行了评估。值得注意的是，在开展这项研究时（研究），我们特别选择了与作者直接合作的方式（合作），以便确保故事内容没有被网络传播（防止...）。通过使用作者自身的判断标准（判断标准），对其摘要质量（质量）进行了知情评价（评价）。采用叙事理论框架下的定量与定性方法（方法）对该问题进行了考察（考察）。结果显示，在超过50%的情况下这些模型都出现了偏离事实的情况（情况）。然而，在最佳情况下这些模型仍能提供深入的主题分析能力（能力）。此外我们还证实了LLM在判断摘要质量方面与作者反馈之间存在差异性（差异性）。

1 引言

2 相关工作

3 作家与数据

4 摘要生成

5 人类评估

6 结果

7 讨论

8 结论

我们携手 renowned writers to offer them original short stories, which they have not yet published, and we carefully examine the quality of summaries generated by LLMs on these narratives. By developing a comprehensive evaluation framework grounded in narrative theory, we establish both quantitative and qualitative metrics to assess the effectiveness of these story summaries. This evaluation is based on data that has not undergone LLM training, ensuring an unbiased assessment. Through this process, we discovered that LLMs demonstrate a capacity to understand long-form narratives and conduct in-depth theme analyses. However, a significant challenge remains in reliably interpreting latent subtextual elements, particularly those pertaining to emotional resonance and narrative tone. Our methodological framework sets a precedent by illustrating how collaborative efforts with domain experts can transcend conventional approaches for evaluating LLM performance on trained datasets.

全部评论 (0)

还没有任何评论哟~

Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers

本文是LLM系列文章，针对《ReadingSubtext:EvaluatingLargeLanguageModelsonShortStory SummarizationwithWriters》的翻译。

CODEJUDGE : Evaluating Code Generation with Large Language Models

本文是LLM系列文章，针对《CODEJUDGE:EvaluatingCodeGenerationwithLargeLanguage Models》的翻译。

Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks

本文是LLM系列文章，针对《Mathify:EvaluatingLargeLanguageModelsonMathematicalProblemSolvingTasks》的翻译。

【AI4Code】CodeX：《Evaluating Large Language Models Trained on Code》（OpenAI）

代码生成——CodeX（OpenAI）最近非常火的OpenAI的Copilot背后的模型。文章35页，58位作者，6位共同一作。顺理成章的，把模型做的再大一点，训练数据集做的再大一些，计算资源再多...

【CVPR2024】Scaling Up Video Summarization Pretraining with Large Language Models

研究背景 1.研究问题：这篇文章要解决的问题是长视频内容在互联网流量中占据重要比例，因此自动视频摘要成为了一个重要的研究课题。然而，现有的视频摘要数据集规模有限，限制了现有方法在泛化能力上的有效性。

论文笔记--Evaluating Large Language Models Trained on Code

论文笔记EvaluatingLargeLanguageModelsTrainedonCode 1\.文章简介 2\.文章概括 3文章重点技术 3.1评估 3.2模型训练Codex 3.3微调模型Cod...

Evaluating the Elementary Multilingual Capabilities of Large Language Models with MULTIQ

本文是LLM系列文章，针对《EvaluatingtheElementaryMultilingualCapabilitiesofLargeLanguageModelswithMULTIQ》的翻译。

FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models

本文是LLM系列文章，针对《FEEL:AFrameworkforEvaluatingEmotionalSupportCapabilitywithLargeLanguageModels》的翻译。

CRITICBENCH: Evaluating Large Language Models as Critic

本文是LLM系列文章，针对《CRITICBENCH:EvaluatingLargeLanguageModelsasCritic》的翻译。 CRITICBENCH：作为批评家评价大型语言模型摘要 1引...

Evaluating Large Language Models: A Comprehensive Survey

本文是LLM系列文章，针对《EvaluatingLargeLanguageModels:AComprehensiveSurvey》的翻译。评估大型语言模型：一项综合调查摘要 1引言 2分类和路线图...

是否确定退出登录?

Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers

阅读潜台词：与作家一起评价短篇小说摘要的大型语言模型

摘要

1 引言

2 相关工作

3 作家与数据

4 摘要生成

5 人类评估

6 结果

7 讨论

8 结论

全部评论 (0)

相关文章推荐

Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers

CODEJUDGE : Evaluating Code Generation with Large Language Models

Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks

【AI4Code】CodeX：《Evaluating Large Language Models Trained on Code》（OpenAI）

【CVPR2024】Scaling Up Video Summarization Pretraining with Large Language Models

论文笔记--Evaluating Large Language Models Trained on Code

Evaluating the Elementary Multilingual Capabilities of Large Language Models with MULTIQ

FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models

CRITICBENCH: Evaluating Large Language Models as Critic

Evaluating Large Language Models: A Comprehensive Survey