Advertisement

大语言模型研究热点

阅读量:

大语言模型研究热点

原创 爱吃牛油果的璐璐 爱吃牛油果的璐璐 2024-03-02 21:31

幻觉、伦理道德

《探究Model Compression对Social Bias影响的机制及应用:基于Large Language Models的研究》该研究关注Social Bias问题,并深入探讨Model Compression技术的相关性;本文旨在通过量化方法与知识精炼技术实现对Large Language Models中Social Bias影响的系统性控制与优化;

《Copyright Violations and Large Language Models》阐述了相关问题,并从逐词记忆的方法分析了侵犯版权和大型语言模型的问题;研究重点在于识别版权文本潜在的传播途径;

《Conceptor-Aided Debiasing of Large Language Models》探讨了大语言模型在训练数据中固有的社会偏见问题,并提出了一种名为"soft projection"的技术来识别并去除BERT和GPT等主流LLM中的偏差子空间。

《基于贝叶斯序列估计的幻觉检测方法》探讨了大语言模型生成不准确内容的问题,并指出现有幻觉检测技术需收集大量相关证据以提高准确性。研究则提出了一个框架, 运用统计决策理论与贝叶斯序列分析的方法, 在幻觉检测过程中实现成本与收益的最佳平衡。

更多相关论文:

《Selfcheckgpt: zero-shot black-box manner fantasy content detection for generative large-scale language models》

《Regulation and NLP (RegNLP): Taming Large Language Models》

Modern language models are temporal reasoning systems for video-based question-answering applications.

《The Curious Case of Hallucinatory Unanswerability: Exploring Truths in the Shadowed States of Overconfident Large Language Models》

The challenging phenomenon of hallucination in large language models: comprehensive explanation, measurement or assessment, and recommendations for mitigation.

大模型蒸馏

该论文提出了一种创新性的对抗性蒸馏架构,在强化学习领域展现了显著的应用潜力。研究者通过这一架构不仅实现了知识的有效转移,在实验中证实了其方法的独特价值:该方法基于约7,000个训练样本就能实现从大型语言模型ChatGPT向其学生模型Lion的有效迁移,并在此过程中达到了与开源大型语言模型ChatGPT相当水平的生成性能。

该研究引入了名为Promptmix的方法,在大语言模型分层提取中取得显著进展;该技术通过模拟人类响应指令的方式进行优化设计,并实现了在小规模分类任务中的高效应用;研究团队已将实现代码开源共享

《Select, Prompt, Filter: Distilling Large Language Models for Summarizing Conversations》一文提出了一种基于选择、提示与过滤机制的蒸馏方法,在相同的训练数据量下带来了显著提升,并且其最高可达6.6分的ROUGE-2得分表现优异

大模型评估

该论文提出了一种名为CONNER的知识生成评估框架,并从多个维度对LLM的知识生成能力进行了系统性考察和全面分析。研究者通过系统的方法自动评估生成的知识质量,并重点关注了事实性准确性、相关性与主题一致性、连贯性和信息丰富度等关键指标;此外,在模型性能方面也进行了细致的划分和考量。

《Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models》这一研究探讨了一种基于大语言模型(LLM)的互动式评估方法,并命名为iEvaLM;该方法能够模拟用户与系统之间的各种互动情境。

该论文开发了一种新的评估机制,并设计了相应的量化指标来测定生成内容在人类与文化维度上的多样性。

《Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large Language Models with SocKET Benchmark》提出了一项新的理论导向的基准SocKET,并包含共计58项社会知识相关的自然语言处理(NLP)任务。这些测试性任务被划分为五大类:幽默与讽刺、冒犯性内容、情感表达能力以及信息可信度评估。

更多论文:

《BLESS: Benchmarking large language models on sentence simplification》

《StoryAnalogy: Extracting Story-level Analogies for the purpose of unlocking analogical understanding by leveraging the capabilities of large language models》

Large Language Models Engage with Open-World Intent Discovery and Recognition Challenges: A Comprehensive Assessment of ChatGPT's Performance.

《Evaluating Large Language Models on Controlled Generation Tasks》

MAGNIFICo: Assessing the Contextual Processing Power of LLMs in Achieving Novel Interpretative Capabilities

持续深入学习大模型的相关技术及论文研究,在线交流请随时了解我的个人账号:以吃牛油果闻名的小主璐璐 By the way, I'd be delighted to share my insights and experiences.

全部评论 (0)

还没有任何评论哟~