计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14
目录
文章目录
- 计算机前沿技术-人工智能算法-大语言模型-最新研究进展 - 2024 - 10 - 14
- 【目录
Is Large Language Model a State-of-the-Art Quality Estimator in the Machine Translation of User-Generated Content?
S Qian, C Orăsan, D Kanojia, F Carmo - 在《arXiv预印本》上发布了题为"..."的研究成果(arXiv:2410.06338),发布于2024年。
https://arxiv.org/pdf/2410.06338
大语言模型是否代表了用户生成内容与机器翻译之间的最高水平质量评估工具仍需探讨。
摘要
问题背景 :
随着机器翻译技术的最新进展,在中英新闻翻译领域内已有研究声称其表现接近甚至超过人类水平。然而,在这一过程中涉及情感表达的用户生成内容(UGC),尤其是社交媒体上的推文,则给机器翻译系统带来了额外挑战。

算法模型
该研究采用了多种大型语言模型(LLMs),涉及开源LLM与专用LLM,并具体包括Llama 2 13B版本、Yi 34B版本、DeepSeek 67B版本以及Mixtral 8x7B版本等不同型号;此外该研究还采用TransQuest与COMET作为基准基准模型进行对比实验
算法创新点 :
- 设计了一种创新性提示模板,并将其应用于模型在不同场景中的学习与参数高效微调(PEFT)过程。
- 通过向中间层引入正负向量偏移差,并有意识地引导LLM输出以实现对VLM性能的优化。
实验效果:PEFT的LLMs在情感相关的UGC数据集上实现了性能优越性,并显著优于微调模型。然而,在质量评估任务中尽管展现了潜力但仍然面临着拒绝回复和输出不稳定的问题。

重要数据结论 :
- 偏置校准的语言模型(PEFT)在无需参考译本的情况下,在预测机器翻译质量方面表现优异。
- 在分析包含情感表达的内容生成时,默认策略会导致回复被拒绝并出现不一致。
A Survey: The Collaborative Design of Hardware and Software in the Era of Large Language Models.
关于大语言模型时代的背景下分布式系统架构与软件设计策略在大语言模型背景下的应用与挑战的综述
摘要
问题背景
算法模型 :
综述内容涉及LLMs的训练与推理过程,并详细描述了其包含的算法优化、硬件架构设计以及系统级创新。
算法创新点 :
- 深入研究了LLMs在训练与推理阶段的算法优化策略及硬件架构设计。
- 系统性地探讨了LLMs对硬件架构与算法研究的影响,并提出了一种通过高级别创新提升效率的方法。
这篇综述并未具体呈现实验效果, 而是主要进行了对现有研究领域的系统回顾, 并对未来的研究方向提出了建议

重要数据结论 :
- LLMs需要独特的优化方法,特别关注系统级的效率提升.
通过算法改进与硬件架构设计,能够显著提升LLMs的运行效率与计算能力.
3. Upcycling Large Language Models into Mixture of Experts
E He et al., A Khattar et al., R Prenger et al., V Korthikanti et al., Z Yan et al., T Liu et al.— arXiv preprint (arXiv: ), 2024
https://arxiv.org/pdf/2410.07524
优化大型语言模型架构至专家型混合结构
摘要
问题背景 :虽然MoE模型日益受到重视, 但大规模升级的最佳技术目前尚不明朗。
算法模型:研究关注将变换器的MLP层升级为采用混合专家架构(MoE),该层占总计算量的较大比重,并且每个token独立处理以解决kv-cache一致性问题。



算法创新点 :
- 开发了一种新型的"虚拟组"初始化机制;该方案使得我们能够顺利升级至细粒度的混合运算增强(MoE)架构。
- 采用权重缩放策略;该策略降低了粗粒度与细粒度升级后模型的损失。
实验效果 :
该研究提出的改进方案较之持续训练密集型模型取得了更优的效果。通过对比分析可知,在多数情况下(性能表现更为卓越)采用softmax-then-topK路由方法较之topK-then-softmax的方式更为理想。这种高分解度混合注意力机制能够显著提升在特定训练环境下(模型准确性的总体提升)的整体性能表现。
重要数据结论 :
升级后的Nemotron-4 15B模型在MMLU上的性能优于连续训练版本,并归因于其采用了混合专家架构(MoE),而非仅因接受了比之前更多的训练数据
4. A Closer Look at Machine Unlearning for Large Language Models
X Yuan et al., arXiv preprint arXiv:2410.08109 (2024)
https://arxiv.org/pdf/2410.08109
研究大型语言模型中机器遗忘现象的机制

摘要
问题背景 :
训练语料库中的未授权内容可能导致LLMs存储相关数据。应对这些问题能够保障LLMs在现实世界应用中负责任地部署。
算法模型 :
研究了LLMs的机器遗忘技术,包括非针对性和针对性遗忘方法。
算法创新点 :
- 采用了最大熵模型(Maximal Entropy, ME)方法来实现对非针对性遗忘的解决。
- 将答案保留损失(Answer Preservation, AP)作为正则项进行约束以缓解遗忘问题。
实验效果 :
在三种不同的遗忘场景下进行实验,并且结果显示该方法具有良好的效果。
重要数据结论 :
- 提出的方法能够有效地在保持模型性能的同时,从LLMs中移除特定内容。
5. GLOV: Guided
Powerful Language Systems are Employed as Implicit Optimizers within Vision-Language Model Architectures
GLOV:作为视觉语言模型的隐式优化器的引导大型语言模型
摘要:
在本研究中,我们提出了一种名为GLOV的新方法,使大型语言模型(LLMs)能够隐式地优化其作为视觉语言模型(VLMs)的角色以增强下游视觉任务的表现。GLOV通过结合元提示与下游任务描述的方式,在适合的VLM提示集合中进行选择(例如,在零样本分类任务中使用CLIP)。这些提示根据其对下游视觉任务适应性的好坏进行排序。在每个优化步骤中,排序后的提示被用作上下文示例及其对应的准确率来训练LLM以帮助其理解下游VLM更受偏好的提示类型。此外,在网络中间层添加了LLM在先前优化步骤中发现的正向与反向解决方案的嵌入向量偏移差这一机制,则能够显式地引导每个优化步骤中的LLM生成符合下游目标的语言表达形式。这种偏移向量旨在帮助LLM生成更符合下游目标的语义内容以提高识别性能的能力。我们在16个不同的数据集上分别使用了双编码器型和编码器-解码器型两种VLMs进行评估实验,并验证了所提出的GLOV方法能够显著提升这些模型在实际应用中的表现能力
问题背景 :
除了传统基于梯度的优化方法之外,随着大型语言模型(LLMs)以及视觉与语言基础模型的兴起,带来了通过自然语言提示实现优化的可能性。

算法模型 :
该方法采用元提示与引导嵌入空间优化的方式实现VLMs提示能力的提升。

算法创新点 :
- 提出了一个新型的元提示方案。
- 该方案旨在指导LLM进行迭代查询以获取下游任务所需的描述信息。
- 通过在网络中间层加入带有正负提示的嵌入向量偏移差的方法。
- 明确指导LLM生成相应的输出内容。
实验效果 : 通过在16个不同数据集上采用两组不同的VLM架构(即双编码器与编码器-解码器模型),系统性地对GLOV进行了全面评估,并得出了其发现的解决方案能够明显提升这些模型识别性能的结论。


重要数据结论 :
GLOV能够在各个下游任务中发现高效的解决方案,并在多个数据集上展示了显著的性能优势
后记
如您对我的博客内容感兴趣,请您持续进行三连击操作(点赞、收藏、关注和评论),感谢您的支持与关注!我将继续为您提供计算机人工智能领域的最新动态和深度分析(尤其是关于大语言模型、深度学习以及计算机视觉方向的内容),助力您更快捷准确且系统地掌握AI前沿技术的相关知识。
