2024年6月3日Arxiv大语言模型相关论文

阅读量：

cs.CL: 代码预训练改善了语言模型的实体跟踪能力

Through the Process of Code Pretraining, the language models’ entity tracking capabilities are enhanced.

作者 : Najoung Kim, Sebastian Schuster, Shubham Toshniwal

机构 : 波士顿大学伦敦大学学院 NVIDIA

摘要

论文链接 : https://arxiv.org/pdf/2405.21068

cs.CL: 通过质量感知的自我完善直接对齐语言模型

Direct Alignment or Realignment of Language Models via Self-Refinement Guided by Quality Awareness

作者 : Runsheng Yu, Yong Wang, Xiaoqi Jiao, Youzhi Zhang, James T. Kwok

科研机构由三部分组成：香港科技大学、腾讯智能机器人研究工作室以及国家科技创新实验室（人工智能与机器人）。

摘要

论文链接 : https://arxiv.org/pdf/2405.21040

cs.CL: LACIE：针对大语言模型中置信度校准的听众感知微调

LACIE: Listener-Aware Fine-tuning for Enhanced Confidence Calibration within Advanced Large Language Models.

作者 : Elias Stengel-Eskin, Peter Hase, Mohit Bansal

机构 : 北卡罗来纳大学教堂山分校

摘要

论文链接 : https://arxiv.org/pdf/2405.21028

cs.CL: 你只扫描一次：使用LightNet进行高效的多维序列建模

You Only Scan Once: Highly Efficient Sequence-based Multi-dimensional Sequential Modeling with LightNet

作者 : Zhen Qin, Yuxin Mao, Xuyang Shen, Dong Li, Jing Zhang, Yuchao Dai, Yiran Zhong

摘要

论文链接 : https://arxiv.org/pdf/2405.21022

cs.CL: SaySelf: 教导大语言模型通过自我反思的理由表达自信

Empowering large language models to convey self-assurance through self-reflective reasoning pathways.

作者 : Tianyang Xu, Shujin Wu, Shizhe Diao, Xiaoze Liu, Xingyao Wang, Yangyi Chen, Jing Gao

机构 : 普渡大学伊利诺伊大学厄巴纳-香槟分校南加州大学香港科技大学

摘要

论文链接 : https://arxiv.org/pdf/2405.20974

Github : https://github.com/xu1868/SaySelf

cs.CL: 超级级别的语境：超级级别框架的显式和隐式领域限制

关于超级修饰词的语境分析：明确与隐含领域限制及其框架

作者 : Valentina Pyatkin, Bonnie Webber, Ido Dagan, Reut Tsarfaty

机构 : 巴伊兰大学爱丁堡大学艾伦人工智能研究所

摘要 : 最高级形式用于突出具有最大/最小属性的元素。从语义上讲，最高级形式执行一种集合比较：某物（或某些事物）在一组中具有最小/最大属性。因此，最高级形式为研究隐含现象和话语限制提供了一个理想的现象。虽然这种比较集合通常没有明确定义，但可以从表达式出现的话语背景中推断出其（隐含的）限制。在这项工作中，我们对最高级形式的语义进行了广泛的计算研究。我们提出了一个统一的最高级语义解释，使我们能够推导出一个广泛覆盖的注释模式。使用这个统一模式，我们对一个多领域的最高级数据集及其语义解释进行了注释。我们专门关注解释隐含或模糊的最高级表达，通过分析话语背景如何限制解释的集合。在一系列实验中，我们分析了模型在预测最高级语义的不同变体时表现如何，包括有无上下文。我们展示了最高级形式在上下文中的细粒度语义对于当代模型（包括 GPT-4）来说可能具有挑战性。

论文链接 : https://arxiv.org/pdf/2405.20967

cs.CL: OR-Bench：大语言模型的过度拒绝基准

原标题 : OR-Bench: An Over-Refusal Benchmark for Large Language Models

作者 : Justin Cui, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh

机构 : 加州大学洛杉矶分校加州大学伯克利分校

摘要

论文链接 : https://arxiv.org/pdf/2405.20947

其他链接 : https://huggingface.co/datasets/bench-llm/OR-Bench

cs.CL: 学习使用Transformer和Mamba来估计线性时序逻辑中的系统规范

We develop an ability to evaluate system specifications within a linear temporal logic framework by employing transformers and mamba.

作者 : İlker Işık, Ebru Aydin Gol, Ramazan Gokberk Cinbis

机构 : 中东技术大学微软

摘要

论文链接 : https://arxiv.org/pdf/2405.20917

cs.CL: 对链式推理的“先发制人”回答攻击

原标题 : Preemptive Answer “Attacks” on Chain-of-Thought Reasoning

作者 : Rongwu Xu, Zehan Qi, Wei Xu

机构 : 清华大学

摘要

论文链接 : https://arxiv.org/pdf/2405.20902

cs.CL: 大语言模型：大规模隐私政策分析的新方法

原标题 : Large Language Models: A New Approach for Privacy Policy Analysis at Scale

作者 : David Rodriguez, Ian Yang, Jose M. Del Alamo, Norman Sadeh

机构 : 马德里理工大学卡内基梅隆大学

摘要 : Web和移动应用程序的数量和动态性给评估它们是否符合数据保护法律带来了重大挑战。在这种情况下，符号和统计自然语言处理（NLP）技术已被用于自动分析这些系统的隐私政策。然而，这些技术通常需要耗时且潜在存在错误的手动注释数据集用于训练和验证。这项研究提出了将大语言模型（LLMs）应用作为一种替代方法，以有效且高效地从隐私政策中提取隐私实践。特别是，我们利用众所周知的LLMs，如ChatGPT和Llama 2，并就提示、参数和模型的最佳设计提供指导，结合少样本学习等先进策略。我们进一步展示了其准确检测详细和多样的隐私实践的能力。通过使用该领域中的几个知名数据集作为基准，我们的评估验证了其出色的性能，实现了超过93%的F1分数。此外，它在降低成本、加快处理时间和减少技术知识要求方面做到了这一点。因此，我们主张基于LLMs的解决方案作为传统NLP技术的一种可靠替代方案，用于大规模自动分析隐私政策。

论文链接 : https://arxiv.org/pdf/2405.20900

cs.CL: 一项将对应分析与基于PMI的词嵌入方法进行比较的研究

对PMI关联度方法与其他向量空间模型进行对比分析

作者 : Qianqian Qi, David J. Hessen, Peter G. M. van der Heijden

摘要

论文链接 : https://arxiv.org/pdf/2405.20895

cs.CL: clembench-2024是一套具有挑战性、灵活变化且支持多种语言的基准测试与灵活框架，用于LLMs作为多动作智能体

clembench-2024: A Complex and Adaptable Benchmark with Complimentary Features and Multilingual Capabilities, Supporting a Flexible Framework Structure for Large Language Models Operating as Multi-Action Agents.

研究者 Anne Beyer, Kranti Chalamalasetti, Sherzod Hakimov,… Brielen Madureira,… Philipp Sadler,… David Schlangen

摘要

论文链接 : https://arxiv.org/pdf/2405.20859

cs.CL: 通过多层多粒度对比学习实现口语理解

This work aims to advance spoken language understanding through multi-level, multi-grained contrastive learning. The objective of this research is to enhance spoken language comprehension by employing a multi-level, multi-grained contrastive learning framework.

作者 : Xuxin Cheng, Wanshi Xu, Zhihong Zhu, Hongxiang Li, Yuexian Zou

机构 : 北京大学

摘要

论文链接 : https://arxiv.org/pdf/2405.20852

cs.CL: 改进奖励模型与合成评论

原标题 : Improving Reward Models with Synthetic Critiques

该研究的主要参与者包括以下几位研究者：张智文、弗雷泽·格林利-斯科特等

机构 : 牛津大学 Cohere

摘要

论文链接 : https://arxiv.org/pdf/2405.20850

cs.CL: 不要购买！重新评估对比多模态模型的广告理解能力

Refain from Engaging with it! Re-examining Their Ad Comprehension Capacities: A Potential Implication for Cross-modal Learning and Retrieval.

作者 : A. Bavaresco, A. Testoni, R. Fernández

机构 : 阿姆斯特丹大学逻辑、语言和计算研究所

摘要

论文链接 : https://arxiv.org/pdf/2405.20846

Github : https://github.com/dmg-illc/trade

cs.CL: 这是可选的：对英语从属子句中“that”省略的当代探讨

Omission of the Subjunctive 'that' is a Common Practice: An Exploration of Contemporary Issues within English Subordinate Clauses

作者 : Ella Rabinovich

机构 : 特拉维夫-雅法学术学院

摘要

论文链接 : https://arxiv.org/pdf/2405.20833

cs.CL: 自我增强偏好优化：用于语言模型对齐的离策略范式

原标题 : Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment

作者 : Yueqin Yin, Zhendong Wang, Yujia Xie, Weizhu Chen, Mingyuan Zhou

摘要

论文链接 : https://arxiv.org/pdf/2405.20830

Github : https://github.com/yinyueqin/SAPO

cs.CL: 一个混合了监督学习和无监督学习的语言变化的迭代学习模型

An iterative model for the repeated evolution of language that combines supervised vs. unsupervised learning approaches.

作者 : Jack Bunyan, Seth Bullock, Conor Houghton

摘要

论文链接 : https://arxiv.org/pdf/2405.20818

cs.CL: 基于本地样本融合的方法旨在提升代码混合中的仇恨检测性能：以印地语-英语混合编码为例进行实证研究

Enhancing hate speech detection in code-mixed languages through native speaker samples integrated into the training data: A detailed examination of the Hindi-English language mixtures.

作者 : Debajyoti Mazumder, Aakash Kumar, Jasabanta Patro

机构 : 印度科学教育与研究学院博帕尔分院印度

摘要

论文链接 : https://arxiv.org/pdf/2405.20755

cs.CL: FinGen：金融领域论点生成数据集

原标题 : FinGen: A Dataset for Argument Generation in Finance

作者 : Chung-Chi Chen, Hiroya Takamura, Ichiro Kobayashi, Yusuke Miyao

机构 : 人工智能研究中心、AIST、日本东京大学、日本御茶水女子大学

摘要

论文链接 : https://arxiv.org/pdf/2405.20708

cs.CL: 有时候很简单：关于提高基于方面的情感分析性能的研究

Simplicity Often Occurs: An Investigation Of Evaluating and Enhancing Aspect-Based Sentiment Analysis Techniques

作者 : Laura Cabello, Uchenna Akujuobi

机构 : 哥本哈根大学索尼人工智能公司

摘要

论文链接 : https://arxiv.org/pdf/2405.20703

cs.CL: 揭示LLM的词汇敏感性：用于提示增强的组合优化

Investigating the Investigative Aspects of LLMs: A Combinatorial Approach to Enhancing Prompts.

作者 : Pengwei Zhan, Zhen Xu, Qian Tan, Jie Song, Ru Xie

机构 : 中国科学院信息工程研究所中国科学院大学网络空间安全学院

摘要

论文链接 : https://arxiv.org/pdf/2405.20701

cs.CL: DORY: 用于大语言模型的审慎提示恢复

原标题 : DORY: Deliberative Prompt Recovery for LLM

作者 : Lirong Gao, Ru Peng, Yiming Zhang, Junbo Zhao

机构 : 浙江大学

摘要

论文链接 : https://arxiv.org/pdf/2405.20657

cs.CL: 针对大语言模型在问答中的段落重新排序进行特定段落提示调整

Passage-specific Prompt Optimization for Passage Reranking in QA with Large Language Models

作者 : Xuyang Wu, Zhiyuan Peng, Sravanthi Rajanala, Hsin-Tai Wu, Yi Fang

机构 : 圣克拉拉大学沃尔玛全球科技 Docomo创新

摘要

论文链接 : https://arxiv.org/pdf/2405.20654

cs.CL: 基于奖励的输入构建用于跨文档关系抽取

奖励驱动型输入构建用于跨文档关系抽取

作者 : Byeonghu Na, Suhyeon Jo, Yeongmin Kim, Il-Chul Moon

机构 : 清华大学基础科学研究院

摘要

论文链接 : https://arxiv.org/pdf/2405.20649

Github : https://github.com/aailabkaist/REIC

cs.CL: 利用大语言模型进行实体匹配

原标题 : Leveraging Large Language Models for Entity Matching

作者 : Qianyu Huang, Tongfang Zhao

摘要

论文链接 : https://arxiv.org/pdf/2405.20624

cs(CL): FineRadScore 是一种用于逐行评估放射学报告的技术，并且能够生成包含严重程度评分的校正版本。

FineRadScore:一种用于逐行评估的医学影像报告技术,生成具有严重程度评分的校正

研究者 : Alyssa Huang是一位研究人员,Oishi Banerjee是一位研究科学家,Kay Wu是一位数据科学家,Eduardo Pontes Reis是一位人工智能专家,Pranav Rajpurkar是一位机器学习工程师

摘要

论文链接 : https://arxiv.org/pdf/2405.20613

cs.CL: UniBias: 通过内部注意力和FFN调整揭示和减轻LLM偏见

UniBias: Revealing and Alleviating LLM Bias through Internal Attention and FFN Manipulation

作者 : Hanzhang Zhou, Zijian Feng, Zixiao Zhu, Junlang Qian, Kezhi Mao

摘要

论文链接 : https://arxiv.org/pdf/2405.20612

cs.CL: 在学习中识别文档事件因果关系识别

During the learning process, identifying can be employed to address document event causality identification.

作者 : Cheng Liu, Wei Xiang, Bang Wang

机构 : 华中科技大学软件工程学院

摘要

论文链接 : https://arxiv.org/pdf/2405.20608

cs.CL: DAFNet: 大语言模型中用于顺序模型编辑的动态辅助融合

原标题 : DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models

作者 : Tao Lin Zhang, Qizhou Chen, Dong Yang Li, Cheng Yu Wang, Xiao Feng He, Longtao Huang, Hui Xue, Jun Huang

机构 : 阿里巴巴集团东华师范大学

摘要

论文链接 : https://arxiv.org/pdf/2405.20588

cs.CL: GAMedX: 使用大语言模型的生成式AI医疗实体数据提取器

MedEx: 基于AI驱动的生成式医疗实体数据提取器借助于大语言模型

作者 : M'hammoud-Khalil Ghashli, Abdelrahman Farrag, Hajara Sakai, Hicham El-Baz, Yu Jin, Sarah-Lamb

机构 : 纽约州立大学宾汉姆顿分校

摘要

论文链接 : https://arxiv.org/pdf/2405.20585

cs.CL: 一个情感的观点：朝向精神科笔记中临床医生偏见检测

Sentiment analysis perspective aims to develop robust methods to identify clinician bias within electronic psychiatric notes.

作者 : Alissa A. Valentine, Lauren A. Lepow, Alexander W. Charney, Isotta Landi

机构 : 西奈山医疗系统

摘要

论文链接 : https://arxiv.org/pdf/2405.20582

cs.CL: Video-MME：首个视频分析中多模态LLM的全面评估基准。

原标题 : Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

作者 : Shuhuai Ren, Zihan Wang, Enhong Chen, Rongrong Ji, Xing Sun, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Rongrong Ji

机构 : 中国科学技术高校厦门教育机构香港高等学府北京教育学府香港中文高校华东师范大学学府

摘要

论文链接 : https://arxiv.org/pdf/2405.21075

Github : https://video-mme.github.io

cs.CL: 数据不平衡的泛化：关于 CLIP 的可控研究，可转移的见解

超越数据不平衡的泛化能力：针对CLIP技术的系统性研究以可转移见解为目标

作者 : Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi

机构 : 香港大学爱丁堡大学上海人工智能实验室

摘要

论文链接 : https://arxiv.org/pdf/2405.21070

Github : https://github.com/CVMI-Lab/clip-beyond-tail

cs.CL: 语法对齐解码

原标题 : Grammar-Aligned Decoding

研究者 Kanghee Park（贡献者）、Jiayu Wang（贡献者）、Taylor Berg-Kirkpatrick（贡献者）、Nadia Polikarpova（贡献者）以及 Loris D'Antoni （贡献者）参与了本项目

机构 : 威斯康星大学麦迪逊分校加州大学圣地亚哥分校

摘要

论文链接 : https://arxiv.org/pdf/2405.21047

cs.CL: 探索性偏好优化：利用隐式 Q* 近似进行样本高效 RLHF

修改后 : 探索性偏好优化：利用隐式Q-近似提升样本效率的方式用于RLHF_

作者 : Tengyang Xie, Dylan J. Foster, Akshay Krishnamurthy, Corby Rosset, Ahmed Awadallah, Alexander Rakhlin

机构 : 威斯康星大学微软麻省理工学院

摘要

论文链接 : https://arxiv.org/pdf/2405.21046

cs.CL: 在大语言模型上改进的基于优化的越狱技术

原标题 : Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

Contributors include Xiaojun Jia, Tianyu Pang, Chao Du, Yihao Huang, Jindong Gu, Yang Liu, Xiaochun Cao,and Min Lin.

机构 : 新加坡国立大学人工智能研究中心牛津大学中山大学计算机学院

摘要 : 大语言模型（LLMs）正在迅速发展，它们广泛部署的关键组成部分是与安全相关的对齐。许多红队努力旨在越狱LLMs，在这些努力中，贪婪坐标梯度（GCG）攻击的成功导致人们对基于优化的越狱技术的研究越来越感兴趣。尽管GCG是一个重要的里程碑，但其攻击效率仍然令人不满意。在本文中，我们提出了几种改进的（经验性）技术，用于像GCG这样基于优化的越狱。我们首先观察到，“Sure”单目标模板在很大程度上限制了GCG的攻击性能；鉴于此，我们建议应用包含有害的自我建议和/或指导的多样化目标模板来误导LLMs。此外，从优化的角度出发，我们提出了一种自动多坐标更新策略在GCG中（即，自适应地决定每一步替换多少个标记）以加速收敛，以及易于困难初始化等技巧。然后，我们将这些改进的技术结合起来开发出一种高效的越狱方法，称为I\mathcal{I}-GCG。在我们的实验中，我们评估了一系列基准测试（如NeurIPS 2023 Red Teaming Track）。结果表明，我们改进的技术可以帮助GCG胜过最先进的越狱攻击，并实现近100%的攻击成功率。代码发布在此https URL。

论文链接 : https://arxiv.org/pdf/2405.21018

Github : https://github.com/jiaxiaojunQAQ/I-GCG

cs.CL: 朝向流体计算机

原标题 : Towards a Fluid computer

作者 : Robert Cardona, Eva Miranda, Daniel Peralta-Salas

摘要

论文链接 : https://arxiv.org/pdf/2405.20999

cs CL: CWRCzech 一百万查询-文档捷克点击数据集及其在Web相关性排名中的应用

原标题 : CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking

参与者包括Josef Vonášek、Milan Straka等

机构 : 查尔斯大学捷克共和国信封数学与物理学院 Seznam.cz

摘要

论文链接 : https://arxiv.org/pdf/2405.20994

其他链接 : http://Seznam.cz

cs.CL: LCQ: 基于低秩码书的量化方法，用于大语言模型

原标题 : LCQ: Low-Rank Codebook-based Quantization用于大规模语言模型

作者 : Wen-Pu Cai, Wu-Jun Li

机构 : 南京大学

摘要

论文链接 : https://arxiv.org/pdf/2405.20973

cs.CL: 大语言模型是零样本下一个位置预测器

原标题 : Large Language Models are Zero-Shot Next Location Predictors

作者 : Ciro Beneduce, Bruno Lepri, Massimiliano Luca

机构 : 特伦托大学布鲁诺·凯斯勒基金会

摘要

论文链接 : https://arxiv.org/pdf/2405.20962

Github : http://github.com/ssai-trento/LLM-zero-shot-NL

机器人首次在酒吧展示其创意能力：探讨该技术如何助力喜剧创作？研究者将深入分析大语言模型与幽默表演者的匹配度

原标题 : A Robot Walks into a Bar: Can Language Models Serve asCreativity Support Tools for Comedy? An Evaluation of LLMs’ Humour Alignment with Comedians

作者 : Piotr Wojciech Mirowski, Juliette Love, Kory W. Mathewson, Shakir Mohamed

摘要

论文链接 : https://arxiv.org/pdf/2405.20956

cs.CL: 增强视觉模型，以便理解和交互文本密集内容

The task of enhancing vision models is essential for understanding and interacting with rich textual content.

作者 : Adithya.T.G., Adithya.S.K., Abhinav.R.Bharadwaj, Abhiram.H.A., Dr.Surabhi.Narayan

摘要

论文链接 : https://arxiv.org/pdf/2405.20906

cs.CL: 异常值和校准集对现代大语言模型的量化影响逐渐减弱。

The diminishing impact of Outliers and Calibration Sets on the quantization process within modern large language models is notable.

作者 : Davide Paglieri, Saurabh Dash, Tim Rocktäschel, Jack Parker-Holder

摘要

论文链接 : https://arxiv.org/pdf/2405.20835

cs.CL: Ovis: 结构嵌入对齐多模态大语言模型

原标题 : Ovis: Structural Embedding Alignment for Multimodal Large Language Model

作者 : Shiyin Lu, Yang Li, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Han-Jia Ye

机构

摘要

论文链接 : https://arxiv.org/pdf/2405.20797

cs.CL: 图指令调整的联合嵌入

原标题 : Joint Embeddings for Graph Instruction Tuning

作者 : Vlad Argatu, Aaron Haag, Oliver Lohse

机构 : 西门子技术部慕尼黑德国

摘要

论文链接 : https://arxiv.org/pdf/2405.20684

cs.CL: 揭示和减轻在检索增强的大语言模型中的检索不一致性

The process of analyzing and addressing inconsistencies within retrieval-enhanced large language models is crucial for enhancing their performance.

作者 : Mingda Li, Xinyu Li, Yifan Chen, Wenfeng Xuan, Weinan Zhang

机构 : 哈尔滨工业大学 XVERSE科技公司

摘要

论文链接 : https://arxiv.org/pdf/2405.20680

cs.CL: 位置耦合：利用任务结构提高Transformer的长度泛化能力

Position-based coupling: Exploiting task-related structure to achieve better performance in handling sequence lengths of transformers.

主要研究者包括 Hanseul Cho 等人在内

机构 : 清华大学谷歌研究所纽约大学

摘要

论文链接 : https://arxiv.org/pdf/2405.20671

cs.CL: Shakespeare-Shaw family: 一种在视频字幕和摘要方面应用广泛的高效小规模大规模语言视觉模型集合

The Shotluck Holmes: A family of efficiently designed small-scale Language Vision Models optimized for large-scale tasks, aimed at improving video captioning and summarization performance.

作者 : Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain

摘要

论文链接 : https://arxiv.org/pdf/2405.20648

cs.CL: 大语言模型增强了长尾用户和物品的顺序推荐

Large Language Models Improved Sequence-Based Recommendations Aimed at Serving User Groups with Infrequent Interaction Patterns and Providing Diverse Items.

作者 : Qidong Liu, Xian Wu, Xiangyu Zhao, Yejing Wang, Zijian Zhang, Feng Tian, Yefeng Zheng

摘要

论文链接 : https://arxiv.org/pdf/2405.20646

cs.CL: ToxVidLLM：以多模态LLM为基础构建的一个专门用于检测代码混合视频中毒有害内容的框架

原标题 : ToxVidLLM: A Multimodal LLM-based Framework for Toxicity Detection in Code-Mixed Videos

作者 : Krishanu Maity, A.S. Poornash, Sriparna Saha, Pushpak Bhattacharyya

机构 : 印度理工学院巴特那分校印度理工学院孟买分校

摘要

论文链接 : https://arxiv.org/pdf/2405.20628

cs.CL: 双向Transformer vs. word2vec：发现提升编译代码中的漏洞

双向Transformer架构与word2vec：识别潜在漏洞于提升编译代码

作者 : Gary A. McCully, John D. Hastings, Shengjie Xu, Adam Fortier

机构 : 贝考姆学院达科他州立大学应用科学与技术学院乔治亚理工学院

摘要

论文链接 : https://arxiv.org/pdf/2405.20611

cs.CL: 遮蔽语言建模变成了表格数据合成的条件密度估计

Masked Token Language Modeling is Equivalent to a Conditional Density Estimation Framework in the Context of Tabular Data Synthesis.

作者 : Seunghwan An, Gyeongdong Woo, Jaesung Lim, ChangHyun Kim, Sungchul Hong, Jong-June Jeon

机构 : 首尔大学统计数据科学系韩国统计学系

摘要

论文链接 : https://arxiv.org/pdf/2405.20602

全部评论 (0)

还没有任何评论哟~

2024年6月3日Arxiv大语言模型相关论文

cs.CL:代码预训练改善了语言模型的实体跟踪能力原标题:CodePretrainingImprovesEntityTrackingAbilitiesofLanguageModels 作者:Najo...

2024年6月12日Arxiv大语言模型相关论文

cs.CL:我们露营并不意味着我们应该这样做：建模酷儿之声的伦理学原标题:JustBecauseWeCamp,Doesn’tMeanWeShould:TheEthicsofModellingQuee...

2024年6月10日Arxiv大语言模型相关论文

cs.CL:多头RAG：用大语言模型解决多方面问题原标题:MultiHeadRAG:SolvingMultiAspectProblemswithLLMs 作者:MaciejBesta,AlesKub...

2024年6月7日Arxiv大语言模型相关论文

cs.CL:PaCE:大语言模型的简约概念工程原标题:PaCE:ParsimoniousConceptEngineeringforLargeLanguageModels 作者:JinqiLuo,Ti...

2024年6月5日Arxiv大语言模型相关论文

cs.CL:TopViewRS:视觉语言模型作为顶视图空间推理者原标题:TopViewRS:VisionLanguageModelsasTopViewSpatialReasoners 作者:Chen...

2024年6月4日Arxiv大语言模型相关论文

cs.CL:代码预训练改善了语言模型的实体跟踪能力原标题:CodePretrainingImprovesEntityTrackingAbilitiesofLanguageModels 作者:Najo...

2024年6月27日Arxiv语言模型相关论文

cs.CL:CharXiv：在多模态大语言模型中的图表理解现实差距原标题:CharXiv:ChartingGapsinRealisticChartUnderstandinginMultimodalL...

2024年6月26日Arxiv语言模型相关论文

cs.CL:背诵、重构、回忆：大语言模型中的记忆作为多方面现象原标题:Recite,Reconstruct,Recollect:MemorizationinLMsasaMultifacetedPhe...

2024年6月25日Arxiv语言模型相关论文

cs.CL:探索使用自然语言推理（NLI）进行事实蕴涵的研究：一项新闻媒体研究原标题:ExploringFactualEntailmentwithNLI:ANewsMediaStudy 作者:Guy...

2024年6月19日Arxiv语言模型相关论文

cs.CL:从RAGs到丰富的参数：探究语言模型如何利用外部知识而非参数信息来处理事实查询原标题:FromRAGstorichparameters:Probinghowlanguagemodelsu...

是否确定退出登录?

2024年6月3日Arxiv大语言模型相关论文

cs.CL: 代码预训练改善了语言模型的实体跟踪能力

cs.CL: 通过质量感知的自我完善直接对齐语言模型

cs.CL: LACIE：针对大语言模型中置信度校准的听众感知微调

cs.CL: 你只扫描一次：使用LightNet进行高效的多维序列建模

cs.CL: SaySelf: 教导大语言模型通过自我反思的理由表达自信

cs.CL: 超级级别的语境：超级级别框架的显式和隐式领域限制

cs.CL: OR-Bench：大语言模型的过度拒绝基准

cs.CL: 学习使用Transformer和Mamba来估计线性时序逻辑中的系统规范

cs.CL: 对链式推理的“先发制人”回答攻击

cs.CL: 大语言模型：大规模隐私政策分析的新方法

cs.CL: 一项将对应分析与基于PMI的词嵌入方法进行比较的研究

cs.CL: 通过多层多粒度对比学习实现口语理解

cs.CL: 改进奖励模型与合成评论

cs.CL: 不要购买！重新评估对比多模态模型的广告理解能力

cs.CL: 这是可选的：对英语从属子句中“that”省略的当代探讨

cs.CL: 自我增强偏好优化：用于语言模型对齐的离策略范式

cs.CL: 一个混合了监督学习和无监督学习的语言变化的迭代学习模型

cs.CL: FinGen：金融领域论点生成数据集

cs.CL: 有时候很简单：关于提高基于方面的情感分析性能的研究

cs.CL: 揭示LLM的词汇敏感性：用于提示增强的组合优化

cs.CL: DORY: 用于大语言模型的审慎提示恢复

cs.CL: 针对大语言模型在问答中的段落重新排序进行特定段落提示调整

cs.CL: 基于奖励的输入构建用于跨文档关系抽取

cs.CL: 利用大语言模型进行实体匹配

cs.CL: UniBias: 通过内部注意力和FFN调整揭示和减轻LLM偏见

cs.CL: 在学习中识别文档事件因果关系识别

cs.CL: DAFNet: 大语言模型中用于顺序模型编辑的动态辅助融合

cs.CL: GAMedX: 使用大语言模型的生成式AI医疗实体数据提取器

cs.CL: 一个情感的观点：朝向精神科笔记中临床医生偏见检测

cs.CL: Video-MME：首个视频分析中多模态LLM的全面评估基准。

cs.CL: 数据不平衡的泛化：关于 CLIP 的可控研究，可转移的见解

cs.CL: 语法对齐解码

cs.CL: 探索性偏好优化：利用隐式 Q* 近似进行样本高效 RLHF

cs.CL: 在大语言模型上改进的基于优化的越狱技术

cs.CL: 朝向流体计算机

cs.CL: LCQ: 基于低秩码书的量化方法，用于大语言模型

cs.CL: 大语言模型是零样本下一个位置预测器

cs.CL: 增强视觉模型，以便理解和交互文本密集内容

cs.CL: 异常值和校准集对现代大语言模型的量化影响逐渐减弱。

cs.CL: Ovis: 结构嵌入对齐多模态大语言模型

cs.CL: 图指令调整的联合嵌入

cs.CL: 揭示和减轻在检索增强的大语言模型中的检索不一致性

cs.CL: 位置耦合：利用任务结构提高Transformer的长度泛化能力

cs.CL: 大语言模型增强了长尾用户和物品的顺序推荐

cs.CL: 双向Transformer vs. word2vec：发现提升编译代码中的漏洞

cs.CL: 遮蔽语言建模变成了表格数据合成的条件密度估计

全部评论 (0)

相关文章推荐

2024年6月3日Arxiv大语言模型相关论文

2024年6月12日Arxiv大语言模型相关论文

2024年6月10日Arxiv大语言模型相关论文

2024年6月7日Arxiv大语言模型相关论文

2024年6月5日Arxiv大语言模型相关论文

2024年6月4日Arxiv大语言模型相关论文

2024年6月27日Arxiv语言模型相关论文

2024年6月26日Arxiv语言模型相关论文

2024年6月25日Arxiv语言模型相关论文

2024年6月19日Arxiv语言模型相关论文