Advertisement

[BELLE] Chathome:development and evaluation of a domain-specific llm for home renovation

阅读量:

ChatHome是一个专为家装改造设计的语言模型,在预训练阶段利用装饰标准文件、专业书籍及通用语料库进行训练,并结合领域特定指令进行微调;其在SFT Corpus中使用高质量领域知识构建指导数据集,并通过多轮对话生成词云辅助学习;实验表明,在1:5的比例下(领域特定数据与通用数据),baichuan-13B-base-DAPT模型表现最佳;结果显示提示微调阶段性能提升显著(60.17%),而预训练阶段整合下游指令效果最好(69.03%)。

贝壳的家庭装修领域的垂类大模型。

1.introduction

ChatHome专为家装改造领域设计的语言模型包含两部分首先是利用专业文章标准文件以及网络资源构建的大规模家装改造相关数据集经过对通用语言模型进行微调优化;其次是基于家装改造主题设计的一系列提示性问答问题通过与数据集交互从而实现对指令处理流程的有效优化

2.related work

一个大型语言模型(LLM)的训练通常主要包含两个主要阶段:预训练与指令微调。经过在大规模语料库上的预训练阶段,LLM不仅能够获得基本的语言理解和生成能力。该阶段的目标是使模型能够理解和遵循人类指令,并且能够增强其在未见过的任务上的泛化能力。然而,在特定领域的任务往往涉及复杂的概念、专业术语以及实体间的复杂关联。缺乏针对性的指导支持的情况下, 大型语言模型可能会严重产生幻觉. 这是因为大型语言模型(LLM)的设计目标是根据输入数据预测最可能的输出序列. 为了实现这一目标, 在研究者们的努力下不断改进算法并优化架构.

可通过集成基于检索机制的插件式知识库,在无需修改模型参数的前提下成功将大语言模型应用于特定行业领域。亦可选择通过调整模型参数引入专业领域的核心知识。

按照不同的训练阶段,在深度学习技术不断发展的背景下

3.Data Collection

3.1 Pre-training

国家标准:装饰和建筑的国家标准。

专业图书:过去十年在房地产、家具翻新、装饰和建筑领域出版的图书。

该专业平台收集了...的专业内容。

通用语料库:wudao语料库。

数据预处理:上述数据按照统一的处理流程进行处理,并包含文本提取、质量过滤以及数据去重等环节。在文本提取过程中,剔除了图片、表格以及与网址无关的信息,并仅保留了纯文本内容。在质量过滤过程中,采用敏感词过滤法、语言模型检测法以及有效长度筛选法等手段确保所有数据均为可利用状态。通过文章与句子的去重处理,在专业领域语料库中获取了约2660万条专业标记样本,在通用语料库中获得了约27660万条通用标记样本。

3.2 SFT Corpus

为了优化模型在特定领域中的性能并解决领域偏差问题, 基于高质量的家具装饰书籍与家具装饰网站文章, 收集整理了约25,000条指导性数据, 以便更好地掌握相关领域的知识.

单轮对话:以获取更多关于家具装饰相关问题为目标,在每个会话周期内首先启动GPT-4引擎模拟出室内设计师及客户双重身份,并引导其生成一系列基于预先设定知识库的问答实例。

在多轮对话中,类似于单轮对话的情景下

4.Experiments

4.1 baseline models

baichuan-13B-Base:130亿参数,1.4万亿token。

baichuan-13B-Chat

4.2 experiments setups

在领域适应的过程中,不可避免地会遇到灾难性遗忘的问题。一种直接解决这一问题的方法是采用基于回顾的策略。这种方法包括了回顾过程以及重新学习之前获得的知识。由于大语言模型通常在大量广泛使用的通用数据集上进行过训练,在这种情况下,在领域适应过程中实现通用数据与领域特定数据之间的平衡变得至关重要。

PT和SFT阶段唯一训练的超参数差异在于最大长度,其中PT是1024,SFT是1536。

4.3 Metrics

评估分为两大类:通用能力和领域能力。通用能力基于C-Eval与CMMLU两种国际通行的测评工具开展。领域评估搭建了一个EvalHome平台,在该系统下全部采用多项选择的形式进行考察。整个系统中共有113道试题。

4.4 Results and analysis

数据比例结果分析:

领域特定数据与通用数据之间的比率分别为:1:0(仅含领域特定数据)、1:11:21:5以及1:10。其中比率1:0意指仅使用领域特定的数据而未引入任何通用的数据。该模型基于预训练语言模型baichuan-13b-base构建,并命名为DAPT(Distributed Attention for Prompt Transfer),其参数配置为(\text{baichuan-} ¹³\text{b-base-DAPT})_{(¹⁵)}.

两个实验均验证:基础模型结合家装领域数据,在1:5的比例中达到最佳性能水平。在指令微调环节中,随着更多通用指令数据的引入,在通用能力测试集上的准确率逐渐下降。

领域使用结果分析:

上表中经过领域和通用数据PT的两种模型分别为baichuan-13B-base-DAPT(1:0)与baichuan-13b-base-DAPT(1:5),分别获得了59.29%与55.75%的性能指标;其中前者优于未接受过DAPT训练的base版本(即baichuan-13b-base)所达到的53.98%水平;值得注意的是,在采用baichuan-13b-chat进行指令精细调节后可获得60.17%的结果;这一现象可能源于基准模型在其大规模预训练过程中已积累了丰富的装修相关数据量

在预 training 阶段融合了下游监督与指令的数据集。其中,Aim 为多任务指令预 training 策略(MIP),通过调整领域与通用数据的比例进行实验研究。具体而言,MIP 模型中使用的全部是来自领域的 pre-trained 和 instruction 数据,并未引入通用的数据集,在该配置下获得了 69.03%的准确率。

全部评论 (0)

还没有任何评论哟~