Advertisement

A Survey of Large Language Models in Finance (FinLLMs)

阅读量:

本文是LLM系列文章,针对《A Survey of Large Language Models in Finance (FinLLMs)》的翻译。

金融学大语言模型综述(FinLLM)

  • 摘要

  • 1 引言

  • 2 演化趋势:从通用到金融

    • 2.1 通用领域LMs
    • 2.2 金融领域LMs
  • 3 技术:从FinPLMs到FinLLMs

    • 3.1 持续预训练
    • 3.2 从零开始的特定领域预训练
    • 3.3 混合领域预训练
    • 3.4 具有提示工程的混合域LLM
    • 3.5 指令精细调整LLM与提示工程
  • 4 评估:基准任务和数据集

    • 4.1 情绪分析(SA)
    • 4.2 文本分类(TC)
    • 4.3 命名实体识别(NER)
    • 4.4 问答(QA)
    • 4.5 股票走势预测(SMP)
    • 4.6 文本摘要(Summ)
    • 4.7 讨论
  • 5 高级财务NLP任务和数据集

  • 6 机遇和挑战

  • 7 结论

摘要

大型语言模型(LLM)在各种自然语言处理(NLP)任务中表现出了非凡的能力,并吸引了包括金融服务在内的多个领域的关注。尽管对一般领域LLM进行了广泛的研究,并在金融领域具有巨大的潜力,但金融LLM(FinLLM)的研究仍然有限。本调查全面概述了FinLLM,包括其历史、技术、性能以及机遇和挑战。首先,我们按时间顺序概述了从通用领域预训练语言模型(PLM)到当前的FinLLM,包括GPT系列、选定的开源LLM和金融LM。其次,我们比较了金融PLM和FinLLM使用的五种技术,包括训练方法、训练数据和微调方法。第三,我们总结了六个基准任务和数据集的性能评估。此外,我们还提供了八个高级金融NLP任务和数据集,用于开发更复杂的FinLLM。最后,我们讨论了FinLLM面临的机遇和挑战,如幻觉、隐私和效率。为了支持金融领域的人工智能研究,我们在GitHub上汇编了一组可访问的数据集和评估基准。

1 引言

大型语言模型(LLM)的研究在学术界和工业界都得到了迅速发展,尤其是对ChatGPT等LLM应用的关注。受预训练语言模型(PLM)的启发,LLM通过迁移学习获得授权,并使用大规模文本语料库建立在Transformer架构的基础上。研究人员发现,将模型缩放到足够的大小不仅可以增强模型容量,还可以实现小规模语言模型中没有的令人惊讶的涌现特性,如上下文学习。语言模型(LMs)可以根据参数大小进行分类,研究界已经为大型PLM创建了“大型语言模型(LLM)”一词,通常超过70亿个参数。LLM的技术演变导致了显著的同质化水平,这意味着单个模型可以在广泛的任务中产生强大的性能。LLM的能力促进了人工智能和跨学科研究社区对各种形式的多模态数据(如文本、图像、音频、视频和表格数据)和多模态模型的适应。
在金融领域,人们对将NLP应用于各种金融任务越来越感兴趣,包括情绪分析、问答和股市预测。通用领域LLM的快速发展促使人们对金融LLM(FinLLM)进行了研究,采用了诸如具有提示工程的混合领域LLM和具有提示工程的指令微调LLM等方法。虽然对通用LLM进行了广泛的研究和审查,但金融LLM领域尚处于早期阶段。考虑到LLM在金融领域的巨大潜力,本调查对FinLLM进行了全面概述,并讨论了可以促进跨学科研究的未来方向。我们承认,这项研究的重点是英语中的LMs。本调查文件的主要贡献概述如下。

  • 据我们所知,这是首次对FinLLM进行全面调查,探讨了从一般领域LMs到金融领域LMs的演变。
  • 我们比较了四种财务PLM和四种财务LLM使用的五种技术,包括训练方法和数据,以及指令微调方法。
  • 我们总结了不同模型之间六个基准任务和数据集的性能评估,并为高级FinLLM的开发提供了八个高级财务NLP任务和数据。
  • 我们讨论了FinLLM在数据集、技术、评估、实施和现实应用方面的机遇和挑战。

2 演化趋势:从通用到金融

在这里插入图片描述

2.1 通用领域LMs

自2017年谷歌引入Transformer架构以来,语言模型(LM)通常是以判别或生成为目标进行预训练的。判别式预训练使用掩蔽语言模型来预测下一个句子,并以仅编码器或编码器-解码器架构为特征。生成预训练使用自回归语言建模来预测下一个token,并具有仅解码器的架构。图1说明了从一般领域LMs到金融领域LMs的进化时间表。
GPT系列
生成预训练Transformer(GPT)系列模型始于GPT-1(110M)。从那时起,OpenAI团队专注于扩展模型,GPT-2(1.5B)于2019年发布。GPT-2确定了多任务问题解决的缩放能力和概率方法。2020年,具有175B参数的GPT3发布。这是LLM的一个重要里程碑,因为它引入了LLM的涌现能力;在上下文学习中。Incontext学习是指模型获得未经明确训练的能力,使语言模型能够理解人类语言,并产生超出其原始训练前目标的结果。
正在进行的改进LLM的努力导致ChatGPT于2022年11月推出。此应用程序结合了GPT-3(上下文学习)、Codex(代码的LLM)和InstructGPT(人工反馈强化学习,RLHF)。ChatGPT的成功导致了更大模型的进一步开发,包括GPT-4(估计参数为1.7T)。GPT-4展示了人类水平的表现,能够通过法律和医学考试,并处理多模态数据。
OpenAI继续构建超大的语言模型,旨在增强模型处理多模态数据的能力,并为现实世界应用程序的开发提供API。尽管主流的流行和采用,但利用其API的金融现实应用程序尚未得到充分探索。
开源LLM
在LLM时代之前,研究界经常发布开源LLM,如transformer的双向编码器表示(BERT,基于-110M参数)。BERT是许多早期PLM的基础模型,包括FinBERT。自从OpenAI从开源LLM转向闭源LLM以来,LLM研究的趋势是减少开源模型的发布。然而,在2023年2月,Meta AI发布了开源LLM LLaMA(7B、13B、33B、65B参数),这鼓励了使用LLaMA开发各种LLM。与BERT变体类似,LLaMA变体通过采用指令微调(IFT)和思想链(CoT)提示等各种技术迅速繁殖。
研究界也做出了重大努力,生成开源LLM,以减少对公司研究和专有模型的依赖。BLOOM(176B)是由BigScience Workshop的数百名研究人员合作建造的。这个开源LLM接受了46种自然语言和13种编程语言的训练。

2.2 金融领域LMs

领域特定的LMs,如金融领域LMs,通常使用通用领域LMs构建。在金融领域,主要有四个金融PLM(FinPLM)和四个金融LLM(FinLLM)。在四个FinPLM中,FinBERT19、FinBERT-20和FinBERT-21都是基于BERT,而FLANG是基于ELECTRA。在四个FinLLM中,FinMA、InvestLM和FinGPT基于LLaMA或其他基于开源的模型,而BloombergGPT是BLOOM风格的闭源模型。

3 技术:从FinPLMs到FinLLMs

在这里插入图片描述
虽然我们的调查重点是FinLLM,但重要的是要承认之前对FinPLL的研究为FinLLM的发展奠定了基础。我们回顾了四个FinPLM使用的三种技术和四个FinLLM使用的两种技术。图2显示了构建金融LMs的技术比较,表1显示了FinPLM/FinLLM的总结,包括预训练技术、微调和评估。
在这里插入图片描述

3.1 持续预训练

LM的持续预训练旨在用增量任务序列上的新领域特定数据训练现有的通用LM。
FinBERT-19是第一个发布用于金融情绪分析的FinBERT模型,实现了三个步骤:1)初始化通用域BERT PLM(3.3Btoken),2)对金融主体语料库进行持续预训练,3)对金融领域特定NLP任务进行微调。微调后的金融LM在HuggingFace上发布,该FinBERT-19是金融情绪分析任务的任务相关模型。

3.2 从零开始的特定领域预训练

领域特定预训练方法涉及在未标记的领域特定语料库上专门训练模型,同时遵循原始架构及其训练目标。
FinBERT-20是一个金融领域特定的BERT模型,在金融通信语料库(4.9Btoken)上进行预训练。作者不仅发布了FinBERT模型,还发布了未封装/封装的FinVocab,其token大小与原始BERT模型相似。FinBERT20还在FinBERT-19的同一数据集上进行了情绪分析任务,用于微调实验。

3.3 混合领域预训练

混合领域预训练方法包括使用通用领域语料库和特定领域语料库来训练模型。假设一般领域的文本仍然相关,而金融领域的数据在预训练过程中提供了知识和适应。
FinBERT-21是另一个基于BERT的PLM,设计用于金融文本挖掘,在通用语料库和金融领域语料库上同时训练。FinBERT-21在六个自我监督的预训练任务中采用多任务学习,使其能够有效地获取语言知识和语义信息。FinBERT-21进行了情绪分析实验,并提供了两项额外任务的实验结果;句子边界检测与问答。
FLANG是一个使用金融关键词和短语进行掩蔽的领域特定模型,并遵循ELECTRA的训练策略。本研究首先介绍了金融语言理解评估(FLUE),这是一个由五个金融NLP基准任务组成的集合。任务包括情绪分析、标题文本分类、命名实体识别、结构边界检测和问答。

3.4 具有提示工程的混合域LLM

混合领域LLM在大型通用语料库和大型领域特定语料库上进行训练。然后,用户描述任务,并可选地用人类语言提供一组示例。这项技术被称为Prompt Engineering,它对几个没有权重更新的下游任务使用相同的冻结LLM。这项调查没有探讨提示工程,而是参考了最近的调查。
BloombergGPT是第一个利用BLOOM模型的FinLLM。它是在大型通用语料库(345Btoken)和大型金融语料库(363Btoken)上训练的。金融语料库FinPile包含从网络、新闻、文件、媒体和彭博社的专有数据中收集的数据。作者进行了财务NLP任务(5项基准任务和12项内部任务)以及42项通用NLP任务。

3.5 指令精细调整LLM与提示工程

指令调优是使用显式文本指令对LLM进行额外训练,以增强LLM的能力和可控性。关于指令调优的研究可分为两个主要领域:1)指令数据集的构建,以及2)使用这些指令数据集生成微调LLM。在金融领域,研究人员已经开始将现有的金融数据集转换为指令数据集,然后使用这些数据集对LLM进行微调。
FinMA(或PIXIU)由两个微调的LLaMA模型(7B和30B)组成,它们使用金融指令数据集进行金融任务。它是由一个名为“财务指令调整”(FIT,136k个样本)的大规模多任务指令数据集构建的,通过收集五个不同任务中使用的九个公开发布的财务数据集。除了五个FLUE基准任务外,它还包括股票走势预测任务。
InvestLM是一个使用手动策划的金融领域指令数据集的微调LLaMA65B模型。该数据集包括特许金融分析师(CFA)考试问题、美国证券交易委员会备案、Stackeexchange量化金融讨论和金融NLP任务。下游任务类似于FinMA,但也包括财务文本摘要任务。
FinGPT是一个开源的、以数据为中心的框架,它为财务数据源提供了一套API,为财务任务提供了一个指令数据集,并提供了几个经过微调的财务LLM。FinGPT团队发布了几篇类似的论文,描述了该框架和一篇关于使用六个开源LLM和低秩自适应(LoRA)方法微调FinLLM的实验论文。

4 评估:基准任务和数据集

随着LLM越来越受到重视,对其进行评估变得越来越重要。我们总结了六个金融NLP基准任务和数据集,并回顾了包括FinPLM、FinLLM、ChatGPT、GPT-4和特定任务的最新状态(SOTA)模型在内的模型的评估结果。结果11参考了原始研究或分析研究,以及来自特定任务模型的SOTA结果。

4.1 情绪分析(SA)

情绪分析(SA)任务旨在分析输入文本中的情绪信息,包括财经新闻和微博帖子。大多数FinPLM和FinLLM使用财务短语库(FPB)和FiQA SA数据集报告该任务的评估结果。FPB数据集由4845篇英文财经新闻文章组成。领域专家用三个情绪标签中的一个来注释每个句子:积极、消极或中性。FiQA SA数据集由1173条来自头条和微博的帖子组成。情绪得分在[-1,1]的范围内,最近的研究已经将该得分转换为分类任务。总体而言,FLANG-ELECTRA在F1上获得了最好的结果(92%),而FinMA-30B和GPT-4在5次shot提示下获得了相似的结果(87%)。它从效率和成本方面为不太复杂的任务提出了一种实用的方法。
为了进一步评估SA,我们包括两个开放发布的数据集:SemEval-2017(任务5)和StockEmotions。SemEval-2017数据集包括4157个从标题和微博中收集的句子。与FiQA SA类似,情绪得分为[-1,1]。StockEmotions数据集由10000个句子收集的微博组成,这些微博注释了二元情绪和12个细粒度的情绪类,这些情绪类跨越了投资者情绪的多维范围。

4.2 文本分类(TC)

文本分类(TC)是根据给定文本或文档的内容将其分类为预定义标签的任务。在金融文本中,除了情绪之外,通常还有多个维度的信息,如价格方向或利率方向。FLUE包括黄金新闻头条文本分类数据集。该数据集包括11412个新闻标题,用九个标签的二进制分类进行标记,如“价格上涨”或“价格下跌”。与SA任务类似,FLANG-ELECTRA和FinMA-30B在5次shot提示下获得了最好的结果(在平均F1上为98%),BERT和FinBERT-20的性能也值得注意(在平均F197%)。
由于TC是一项广泛的任务,取决于数据集及其预定义的标签,我们包括三个公开发布的金融TC数据集供进一步研究:FedNLP、FOMC和Banking77。FedNLP数据集包括来自联邦公开市场委员会(FOMC)各种材料的文件。根据美联储对下一时期的联邦基金利率决定,数据集被标注为上调、维持或下调。同样,联邦公开市场委员会数据集是联邦公开市场委文件的集合,标签为Dovish、Hawkish或Neutral,反映了联邦公开市场委员材料中传达的主流情绪。Banking77数据集包括13083个样本,涵盖77个与银行客户服务查询相关的意图,如“卡丢失”或“链接到现有卡”。该数据集是为意图检测和开发会话系统而设计的。

4.3 命名实体识别(NER)

命名实体识别(NER)任务是从非结构化文本中提取信息,并将其分类为预定义的命名实体,如地点(LOC)、组织(ORG)和人员(PER)。对于财务净入学率任务,FIN数据集包含在FLUE基准中。FIN数据集包括来自美国证券交易委员会(SEC)的八份金融贷款协议,用于信用风险评估。具有5个shot提示的GPT-4(实体F1上为83%)和FLANGELECTRA表现出显著的性能(实体F1中为82%),而其他FinLLM表现出次优结果(实体F1为61%-69%)。
为了进一步的研究,我们包括了一个金融NER数据集FiNER-139,由110万个句子组成,注释有139个来自美国证券交易委员会的扩展型商业报告语言(XBRL)单词级标签。该数据集专为实体提取和数字推理任务设计,基于句子中的数字输入数据(例如“2480万”)预测XBRL标签(例如现金和现金等价物)。

4.4 问答(QA)

问答(QA)是一项从非结构化文档集合中检索或生成问题答案的任务。财务QA比一般QA更具挑战性,因为它需要跨多种格式的数字推理。FiQA QA是基于意见的QA,代表早期的财务QA数据集。
随着时间的推移,财务QA已经发展到在多回合对话中包括复杂的数字推理。这一演变涉及到混合QA的引入,即创建连接混合上下文的路径,包括表格和文本内容。FinQA是一个单点混合QA数据集,有8281个QA对,由标准普尔500指数成分股公司年报的专家进行注释。ConvFinQA是FinQA的扩展,是一个多回合会话混合QA数据集,由3892个会话和14115个问题组成。所有FinLLM都在FinQA和/或ConvFinQA数据集上进行了实验,以评估其数值推理能力,而不是使用FiQA QA数据集。GPT-4具有零触发提示,其性能优于所有其他模型(EM精度为69%-76%),接近人类专家的性能(EM精度平均为90%)。BloombergGPT的结果(EM准确率为43%)略低于普通人群(EM精确度为47%)。

4.5 股票走势预测(SMP)

股票走势预测(SMP)任务旨在基于历史价格和相关文本数据预测第二天的价格走势(例如,上涨或下跌)。由于它需要整合具有文本信息时间依赖性的时间序列问题,因此它提出了一项复杂的任务,其中文本数据既可以充当噪声,也可以充当信号。FinMA首次包含SMP任务,在三个数据集上进行实验;StockNet、CIKM18和BigData22。
StockNet收集了2014年至2016年间标普上市88只股票的历史价格数据和推特数据,并广泛用于SMP任务。该任务被定义为一个具有阈值的二元分类:高于0.55%的价格变动被标记为上涨(表示为1),而低于-0.5%的价格波动被标记为下跌(表示为0)。同样,CIKM18利用2017年标准普尔500指数中47只股票的历史价格和推特数据。BigData22汇编了2019年至2020年美国股市50只股票的数据。与StockNet一样,它采用了带有阈值的二元分类公式。在这三个数据集中,平均而言,具有零样本提示的GPT-4实现了比FinMA更高的性能(准确率54%)(准确率52%)和比SOTA模型略低的结果(准确率58%)。尽管通常使用NLP指标,如准确性,但这些指标不足以进行SMP评估。重要的是要考虑财务评估指标,如夏普比率,以及回溯测试模拟结果。

4.6 文本摘要(Summ)

摘要(Summ)是从文档中生成简明摘要,同时通过提取或抽象的方法传达其关键信息。在金融领域,由于缺乏基准数据集、领域专家评估面临挑战以及在提供财务建议时需要免责声明,它的开发相对不足。InvestLM首次包括摘要任务,在ECTSum数据集上进行实验。ECTSum由2425个文档摘要对组成,其中包括路透社的电话财报会议成绩单(ECTs)和bullet-point摘要。它报告各种指标的评估结果,包括ROUGE-1、ROUGE-2、ROUGE-L和BERTScore。与其他复杂的财务任务类似,特定任务的SOTA模型(47%在ROUGE-1上)的性能优于所有LLM。根据InvestLM的作者,虽然与FinLLM相比,具有零样本提示的GPT-4(在ROUGE-1上为30%)显示出优异的性能,但商业模型产生了决定性的答案。
摘要任务提供了重要的开发机会,探索FinLLM是否可以优于特定任务的SOTA模型。对于正在进行的研究,我们包括财务摘要数据集MultiLing 2019,其中包含从伦敦证券交易所(LSE)上市的英国年度报告中提取的3863个文档摘要对。它为每份年度报告提供至少两份金标准摘要。

4.7 讨论

在这六个基准中,混合域FinPLM在SA、TC和NER任务中的性能值得注意,这表明根据任务的复杂性,使用对特定任务进行微调的PLM可能是一种实用的方法。对于QA、SMP和Summ任务,特定于任务的SOTA模型优于所有LLM,表明了FinLLM的改进领域。值得注意的是,GPT-4在除Summ任务外的所有基准测试中都表现出了令人印象深刻的性能,这表明单独的扩展模型可能不足以实现财务方面的最佳性能。由于大多数经过微调的FinLLM使用相同的数据集进行评估,我们为未来的研究提供了额外的数据集。

5 高级财务NLP任务和数据集

设计得当的基准任务和数据集是评估LLM能力的关键资源,然而,目前的6个基准任务尚未解决更复杂的财务NLP任务。在本节中,我们将介绍8个高级基准测试任务,并为每个任务编译相关的数据集。
关系提取 (RE)任务旨在识别和分类文本中隐含的实体之间的关系。与NER类似,此任务是信息提取的一部分。FinRED数据集是为RE发布的,由金融新闻和盈利电话记录整理而成,包含29个金融领域特有的关系标签(例如,由拥有)。
金融中的事件检测 (ED)涉及识别投资者如何感知和评估相关公司的影响。事件驱动交易(EDT)数据集是为ED发布的,包括11种类型的企业事件检测。EDT包括9721篇带有token事件标签的新闻文章,以及另外303893篇带有分钟级时间戳和股价标签的新闻。
金融领域的因果关系检测 (CD)旨在识别事实文本中的因果关系,旨在培养生成有意义的金融叙述摘要的能力。财务叙述处理研讨会(FNP)每年都会处理这一任务,并提供数据集。FNP公开发布的数据集之一FinCausal20 共享两项任务:检测给定文本中的因果关系模式和识别因果句。
金融中的数字推理 (NR)旨在识别数字或单词形式的数字和数学运算符,以便进行计算和理解金融上下文(如现金和现金等价物)。为NER和QA任务引入的一些数据集也被设计用于数值推理,包括:FiNER-139、FinQA、ConvFinQA。
结构识别 (SR)是一项专注于文档(如文本、表格或图形)内的结构边界检测,并识别表格与周围内容之间或表格内单元格之间的逻辑关系的任务。IBM Research发布了FinTabNet数据集,该数据集收集自标准普尔500指数成分股公司的盈利报告。该数据集包括具有表结构的详细注释的非结构化PDF文档。QA任务中包含的FinQA和ConvFinQA数据集是从FinTabNet进一步开发的。
多模态 (MM)理解在许多领域都是一项具有挑战性的任务。最近,引入了几个多模态金融数据集。MAEC在更大范围内汇编了电话财报会议记录的多模态数据(文本、时间序列和音频),共有3443个实例和394277个句子。此外,MONOPOLY介绍了六家央行货币政策通话记录的视频数据,分享了340个视频中的24180个样本,以及文本脚本和时间序列。
金融学中的机器翻译 (MT)不仅旨在将句子从源语言翻译成目标语言,还旨在理解不同语言中的金融上下文含义。MINDS-14由14种不同语言的8168个文本和音频格式的银行语音助理数据样本组成。MultiFin包括10048个样本,涵盖金融主题,有6个高级标签(如金融)和23个低级标签(如并购和估值),来源于15种不同语言的公共金融文章。
市场预测 是金融市场的一项重要任务,涉及市场价格、波动性和风险的预测。该任务扩展到股票趋势预测(SMP)之外,后者将问题公式化为分类任务。情绪分析、事件检测和多模态任务中引入的数据集也是为市场预测而设计的。在这里,我们包括了与MF相关的数据集列表:StockEmotions(SA)、EDT(ED)、MAEC(MM音频)和MONOPLY(MM视频)。

6 机遇和挑战

在本节中,我们重点介绍了指导FinLLM未来方向的各个方面,包括数据集、技术、评估、实现和现实应用。
数据集 :高质量数据和多模态数据对于开发复杂的FinLLM非常重要。由于大多数FinLLM都是针对特定金融数据训练通用领域LLM,因此挑战在于以不同格式收集高质量的金融数据。通过将现有数据集转换为特定的金融NLP任务来构建指令微调的金融数据集,将有助于高级FinLLM的开发。此外,对金融多模态数据集的研究将变得越来越重要,从而提高FinLLM在复杂任务中的性能。
技术 :金融领域的主要挑战包括在不侵犯隐私的情况下利用内部数据,从而引发安全问题,同时增强对FinLLM产生的响应的信任。为了应对这些挑战,一些积极研究的LLM技术,如检索增强生成(RAG),可以在金融领域实施。RAG系统类似于开卷方法,它检索未经预训练的外部知识资源(例如,查询的私人数据),以增强预训练模型对信息的原始表示。RAG为模型提供了对事实信息的访问,从而能够生成交叉引用的答案,从而提高可靠性,并最大限度地减少幻觉问题。此外,RAG能够在不重新训练整个模型的情况下使用内部不可传输的数据,确保隐私不被侵犯。
评估 :评估中的主要挑战是结合金融专家的领域知识,根据金融NLP任务验证模型的性能。当前的评估结果是使用常用的NLP指标(如F1分数或准确度)呈现的。然而,知识驱动的任务需要财务专家的人工评估、相对于NLP指标的适当财务评估指标,以及用于模型调整的专家反馈。此外,高级金融NLP任务,包括我们提出的八个进一步的基准,将发现FinLLM的隐藏能力。这些复杂的任务将评估FinLLM是否可以作为通用的财务问题解决模型,同时考虑特定任务的成本和性能。
实现 :选择合适的FinLLM和技术的挑战在于成本和性能之间的权衡。根据任务复杂性和推理成本,选择具有提示或任务特定模型的通用域LLM可能是比构建FinLLM更实用的选择。这需要LLMOps的工程技能,包括软提示技术,如参数高效微调(PEFT)和具有连续集成(CI)和连续交付(CD)管道的监控操作系统。
应用 :开发真实世界的金融应用程序的挑战涉及非技术性问题,包括业务需求、行业壁垒、数据隐私、问责制、道德以及金融专家和人工智能专家之间的理解差距。为了克服这些挑战,共享FinLLM用例将有利于各个金融领域,包括机器人顾问、量化交易和低代码开发。此外,我们鼓励未来朝着生成应用的方向发展,包括报告生成和文档理解。

7 结论

我们的调查提供了对FinLLM的简明而全面的调查,通过探索其从通用LMs的演变,比较FinPLM/FinLLM技术,并提供了六个传统基准以及八个高级基准和数据集。对于未来的研究,我们对FinLLM的总体看法,用于更高级评估的相关和广泛的数据集,以及高级FinLLM新方向的机遇和挑战,将对计算机科学和金融研究界都有利。

全部评论 (0)

还没有任何评论哟~