Advertisement

五、大模型(LLMs)RAG检索增强生成面

阅读量:

本文经过经过经过精心汇总多家顶尖互联网公司在大模型RAG检索增强生成考核方面的核心考点,并对这些考点进行了详尽解析与请查看文末附带anJianj文件链接中获取电子版本以供学习参考。

5.1 大模型(LLMs)RAG 入门篇

该系统采用先进的机器学习算法结合高效的向量处理能力实现文件间的智能检索与交互

• 一、基于LLM+向量库的文档对话 基础面

• 1.1 为什么 大模型 需要 外挂(向量)知识库?

• 1.2. 基于LLM+向量库的文档对话 思路是怎么样?

• 1.3. 基于LLM+向量库的文档对话 核心技术是什么?

• 1.4. 基于LLM+向量库的文档对话 prompt 模板 如何构建?

• 二、基于LLM+向量库的文档对话 存在哪些痛点?

• 三、基于LLM+向量库的文档对话 工程示例面


中中

• 一、LLMs 已经具备了较强能力了,存在哪些不足点?

• 二、什么是 RAG?

• 2.1 R:检索器模块

• 2.1.1 如何获得准确的语义表示?

• 2.1.2 如何协调查询和文档的语义空间?

• 2.1.3 如何对齐检索模型的输出和大语言模型的偏好?

• 2.2 G:生成器模块

• 2.2.1 生成器介绍

• 2.2.2 如何通过后检索处理提升检索结果?

• 2.2.3 如何优化生成器应对输入数据?

• 三、使用 RAG 的好处?

• 四、RAG V.S. SFT

• 五、介绍一下 RAG 典型实现方法?

• 5.1 如何 构建 数据索引?

• 5.2 如何 对数据进行 检索(Retrieval)?

• 5.3 对于 检索到的文本,如果生成正确回复?

• 六、介绍一下 RAG 典型案例?

• 七、RAG 存在什么问题?

5.2 大模型(LLMs)RAG 版面分析篇

大模型(LLMsRAG —— pdf解析关键问题

• 一、为什么需要进行pdf解析?

• 二、为什么需要 对 pdf 进行解析?

• 三、pdf解析 有哪些方法,对应的区别是什么?

• 四、pdf解析 存在哪些问题

• 五、如何 长文档(书籍)中关键信息?

• 六、为什么要提取标题甚至是多级标题?

• 七、如何提取 文章标题?

• 八、如何区分单栏还是双栏pdf?如何重新排序?

• 九、如何提取表格和图片中的数据?

• 十、基于AI的文档解析有什么优缺点?

大模型(LLMsRAG 版面分析——表格识别方法篇

• 一、为什么需要识别表格?

• 二、介绍一下 表格识别 任务?

• 三、有哪些 表格识别方法?

• 3.1 传统方法

• 3.2 pdfplumber表格抽取

• 3.2.1 pdfplumber 如何进行 表格抽取?

• 3.2.2 pdfplumber 常见的表格抽取模式?

• 3.3 深度学习方法-语义分割

• 3.3.1 table-ocr/table-detect:票据图片复杂表格框识别(票据单元格切割)

• 3.3.2 腾讯表格图像识别

• 3.3.3 TableNet

• 3.3.4 CascadeTabNet

• 3.3.5 SPLERGE

• 3.3.6 DeepDeSRT

大模型(LLMsRAG 版面分析——文本分块面

• 一、为什么需要对文本分块?

• 二、能不能介绍一下常见的文本分块方法?

• 2.1 一般的文本分块方法

• 2.2 正则拆分的文本分块方法

• 2.3 Spacy Text Splitter 方法

• 2.4 基于 langchain 的 CharacterTextSplitter 方法

• 2.5 基于 langchain 的 递归字符切分 方法

• 2.6 HTML 文本拆分 方法

• 2.7 Mrrkdown 文本拆分 方法

• 2.8 Python代码拆分 方法

• 2.9 LaTex 文本拆分 方法

5.3 大模型(LLMs)RAG 检索策略篇

大模型外挂知识库优化——如何利用大模型辅助召回?

• 一、为什么需要使用大模型辅助召回?

• 策略一: HYDE

  1. 介绍一下 HYDE 思路?

  2. 介绍一下 HYDE 问题?

• 策略二: FLARE

  1. 为什么 需要 FLARE ?

  2. FLARE 有哪些召回策略?

大模型外挂知识库优化

• 一、为什么需要构建负难样本?

• 二、负难样本构建方法篇

• 2.1 随机采样策略(Random Sampling)方法

• 2.2 Top-K负例采样策略(Top-K Hard Negative Sampling)方法

• 2.3 困惑负样本采样方法SimANS 方法

• 2.4 利用 对比学习微调 方式构建负例方法

• 2.5 基于批内负采样的对比学习方法

• 2.6 相同文章采样方法

• 2.7 LLM辅助生成软标签及蒸馏

• 辅助知识

• 附一:梯度计算方法

5.4 大模型(LLMs)RAG 评测篇

RAGRetrieval-Augmented Generation)评测面

• 一、为什么需要 对 RAG 进行评测?

• 二、RAG 有哪些评估方法?

• 三、RAG 有哪些关键指标和能力?

• 四、RAG 有哪些评估框架?

5.5 大模型(LLMs)RAG 优化策略篇

检索增强生成(RAG) 优化策略篇

一、RAG基础功能篇

• 1.1 RAG 工作流程

• 二、RAG 各模块有哪些优化策略?

• 三、RAG 架构优化有哪些优化策略?

• 3.1 如何利用 知识图谱(KG)进行上下文增强?

• 3.1.1 典型RAG架构中,向量数据库进行上下文增强 存在哪些问题?

• 3.1.2 如何利用 知识图谱(KG)进行上下文增强?

• 3.2 Self-RAG:如何让 大模型 对 召回结果 进行筛选?

• 3.2.1 典型RAG架构中,向量数据库 存在哪些问题?

• 3.2.2 Self-RAG:如何让 大模型 对 召回结果 进行筛选?

• 3.2.3 Self-RAG 的 创新点是什么?

• 3.2.4 Self-RA 的 训练过程?

• 3.2.5 Self-RAG 的 推理过程?

• 3.2.6 Self-RAG 的 代码实战?

• 3.3 多向量检索器多模态RAG篇

• 3.3.1 如何让 RAG 支持 多模态数据格式?

• 3.3.1.1 如何让 RAG 支持 半结构化RAG(文本+表格)?

• 3.3.1.2 如何让 RAG 支持 多模态RAG(文本+表格+图片)?

• 3.3.1.3 如何让 RAG 支持 私有化多模态RAG(文本+表格+图片)?

• 3.4 RAG Fusion 优化策略

• 3.5 模块化 RAG 优化策略

• 3.6 RAG 新模式 优化策略

• 3.7 RAG 结合 SFT

• 3.8 查询转换(Query Transformations)

.9

• 四、RAG 索引优化有哪些优化策略?

• 4.1 嵌入 优化策略

AG 检索召回率较低,一般来说有哪些解决方案呢?尝试过不同尺寸的 chunk 和混合检索方法,效果却并不十分理想。因此,可能需要寻找其他更为有效的解决途径,例如调整 chunk 大小小或或者其他混合检索策略,但目前尚未找到理想的方案。

好,然后优化?

• 4.3 RAG 如何 优化索引结构?

• 4.4 如何通过 混合检索 提升 RAG 效果?

• 4.5 如何通过 重新排名 提升 RAG 效果?

• 五、RAG 索引数据优化有哪些优化策略?

• 5.1 RAG 如何 提升索引数据的质量?

• 5.2 如何通过添加元数据 提升 RAG 效果?

• 5.3 如何通过 输入查询与文档对齐 提升 RAG 效果?

• 5.4 如何通过 提示压缩 提升 RAG 效果?

• 5.5 如何通过 查询重写和扩展 提升 RAG 效果?

• RAG 未来发展方向

• Rag 的垂直优化

• RAG 的水平扩展

• RAG 生态系统

RAG 关键痛点及对应解决方案

• 前言

• 问题一:内容缺失问题

• 1.1 介绍一下 内容缺失问题?

• 1.2 如何 解决 内容缺失问题?

• 问题二:错过排名靠前的文档

• 2.1 介绍一下 错过排名靠前的文档 问题?

• 2.2 如何 解决 错过排名靠前的文档 问题?

• 问题三:脱离上下文 — 整合策略的限制

• 3.1 介绍一下 脱离上下文 — 整合策略的限制 问题?

• 3.2 如何 解决 脱离上下文 — 整合策略的限制 问题?

• 问题四:未能提取答案

• 4.1 介绍一下 未能提取答案 问题?

• 4.2 如何 解决 未能提取答案 问题?

• 问题五:格式错误

• 5.1 介绍一下 格式错误 问题?

• 5.2 如何 解决 格式错误 问题?

• 问题六: 特异性错误

• 6.1 介绍一下 特异性错误 问题?

• 6.2 如何 解决 特异性错误 问题?

• 问题七: 回答不全面

• 7.1 介绍一下 回答不全面 问题?

• 7.2 如何 解决 回答不全面 问题?

• 问题八: 数据处理能力的挑战

• 8.1 介绍一下 数据处理能力的挑战 问题?

• 8.2 如何 解决 数据处理能力的挑战 问题?

• 问题九: 结构化数据查询的难题

• 9.1 介绍一下 结构化数据查询的难题 问题?

• 9.2 如何 解决 结构化数据查询的难题 问题?

• 问题十: 从复杂PDF文件中提取数据

• 10.1 介绍一下 从复杂PDF文件中提取数据 问题?

• 10.2 如何 解决 从复杂PDF文件中提取数据 问题?

• 问题十一: 备用模型

• 11.1 介绍一下 备用模型 问题?

• 11.2 如何 解决 备用模型 问题?

• 问题十二: 大语言模型(LLM)的安全挑战

• 12.1 介绍一下 大语言模型(LLM)的安全挑战 问题?

• 12.2 如何 解决 大语言模型(LLM)的安全挑战 问题?

大模型(

• 一、RAG 有哪些优点?

• 二、RAG 存在哪些局限性?

• 三、为什么 需要 RAG-Fusion?

• 四、说一下 RAG-Fusion 核心技术?

• 五、说一下 RAG-Fusion 工作流程?

• 5.1 多查询生成

• 5.2 多查询生成 技术实现(提示工程)?

• 5.3 多查询生成 工作原理?

• 5.4 逆向排名融合(RRF)

• 5.4.1 为什么选择RRF?

• 5.4.2 RRF 技术实现?

• 5.4.3 生成性输出 用户意图保留

• 5.4.4 生成性输出 用户意图保留 技术实现

完整内容

通过网盘分享的文件:05大模型 RAG 经验面
链接: https://pan.baidu.com/s/1iohaJndTRBcG2pgPq25fgg 提取码: ux2y
--来自百度网盘超级会员v5的分享

全部评论 (0)

还没有任何评论哟~