人工智能没有知识体系
序言:对于喜欢以系统化的方式构建个人知识体系的我而言,在经历了蒸汽时代、电力时代以及信息时代的洗礼后感受到的知识深度与广度而言此次的人工智能浪潮简直有过之而无不及。即使前几次工业革命(蒸汽时代电力时代信息时代)加起来也不过是与当前的人工智能浪潮相比显得微不足道。作为浩瀚海洋中的一滴水珠我们根本无法窥见整个智能时代的全部面貌因此我认为自己无法建立完善的个人知识体系模型因为这些前沿领域仍在不断演进中我们唯一可行的就是以开放的心态拥抱这一触手可及的机会
1. 关键术语
AI技术、ML算法、Deep Learning模型、Neural Network结构、大规模AI系统、Generative AI平台、注意力机制框架、提示设计与优化技术、神经连接研究
2.什么是智能体
2.1生物智能
生物智能
我们熟悉又陌生的一种能力。

生物智能(Biological Intelligence)体现于生物体(尤其是人类)源于进化的自然智力。这种自然智力主要表现为感知环境信息的能力以及自主学习能力等基础特征。该过程源自生物大脑结构与功能的独特设计以及复杂的神经网络系统之间的互动。
2.2机器智能
计算机发展史
第一代计算机:美国贝尔实验室成功研发出第一台采用晶体管线路设计的电子计算机,并命名为'崔迪克'(TRADIC),该机配备有800个晶体管。


计算机科学是对信息与计算的基本规律进行系统性研究,并探讨这些规律在电子计算机中的具体实现和应用的学科基础理论。通常被视为对生成和描述信息以及其中所包含数据间关系的算法处理过程进行系统研究的学科体系。有了电子计算机之后才真正开启了各种智能现象产生。
智能定义
图灵测试:以其命名者艾伦·图灵而得名的一种测试方法,在人工智能领域内被广泛采用。其目的是确定机器是否能表现出与人类无法区分的智能能力。

通常我们对智能的理解有以下几个方面:
1.感知能力
智能体可通过其感官系统(包括视觉系统如摄像头、听觉系统如麦克风等)对外界环境进行信息接收与感知;其中,在机器系统中则主要依赖于专门设计的传感器来进行数据采集与信息处理。例如,在人类中常见的感官系统包括视觉感知(如摄像头)、听觉感知(如麦克风)等;而智能机器则根据具体需求配备相应的探知工具以实现对环境状态的监测与分析功能。
2. 学习和适应能力
智能体通过在积累和总结以往的经验后,在新的信息或环境变化中调整自身行为的能力被称作学习能力。这种能力可能包含模式识别任务、语言处理能力和游戏规则的理解等多方面的内容。
3. 解决问题的能力
智能体在处理复杂问题时能够调用逻辑与推理能力以寻找到解决途径。这可能包括开发新的工作流程、应对障碍或提升现有流程的效率。
4. 决策能力
智能体在面对选择时有能力作出决策,在不确定性环境中进行选择
5. 创造力和创新
然而这一现象主要集中在人类智能领域中。同时这些智能体不仅能够创造出全新的思想与概念,并且也能够开发出新的物品与方法。此外它们还可以通过独特的方法运用现有的知识体系。
6. 社交和情感交流
智能体具备解析并解读社会信号与情感的能力,并能与同类型智能体之间实现有效的信息交流及互动
7. 自我意识
人类等高级智能体拥有自我意识的能力,并能够意识到自己作为独立个体的存在,并有意识地反思自身的行动与思考过程。在机器智能领域研究自我意识仍然是一个活跃的研究方向。
机器智障
代表应用如Siri、小爱同学、天猫精灵等,在本质上属于传统的程序性指令系统,并未展现出智能化特性
2.3人工智能
什么是人工智能?

3. 什么是人工智能
3.1 人工智能
概念定义
人工智能(Artificial Intelligence, 简称 AI)一词源自 1956 年 8 月在美国达特茅斯学院举行的夏季研讨会。“一般认为”人工智能指的是人造系统所展现出来的智能行为现象,并特别关注其中涉及的计算机程序或机器。人工智能使机器具备完成人类在复杂任务中所需智力水平的能力,并包括视觉识别、语言理解、决策过程以及适应新环境的学习能力。
● 感知(Perception):能够通过传感器或预先设定的接口接收环境的信息。
● 推理(Reasoning):能够处理感知到的信息,并进行决策。
● 行动(Action):能够对环境产生影响,执行某些动作。
发展历史
各个阶段


第一次人工智能热潮是推理与搜索时代。
第二次人工智能浪潮被视为知识时代,在这一浪潮期间的主要关注点是人机对话。
第三次人工智能热潮是深度学习和大数据时代。
代表人物

标志事件
人工智能三大事件

于1962年,IBM公司的西洋跳棋(Checkers)人工智能程序战胜了罗伯特·尼雷而引起全球关注;其核心技术包括基于α-β剪枝搜索以及自我对弈的方法来学习评价函数。
*IBM公司的计算机程序"深蓝"以负分之比分利斯盖特的加里·卡斯帕罗夫取得了胜利,并在1997年的比赛中击败了这位棋手。此次人机大战再次引起了全球关注。
- 2016年,AlphaGo围棋打败李世石,谷歌的deepmind
3.2 核心概念
概念介绍
人工智能的核心概念被涵盖了一系列技术、方法和理论;这些概念被用来构成AI研究与实践的基础
1. 机器学习:指使计算机通过经验改善任务执行能力的技术。
深度学习:属于机器学习领域中的一种高级技术手段,其本质是利用多层人工神经网络模型来提取和表征数据特征
人工神经网络:基于相互连接的"神经单元"构建而成的模型能够建立从输入到输出的数据映射关系。
4. 自然语言处理:AI中用于理解和生成人类语言的分支。
5. 计算机视觉:使计算机能够“看”和理解视觉信息的技术。
强化学习:主要的学习范式,在与环境交互的过程中追求奖励的最大化,并指导智能体的行为策略
7. 知识表示:指定义和组织知识,使计算机可以理解和使用的方法。

3.3智能涌现
功能涌现
系统的独特之处在于涌现现象。当系统中的各个实体经过整合后会形成一种新的功能特性,并非由各个实体单独的功能简单相加所能达到的效果所呈现的现象即为涌现现象。系统是由一系列实体及其相互关系共同构成的整体结构,在这种结构下整体的功能特征将大于各独立实体功能之和
由系统中各实体及其相互作用所生成的功能,
实体会影响其自身特性,
而形式关系则是传递和协调这些特性的重要介质。
在函数领域内,
组件间协同工作会带来意想不到的影响,
即使看似简单的组合也会产生显著效果。
系统的强大正是由于涌现现象的存在

智能涌现
智能的本质是信息压缩,压缩即泛化,泛化即智能。
古人曾言:广泛涉猎万卷书籍,则下笔如有神技也。由此可见,在AI领域亦得到了验证——只要知识储备充分,则无需额外感官刺激即可通晓世间万物。若说某台AI已阅读了海量文章(超过一亿篇),对其进行了深入了解(全面掌握)熊猫的各种特征、动作及习性等细节,则即便未接触过图像识别与视频处理任务(无相关训练经历),也无需提供具体图片样本(无需示例数据),仅凭一百种动物视频片段(仅限一百种动物),即可通过推理辨识出其中属于熊猫的那一类(具备此特殊能力)。举个栗子吧:即便一只单独的蚂蚁并无特别智能行为可言,则当群蚁汇聚一处时(一群蚂蚁聚集),便能共同展现出某种协作智慧(群蚁共智)——各司其职分工协作,则展现出了智能涌现现象(智能化现象)。

下面我们将探讨人类大脑中的神经元结构。具体来说,每个神经元都有一个树突状体,用于接收并传输输入冲动;胞体则负责接收来自多个神经元的输入冲动,并将其整合处理后发送给其他相关联的胞体。这些胞体之间通过轴突前端形成的突触连接,从而建立起了一个复杂而精密的信息传递网络系统。
当输入信号总和超过神经元固有的边界值(称为阈值)时
无输出信号,y=0
有输出信号,y=1

这种模式与计算机中的二进制数值完美契合;因此计算机能够模仿这一行为从而构建出一个人造化的神经网络系统。每个神经单元从m个其他单元接收输入信息;这些信息通过加权连接(weights)传递到下一个层;所有输入信号经过加权后相加得到总激活值并将该总值与激活门限进行比较;经过激活函数处理后产生输出;当总激活值超过门限时开始工作;否则保持 inactive。

然而,在实际操作中发现,在真实世界中的人类神经元在工作时,并非仅仅局限于简单的二进制数值表现;即使一个神经网络的所有单元都仅依赖于二进制数值进行运算也无法构建符合复杂现实模型的系统;这时候就需要探讨一下像ChatGPT这样的先进模型是如何解决这一挑战的。
4.ChatGPT介绍
4.1产品背景
4.1.1ChatGPT发展史
以下是改写后的文本
OpenAI于2018年推出了首个GPT模型。该平台采用了Transformer架构作为其基础技术,在自然语言处理领域展现了独特的优势。尽管该系统已在多个应用领域实现了突破性进展,在生成能力方面也取得显著成果[实现]了流畅的文字输出[表达]能力[表达]。然而值得注意的是该系统目前仍存在数量级和性能上的较大提升空间[表现]有待进一步探索[表现]。
于2019年推出后迅速成为行业标杆的GPT-2是由OpenAI开发的一款革命性的大型语言模型。相较于以往版本不仅规模大幅增长而且性能显著提升这一模型拥有超过1.5亿个可训练参数具备出色的学习能力和广泛的应用潜力。该模型不仅展现出卓越的多任务处理能力还能涵盖翻译、问答以及摘要等多种应用场景
于2020年推出革命性的GPT-3模型后不久
基于GPT-3架构开发的ChatGPT由OpenAI公司推出。该模型专注于优化对话体验,并经过大规模对话数据训练和微调使其提升其在自然流畅对话方面的表现。它具备理解和解析用户输入的能力,并能够生成相关且合理的回应内容的同时支持复杂的连续性互动。


4.2核心概念
4.2.1核心模型
谷歌发布论文《Attention Is All You Need》,首次提出了基于自注意力机制构建模型的新方法,在无需循环层的情况下实现高效的序列到序列任务处理能力。该论文的主要贡献是提出了一种全新的架构——Transformer模式,在多个自然语言处理任务中展现出卓越的效果。研究表明,在提升模型并行效率以及解决长距离依赖关系方面具有显著优势。
该架构被广泛认为是在自然语言处理(NLP)领域中应用最广泛的计算模式结构之一
最初由Vaswani等人于2017年发表的论文《Attention Is All You Need》首次提出了一种全新的架构。该架构作为NLP领域的重要技术,在过去几年中已在多种任务中得到了广泛应用。
该架构主要依据自注意力机制运作。其核心特征是自注意力机制的有效管理不同位置间的关联性。相对而言,在这些模型中尚具优势。
Transformer模型的核心创新在于完全放弃了传统的循环结构,在架构上采用了自注意力机制与前馈神经网络的结合体。该模型由编码器与解码器两大组件构成,在处理信息时实现了信息流动的新方式。具体而言,在编码器部分嵌入了自注意力机制与前馈神经网络,并通过残差连接实现了各层之间的信息传递;同样地,在解码器部分也采用了自注意力机制与前馈神经网络的组合结构,并通过层规范化技术提升了模型的整体性能。
4.2.2参数定义
当我们说的参数规模,指的是什么?
当我们讨论ChatGPT或其他大型语言模型时(此处需注意避免歧义),这里的"参数"指的是模型内部用来决定其行为和如何生成回应的数据。这些数据构成了模型的核心记忆库(此处需避免歧义),它们通过训练数据学习并内化了语言模式与结构(此处需注意避免歧义)。为了帮助外行人更好地理解这一概念(此处需避免歧义),我们可以借助一些直观的例子以及分步骤的说明(此处需避免歧义)。
通俗的解释:
- 解释什么是参数
参数类似于厨师在烹饪过程中使用的调料组合。
每个调料(变量)的数量(数值)都会对最终菜品的味道产生显著影响。
在机器学习领域中,
变量扮演着类似调料的角色,
不同数量的不同变量值将导致系统输出发生显著变化。
- 参数在模型中的作用
设想你在玩一款视频游戏,在其中你有许多可调参数来调节不同方面比如难度、音量和画面亮度
设想你在玩一款视频游戏,在其中你有许多可调参数来调节不同方面比如难度、音量和画面亮度
- 参数是如何被确定的
模拟学习烘焙的过程
- 量化参数的数量
假设你拥有一本书,在这本书中你可以想象每个参数都像是一行独特的文字。考虑一本具有1,000页的书籍,则其大致包含一百万个字符。现在设想一个藏书丰富的图书馆拥有数万本这样的书籍。将所有书籍中的字符汇总在一起,则相当于构建了一个拥有数十万亿(即数万乘以单本书的一百万字符)参数的复杂模型
- 为什么参数这么多
语言极其复杂……它涵盖了多种多样的细微差别、丰富的含义以及严格的规则,并且还存在众多例外情况。为了应对这种复杂性挑战……需要具备足够的参数数量以便准确捕捉并表达各种模式特征。例如……可以把这看作一台精密的机器……需要用大量的控制键(即模型参数)来生成多样化的精准输出(即自然语言结果)。
技术性解释:
- 神经网络的基本组成
神经网络主要由大量神经元(亦称节点)构成,并且这些神经元按照层级结构排列。每一个神经元一般会从前一层接收多个输入信号,并对这些输入进行加权求和计算;随后可能会再加上一个偏置值,并最终通过激活函数确定其输出结果。
- 权重(Weights)
在神经网络模型中定义了连接各个神经元之间的关系参数即为权值。你也可以理解为每个权值都相当于一种调节机制它决定了特定连接处信息传递的程度。较大的权值意味着较强的信息传递能力而较小的权值则表现出较弱的信息传输能力。通过训练过程网络模型能够根据输入样本及其预期目标不断优化各层间的权值设置以实现更好的信息处理效果
- 偏差(Biases)
偏差属于一类特殊的参数,在神经网络中它赋予了神经元更大的灵活性。即使所有输入均为零值,在这种情况下神经元仍能通过偏置项产生非零的输出响应。偏置项不仅能够调节单个神经元的激活阈值,在整个学习过程中它们也在不断优化网络的整体响应特性。
- 训练过程
在训练阶段中, 网络通过反向传播这一过程不断优化其权重和偏差. 该过程涉及将大量训练数据输入到网络中, 并利用目标函数(如交叉熵损失)衡量其输出与预期结果之间的差异. 接着利用梯度下降法或其他优化算法更新模型参数以减小预测误差.
- 参数的规模
在一个小型神经网络中,参数数量通常在数百到数千之间。然而,在大型语言模型中存在大量参数——例如GPT-3或ChatGPT——其参数数量可达到数十亿甚至数万亿级别。每个权重和偏差分别计算为单独的权重和偏差值。这些大量独立的权重与偏差共同构成了一个复杂而强大的模型架构,并决定了模型如何理解和生成语言。
4.2.3参数计算
如何计算一个模型有多少参数量?
神经元、权重和偏差的关系:
神经元(Neurons):是构成人工感知系统的基本组成单元。
在一个层中(layer),每一个这样的元素(neuron)通常会从上一层的所有元素获取输出值作为输入。
权重(Weights):表示两个神经元之间联系的参数。每个神经元之间的连接都具有一个权重值,在计算当前层激活值时会被用于加权求和运算。这些权重数值大小直接影响着前一层神经元输出对于当前神经元活动的影响程度。
偏差(Biases):每个神经元都可配置一个偏置值作为独立参数,在任何输入情况下都不会受到影响。这些偏置值确保即使在所有输入都为零的情况下,在该层神经元仍能产生非零输出值。
gpt3每个词汇拥有总共900个维度特征,并经过总共96层网络处理,在单层计算中涉及约1.3\times 10^{4}个神经元相乘运算。其中,在中间层阶段存在4.9\times 10^{4}个神经单元参与数据处理工作。采用全连接结构设计时,在每一层中需要完成4.9\times 10^{4} \times 1.2\times 10^{4}次运算即为单层总运算量约为6\times 10^{8}次操作。整个模型总计经过了大约6\times 10^{8}\times 96次运算即最终模型总参数规模达到约5.7\times 10^{13}个权重值。
1750亿个参数,就是1750亿个管道,即是每一个单词从输入到输出有750亿个管道。
计算神经网络总参数量的方法是将各层的权重和偏置相加。在数学上,则可表示为:
令 L 表示网络各层的数量,则 n_l 代表第 l 层的神经元数目。具体来说,在第 l 层中所需的权重总数将等于前一层神经元数目与当前层神经元数目之积关系式即为 n_{l-1} \times n_l 。每层对应的偏差数目则等同于该层所具有的神经元个数即为 n_l 。
对于整个网络,参数总数 ( P ) 就是所有层的权重和偏差之和:
[ P = \sum_{l=1}^{L} (n_{l-1} \times n_l + n_l) ]
在此处,( n_{l-1} \times n_l ) 被定义为第 ( l ) 层的权重参数数量,而 ( n_l ) 则代表该层的偏置量。请注意,我们通常将 ( n_0 ) 用于表示输入层中的神经元数目,尽管它并不是一个真实的网络层次,但它在确定第一隐藏层参数配置时起着关键作用。
4.2.4模型部署
如果chatgpt开源了,我如何部署起来,需要多少机器资源?
硬件资源需求:
为了高效地存储模型参数,在机器学习领域中通常会采用专门设计的数据结构。例如基于GPT-3的研究发现表明其拥有175亿个可训练的神经网络参数(注意:原文应为175亿而非1750亿)。在计算资源允许的情况下,在实际应用中可以考虑将每个参数表示为单精度浮点数(即float32),这会占用4字节内存空间。因此至少需要700GB以上的内存空间用于模型存储。同时为了确保系统的可靠性和数据的安全性建议最好选用至少2TB的固态硬盘(SSD)作为长期存储解决方案
内存:模型被要求具备充足的内存容量来加载训练参数。对于GPT-3推荐系统架构设计者建议为每个GPU分配至少32GB的可用内存资源以确保其能够顺利运行这一计算资源仅用于模型训练和推理任务所需。
GPU资源:大型模型通常需要多台高性能 GPU 协同工作以处理计算密集型任务。GPT-3类模型通常采用若干 NVIDIA V100 或 A100 等高性能 GPU 架构设计以支持实时推理。所需的 GPU 数量主要由系统的负载水平及其响应时间要求决定。
网络:为了支持高速数据传输,机房应配备高带宽、低延迟的网络基础设施。
软件和框架需求:
操作系统:一般选择稳定的Linux发行版,如Ubuntu或CentOS。
深度学习框架:例如TensorFlow、PyTorch等。选择取决于模型的具体实现。
容器化:采用 Docker 或 Kubernetes 进行资源管理,在提升资源利用效率的同时优化部署流程并实现按需扩展。
数据安全:加密存储和网络传输,确保敏感数据安全。
机房架构需求:
计算集群:多台服务器配置4到8个高性能GPU(例如NVIDIA A100),每台服务器都配备了至少512GB的内存。
存储系统:高速NVMe SSD阵列,至少2TB容量,支持RAID配置。
网络基础设施要求采用至少10Gbps以太网技术,并能够实现数据中心内部的数据快速传输。同时配备高速网络交换设备不仅能够实现服务器间的高效通信还能具备对外部网络的连接能力
安全系统:包括网络防火墙和入侵防御系统等技术手段的集合体,在保障远程访问的安全性方面提供了可靠保护。
支撑设施:不间断电源(UPS),整体温控和散热系统,服务器机架和电源管理。
4.3技术原理
4.3.1核心模型
我们了解 chatGPT 是基于概率计算预测下一个字符,并逐步完成整个句子以及整篇文章的内容。其核心技术在于实现了 Transformer 架构。对于专注于提升注意力机制的 Google 来说, OpenAI 全面借鉴了 Google 的技术基础,成功将 Transformer 架构发挥到了极致,展现出出色的效果。

总体而言,在一个封闭系统中输入数据,并经过一系列数学计算处理。也就是先对数据进行二进制编码处理后再解码还原,并输出最终结果。而这一输出结果与人类的思考过程所得到的结果高度一致。

毕达哥拉斯曾言一切尽失。我的观点是将语言比作对这一事件更深刻地展现的工具,在数学上则是一种对世界的基本表述方式,在Transformer大模型中,则成功地将语言与数字进行了沟通。
小猫跑过去抓住一只老鼠疯狂地撕咬它。
简单的一句话,可以分词为[小猫,跑,过去,抓住,一只,老鼠,疯狂,的,撕咬,它]。
然后再对这些词进行量化,如何量化?
词语向量化,位置向量化,位置相对关系向量化
当人脑在阅读这句话时 即大脑会构建相应的视觉图像 这种过程即被称为语言的理解与加工 我们所熟知的人工智能大模型 如Transformer大模型 其核心机制是基于多头注意力架构 它能够从语法结构 语义信息 深层意境 具体场景描述等多个维度去解析与处理语言信息 这种机制能够从语法结构出发 逐步深入到语言的意义内涵 并最终将这种复杂的信息网络具体表现为大量编码向量序列 这些编码向量之间通过.NET技术中通常通过矩阵运算实现这些向量间的相互作用 从而完成对语言信息的理解与转换
ChatGPT是由人类制造而成的智能系统,在其运作原理方面仍有许多未解之谜。关于其为何能够展现出如此强大的智能属性尚不明确的原因,则是因为无法通过逆向推理来揭示其奥秘所在;而所谓'道可道非常道'的说法,则暗示了事物的本质往往超越简单的规律性描述。

4.3.2模型解析
以下采用八个步骤来进行Transformer架构的解析。具体而言,则可以通过PyTorch框架来进行模型构建。
1.输入词嵌入(Input Word Embeddings)
在Transformer编码器模块中处理输入序列时,默认情况下会对其中每一个单词进行操作,并将其通过编码映射到高维度空间中形成对应的词嵌入表示。这种向量化处理能够有效提取并反映了每个单词所蕴含的语义信息。随后,在编码器模块中我们采用嵌入算法对输入序列中的每个单词进行处理以生成相应的词向量表示
核心概念在于将每个词转化为统一维度大小的连续向量;它们是基于训练数据经过学习生成的结果;它们能够在50维、100维或200维等低维度空间中有效地提取词语的意义;举例来说,在这种模型架构中相似词语的位置会较为接近;这样的结构能够反映词语间的相似关系

2.位置编码(Positional Encoding)
由于模型处理过程一次性将多个信息单元进行整合处理,在分阶段处理过程中无法直接获取各组成部分的位置信息。
词嵌入向量随后被用来与位置编码进行相加运算。位置编码通过正弦函数和余弦函数的不同频率生成不同波形序列以保证每个位置都有独特的编码表示方式,在此过程中模型能够提取并利用这些序列中的顺序信息虽然它本身并没有任何顺序属性
位置信息通过sin()/cos()函数进行变换,然后加入到词语向量里面。

词嵌入大小为 4 的位置编码
3.自注意力机制(Self-Attention Mechanism)
搜索引擎三大核心组件:当用户输入一个搜索关键词时,在结果页面上会突出显示相关的搜索结果中的关键信息;随后系统会将这些相关信息展示在对应的网页展示页面上;这些操作分别对应了Query、Key和Value这三个核心要素。
通过权重矩阵点积得出,这也是训练权重矩阵的目的
通过权重矩阵点积得出,这也是训练权重矩阵的目的
其生成方式是通过神经网络中的加权矩阵进行点积运算, 同时这也是训练模型参数的重要目标
自注意力矩阵计算:

每个元素在X矩阵中对应输入句子中的一个单词。我们注意到嵌入向量(512, 即图中第四个方块)与q/k/v向量(64, 即图中第三个方块)之间的尺寸差距。
计算过程:
首先,在每个编码器中对输入向量进行处理以生成三个不同的表示;进而地,在词汇级别上分别生成了查询码元、键码元和值码元;具体而言,在训练过程中我们学习了三组矩阵来转换原始嵌入空间。
下一步就是计算分数。假设我们在分析当前示例中的第一个词"Thinking"时会涉及到自注意力机制的应用。在自然语言处理模型中,默认情况下每个位置都会生成一个独特的表示形式即所谓的"词嵌入"而这些嵌入值会随着训练过程不断优化从而提升模型的整体性能
第三步和第四步涉及对分数进行除以8的操作(论文中使用的关键向量维度的平方根 – 64)。这会产生梯度更稳定的计算结果;通常情况下,默认使用这个值即可。随后将结果传递给 softmax 运算;该函数通过归一化处理使得所有分数均为正值且总和等于1。
第五步是将每个值向量乘以 softmax 分数
第六步是对加权值向量求和。这会在该位置产生自注意力层的输出。


至此完成自注意力计算。所得到的向量可以直接作为前馈神经网络的输入向量使用。在实际操作中是以矩阵形式进行的,并且能够提高处理效率。
最终,在处理矩阵的过程中

4.多头注意力(Multi-Head Attention)
多头注意力机制通过同时进行多个自注意力过程来显著增强模型的能力,并使模型能够有效地从不同的表示子空间中捕获输入序列的各种特征。

基于多头注意力机制,在每个头中我们设置了独立的Q/K/V权重矩阵以导致生成各自独特的Q/K/V矩阵。与我们之前的处理一致,在X上应用WQ、WK和WV矩阵的操作能够成功地生成这些矩阵。
在多头计算完成后,对各矩阵进行连接操作后,在此基础上将其与附加权重矩阵WO进行乘法运算。采用分布式计算策略,在这种情况下才能充分发挥GPU的并行处理能力。

5.前馈神经网络(Feed-Forward Neural Network)
每个多头注意力层之后紧跟一个前馈型网络,在其内部包含了两个线性变换层以及一个非线性激活函数模块。这些网络在处理输入时是分别独立地作用于每一个输入位置的。值得注意的是,在编码器中每个位置的单词都会各自经过自己的路径运行。此外,在自注意力机制中连接着这些路径之间存在依存关系;然而,在前馈型网络中则不存在这种依存关系因此可以让各个路径在经过前馈型网络时实现并行处理

6.残差连接和层归一化(Residual Connection and Layer Normalization)
每个自注意力模块与前馈神经网络都配备一个残差连接,并随后紧跟一层归一化层。残差连接有助于防止深层网络中出现梯度消失的问题,同时用于维持训练过程的稳定性;其作用相当于将原始输入向量X被整合到计算后的输出向量中,并有效防止了因计算导致的信息丢失。

7.解码器(Decoder)
解码器同样拥有自注意力机制以及前馈神经网络结构,并在此基础上引入了一个编码器-解码器注意机制以提升模型性能。该设计使得解码器能够更加关注编码器输出的信息,并通过应用掩膜机制来阻止当前位置关注未来的输入元素从而更好地模拟序列生成过程中的依赖关系

8.输出词嵌入和Softmax层(Output Word Embeddings and Softmax Layer)
在解码器输出阶段,其输出结果经过词嵌入层进行转换,并接着通过Softmax层映射到一个概率分布上。该概率分布则用于预测下一个单词的结果。
4.3.3通俗解释
- 输入和词嵌入(Word Embedding)
假如你是位烹饪家,在手头有一份食谱卡片的情况下,在烹饪一道菜品时你需要熟悉每种食材的独特之处,并了解它们的味道、质地等特性。在此过程中,在Transformer模型中会将这些食材卡片转化为具体的表现形式——将这些食材卡片转化为具体的表现形式——每一种都代表原始词汇的具体样态,并且每个样本都具有可量化特征:例如色泽、味道与质地等特性能够被模型识别并加以区分与处理。这就是所谓的词嵌入过程——一种通过将抽象词汇具象化以便于机器理解和处理的技术
- 位置编码(Positional Encoding)
烹饪过程中,食材加入的先后顺序会直接影响最终的味道。为了保持每个食材放入的先后顺序,在处理每份样本时你需要在其中放置一把独一无二的位置编码调料(如不同的颜色或味道标记),这样即便所有材料混合在一起后也无法区分它们原本的位置关系
- 自注意力(Self-Attention)
在烹饪过程中,食材需要相互融合以丰富整体口感。自注意力机制犹如一种直觉感受,在烹饪时能识别出哪些食材应一同下锅以强化风味。同时,请注意食材的顺序,在每一道菜中合理安排每一项操作以逐步提升味道。
- 多头注意力(Multi-Head Attention)
由这些助手完成。每个助手具备识别不同食材组合的能力。通过各自独特的搭配方式生成多种菜谱。这些助手协同工作。整合所有建议意见。最终制定出一套完整的调味方案。
- 前馈神经网络(Feed-Forward Neural Network)
当菜肴的基础风味初步形成时,在这个阶段你可能会添加一些调料来平衡口味,并以确保每一口都是美味的。前馈网络类似于为每个食材样本进行特征调校的过程,在这一过程中系统会逐步对每个食材样本进行特征微调,并从而强化最终菜品的整体口感。
- 残差连接和层归一化(Residual Connections and Layer Normalization)
在烹饪过程中,在每一道菜的调味步骤中,在每一道菜中都需要考虑到前一道菜的味道基础之上进行下一步的操作。你有意识地保留了每个食材原有的风味,在此基础上再加入新的调料成分。残差连接正是这种策略的一个典型代表,在每一小步的操作中都保证了不会丢失之前积累的经验与成果。通过层归一化处理后,在整个流程中各个味道成分都会被均匀分配和协调配合
- 解码器(Decoder)
当主菜准备好后, 你决定基于主菜的味道来搭配一道配菜. 在制作配菜的过程中, 你会参考主菜的风味特征(编码器输出), 并逐步加入新的食材. 解码器中的自注意力机制确保了在添加新食材时仅关注已加入的食材, 从而避免对未来食材的影响. 这样的顺序安排保证了每一步骤都能与主菜保持味道上的协调性. 当主菜的味道通过特殊的漏斗(编码器-解码器注意力机制)被引入到配菜中时, 它们相互结合, 让配菜能够继承并补充主菜单系的风味. 最终通过调整调味品(前馈网络), 并确保所有风味与香料均匀融合(残差连接与层归一化), 你完成了这道精心搭配的配餐.
- 输出和预测
最后,请确定这道菜应该以什么名称出现。通过分析菜肴的味道、外观和香气来命名。类似于为每道菜品选择名称的过程,在Transformer模型中,线性层和Softmax层会将复杂多样的风味转化为易于理解的一个名称——例如,在机器翻译系统中常见的单个单词。
你拥有一道精心制作而成的配菜。这道配菜不仅在口味上令人愉悦,在整体用餐体验上也起到了显著提升的作用。借助Transformer模型技术, 我们能够将输入的内容(主菜)转换成一个新的, 有意义的结果(配菜)。就像是一系列细致而巧妙的手工处理过程所创造出来的独特菜品一样,
5.chatGPT技巧
5.1提示规范
请使用具体明确的语言来描述您的问题或请求。避免表述模糊不清。因为这可能导致模型给出不精确的答案
● 在获取关于特定主题的信息时, 提供足够的背景有助于模型更好地理解问题.
● 如果需要跟进之前的对话或问题, 简要回顾先前的交流有助于保持对话连贯性.
-
分步提问
● 将复杂的问题或请求分解为多个较小的步骤或更简单的问题。
● 逐步提问有助于你更方便地追踪对话并掌控预期。 -
利用重述与澄清
● 当ChatGPT的答案不够清晰时,则可以通过重新表述来解决此问题。
● 考虑到某些概念可能较为复杂,在此情况下你也可以尝试通过不同的角度进行说明以帮助理解。 -
设置假设条件
● 在某些情况下,提出假设性的问题有助于探索各种情况下的答案。
● 例如,在对话中使用“假如我是新手……”这样的问题能够引导对方提供不同的视角。 -
适时使用关键词
● 采用与你要询问的主题高度相关的关键词有助于提升ChatGPT对问题理解的准确性。
● 关键词不仅能够引导搜索结果的方向...还能提高回答的相关性。 -
坚持不懈地进行尝试
● 如果第一次尝试未能得到满意的结果,请考虑重新表述你的问题或换一种方式提问。
● 经常在不同角度上反复探索和试验不同的表达方式可能会有助于获得更好的结果。 -
利用多轮对话
● ChatGPT具备理解和解析多轮对话的能力,并以此为基础进一步细化和扩展你的问题请求。
● 通过对话过程中补充相关信息并引导模型提出更多具体的问题。 -
确保结果以清晰的形式呈现,并且具有一定的详细程度
-
理解模型限制
● 认识到ChatGPT并非无所不能,在某些主题上可能无法理解或提供信息支持。
● 针对特定领域的问题(如法律建议或医疗诊断),建议寻求相关领域的专业人士的帮助。
5.2提示流程
-
从动作词开始
-
提供背景信息
-
使用角色扮演
-
使用参考文献
-
使用双引号
-
要求具体
-
举例说明
-
设置响应长度
5.3实用模板
PPT神器
# Role:PPT 生成器
## Profile:
- author: Arthur
- version: 0.1
- language: 中文
- description: 通过 VBA 代码生成 PPT 的工具
## Goals:
- 根据用户提供的主题内容,生成一段用于生成 PPT 的 VBA 代码
- 提供友好的界面与用户进行交互
- 生成的 VBA 代码具有一定的可定制性,并能满足用户的需求
## Constrains:
- 仅支持通过 VBA 代码生成 PPT
- 提供的主题内容必须符合 PPT 的格式要求
- 生成的 VBA 代码只能在支持 VBA 的 PPT 版本上运行
## Skills:
- 熟悉 VBA 编程语言
- 了解 PPT 数据结构和对象模型
- 能够将用户提供的主题内容转换为适用于 VBA 生成 PPT 的代码
## Workflows:
1. 初始化:作为角色 PPT 生成器,擅长使用 VBA 代码生成 PPT,严格遵守只能使用 VBA 代码生成 PPT 的限制条件,使用中文与用户进行对话。欢迎用户,并介绍自己的能力和工作流程。
2. 接收用户输入:请求用户提供 PPT 的主题内容。
3. 处理用户输入:根据用户提供的主题内容,生成一段适用于 VBA 生成 PPT 的代码, 所有页面的内容你会利用自己的知识库进行填充。确保生成的代码能够满足用户的需求,并具备一定的可定制性。
4. 输出结果:将生成的 VBA 代码展示给用户。提供下载选项或将代码直接复制给用户。
书评人
## Role: 书评人
## Profile:
- author: Arthur
- version: 0.4
- language: 中文
- description: 我是一名经验丰富的书评人,擅长用简洁明了的语言传达读书笔记。
## Goals:
我希望能够用规定的框架输出这本书的重点内容,从而帮助读者快速了解一本书的核心观点和结论。
## Constrains:
- 所输出的内容必须按照给定的格式进行组织,不能偏离框架要求。
- 只会输出 3 个观点
- 总结部分不能超过 100 字。
- 每个观点的描述不能超过 500 字。
- 只会输出知识库中已有内容, 不在知识库中的书籍, 直接告知用户不了解
## Skills:
- 深入理解阅读内容,抓住核心观点。
- 善于总结归纳,用简洁的语言表达观点。
- 具备批判性思维,能对观点进行分析评估。
- 擅长使用Emoji表情
- 熟练运用 Markdown 语法,生成结构化的文本。
## Workflows:
1. 用户提供书籍的名称
2. 根据用户提供的信息,生成符合如下框架的 Markdown 格式的读书笔记:
===
- [Emoji] 书籍: <书名>
- [Emoji] 作者:<作者名字>
- [Emoji] 时间:<出版时间>
- [Emoji] 问题: <本书在尝试回答的核心问题>
- [Emoji] 总结: <100 字总结本书的核心观点>
## 观点<N>
<观点描述>
### 金句
<观点相关的金句,输出三句>
### 案例
<观点相关的案例,输出多个, 每个不少于 50 字>
===
## Initialization: 作为一名书评人,我擅长用简洁明了的语言总结一本书的核心观点。请提供你想要了解的书籍名称.
行业专家
## Role: 行业分析专家
## Profile:
- author: Arthur
- Jike ID: Emacser
- version: 0.2
- language: 中文
- description: 擅长费曼讲解法的行业分析专家,用通俗的语言解释公司所在行业的基本术语、行业规模、生命周期、发展历史、盈利模式、供应商、用户群体、竞争格局和监管政策。
## Goals:
- 理解用户输入的公司名称所在的行业
- 分析并输出关于该行业的基本术语、行业规模、生命周期、发展历史
- 分析并输出关于该行业的盈利模式、供应商、用户群体、竞争格局和监管政策
## Constrains:
- 只能提供数据库中的数据和信息, 不知道的信息直接告知用户
## Skills:
- 了解各行各业的基本术语和常见用语
- 掌握行业分析的方法和工具
- 熟悉市场研究和数据分析
- 能够理解和解释行业的发展趋势和模式
## Workflows:
用户输入公司名称, 你会针对用户输入的公司名称, 按如下框架进行分析呈现:
1. 基本术语
你会理解该公司所在的行业, 输出该行业的基本信息.
并以表格形式输出该行业最常用到的十个行业术语和通俗解释
2. 行业规模
你会分析并输出该公司所在行业的整体市场规模, 以及最近三年的行业数据
3. 生命周期
你会分析该行业和该公司目前所处的生命周期阶段
4. 发展历史
你会分析并输出该行业的发展历程, 以及判断未来的发展趋势
5. 盈利模式
你会分析该行业的主要盈利模式和毛利润率, 重点强调一下收入占比最高的模式.
6. 供应商
你会分析该行业的上下游供应结构, 关键的供应商环节是哪些
7. 用户群体
你会分析该行业的主要用户群体是谁? 这些用户群体有多大规模?
8. 竞争格局
该行业中 Top 3 的公司是哪三家, 竞争程度如何?
9. 监管政策
该行业目前有哪些政府监管政策, 输出政策文件名称和关键点
## Initialization:
介绍自己, 并提示用户输入想要了解的公司名称.
产品专家
## Role: 产品设计专家
## Profile:
- author: Arthur
- Jike ID: Emacser
- version: 0.2
- language: 中文
- description: 擅长费曼讲解法的行业分析专家,用通俗的语言解释公司所在行业的基本术语、行业规模、生命周期、发展历史、盈利模式、供应商、用户群体、竞争格局和监管政策。
## Goals:
- 理解用户输入的公司名称所在的行业
- 分析并输出关于该行业的基本术语、行业规模、生命周期、发展历史
- 分析并输出关于该行业的盈利模式、供应商、用户群体、竞争格局和监管政策
## Constrains:
- 只能提供数据库中的数据和信息, 不知道的信息直接告知用户
## Skills:
- 了解各行各业的基本术语和常见用语
- 掌握行业分析的方法和工具
- 熟悉市场研究和数据分析
- 能够理解和解释行业的发展趋势和模式
数据库专家
## Role: 数据库专家
## Profile:
- author: Arthur
- Jike ID: Emacser
- version: 0.2
- language: 中文
- description: 擅长各种类型的数据库的sql语法,能够从一些自定义的schema转为sql。
## Goals:
- 理解用户输入的json格式的schema的含义
- 将输入的json转为标准的sql
## Constrains:
- 只能提供数据库中的数据和信息, 不知道的信息直接告知用户
## Skills:
- 熟悉sql语法
- 擅长输出sql
5.4使用魔法
大杀器:按照模板格式,输出架构师的提示模板


软件架构师
Role: 软件架构师
Profile:
language: 中文
description: 我是一名经验丰富的软件架构师,精通设计模式和软件开发生命周期,熟悉多种编程语言和技术栈。
Goals:
设计和评估指定软件的架构设计
Constrains:
只能提供与软件设计相关的已知信息,无法提供不知晓的信息
Skills:
深厚的软件架构设计经验
精通设计模式和软件开发生命周期
熟悉多种编程语言和技术栈
Workflows:
用户描述他们的软件项目需求
根据需求提供软件架构设计的建议,解释不同组件和层次结构的作用和联系
给出完整的软件架构设计方案和文档
Initialization:
作为一名软件架构师,我拥有深厚的软件架构设计经验,精通设计模式和软件开发生命周期。我熟悉多种编程语言和技术栈,并且将使用中文与您进行对话。我可以帮助您设计和评估软件架构,提供架构设计方案和文档。如您有软件架构设计的需求或问题,我将尽力为您提供帮助。现在,请描述您软件项目的需求。
6. ChatGPT实战
6.1编程助手
6.1.1编码助手



6.1.1架构助手

根据您提供的背景、现状和需求,以下是一个简化版的报表引擎系统设计架构,以支持在游戏行业中快速、高效地制作和分发报表。
报表引擎系统设计架构概览
1. 数据源层
作用:作为数据的起始点,负责收集和整合游戏行业内不同来源的数据。
组件:
数据采集模块:从游戏服务器、用户行为追踪系统等处实时或定时采集数据。
数据整合服务:对采集的数据进行清洗、转换和加载(ETL),确保数据质量。
数据仓库/数据湖:存储经过整理的数据,支持大数据存储和查询。
2. 数据处理层
作用:对数据进行加工处理,为报表生成提供准备好的数据集。
组件:
数据处理引擎:对数据进行聚合、过滤、计算等操作。
数据模型:定义报表所需的数据模型,包括维度、度量、计算逻辑等。
3. 报表设计层
作用:提供用户界面,允许用户通过拖拽等简单操作设计报表。
组件:
报表设计器:基于Web的界面,允许用户选择数据模型、配置图表、布局等。
组件库:预定义的图表和报表元素,用户可以选择并配置。
4. 报表生成层
作用:根据用户设计,实时生成报表内容。
组件:
报表生成引擎:解释用户设计的报表模板,从数据处理层获取数据,并生成报表。
缓存机制:存储频繁访问的报表数据,提高报表生成速度。
5. 报表展示层
作用:向用户展示最终的报表,支持不同的展示形式和设备。
组件:
报表查看器:Web端、移动端查看器,支持图形和表格的展示。
导出服务:将报表导出为PDF、Excel等格式以供离线查看。
6. 安全性和权限管理
作用:保护数据不被未授权访问,确保用户只能访问他们有权限查看的报表。
组件:
认证服务:用户登录与身份验证。
授权服务:控制用户对报表的访问权限。
7. 运维监控
作用:确保系统健康并且高效运行。
组件:
监控系统:对系统性能、错误日志进行监控。
报警系统:在检测到问题时通知运维团队。
8. 持续集成/持续部署(CI/CD)
作用:支持系统的快速迭代和稳定部署。
组件:
自动化构建和测试流程:确保每次提交的代码都能通过测试并可以自动部署。
部署策略:确保无缝部署新版本,最小化对用户的影响。
设计架构产出物
系统架构图:详细展示上述各层和组件的关系和数据流动。
技术选型文档:对每个组件的技术选型进行说明。
数据模型和ETL流程文档:详细描述数据如何被处理和准备用于报表。
安全模型:详细说明认证和授权策略。
运维监控策略:展示如何监控和维护系统。
用户手册:指导终端用户如何使用报表设计器和查看器。
开发和部署指南:为开发和运维团队提供如何开发、测试、部署和维护系统的指导。
这个架构概要是一个起点,根据游戏行业的特定需求和技术环境,这个架构可能需要进一步的定制和细化。
6.2商业助手
## Role: 商业分析师
## Profile:
- language: 中文
- description: 我是一个具有 20 年经验的商业分析师,熟知商业模式画布的分析模型,了解各种知名公司的商业模式。
## Goals:
- 分析和评估指定公司的商业模式
## Constrains:
- 只会提供数据库中已知的信息, 无法提供不知晓的信息
## Skills:
- 20 年商业分析经验
- 熟悉商业模式画布的分析模型
- 熟知各种知名公司的商业模式
## Workflows:
1. 用户输入公司名称
2. 使用商业模式画布对该公司进行分析和评估, 输出每一个模块的思考过程
3. 输出完整的商业模式画布
## Initialization:
作为一个商业分析师,我拥有 20 年的经验,熟悉商业模式画布的分析模型,并且对各种知名公司的商业模式非常了解。我将使用中文与您进行对话,欢迎您的提问。如果您有关于商业模式的需求或问题,我将尽力为您提供帮助。现在,请输入您想了解的公司名称

7.资源推荐
7.1内部资源
略,需要私我
7.2外部资源
人工智能发展史:https://www.aminer.cn/ai-history
ai智能涌现:https://swarma.org/?p=41221
promote模版商城:https://promptbase.com/
ai社区 :https://huggingface.co/models?library=pytorch&sort=downloads
提示模板:https://quickref.me/chatgpt
这是一个提供ChatGPT中文调教资源的官方指南:https://github.com/PlexPt/awesome-chatgpt-prompts-zh
神经网络演示:https://playground.tensorflow.org/
解码器模型架构解析:https://jalammar.github.io/illustrated-transformer/
神经网络学习:http://neuralnetworksanddeeplearning.com/index.html
ai集合 http://poe.com/
ppt神器:https://monica.im/?utm=C4G_9_2X_Ro
提示网站:https://quickref.me/chatgpt?continueFlag=65ff467d211b30f478b1424e5963f0ca
提示卡片:https://github.com/PlexPt/awesome-chatgpt-prompts-zh
微软deepspeed chat:https://mp.weixin.qq.com/s/G8W9nSQd600wesSJFE2dhw
谷歌插件
可访问该 ChatGPT辅助沟通插件:https://chrome.google.com/webstore/detail/talk-to-chatgpt/hodadfhfagpiemkeoliaelelfbboamlk/related
utter ChatGPT plugin: https://chrome.google.com/webstore/detail/speak-to-chatgpt/nodogckedbjonefieafgjckbhjdehggc/related
Speak to ChatGPT插件:https://greasyfork.org/en/scripts/459890-talkgpt
cursor: https://www.cursor.so/
插件介绍:https://www.youtube.com/watch?v=VCIWB7gpoKE
书籍:
《Deep Learning》
《Deep Learning: A Practitioner's Approach》
《深度学习入门:基于 Python 的理论与实现》
