Advertisement

关于深度学习人工智能模型的探讨(八)(1)

阅读量:

第八章 深度学习模型

8.1 深度学习AI

2012年6月,《纽约时报》报道了Google X实验室开发的"谷歌大脑"项目。研究团队随机选取了数量达千万级的静止图像样本,并将这些图像输入到由全球多达十亿个连接、配备着一百六十万处理器系统的谷歌大脑中。这台人工神经网络系统如同一个正在学习成长的人工神经元网络系统,在不依赖预先设定标签的情况下能够自适应地利用数据资源和计算能力。即使在训练数据中没有提供诸如猫的名字、分类标签或特征等额外信息,在三天时间里它却能通过完全无监督的学习模式准确识别出数百个不同种类的真实世界物体

项目负责人之一Andrew表示:“我们没有按照常规方法设定边界线,而是将海量数据投入算法系统中,赋予数据自主权,让其成为驱动系统进步的核心动力.该系统能够通过数据分析实现自我进化.”另一位负责人Jeff补充道:

在我们的训练过程中,我们从不指示机器去认识到:「这是一个猫」。
系统实际上通过自主学习或认知理解得出了「猫」这一概念。

谷歌大脑是一个具有里程碑意义的重要里程碑,在人工智能领域具有举足轻重的地位。其关键支撑技术被称为‘深度学习’(Deep learning),这一概念源自于大脑中紧密相连的神经元网络。通过调节模拟神经元之间的连接强度来模仿人脑的学习机制。

深度学习技术的核心要素在于对特征属性实施多级划分,并将各层次的特征基进行整合。

我们之前讨论过亚马逊生态系统中的类似问题

所以,在确定恰当层级的特征粒度方面是第一步。那么什么是'恰当层级的特征粒度'呢?如何确定'恰当层级'的选择呢? 这实际上是一个非常有挑战性的任务,然而深度学习采取了不同的策略:它不仅选择单一层次的特征属性,而是综合运用多个层次的信息特性。

首先,是找到相对底层特征结构;

通过将下层特征求解器构建为上级层面的基础模块,在此基础上逐步发展出多层次架构,并完成各层级参数设置。

最后,把各个层次的特征基融为一体(特征属性复合乘积)。

在这里插入图片描述

1995年, Bruno Olshausen与David Field两位学者共同运用生理学与计算机技术,对视觉问题展开了双重研究。他们通过采集大量黑白风景照片,从中分割出400个独立的小图像片段,每个图像片段均为16×16像素大小,并将其标记为S[i],其中i=0,…,399。随后,从同一组照片中随机选取另一个小图像片段,标记为T。他们的研究目标是:如何从这400个图像片段中选取一组基态图像S[k],并通过叠加的方式合成一个新的图像片段,使得合成后的结果尽可能与目标片段T相似;同时希望所选用的基态图像数量最少。基于此,他们提出了以下数学描述:在满足上述条件下,最小化基态图像的数量k。

Sum_k (a[k] * S[k]) --> T, 其中 a[k] 是在叠加特征基碎片 S[k] 时的权重系数。

为解决这一问题,Bruno Olshausen和 David Field 开发出了一种算法,稀疏编码(Sparse Coding)是一种重要的技术手段。该技术遵循一种循环迭代的方法,其基本流程分为两个阶段:

1)选择一组基 S[k],然后调整 a[k],使得Sum_k (a[k] * S[k]) 最接近 T。

固定 a[k] 的值,在从 400 块碎片中选择更为合适的 S'[k] 替代原有的基 S[k] ,使得 ∑_k (a_k × S'_k) 尽可能接近 T。

在经过多次迭代的过程中,
最佳的特征基S[k]集合得以筛选出来。
这一现象令人感到意外。
绝大多数被选中的特征基S[k]都来自不同物体的边缘线,
这些线段在形状上非常相似,
在方向上有细微差别。
研究结论表明,
在多次实验中观察到的现象
与David Hubel及其合作伙伴
在实际观察中发现的现象高度一致!

这表明,在信息处理领域中存在这样的情况:即复杂的系统往往能够被分解为若干个基础单元的集合。如上所示:一个图可以通过将64种正交的edges(边缘线)进行线性组合来表示。例如,在样例中,x可由1至64号edges中的三个分别以0.8、0.3和0.5的权重进行叠加得到。而其余的基本edge未施加任何影响因而其值均为零。

这些简单的几何形状通过基本edge构成。经过系统组织的图形具有层次化的细节特征,在抽象层次上展现出更高的概念性特征。其表示方式又如何体现呢?

这要求我们采用更高层次的特征表示方法,在这一过程中会逐渐深入地从具体实例上升到抽象概念,并在此基础上不断推进更高级别的思维活动。例如,在第二和第四层空间中分别应用这些高阶表示方法。其中,在第一级空间(记为 V₁)中使用的基础单元是一个边缘区域;而在第二级空间(记为 V₂)中使用的单元则是第一级空间单元的一个复合形式——也就是将多个 V₁ 空间中的基本元素结合在一起形成的新结构。这一层级之间的关系可以用一句话来概括:“每一级的空间都是基于前一级的空间构建而来”。这种层层递进的方式其实就是我们在学习过程中熟悉的一种归纳总结方法——由具体到抽象、再逐步深入地从具体实例上升到抽象概念,并在此基础上不断推进更高级别的思维活动

在这里插入图片描述

1981年诺贝尔医学奖授予了两位生理学家:大卫·赫布和托恩斯特·维泽尔。他们的研究集中在后脑皮层的不同视觉神经元与瞳孔区域的关系上。他们在一个猫的后脑部切了一个3毫米大小的孔洞,并将电极插入到这个孔中以测量神经活动。随后,在小猫眼前展示各种形状、亮度不同的物体,并通过改变物体的位置和角度来模拟不同的视觉刺激。他们的目标是检验一种假设:位于后脑皮层的不同视觉神经元会对特定类型的刺激做出响应。经过长时间反复实验以及对多只小猫的研究后发现了一种特殊的神经元类型——方向选择细胞(也被称为方向选择性细胞)。这种细胞会在瞳孔检测到边缘并指向特定方向时变得活跃起来。这一发现不仅深化了人们对神经系统运作的理解,还揭示了一个重要的认知机制:人类大脑处理信息的过程可能是一个不断迭代、不断抽象的过程。其中两个核心概念是低级抽象与高级抽象之间的关系链——从原始信号开始(如瞳孔接收图像信息),经过初步处理(如大脑皮层某些细胞识别边缘与方向),然后逐步形成更高层次的概念(如感知物体形状),最终完成复杂认知任务。

从信息处理的角度来看,人的视觉系统的工作机制呈现分级特性。首先在V1区捕捉边缘信息,随后在V2区识别更为复杂的子形状特征或目标的具体局部特征。然后向更高层次发展,涵盖整个目标及其行为。这表明高层级特征是由低层次特征组合而成,在这一过程中随着层次从低层到高层推进其表达逐渐深化和抽象化。例如这种多对一的关系网络与上一节所介绍的内容具有相似性。

在这里插入图片描述

认知过程是一种通过不断尝试与反馈来自我优化的过程,“谷歌大脑”这一深度学习模型则通过逐步对原始图像进行多层次的逻辑分解获得了其多层次的分析表达。随后利用边缘检测器和小波滤波器等工具,在最底层的空间中构建反馈表达。接着将低层特征逐层结合以构建出更高层次、更具抽象性的表示属性。最终实现了对“猫”这一概念的理解。

http://open.163.com/movie/2015/3/Q/R/MAKN9A24M_MAKN9QAQR.html

2015年2月,微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)开发的计算机视觉系统,在ImageNet 1000分类挑战中首次实现了超越人类的物体识别与分类能力。该数据集包含约120万张训练图片、5万张验证图片及10万张测试图片,并划分为1000个不同的类别。在ImageNet 2012分类数据集上测试时发现,“深度学习系统”的分类错误率降至4.94%,这一表现优于人眼辨识系统的5.1%的误差率(注:此处应为“约为5.1%”)。这表明人工智能图像识别已经达到甚至超过了人类水平

在《Nature》杂志于2017年发表的一篇研究文章中,研究团队详细阐述了一个人工智能系统。该系统基于包含1,232种不同疾病、共计129,450张临床图像的数据集进行了训练,并对其诊断性能与其在皮肤癌分类任务中的表现进行了比较/评估。研究表明,在对皮肤癌这一特定任务的分类测试中,深度学习AI系统的诊断能力与经过严格认证的专业皮肤科医生表现相当。

2018年, 谷歌于研发一种基于深度学习的医疗影像分析系统, 该系统在前列腺癌诊断中的分类准确率达到70%. 经美国病理学家协会认证的标准下的一般 pathlibologist 在相关研究中的平均分类准确性约为61%. 基于深度学习的人工智能在相关诊断研究中的分类准确性超过经美国病理学家协会认证的标准下的一般 pathologicalist.

可以说这只是个起点。然而,在不久之后‘深度学习’神经网络将具备对各种变形后的二维图像都能准确识别的能力,并进一步发展出能够识别三维物体的能力以及追踪移动中的物体能力。这些模型已经开始理解其中的情节发展,并且在不断进化中逐渐把握故事情节的发展脉络。

平面猫 --> 立体猫 --> 动态猫

类似的,很快会识别行走的人。

平面人脸 --> 立体个人 --> 行走中的人

在这里插入图片描述

并且,‘深度学习’机器人很快会听懂人类讲话。

综上所述,在引入多层次的特征构建模块后会发现这些系统的训练目标是识别猫的图像。换言之,在其他领域是否也能采取类似策略呢?

研究人员发现不仅图像还具有多层级特征属性,声音同样也具有这一特性.从未标注的声音样本中识别出20种基本的声音单元,剩余的声音则可以通过这些20种基础单元进行组合构造.这些基础单元还可以逐层构建多层次的特征体系,例如音节、单词、短语、句子等层次.

在这里插入图片描述

而且,在写作上也同样遵循多层次结构布局。当我们描述一件事物、撰写一篇文章或阐述观点时,
我们通过阅读文章时所见到的是文字信息,
这些文字信息会被大脑中的词汇系统接收并被分解成一个个字符(词语)、一句话段(核心观点)等层次表达,
并按照概念构建层次化的逻辑结构,
进而进行高层次的抽象处理,
最终得出核心观点。

2009年份度

2012年11月,在中国天津的一次活动展示了一个完全自动化的同声传译系统。
由英文演讲者的讲演引发这一过程:
后端计算机实现了无缝衔接的语音识别、英中双语实时翻译以及自然流畅的中文语音合成功能,
并呈现出高度连贯的效果。
该系统的开发主要依赖于深度学习技术的应用。

在2012年的时候,谷歌在其安卓系统的智能手机操作系统中引入了一种基于深度学习的语音识别技术,这导致其文字识别错误率降低了约25%。“人们原本就期望能够在十年后实现这一程度的下降。”

2017年,在特定的网络环境下,微软与IBM开发出了基于'人类奇偶校验'(human-parity)的人工智能语音识别系统,并在接近效果上取得了显著进展。

在2018年的新闻报道中将中文翻译成英文时,微软机器翻译系统在处理新闻报道时达到了高人性能和高精度。

在2018年 neural information processing systems(NIPS)会议上, 阿里巴巴在其物流平台菜鸟上线了一个智能化的人工智能客服系统. 模拟电话对话中, 智能客服助手向客户查询包裹的具体配送位置. 在整个交互过程中, 助手成功识别关键对话要素, 充分展现了其自然语言处理能力. 在30秒内, 客服人员应对和分类三种常见的棘手情况: 中断; 非线性对话; 隐含意图查询. 目前, 该系统能够有效地协调包裹配送相关的客户服务流程. 这个系统每天都能为数百万用户提供服务.

在这里插入图片描述

SQuAD由斯坦福大学于2016年推出作为一项重要的数据集,在深度文章阅读理解领域具有重要地位。该集合旨在为研究人员提供高质量的文章样本,并附有相关的问题及答案选项。其中包含共收录了536篇文章,并附有配套的107,785个问题以便评估阅读理解能力。值得注意的是,SQuAD被视为机器阅读领域中最高级别的测试标准之一,在这一领域内享有盛誉。
在2018年机器阅读理解顶级水平测试SQuAD 1.1中,Google AI团队开发的BERT模型表现尤为出色,在两项核心混合模型衡量指标上实现了远超人类水平的表现。
此外,BERT还在多个单模态NLP测试环节中展现出色,在所有单一模型NLP测试环节中均获得了高度评价。
值得指出的是,2018年标志着NLP研究进入了一个全新的时代

在这里插入图片描述

深度学习领域带来的这些突破性进展致力于使电脑具备类似人类的思维能力,在海量的数据与强大的计算能力的支持下,计算机得以解答那些即便直觉也能轻松应对的问题——从识别面部表情到解析语言。

既然广泛涵盖的多个领域都具备多层次的特征属性,则显而易见地可知深度学习借助于模仿人类大脑的工作机制来进行数据分析,在未来很快能够依照大脑运作模式解析图像数据、语音数据以及文本数据等信息。

这预示着不久之后,在市井巷陌间广泛部署的摄像设备不仅能够迅速识别出通缉犯这一重要目标,并且机器通过持续观察普通人群间的对话也能敏锐地察觉到潜在的威胁。

在这里插入图片描述

首先,在游戏界面图像捕捉阶段完成了初始设置。经过初步分析后,该系统确定了下一步行动的具体策略。随后执行动作并获得奖励反馈。在多次尝试中逐步优化策略以提高得分效率。机器学习算法通过分析历史数据模式来优化决策过程,在当前状态下选择最佳行动方案。对于目标分类任务来说, 学习算法需要识别并提取关键特征, 然后生成能够准确分类对象的数学模型.这个训练过程中, 系统不断调整模型参数, 以最小化分类错误率.经过这一系列训练后, 新建模型能够对未知目标进行精确分类.当输入新物体时, 系统将输入数据传递到神经网络中进行处理.整个学习过程主要通过计算期望值来进行优化调整.具体来说, 在设定好网络架构之后, 唯一需要调整的就是各层之间的权重系数.通过梯度下降方法和激励机制相结合的方式, 系统能够逐步优化这些参数.最终的目标是找到最优解以获得最佳反馈结果.目前该系统已经成功实现了这一目标, 并且在持续进化中逐渐超过了人类的表现水平.

2013年11月,《Playing Atari with Deep Reinforcement Learning》一文由DeepMind公司的早期员工发布于arXiv网站上。两个月后谷歌斥资500万欧元购得该人工智能初创公司仅因这篇文章。原始论文中介绍了一个单一网络系统能够通过自身学习完成一些经典电子游戏任务。该系统仅根据屏幕显示的画面以及游戏得分变化来做出选择性动作,在开始训练时对游戏目标完全陌生既不了解如何生存也无法判断谁该杀死或如何走出迷宫更不知这些动作会对游戏产生何种影响此外也不清楚游戏中会有何目标物品通过反复尝试与失败系统逐渐掌握了若干游戏并比部分人类玩家表现更为出色值得注意的是该系统并未针对不同游戏采取特殊处理程序人员并未告诉系统哪些方向如上下左右或开火等在围棋等复杂游戏中实验结果表明该系统能够掌握一些游戏并优于部分人类玩家其学习速度令人惊叹

该深度学习系统的学习能力显著超越了先前的系统。此外,在无需程序员提供任何指导的情况下,其应对问题能力更为突出。

在这里插入图片描述

2016年3月,由DeepMind公司研发的AlphaGo系统以4:1战胜围棋界最顶尖的棋手李世石。同年3月,在经历了性能提升后推出的新版本AlphaGo Master(代号:MMP-7),首次与围棋顶级选手柯洁对弈并取得全胜战绩。随后于2017年10月,“零号程序”的诞生标志着AlphaZero系统的问世,在首次试运行中以完胜前作的成绩展现了卓越的实力。

2017年1月,在美国卡内基·梅隆大学研发出了先进的人类级AI Libratus后,在匹兹堡举行了首次线上平台发布仪式,并立即展开了与世界顶尖人类德州扑克选手的比赛。最终 Libratus 以显著的成绩完成了这场对抗挑战。
与此同时,在同一时期来自加拿大阿尔伯塔大学的研究团队开发出了DeepStack系统,在"一对一无限注德州扑克"领域实现了对职业玩家的突破。该系统成功地成为了全球首个在线解决完美信息两人零和游戏问题的人工智能程序。

2017年时,Maluuba团队作为微软旗下的人工智能研究机构成立,并专注于开发能够使该系统能够在Atari 2600游戏中取得最高分999,900的游戏AI技术

2018年时,在Quake III Arena Capture the Flag这一款广为人知的三维多人游戏中(注:Quake III Arena Capture the Flag是一种流行的游戏),DeepMind 代理表现达到了人类水平。其中展现出与人类相似的技能包括路径规划、追踪以及防御策略等。经过专门训练的角色不仅在胜利比例上超越了现有顶尖系统,并且成功击败了几款现有的最先进程序。

2018年, OpenAI的五个由神经网络组成的团队打败了专业人偶队.Dota 2. OpenAI Five则通过自我对弈练习。

2018年底,由DeepMind研发的卷积神经网络模型AlphaStar在《星际争霸2》人机对抗赛中以十战一胜的成绩击败了职业选手

自问:自学玩游戏是否算作自动化控制的一个巨大飞跃?如果是的话,则不久之后具备深度学习技术的机器人不仅能够借助摄像头识别通缉犯,并且还能通过监控对话内容识别出潜在的威胁者。

吓人咯,龟儿子,这听起来真像科幻。

在这里插入图片描述

当下基于同一深度学习AI系统的通用模型已达到超越人类水平的图像识别能力,并具备超越人类自然语言理解能力的能力。
在围棋及所有棋类领域已超过人类水平,在绝大多数竞技游戏中也超过了人类水平。
该系统实现了包括机器翻译在内的多项技术能力:即实现了更优的文本与语音转换服务;实现了更为精准的广告定向投放;提升了网络搜索结果的质量;达到了接近现代人平均水平以上的语音识别效果。
此外该系统还具备固定场景并以人机共同语言进行交流的能力,并具备数字智能助理的基本功能。

在这里插入图片描述

当然,在深度学习技术取得显著成就的同时,它仍正处起步阶段。其代表了未来发展方向。我们正处于探索的初期阶段。

既是科学预测也被认为是可能发生的危机。在它尚未成熟之前或许有必要更加深入细致地研究其运行机制。如果仅仅了解其功能却不了解其中的道理盲目效仿模仿现有技术可能会导致它了解我们的需求但我们却对它的运作原理一无所知最终可能导致开发出的机器突然对我们发动攻击那时我们还一脸困惑不知所措。所有恩怨情仇都可以归结于因果关系的人工智能若要与人和谐共处就必须遵循它的基本规律。

深度学习技术在最近两年已掀起一阵技术革命的趋势,在人工智能领域已掀起一阵技术革命的趋势。
如今在人工智能领域已掀起一阵技术革命的趋势。
这并非单纯的偶然现象。
然而,在大多数情况下,
尽管人们普遍认为其背后支撑着一套成熟的理论体系,
许多人都被其表象所迷惑,
鲜少有人深入探究其根基所在。

全部评论 (0)

还没有任何评论哟~