Advertisement

什么是机器学习、人工智能、深度学习,三者又是什么关系?

阅读量:

涵盖机器学习、人工智能以及深度学习等术语,是我们日常生活中经常接触到的概念,然而,这些术语也常常让人感到困惑。

人工智能

人工智能技术致力于利用计算机系统构建复杂且具备与人类智慧相仿的本质特性的机器,此类机器能够替代人类进行各项任务,统称为人工智能领域。人工智能领域是一个广泛而庞大的研究领域,随着计算机技术的快速发展,其研究方向不断拓展。通过图示,我们可以清晰地看到人工智能研究的主要方向,包括专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理以及推荐系统等多个领域。

人工智能

机器学习:一种实现人工智能的方法

机器学习的基本做法是通过算法分析数据、从中学习,用于真实世界中的决策和预测。与传统的为解决特定任务而硬编码的软件程序不同,机器学习是通过大量数据进行训练,利用多种算法从数据中学习以完成任务。

深度学习,一种实现机器学习的神经网络方法

在计算机视觉领域中,通过识别一只熊猫的例子,机器学习的方法是让机器识别熊猫的各种特征,如鼻梁、眼睛、嘴巴和毛发等细节,通过这些特征,机器能够判断具备这些特征的物体就是熊猫。

相比之下,深度学习的方法是让计算机处理一张图片,并通过识别其关键特征来判断是否为熊猫。当判断失误时,通过前向传播,卷积神经网络(CNN)能够识别错误并进行调整,这一过程会不断重复直至识别准确。卷积神经网络(CNN)已成为机器学习领域的重要工具,涵盖计算机视觉、自然语言处理、专家系统及推荐系统等多个领域,它们都依赖于CNN的知识。

对图表进行概述,从而很好地解释了三者之间的关系。在计算机算法不断进步的推动下,深度学习在人工智能领域逐渐得到广泛认可。

AI的主要目标是包含一组算法和技术,以实现计算机对那些人类可以轻而易举完成但对机器而言极具挑战性的任务的自动化处理。这类人工智能问题的典型实例是解释和理解图像的内容——这项任务是人类可以毫不费力地完成的任务,但事实证明,机器难以完成。

人工神经网络(ANN)属于机器学习领域中的重要算法类别。该算法通过从数据中学习来提取模式,并特别关注模型识别任务。其设计灵感来源于人类大脑的结构和功能。在人工智能领域,深度学习作为一种关键的技术分支,我们重点研究和应用这一方法。

神经网络和深度学习的简明历史

“深度学习”自20世纪40年代以来就已经存在,并经历了名称的变迁,包括控制论、连接主义和最著名的多层感知机(MLP)。尽管受到人类大脑及其神经元如何相互作用的启发,但人工神经网络(ANN)并非大脑的现实模型。相反,它们是一种灵感,使得我们能够在非常基础的大脑模型与我们如何通过人工神经网络模仿其中一些行为之间进行比较。

该神经网络模型由McCulloch与Pitts于1943年提出。该网络是一种二元分类器,能够根据输入识别两类数据。问题在于,确定输入类别标签所需的权重必须通过人工调整。如果这种情况发生,这类模型显然难以有效扩展。

在20世纪50年代,Rosenblatt(1958年,1962年)首次提出并开发了开创性的感知器算法——该模型能够通过自动调整参数来进行分类任务(无需人工调整)。其一个典型实例可以在图中展示。事实上,这种自监督训练机制构成了其核心理论基础,如今这一方法仍然是训练深度神经网络的核心技术之一。

感知器算法

该感知器网络架构接收多个输入信号,对输入进行加权求和运算,并通过使用阶跃函数来生成最终预测结果。

在该时间段内,感知器技术在神经网络领域大受欢迎。然而,在他们的论文中,Minsky和Papert证明了神经网络研究的停滞长达近十年。他们的研究结果表明,仅使用线性激活函数的感知器本质上仅能进行线性分类,无法解决非线性问题。非线性问题的典型例子,如XOR数据集所示,无法用一条直线将蓝色星星与红色圆圈区分开来。尝试用一条直线来区分蓝色星星和红色圆圈是完全不可能的。

XOR 数据集

此外,作者指出我们缺乏构建大型深度神经网络的计算能力,仅凭这篇论文几乎就限制了整个神经网络研究的发展。

幸运的是,Werbos、Rumelhart和LeCun等人开发了反向传播算法。该算法使得神经网络有可能从看似死亡的状态中恢复。他们的研究在反向传播算法方面取得进展,使得多层前馈神经网络得以训练。

反向传播算法

该前馈神经网络体系结构包含输入层(3个神经元)、两个隐藏层结构(第一层包含2个神经元,第二层包含3个神经元)以及输出层(2个神经元)。

基于非线性激活函数,研究人员能够通过研究非线性函数来解决XOR问题,从而为神经网络的新兴研究领域奠定基础。进一步研究表明,神经网络作为通用逼近器,能够逼近任何连续函数(但不保证网络是否能够真正学习所需参数)。

反向传播算法是现代神经网络体系中的基础性方法,通过该算法,我们能够系统性地训练神经网络,并使其能够从错误中学习。

在特征学习领域,卷积神经网络(LeCun)的典型应用案例是手写字符识别系统。该网络通过逐层堆叠的方式,在图像处理过程中自动识别并提取特征(这些特征被称作“滤波器”)。较低层级的滤波器主要识别图像中的边缘和角点,而较高层级的滤波器则利用这些基本特征来学习和识别更复杂的图像分类特征。

LeCun在贝尔实验室任期内研发了一项能够识别手写数字的系统,并以名字命名该系统为LeNet。即使你未曾听说过LeNet,当年美国大多数银行确实在使用它来识别支票上的手写数字。能够达到这种商用地位的准确性,确实令人印象深刻。那么,LeNet究竟是什么?LeNet是一种典型的卷积神经网络,专门用于识别手写数字。自动识别支票,这是卷积神经网络首次被应用于解决实际问题。最著名的MNIST数据集正是该神经网络的训练数据集。

MNIST

神经网络发展到这里,便成功地打开了深度学习的大门。在最近几年里,随着深度学习的快速发展,在不同领域中的计算机算法,特别是卷积神经网络(CNN)的不断发展,推动了深度学习的迅速发展。

深度学习的主要几个方向

计算机视觉是首个将深度学习投入商业用途的应用领域,简单来说,它就是模仿人眼识别功能的神经网络技术,涵盖人脸识别、人脸检测等核心应用。此外,我们专栏中也对相关技术进行了介绍。

计算机视觉的另一个重要应用是目标检测与目标追踪技术。在观看美国大片时,通过摄像头可以实现目标的识别与持续追踪。尽管这些科幻大片的场景设计富有想象,但目标追踪技术已达到一定高度,我们专栏中介绍了部分相关技术。

计算机视觉的其他领域应用,包括手机行业较为流行的AI图像处理技术,增强现实技术和虚拟现实技术,人体姿态估计技术,人体关键点检测技术,影视内容处理技术等。

在计算机视觉技术不断发展壮大的背景下,计算机视觉不仅仅是一种让计算机识别图像的技术,更注重提升视觉体验。

深度学习的其他方向,自然语言处理

自然语言处理(Natural Language Processing, NLP)是计算机科学与人工智能领域的重要研究领域。该领域致力于研究实现人机有效沟通的各种理论与方法。NLP是一门跨领域学科,融合了语言学、计算机科学与数学等多学科知识。因此,该领域的研究内容涉及自然语言,即人们日常使用的语言,这与语言学研究有着紧密联系,但又具有显著区别。简单来说,自然语言处理就是教机器如何交流的技术,涵盖手机行业中的智能语音助手、智能音箱及智能家居等多个方面。

深度学习的其他方向,推荐系统

推荐系统在我们日常生活中广泛接触到,特别是在使用今日头条、抖音等短视频平台以及电商平台时,用户的点赞行为、阅读记录以及商品的购买数据等,都成为推荐系统学习的重要依据,从而更精准地为我们推荐符合个人兴趣的视频和文章。

同时,深度学习在多个领域展现出广泛的应用,后续我们会逐步介绍这些应用,并具体阐述其中的核心概念。

主要包括:

1、计算机视觉:涉及的人脸检测与识别技术、人体姿态检测与识别技术,还包括手势识别技术、对象检测技术以及对象识别技术等。

2、NLP自然语言处理:NLP的核心内容涵盖基础概念、transformer架构及其在NLP领域中的视觉 Transformer(VIT)和时序 Transformer(SWIN)等模型。

3、数据库与数据可视化

该系统主要涉及的框架与算法包括tensorflow、pytorch、opencv、transformer、VIT、SWIN、mysql数据库以及manim可视化等。

VX搜索小程序:AI人工智能工具,体验不一样的AI工具

全部评论 (0)

还没有任何评论哟~