Advertisement

人工智能行业前景如何?人工智能未来发展方向

阅读量:

人工智能(AI)及其相关技术广泛应用于各个行业及大量系统软件中,在2020年之前的人工智能将在我们的日常生活中占据重要地位;根据Gartner的数据,在2020年时,人工智能将占首席信息官五大投资领域的至少30%。

如今全球众多软件供应商争相投入这一新兴领域;然而事实表明, 利益相关的企业为了获取有利的发展前景而纷纷涌入人工智能领域;然而实际调查发现, 大多数组织甚至连基础的人工智能应用都难以胜任

Tips1:Gartner Group即高德纳,又译顾能公司,公司成立于1979年,它是第一家信息技术研究和分析的公司。Gartner已经成为了一家独立的咨询公司,Gartner公司的服务主要是迎合中型公司的需要,它希望使自己的业务覆盖到IT行业的所有领域,从而让自己成为每一位用户的一站式信息技术服务公司。Gartner评测拥有全球最大的业界基准数据库,Gartner的客户以匿名方式在数据库中占有一席之地,以便从基准测试能力中获得利益,这些能力比如有评测一家企业相对其垂直领域内的同等公司的能力以及评测相对于该数据库中的任何一家公司或所有公司的能力。

根据多种针对人工智能及其行业影响的调查发现,在这些研究中都指出软件供应商应当首先深入关注并充分了解客户的业务需求以及人工智能可能带来的潜在商业利益,并避免盲目地追求暴利的现象这一做法被广泛指为'AI Washing'

Tips2:AI洗白:它是某些企业为了提升品牌形象、满足消费者需求而采取的一种商业策略行为。Gartner发布了一份《新兴技术炒作周期图》,指出一些软件公司借由人工智能这一热门趋势,在其产品中过度宣传其智能化能力,并不加甄别地使用"人工智能"一词进行自我包装。“机器学习"、"认知专家顾问"、"软件定义安全"、"自动驾驶汽车"、"区域块链"等概念正处于炒作高潮阶段。Gartner将这种现象定义为'AI洗白'(AI washing)。

当前所存在的"支持技术解决方案能力"方面的信任缺口问题将在未来十年内逐渐消除;在接下来的十年里,我们将经历从局部不安与怀疑论向全面依赖于AI及其他先进技术彻底转变的过程。就目前情况来看,大多数人工智能应用都是直接面向普通消费者的,这一趋势反映了消费者逐步克服技术和应用之间的信任障碍的能力提升。与此同时,在数据科学领域提供的技术支持正在逐步丰富他们的日常业务所需,从而为新的技术秩序的发展奠定了基础

尽管云等技术带来了业务流程的敏捷性提升,但人工智能与机器学习具备潜力去影响企业的业务成果

按照Gartner的说法:

人工智能和机器学习已经进入了一个关键阶段,并在每个领域都得到了显著扩展。

人工智能的未来:

在后工业化时代, 人们一直致力于研发具备人类行为能力的机器。智能设备是人工智能给人类的最大贡献;这台自动化设备的巨大投资使商业运行规则发生显著变化。近年来, 自动驾驶汽车、数字化助手、工业机器人以及智能城市等技术验证了智能机器的实际可行性。如今, 人工智能已在零售业、制造业、金融行业、医疗保健领域以及媒体等领域实现了全面应用, 并不断向新兴领域渗透

机器学习的未来:

该领域目前正进行一系列预测,在分析当前的趋势发展状况的基础上(即基于系统化的路径逐步走向成熟的过程),提出了相应的观点。

· 机器学习将是所有人工智能系统的组成部分,无论大小。

由于机器学习在业务应用中日益关键性,并且很可能将其作为云服务的形式提供出来,并被命名为机器学习即服务(MLaaS)。

该系统被机器学习算法所利用,在互联网上不断涌现的新信息环境下持续地进行学习

预计硬件供应商之间的竞争将会变得激烈,并迫在眉睫地需要提升中央处理器性能来应对日益增长的机器学习工作负载。具体而言,在这一过程中,硬件制造商可能会被迫对现有设备进行重大技术改造以便公平地发挥人工智能技术的作用。

· 机器学习将帮助机器更好地理解数据的上下文和含义。

由IBM大数据中心发布的文章:机器学习技术未来五年的关键预测阐述了相关趋势的描述地址:

_https://www.ibmbigdatahub.com/blog/5-predictions-future-machine-learning_

关于机器学习的一些预测:

一个经验丰富的人讲述了他对于机器学习领域的深刻见解,并认为这些趋势当前最为关键的领域之一

多种先进技术的应用使得机器学习在多个领域展现出显著优势:物联网技术的广泛应用为提升机器学习效果提供了多样化的支持。当前阶段,采用多策略结合以优化性能;展望未来,在应用更多先进技术的基础上推动'协作式的学习机制'成为可能。

个性化的计算平台:技术人员可接入功能模块并构建相应的自动化解决方案。一定程度上此类工作相当于等同于自动化编程方案的实现。借助这些功能模块技术人员能够便捷地集成面部识别、语音识别以及视觉数据分析等技术至其系统架构中。

量子技术的应用将能够带来显著提升,在高维矢量空间中进行处理时的运行效率。这一发现预示着,在未来的研究中它将成为一个重要的里程碑。

· 未来“无监督机器学习算法”的发展将带来更高的业务成果。

调优推荐引擎:未来推荐引擎将通过机器学习技术提供更加精准的服务体验。例如,在未来的应用中,推荐引擎能够更加深入地了解并满足用户的具体需求。

《《Machine Learning and Artificial Intelligence Trends in 2018》提供了一个全面介绍的关键技术趋势的详细综述》中对技术趋势进行了深入阐述

先进的人工智能和机器学习是否会影响网络安全?

鉴于当前人工智能与机器学习领域的研究动态网络安全的发展正推动着机器学习算法进入一个新的应用场景预示着未来以安全为核心的人工智能及机器学习应用将以其及时性与准确性作为主要特征这一不断增长的趋势可能促使数据科学家与网络安全专家朝着实现共同软件开发目标的方向迈进

受益人群:核心行业的人工智能和机器学习

AI-based dishwashers are making an~unmistakable impact in the global commercial landscape, while artificial intelligence and machine learning are set to usher in transformative changes across the application development market. These technologies, akin to the discovery of electricity during the Industrial Revolution, hold immense significance. Just as electric power marked a turning point in the history of information technology, these cutting-edge innovations are poised to create a new era for IT history.

当下人工智能与机器学习所推动的系统正在深刻改变各个行业的工作模式。这些创新性技术正逐步实现行业间的革新,在这里我们可以一一举例说明:

在医疗保健

逐步而言之,在未来社会中人类职业者与人工智能系统将会展开协作工作从而带来更优的结果。先进的机器系统能够实现精准快速的病历分析并且让医疗从业人员能够更加关注病人的具体情况

AI配图魔改

在财务

在文章《人工智能和机器学习是未来新的技术趋势》中探讨了区块链等最新技术对印度资本市场的影响力。例如,资本市场运营商可以采用区块链来预测市场走势并识别欺诈行为。人工智能技术不仅为金融市场中的新商业模式提供了机遇,并且强化了人工智能技术专家在商业投资生态系统中的地位。

在房地产

Contactually.com 是一个面向房地产企业开发的先进CRM系统。该系统旨在连接华盛顿特区的投资人与创业公司。其中一项关键功能是利用机器学习算法将固定模式转换为动态互动平台。该平台能够接收并处理用户反馈信息,并根据这些数据生成审核请求;同时它还能提供与之相关的行业建议。

在数据库管理

普通DBA系统中的冗余任务赋予了人工智能技术实施自动化流程和任务的途径。配备先进的工具后,今天的DBA得以为企业创造显著价值,并非仅限于处理日常琐碎的任务。除了日常琐碎的任务外。

在个人设备市场中

一些商业分析师指出AI是个人设备市场的主导者。到2020年约有三分之二的技术供应商将依赖支持人工智能的云平台来提供增强功能与个性化服务。人工智能技术将带来一种情感化体验

人工智能的现状及今后发展趋势展望

1引言

人工智能(ArtificialIntelligence),缩写为AI或机器智能。“人工智能”这一术语最初是在1956年Dartmouth学会上提出的。它是一门综合性的学科,在计算机科学、控制论、信息论、神经生理学、心理学和语言学等多个领域都有所涉及。从计算机应用系统角度来看,在研究如何制造出具备智能的机器或系统的同时,并致力于模拟人类智能活动的能力,并以此来延伸人类智慧的科学

2目前人工智能技术的研究和发展状况

当前,在美国、欧洲和日本等地区中,人工智能技术持续迅速发展。在AI技术领域高度活跃的IBM公司已经生产出为加州劳伦斯·利佛摩尔国家实验室定制的ASCIWhite电脑,并声称拥有相当于人类大脑数千分之一的智力水平。与此同时,该公司正致力于开发更为强大的新超级电脑——‘蓝色牛仔’(Blue Jean),据称其研究主任保罗·霍恩表示该设备将具备与人脑相当的智力水平。

3技术应用

伴随着人工智能技术的进步,在各个领域的核心技术发展都紧密关联着人工智能技术的应用。可以说人工智能技术已深入渗透至多个行业,并在其应用中展现出显著的优势与潜力

3.1符号计算

科学计算是计算机最重要的应用场景之一,在这一领域又可分为两大类:一种类型处理的是纯数值运算(例如求函数值),而另一种则是代数运算(也被称为符号处理)。这种智能化的运算方式能够操作各种类型的符号变量。这些变量不仅可以表示基本的数据类型(如整型数值、有理分数、实数值及复数值),还可以代表多项式、函数或集合等复杂的对象。随着电子技术的发展以及人工智能的进步,在众多软件中逐渐涌现出了功能全面且高效的代数系统软件。其中Mathematica 和 Maple 被认为是行业内的主流工具。基于C 语言开发的这些软件几乎可以在所有支持相应平台的操作系统上运行。

3.2模式识别

模式识别即为利用计算机数学技术手段实现对模式的自动分析与判别过程。在这一过程中,我们将研究对象以及辅助工具统称为"目标模式"。论文参考网提供专业的学术资源服务。基于计算机视觉原理,实现对图像数据(包括文字图像、声音图像等)进行自动特征提取与分类判断,这一技术体系为智能机器开发提供了关键突破,也为人类理解自身智能特征提供了重要参考依据。该技术体系具备快速响应、精确度高及高效运算等特点,其工作原理与人类的学习认知过程具有相似性。以语音输入为例:语音输入系统的核心功能即在于模拟人类听觉系统对语言信息的理解与转化能力,其典型应用案例包括多语种实时对话系统。该类系统的成功部署使得人们可以通过电话网络及互联网便捷地进行跨文化交流,无需再受语言障碍限制

3.3机器翻译

机器 translation 是一种基于 computer 技术实现的语言转换工具,其基本功能是将一种语言转变为另一种语言以便于信息交流与理解。在汉语环境中广泛使用的 machine translation software 已经超过百种,它们主要按照不同的功能特点可分为三类:辞典型 machine translation software、全文转写型 machine translation software 和专业领域 type machine translation software.其中,辞典型 machine translation software 的代表产品是中国金山 firm 的"金山词霸",它以其快速、准确、全面等特点成为 most popular multilingual dictionary software.该产品不仅提供标准释义,还附加有音标信息,极大地方便了 users to understand and use words and phrases.而全文转写型 machine translation software 的典型代表是中国东方 red旗 firm 的"东方 red旗 2000",它首次提出智能 red旗 技术框架,显著提升了 machine translation 软eware的功能性和实用性。

3.4机器学习

从智能发展的角度来看,在人工智能领域中占据重要地位的机器学习既是衡量一个系统是否具备智能的重要指标之一,在推动机器获取知识的关键途径上也发挥着不可替代的作用。有人持该观点认为:若一个计算机系统无法实现自主学习能力,则无法称其为真正的智能系统;而机器学习的主要任务则是研究如何使计算机能够模拟或实现人类的学习机制;它不仅是一个难度极大的研究领域,在认知科学、神经心理学等学科之间还保持着密切的关联性;同时在人工智能的其他分支领域——如专家系统、自然语言理解、自动推理等均发挥着重要的推动作用

3.5问题求解

人工智能领域的第一个里程碑是开发出能够进行象棋对弈的程序,在这一技术应用中所使用的各项方法如今已被现代计算机可轻松应对,并已达到了包括多种规则下的国际象棋比赛水平然而,在AI领域仍存在无法被明确描述但人类具备的相关能力这些大师们具有深邃的分析能力另一个关键问题是关于如何表示问题本身的选择人们通常能找到一种有效的方法来思考特定的问题从而简化求解过程目前的人工智能系统已经能够识别并处理其需要解决的问题类型即通过搜索解答空间以寻找最优解决方案

3.6逻辑推理与定理证明

逻辑推理作为人工智能研究的核心领域之一,在这一领域中持续深入研究。其中特别重要的环节在于开发一套系统,在构建一个大型数据库的过程中集中于处理具体数据并发现可靠的证据;当新的信息出现时及时更新这些证据以保证系统的准确性与有效性。医疗诊断系统与信息检索系统均可以通过定理证明的形式进行建模;由此可见,在人工智能方法的研究过程中,定理证明占据着至关重要的地位

3.7自然语言处理

自然语言的处理是人工智能技术在现实应用中的一个典型代表。经过长期的努力探索,该领域已在多个方面取得了显著成就。当前主要研究方向集中在:计算机系统如何基于主题与对话情境进行操作,并着重利用广泛的世界知识与预期作用来生成与理解自然语言。这涉及极为复杂的编码与解码机制。

3.8分布式人工智能

分布式人工智能于20世纪70年代后期诞生,并被视为人工智能研究的重要领域。分布式人工智能系统主要由多个智能体构成,在这些智能体之间以及智能体与环境之间展开交互行为,并通过协作实现问题解决目标。

3.9计算机视觉

计算机视觉作为一门新兴学科,在模仿人类视觉功能方面主要依赖于计算机技术的应用。它不仅关注如何利用二维图像来理解三维环境中的物体特征,并且强调通过这一过程实现物体形状、位置、姿态以及运动状态等几何信息的理解与分析。该方法不仅能够感知这些几何信息本身,并且还能够对其描述、存储、识别以及深入理解等方面进行处理。

当前,在计算机视觉领域已广泛应用于多个重要领域。具体来说,在图像与图形识别方面的应用包括生物特征识别(如指纹识别)、细胞学特征分析(如染色体识字符分析)等技术;而在航天与军事领域,则涉及遥感影像解析(satellite image processing)、飞行器跟踪定位(aircraft tracking)、精确成像制导(exact imaging guidance)、景物辨识(scene recognition)以及目标检测(target detection)等多种技术;此外,在医疗健康领域的主要应用包括器官重建(organ reconstruction)与医学影像分析(medical image analysis);而在工业生产中,则主要依赖于多种类型的监测系统以及生产过程实时监控技术来实现高质量管理。

3.10智能信息检索技术 信息获取和精化技术已成为当代计算机科学与技术研究中迫切需要研究的课题,将人工智能技术应用于这一领域的研究是人工智能走向广泛实际应用的契机与突破口。 3.11专家系统 专家系统是目前人工智能中最活跃、最有成效的一个研究领域,它是一种具有特定领域内大量知识与经验的程序系统。近年来,在“专家系统”或“知识工程”的研究中已出现了成功和有效应用人工智能技术的趋势。人类专家由于具有丰富的知识,所以才能达到优异的解决问题的能力。那么计算机程序如果能体现和应用这些知识,也应该能解决人类专家所解决的问题,而且能帮助人类专家发现推理过程中出现的差错,现在这一点已被证实。如在矿物勘测、化学分析、规划和医学诊断方面,专家系统已经达到了人类专家的水平。 4 目前人工智能发展中所面临的难题 人工智能(A I) 学科自1956 年诞生至今已走过50 多个年头, 就研究解释和模拟人类智能、智能行为及其规律这一总目标来说, 已经迈出了可喜的一步, 某些领域已取得了相当的进展。但从整个发展的过程来看, 人工智能发展曲折, 而且还面临不少难题,主要有以下几个方面: 4.1 计算机博弈的困难 博弈是自然界的一种普遍现象。它表现在对自然界事物的对策或智力竞争上。博弈不仅存在于下棋之中, 而且存在于政治、经济; 军事和生物的斗智和竞争之中。尽管西洋跳棋和国际象棋的计算机程序已经达到了相当高的水平, 然而计算机博弈依然面临着巨大的困难。这主要表现在以下两个方面的问题。其一是组合爆炸问题, 状态空间法是人工智能中基本形式化方法。若用博弈树来表示状态空间, 对于几种常见的棋类, 其状态空间都大得惊人, 例如, 西洋跳棋为10 的40 次方,国际象棋为10 的120 次方, 围棋则是10 的700 次方。如此巨大的状态空间, 现有计算机是很难忍受的。其二是现在的博弈程序往往是针对二人对弈, 棋局公开,有确定走步的一类棋类进行研制的。而对于多人对弈, 随机性的博弈这类问题, 至少目前计算机还是难以模拟实现的。 4.2 机器翻译所面临的问题 在计算机诞生的初期, 有人提出了用计算机实现自动翻译的设想。目前机器翻译所面临的问题仍然是1964 年语言学家黑列尔所说的构成句子的单词和歧义性问题。歧义性问题一直是自然语言理解(NLU ) 中的一大难关。同样一个句子在不同的场合使用, 其含义的差异是司空见惯的。因此, 要消除歧义性就要对原文的每一个句子及其上下文, 寻找导致歧义的词和词组在上下文中的准确意义。然而, 计算机却往往孤立地将句子作为理解单位。另外, 即使对原文有了一定的理解, 理解的意义如何有效地在计算机里表示出来也存在问题。目前的NLU 系统几乎不能随着时间的增长而增强理解力, 系统的理解大都局限于表层上, 没有深层的推敲, 没有学习, 没有记忆, 更没有归纳。导致这种结果的原因是计算机本身结构的问题和研究方法的问题。现在NLU 的研究方法很不成熟, 大多数研究局限在语言这一单独的领域, 而没有对人们是如何理解语言这个问题作深入有效的探讨。 4.3 自动定理证明和GPS 的局限 自动定理证明的代表性工作是1965 年鲁宾逊提出的归结原理。归结原理虽然简单易行, 但它所采用的方法是演绎,而这种形式上的演绎与人类自然演绎推理方法是截然不同的。基于归结原理演绎推理要求把逻辑公式转化为子句集合,从而丧失了其固有的逻辑蕴涵语义。前面曾提到过的GPS 是企图实现一种不依赖于领域知识, 求解人工智能问题的通用方法。GPS 想摆脱对问题内部表达形式的依赖, 但是问题的内部表达形式的合理性是与领域知识密切相关的。不管是用一阶谓词逻辑进行定理证明的归结原理, 还是求解人工智能问题的通用方法GPS, 都可以从中分析出表达能力的局限性, 而这种局限性使得它们缩小了其自身的应用范围。 4.4 模式识别的困惑 虽然使用计算机进行模式识别的研究与开发已取得大量成果,有的已成为产品投入实际应用, 但是它的理论和方法与人的感官识别机制是全然不同的。人的识别手段形象思维能力, 是任何最先进的计算机识别系统望尘莫及的,另一方面, 在现实世界中, 生活并不是一项结构严密的任务一般家畜都能轻而易举地对付, 但机器不会, 这并不是说它们永远不会, 而是说目前不会。” 5人工智能的发展前景。 5.1人工智能的发展趋势 技术的发展总是超乎人们的想象,要准确地预测人工智能的未来是不可能的。但是,从目前的一些前瞻性研究可以看出未来人工智能可能会向以下几个方面发展:模糊处理、并行化、神经网络和机器情感。 5.2 人工智能的发展潜力巨大 人工智能作为一个整体的研究才刚刚开始, 离我们的目标还很遥远。但人工智能在某些方面将会有圈套的突破。 (1)自动推理人工智能最经典的研究分支, 其基本理论是人工智能其它分支的共同基础。一直以来自动推理都是人工智能研究的最热门内容之一, 其中知识系统的动态演化特征及可行性推理的研究是最新的热点, 很有可能取得大的突破。 (2)机器学习的研究取得长足的发展。许多新的学习方法相继问世并获得了成功的应用,如增强学习算法、reinforcement learning 等。也应看到, 现有的方法处理在线学习方面尚不够有效, 寻求一种新的方法,以解决移动机器人、自主agent、智能信息存取等研究中的在线学习问题是研究人员共同关心的问题, 相信不久会在这引起方面取得突破。 (3)自然语言处理是A I 技术应用于实际领域的典型范例, 经过A I 研究人员的艰苦努力,这一领域已获得了大量令人注目的理论与应用成果。许多产品已经进入了众的智能信息检索技术在Internet 技术的影响下,近年来迅猛发展, 已经成为了A I 的一个独立研究分支。由于信息获取与精化技术已成为当代计算机科学与技术研究中迫切需要研究的课题,将A I 技术应用于这一领域的研究是人工智能走向应用的契机与突破口。论文参考网。从近年的人工智能发展来看,这方面的研究已取得了可喜的进展。 6结束语 人工智能一直处于计算机技术的前沿,人工智能研究的理论和发现在很大程度上将决定计算机技术的发展方向。今天,已经有很多人工智能研究的成果进入人们的日常生活。将来,人工智能技术的发展将会给人们的生活、工作和教育等带来更大的影响。

不要只关心怎么优化模型,这不是机器学习的全部

杨晓凡 科技评论

AI 科技评论按 :在人工智能与大数据领域培养的人才 pool 中, 学生、研究人员以及企业开发者普遍倾向于将大量精力投入到模型优化的过程中, 似乎只要能够提升模型性能指标如 accuracy/AUC/mAP 等, 就意味着完成了机器学习研究与应用的主要任务. 然而, 实际情况中存在一个被忽视的关键问题: 即即便测试环境下表现优异的模型能否真正有效解决现实世界中的实际问题? 很多情况下, 在实验室环境下表现优异的模型在实际应用场景中未必能够有效解决问题.

Christoph Molnar,一位在可解释机器学习领域的研究者同时也是《可解释的机器学习》一书的著作者 最近在一篇博客文章中发出警告提醒同行界人士应警惕这种风气 开始重视机器学习应用中那些本不应被忽视的问题 雷锋网AI 科技评论对这篇博客进行了编译以下是编译内容

先讲一个小故事。

德国某处,一个安静的夜里。 大多数人都已经沉沉睡去,但我没有。我得把机器学习模型训练完。我在和全世界和我一样对模型着迷的人比拼,我们要看看到底谁的模型能得到最好的预测结果。我电脑的风扇在嗡嗡地响,键盘也被我敲得咯咯吱吱。我目前的模型没拿到什么好名次,在公开排行榜上排在中间而已。真让人来气。模型的准确率其实还过得去,但在这个比赛里,「还过得去」是远远不够的。比所有其他人的模型都好,才是我最终的目标。我还需要更好的特征工程、更好的学习算法。我已经有了一个建立新的特征的好点子,而且我还可以把随机森林换成增强树。训练这个模型应该只需要半个小时时间,然后我就必须去睡觉了。

好几个小时过去了,现在的时间是凌晨三点半。 我终于得到了新模型的预测结果,可以冲击排行榜上的新位置了。我满怀希望地点了提交按钮。我已经很累了,「你的结果正在被评估」的提示看起来都那么模糊。我能到多少位呢,能到前 10% 吗?我开始甜蜜地遐想。但真正的结果很快打碎了我的幻象,这一刻我感觉到前所未有地疲惫。别说得到更好的名次了,这个新模型的表现还不如上一个模型。代码里有 bug?过拟合了?还是我上传错文件了?我脑中有一个又一个的问题冒出来,但是理智告诉我自己必须要躺下了。我在床上翻来覆去,然后梦见了一个不停增长、大到我永远没法理解的决策树。

「我得继续改进我的机器学习模型!」

掀开眼罩看一看

我自己曾经有过长时间地致力于机器学习比赛模型构建的过程直至深夜的经历,如今我已经不会像以前那样持续投入这个领域了。主要原因有两个:首先,在我的时间管理上更加注重保证正常的睡眠质量;其次,在我对机器学习的理解已经发生了质的深刻转变。

当我最初接触机器学习时, 我认识到掌握最佳机器学习技术的关键在于能够训练出性能卓越的模型. 为了实现这一目标, 我将所有精力投入到学习更多算法与技巧中, 并采用了多种评估方法, 其目的是迅速降低模型误差. 我过于沉迷于这项研究, 因此当年还创作了一首关于随机森林的诗歌.

今天的观点发生了显著的变化。
我认为「机器学习」一词所蕴含的意义远超单纯追求最小化损失函数。
从一定程度上来说,在机器学习的过程中,模型的拟合可能是相对较为简单的一个环节。
凭借丰富的文献资料、教材内容以及实用练习等资源的支持,
无论是在训练数据还是测试数据上都能迅速获得反馈结果,
总的来说,在当前的技术水平下已经取得了令人满意的进展。
就目前的研究进展而言,在模型拟合这一块已经达到了较高的成熟度。
然而,在实际应用中我们还需要解决许多其他更为复杂的问题。
例如,在监督学习场景中如何处理大量未标注的数据也是一个挑战。

如何把现实问题转化为预测任务?

我们如何在预测模型中建立信任机制?

是否存在偏倚?
与实际部署后的输入数据的相似性如何?

如果系统的运行不太正常,如何为机器学习模型 debug?

该模型生成的预测结果(尤其是那些出现错误的情况)会对用户使用体验以及产品的功能完整性产生哪些方面的变化?

在当前的预测和未来会增添的训练数据之间是否存在有害的反馈关系?

一个固定不变的模型在不断变化的环境中会有怎么样的表现?

狗展门口。- 「我的狗训练得很好啊」-「不行!」

—— 这就是数据科学家们把最新的模型整合到真实世界的时候的样子

我的观点是,在机器学习领域内的人们大多数仅关注如何优化模型,在我所列举的这种模型的实际应用中则鲜为人知的问题。然而,好消息是尽管大家普遍意识到了这些问题的存在,并且投入了更多的关注来考虑这些问题。系统性思维、可解释性、公平性、社会影响以及数据的作用等方面问题正逐渐受到越来越多的重视。

模型的诱惑

最初几年专注于机器学习领域时发生了一件有趣的事情:我刚加入一家创业公司不久,在团队中负责监督几个机器学习应用的开发工作。当时我的编程能力尚处于团队中较低水平,在工作中经常向其他成员请教相关问题。其中最令我印象深刻的是询问训练数据与实际应用中的数据是否具有相似性的问题。然而令我感到不解的是导师对这个问题的回答——他不仅给予了肯定还表示对此感到很欣慰;但这种认可让我内心纠结的是自己为何还未掌握Scala编程技能;而真正让我觉得值得花更多时间思考的是如何构建更具预测力的模型而非提出这些看似微不足道的问题。直到多年后我才逐渐理解到导师对这些问题的关注背后所蕴含的意义

花了五载时光才终于彻悟此事的意义非凡;可为何要耗如此之长时间?原来所有的机器学习教学与科研过分偏重于'完美'模型的存在而忽略了数据的价值以及人类的作用,并未能充分考虑预测模型与其所处环境之间的复杂相互作用

详细来说的话,请让我们从虚拟的机器学习初学者Anna的角度来感受一下吧。她是一名攻读电子工程硕士学位的学生,在微积分方面拥有深厚的数学功底,并熟练掌握C语言与Python编程技能。她的首堂课是跟着吴恩达先生学习的在线课程;与此同时她还在研读《统计学习基础(Elements of Statistical Learning)》这本书籍。教材中通常会依次介绍各种各样的模型并着重阐述每个模型背后的数学理论基础;然而这些教材往往忽视了一些重要方面:如如何深入理解数据背后的意义;如何从社会学角度考量数据的影响;以及如何清晰解释模型预测的结果等关键问题。尽管如此Anna同学也会接触到一些实际应用案例;不过这些案例往往是一些理想化的场景问题而非现实中的复杂情况

在某个时候之后(过了一段时间以后),她开始参加Kaggle上的各种比赛)。又一次地(再次地),她在Kaggle上也发现了各种经过精心设计的问题(看到各种经过精心设计的预测问题),简直就像是被塞到了嘴里(喂到嘴边)。在我们看到的比赛背后(在我们看到的比赛背后),Kaggle已经完成了最难、最繁重的任务:首先收集企业、数据以及相关的问题(先寻找企业、数据、问题),然后将这些问题转化为预测任务;其次考虑使用哪些数据(然后考虑要用哪些数据),可能还需要进行一些数据清理和合并工作(可能还需要做一些数据清理和合并);最后选择一个模型并建立评价标准(再选一个模型评价标准),这些都是由Kaggle完成的。因此,在参加Kaggle比赛的过程中(对于参加Kaggle比赛的人来说),他们剩下的工作除了进行特征工程之外(除了特征工程以外),就只有「拟合出最好的模型」这一项任务了!赢得比赛奖金的人是谁呢?不是那些拥有优秀模型表现和解释性团队的人(不是模型表现优良、有可解释性的团队),不是那些当别人要花几天时间训练的时候他们只需要几秒钟就能完成团队(不是当别人要花几天训练的时候他们只需要几秒钟就能完成团队),也不是那些拥有机会将模型部署到生产环境中的团队(因为这些模型的预测准确率注定不会是最高的)。所以Anna也就随之相信了这一点:机器学习的本质就是寻找能够实现最佳预测表现的模型,并且这种信念会越来越坚定。(这不是开玩笑的说法)大家都能看出来并获得奖金与荣誉的就是那些能够达到最佳预测表现的人

因此 Anna 对机器学习产生了极大的热情,并立志要在未来的竞赛中取得优异成绩。值得庆幸的是,在这个充满活力与开放性的社区中,不仅能找到丰富的资源用于分析和优化模型性能的技术博客文章,还有许多优秀的开源库可供下载使用以提升建模效率。经过一番深入的学习与实践后,Anna 才真正理解到:机器学习的核心在于构建能够准确捕捉数据特征的最优模型。

Anna 也开始意识到机器学习这个领域相当年轻、学术界与工业界的联系同样紧密。为了更好地了解最前沿的技术动态、她开始阅读相关的学术论文。从哪里开始呢?通常会选择那些被广泛引用的研究综述性文章!那么哪些研究具有较高的引用数量呢?主要是那些涉及常见科研任务的研究综述以及主流机器学习框架的综述。

数据科学家们的毕生目标:一个模型能够应对各种挑战(如同魔戒所扮演的角色般)

可以看出,在Anna的成长过程中(或道路上),她始终都在感受到这条最基础的信息:想要做好机器学习就需要深入研究建模算法(以及一些特征工程的技术)。除了这些方面之外的地方(或领域),几乎很少有人提及。

拟合模型不是唯一重要的环节

说了这么多话我已经想把意思说清楚了,在Kaggle比赛中取得好成绩远远不够成为一位优秀的机器学习专家。那么缺乏哪些知识呢?从我的角度来看,在这些方面的重要性被完全忽视了。整个机器学习领域需要特别关注这些问题。

问题的格式化 :把一个实际问题转化为一个预测或者模式识别问题。

数据生成过程 :理解数据,明白数据在解决问题中的限制和适用性。

模型解释 :用交叉验证的性能估计方法之外的方式分析模型

应用场景 :思考模型会如何和真实世界相互影响

模型部署 :把模型集成到产品或者计算过程中

这里只是简单列了几项,大家可以继续补充。

也许在精雕细琢地训练出最佳模型后仍会存在若干问题(即在这几个方面出现错误),这会导致该模型既无实际价值又产生负面影响(即变得没用甚至有害)。)当所使用的训练数据与实际应用场景存在显著差异时(即两者之间差距较大),该系统可能会给出错误的预测结果(即无法产生正确的预测结果)。)如果发现该系统在处理不同种族或肤色个体时存在偏差(即出现偏见或歧视现象),那么此时你需要借助白板工具来系统地向他们阐述原理(以便解决这一问题)。)

只要你在项目中做好问题的规范化处理以及对数据集进行详细说明,并对场景进行清晰设置和系统配置。你的项目仍然有可能成功(因为即使模型预测准确率较低也没关系)。其他关键因素未能优化到位的话(即即便你做了很多努力),项目的整体效果也不会理想。集成方案无论多么完善也只能被视为次优选择(因为即使调试再久,在测试数据上的完美表现也难以改变其被弃用的命运)。

做错容易,做对很难

机器学习模型不仅具备显著的预测能力,在实际应用中却带来了与人们预期相反的效果。为了更好地说明这一现象,请听我讲述一个具体的故事。我的一位朋友在某电信公司工作,在数据科学团队中负责提供移动通信套餐服务(包括通话、短信及流量)。作为公司项目的一部分,他参与了一个预测客户流失的关键项目;项目的最终目标是识别出最有可能放弃现有套餐服务的客户群体,并向他们提供更具吸引力的套餐方案以提高续订率。为此目的,在项目初期他构建了一个精准度较高的机器学习模型;通过分析历史数据并结合客户的使用行为特征,在筛选出高风险用户后逐步优化模型参数设置;最终成功地将流失风险较高的客户列为优先联系对象并派发了针对性营销信息。

那么结果呢?取消这家公司套餐的人更多了,而不是更少了!

事后他们才认识到自己已经联系到了那些可能不会再使用他们的服务的用户,并因此对公司的套餐失去了信心。然而,在采取这一行动后发现无法继续维持现有客户关系后才明白这一举动反而是导致他们最终解约并转向其他运营商的关键因素。

为什么会出现这样的情况?从一开始他们就错误地将实际问题转化为预测性的问题。具体而言,在模型构建方面存在一定的误差:模型试图预估客户X是否会解约(即预测其可能性),然而实际上我们需要预估的是当我们与客户X联系时他会否解约(即预估其可能性)。这种差异本质上涉及到了应用场景的相关性:他们未能充分考虑到与那些可能有解约倾向的客户进行联系所带来的潜在后果。在这个案例中(case study),模型构建工作可以获得满分10分;然而对问题形式化以及与具体应用场景相结合这两个方面仅能获得1分评价

别以为你的队友们就靠得住

那么是否只有初学者会在运用机器学习解决现实世界的问题时出现问题?当然不是。为了掌握除了模型拟合以外的机器学习技能,最好的方法是参与解决实际问题。不过这只是开始阶段,在其他方面也需要不断努力提升自己。

只有单凭经验也不够。尽管谷歌、亚马逊这类对机器学习进行大规模长期投入的企业是否在模型优化之外还有其他方面的掌握呢?实际上并没有。尽管他们拥有大量博士人才、资金支持、丰富经验和海量数据以及专业技术,在真实世界任务中应用机器学习仍然是极其困难的。

我举几个大公司用了机器学习然后搞砸了的例子:

Google Photos系统可能会将某些非洲裔美国人误归类为大猩猩。随后他们采取的措施是禁止模型将此类别作为预测结果。这类似于一个家庭的墙壁出现漏水情况:你可以用一张墙纸暂时遮掩问题;但更好的方法是联系楼上邻居讨论并解决问题。

该系统可能会高估流感的发生频率。
该系统已正式退出服务。
该系统的工作模式是利用那些与流感爆发高度相关的关键词。
随后似乎将与疾病无关的一些术语如「高中篮球」这类毫无因果关系的词汇也纳入其分析范围。

亚马逊开发的招聘工具存在性别偏向问题。通过分析自身招聘数据构建相应的算法模型后发现该平台在招聘环节中存在明显的性别偏向(即更倾向于招用男性)。因此该平台并未采用这一工具来解决该问题。然而实际上他们认为不使用该工具就没事而当前确实存在的性别偏倚却未被发现与前文类似的情况是用隐形手段掩盖事实真相

**为什么不用数据简化你的生活呢?**为什么不?

如果工作缺乏直接的反馈机制来评估工作的正确性与质量高低、你可能会感到精力耗尽、心力交瘁。特别是在进行学术研究或者没有直接上级的情况下、常常会对当前所做的工作的意义感到困惑。如果有老板或上级指导你该做什么、心理上可能会轻松一些、但事实情况却并非如此。无论你拥有多少年的实践经验、不论你有多少社会阅历、都难以在某一天真正了解并掌握世界上的所有事情

有一种解决办法是以数据作为依据衡量你的进展, 这些数据能够为你提供重要的反馈信息. 它也可以被视为通往成功的指标.

「今天我读了 5 篇论文。」

「这周我做完了一个 10 页的报告。」

「我的网站这个月有 10k 访问量。」

「今年我拿到了 20k 的奖金。」

一定程度上来说,在量化指标来衡量success方面是一种非常有效的方法。它不仅能够帮助你精简工作流程还能让你以更高的效率完成各项任务。然而这种方法忽视了许多关键因素。这样的做法是否能全面反映所有影响success的因素呢?

比如你收入很高,但你不喜欢你的工作内容。那你还成功吗?

比如你的论文被广泛引用,但你仍未对现实世界产生实质影响.那是否算作成功呢?

例如你拥有上万的粉丝群体,在看到你的动态后却没有人进行点赞或留言互动。那你在这种情况下是否还能算作成功呢?

比如你在一个机器学习竞赛中获得了优异的成绩,在排名上非常靠前的位置。然而你却暗中利用了数据中的漏洞与那些排名较为靠前的参赛者采取了相同的策略。那么你是否也取得了不错的成绩呢?

其实很难判断何时应当为了达成某个具体目标而付出努力,何时则应有所节制,这取决于个人的价值观与选择偏好.就个人而言,在面临"达成目标"与"难以量化的工作"(如研发新产品而非销售现有产品)之间的抉择时,社会普遍更倾向于优先选择能够实现目标的那一端.就机器学习领域而言,这一现象表现得尤为明显.

每当有人似乎在为某个目标而不懈努力时

作为一名在机器学习领域多年的从业者,在各类机器学习竞赛中已然久经沙场。久经沙场之后自然会有所感悟与反思——于是乎我写下这篇博客文——希望能够激励更多同行放下心中的有色眼镜,并呼吁这一领域更加关注数据质量、模型解释性和应用场景的多样性以及社会影响

造业+工业互联网****

产业智能官 AI-CPS

先进制造业的OT(自动化应用、机器人技术、工艺流程优化以及精益生产管理)与工业互联网的IT技术(云计算资源、大数据分析、物联网设备、区块链技术和人工智能算法)实现了深度整合,在特定场景中构建"状态感知-实时分析-自主决策-精准执行-学习提升"的机器智能与认知计算系统;通过该系统实现产业转型升级目标、推动DT(数字技术)驱动业务创新以及创造价值的产业互联生态系统。

云大物智等工业互联网相关的分支在今天已经成熟,制造业企业必须掌握如何将技术创新渗透到公司运营的各个环节中,以利用工业互联网推动行业结构优化重组与企业战略重构,实现行业的焕发新生与企业的可持续发展.

深度融合的前沿OT技术和工业互联网IT技术作为第四次工业革命的核心引擎,在未来将继续释放历次科技革命与产业变革积累的巨大能量,并孕育出新的强大引擎。通过重构生产性环节、分配性环节、交换性环节以及消费性环节,在宏观至微观各层面形成智能化的新需求体系;从而催生新技术范式、新产品类型以及新产业形态等多重创新成果。这将导致经济结构的重大转变,并深刻影响人类的生产生活方式及思维模式;从而推动社会生产力的整体提升。

人工智能相关领域的应用前景及就业机会非常广阔。为了满足更多人对这一技术的需求,在此不做进一步介绍的前提下

易失效

咕泡AI 回复888

这些链接即将失效

咕泡AI 回复888

这是一些资料截图,先到先得!喜欢就点赞收藏吧!

全部评论 (0)

还没有任何评论哟~