Advertisement

大数据在未来十年将如何发展

阅读量:

作者丨Oleksii Kharkovyna

译者丨夏夜

本文不涉及对数据科学未来发展做出预测。
也不会对未来持乐观或悲观的态度。
仅通过个人经验以及与之相关的他人案例分析,
提供一些决定性因素以辅助判断。

不考虑那些无关紧要的因素吧?我想概述未来十年内将深刻影响数据科学领域的关键因素。我希望这项研究能在工作效率提升方面为你提供有益的参考。无需过多评论……只是我的个人观点。如果对这个话题感兴趣的话……请继续阅读

1数据科学的未来:我怎样看待?

1、更多的数据科学策略

数据科学主要通过量化的方法来解决问题这门学科。过去由于缺乏足够的数据或者处理能力我们不得不依靠诸如"独裁者的突发奇想""专家直觉指导"以及"广泛共识"等其他手段来应对问题。如今这些问题已经无法用这些方法有效解决而且毫无疑问未来10年它们的作用范围将会更加有限。数据科学家们转而构建了一系列系统这些系统能够生成语音预测提供预期结果并最终输出真实的数据反馈。

在数据分析领域存在泡沫的情况下,在经过慎重考虑后仍认为其发展态势并不会破灭,在当前环境下持续推动的数据驱动策略将继续保持主导地位并发挥重要作用。随着人工智能技术的发展与普及程度的不断提升,在这一趋势下人们将更加注重对数据分析能力的需求并且能够深入挖掘这些数据资源能为其提供丰富的洞见从而推动相关产业的进步与创新为此些行业人才也将面临更大的职业发展机会与挑战与此同时随着大数据时代的到来各行业之间的竞争将更加激烈地展开最终导致各组织间竞争激烈地争夺领域的前沿位置

2、更多界定明确的角色

由此可见,在未来一段时间内人工智能技术的发展趋势将会更加明显;大多数消费者将会更加深入地了解这一领域的具体发展动态与应用前景。
在当前领域中存在一些不规范之处,
这导致外界对于这一群体的角色存在诸多疑虑。

我们一般把数据科学领域的角色分成 4 类,它们角色职能不同但有重叠。

数据架构师 ——开发数据架构,以有效地捕获、整合、组织、中心化和维护数据。

数据分析师 ——处理和解释数据,为公司提供有执行意义的预测。

数据分析专家 ——当数据的规模及生成速率达到一定程度时,这些专家会开展数据分析工作.

数据工程师 ——开发、测试和维护数据架构,保证随时使用和分析数据。

随着时间流逝, 这些角色会愈发熟悉, 我们也会对它们之间的差异更加清楚地认识。这将使顾客对可得与不可得的东西有更加切实际的认识, 他们的脑海里会形成更为明确的工作流程框架, 并从中可以获得的实际好处。

3、更多的软技能需求

随着时间的发展, 我们会逐渐更加清晰地认识到, 很多数据科学家掌握Python或R语言。然而, 说服管理层相信你的见解以及表现这种能力的价值, 这种价值体现在哪里? 可视化描述能够完成其中一半的工作, 而另一半则依赖于传统的营销技能。最终的结果是, 市场更倾向于那些能够有效创建关键性对话以促进产品销售的人才。因此, 将技术与软技能相结合的人才将始终具备优势。

4、数据会更多,处理数据的人工智能也会更多

我们今天将深入探讨一个非常严肃的话题。目前人类每天产生的数据总量已经达到了难以 comprehension 的程度,在每日产生的数据量为每秒 2.5 petabytes(PB)的情况下(按目前的速度计算),这一速度只会持续加速下去,请查看 Raconteur 网站发布的相关数据分析图表:

5 亿推特信息;

2940 亿电子邮件;

四千万亿字节的 Facebook 数据;

四万亿字节的单位车联网数据;

650 亿条 WhatsApp 信息;

50 亿条搜索信息;

到 2025 年,预计全球每天将产生 463 艾字节(463*10^18 字节)数据,相当于每天 212,765,957 张 DVD 的数据量!

确实,在目前的情况下,在单独依靠数据科学家来管理和处理如此庞大的复杂数据方面存在巨大挑战。到那时, 人工智能技术可能会发展到辅助数据科学家进行数据分析的程度, 包括但不限于探索性数据分析、数据清洗、统计建模以及构建机器学习模型等常规工作。智能化的数据分析系统具备智能化能力地替代掉这些例行操作, 从而将更多的时间留给更具创造性的任务。

5、更少的代码,相当少的代码

特斯拉 AI 总监 A. Karpathy 表示,在未来不久我们将无需编写代码就能完成任务——只需找到可用的数据并将这些数据输入至机器学习系统中即可完成任务。在这样的情况下,软件工程师的角色将成为‘数据监管者’——未来的许多程序员将不需要维护复杂的代码库而只需专注于其他工作内容:主要负责从各种来源收集并清洗数据,并对处理后的信息进行分类整理;同时还需要对生成的数据进行深入分析,并利用可视化工具展示关键发现。他指出,在这一转变下未来的很多程序员都将专注于上述工作内容而非编写复杂程序或其他任务

机器学习正开创了一个全新的计算模式,在这一模式下实现机器学习成为核心能力。当机器学习技术日益普及时,并借助工具的高度抽象性, 我们可以预见大部分编程工作将逐渐被替代或减少. 最终的主要工作流程可能简化为拖拽操作, 刷卡确认, 目标定位以及点击执行等直观操作. 这一转变将释放出大量专业人才 previously involved in programming, 使他们在解决问题时更具战略眼光与创新思维.

诸如 R 语言、Python 和 Spark 这类工具是否最终会失去其作用?很少有数据科学家 anymore rely solely on programming for statistical analysis or machine learning training?这并非易事。无论如何, 将希望寄托于这类技术是不明智的。理解并掌握这些流程对于任何数据科学家来说都是必要的基础;机器学习则更多地扮演着辅助角色,在日常工作中发挥着不可替代的作用。

6、尽可能多地使用 API(应用程序接口)

大部分公司都是通过先专注于一个核心项目积累声誉后才开始进入这一领域,在这之后他们才会通过开源API的形式回馈社区。随着时间推移,在十年左右大多数软件系统都会自然集成到终端设备中,并通过最大限度地利用各类服务来制定出最合适的解决方案。数据科学家能够迅速建立并测试多种算法模型,在完成所有计算任务之后与团队共同进行可视化验证工作。未来随着技术发展更加深入的思考逐渐成为一种常态,在这种情况下科学家们将不会再为了重复性工作而感到疲惫

7、自我学习

传统学术环境将在未来逐渐淡出历史舞台。信息经济正日益推动其发展途径的变化与创新。经过大约3至4年的系统学习后, 个体所掌握的知识体系已不再适用,必须重新学习以适应新时代的需求。学会主动管理学习进程,成为提升自身竞争力的关键能力之一,未来的教育胜者将是那些在数字化转型中表现突出,善用现代技术与创新教学模式的学生群体所在机构。职业发展的核心将由个人能够创造的价值与贡献来衡量,而非仅仅依赖于基础理论知识。

Q1. 数据科学家是否会被自动化算法替代

基于广受赞誉的CRISP-DM数据分析项目的管理方法论,项目实施划分为六个阶段,在各个阶段中,均积极参与其中.

业务理解

数据理解

数据准备

建模

评估

部署

步骤3和4包含了大量的重复性工作。为了利用机器学习来解决每个具体的能力指标,你需要持续进行相应的数据收集和分析。

配置模型超参;

尝试新的算法;

向模型引入原始特征的不同呈现形式(如标准化处理、关注其稳定性的方差特性、实施单调性转换、采用降维技术以及应用分类变量编码方法等),并基于现有特征生成新的表示方式。

借助自动化工具的帮助,在分析专家或数据科学家的工作中进行的一些常规工作流程以及数据整理与清洗过程中的某些任务可以被省略。
然而,在步骤3和4之外的部分工作内容仍然会被保留,并且这些内容包括CRISP-DM框架下的剩余步骤。
因此,在分析家日常工作的简化程度上有所降低,并不会对他们的职业发展带来负面影响。

在数据科学家的多元 toolkit 中(原文:“机器学习仅仅是数据科学家使用的工具之一”),除了传统的可视化分析、数据调研以及统计学和计量经济学的方法(原文:“此外还有可视化、数据调研、统计和计量经济学方法.”),还有其他多种方法可供选择。尽管如此,在机器学习领域中(原文:“即使在机器学习方法里”)实现完全自动化也是不可行的(原文:“完全自动化也是不可能的”)。当开发与应用新型算法及其组合体系时(原文:“在解决新算法及其组合的开发和应用中存在的非标准化问题时”),高级人才角色特征将毋庸置疑地得以保留(原文:“数据科学家的高级角色特性毫无疑问会继续保持”)。自动化的解决方案能够系统地整合所有标准组件(原文:“自动化算法能够梳理所有的标准组合”),从而为后续优化与改进提供了可靠的基础框架(原文:“专家们可以此为基础做进一步改进”)。然而,在很多实际应用场景下(原文:“但在很多情况下”),自动化的产物已经足够出色(原文:“自动化算法生成的结果已经足够好”),因此无需进行额外优化即可直接投入使用(原文:“不用改进即可直接使用”)。

难以想象的是,在不依赖于分析师的专业支持的情况下, 一种业务可以直接获得由自动化机器学习方法生成的结果. 在任何情况下, 该方案涉及的数据预处理阶段、对生成结果进行解释分析以及其他关键环节都是必不可少的. 此外, 尽管多数企业内部的数据分析师团队在日常工作中与各种数据打交道, 并具备丰富的数据分析经验, 熟悉整个业务运营流程, 但就运用现代机器学习技术而言, 相关能力仍有待提升.

招聘特别胜任的高薪机器学习人才往往面临较大的困难。
市场需求持续攀升的同时远超供给量。
解决这一困境的方法可能在于为公司的分析师提供使用自动化机器学习工具的应用途径来协助分析工作。
这要求自动化技术逐渐普及开来。
展望未来,
众多企业无需组建专业的数据分析团队,
亦无需依赖第三方顾问企业即可充分受益于大数据带来的机遇。

Q2. 数据工程师会比数据科学家更抢手吗?

我认为应该区分一下数据科学家和数据工程师了。

那些受过高等教育的应用数学家,在数据科学领域开展研究,并设计创新算法来解决实际问题;此外,在神经网络模型构建方面也表现突出

后者的兴趣关注点有所不同,在掌握每种方法的理论与应用限制的基础上,能够有效地解决实际业务问题。

前者能够胜任的各项事务从未间断,
而后者虽可执行部分流程但无法实现完全自动化,
因此必须依赖人工处理某些环节。
随着技术发展与应用需求的变化,
新方法、新算法和新的解决途径会不断涌现。
除此之外,
对主题领域与数据本质的专业性理解,
对顾客目标的把握以及快速实现目标的能力,
均无法通过完全自动化的方法达成,
因此这些能力仍然无比关键。

数据科学确实是一种符合实际应用的学科——
然而世界正在朝着一种功能性的发展模式转变,
从业人员可以通过自主分析来处理相关数据。
相较于传统意义上的数据分析师,
在当前环境下,
你可能需要更多具备系统集成能力的数据工程师来推动整个流程的运转。

优秀的人才被优秀机构所拥有。由于大多数机构对数据不够了解而导致了数据科学家的存在。然而他们最终会理解和掌握这些知识和技术。

如果一名数据科学家开发了突破性算法但未被业务部门采用,则该算法的价值会体现在哪里?

我再次强调我对 Gartner 数据的信任度非常高,在当前的大数据项目中仅有约 15% 的项目最终实现了商业应用价值。尽管 Gartner 对其余约 85% 的大数据项目缺乏深入调查与分析的基础上得出结论,并未对此进行进一步探讨与研究。” “基于我的研究发现与经验总结, 我列举了一些未能成功落地的主要原因:

他们没有找到一个能值得落地的见解;

他们不仅发现了适合的见解,并且成功搭建了相应的模型;然而,在服务级别协议框架下实现可重复使用的流水线仍然存在挑战。

他们无需提供任何见解, 因为他们所需的数据分析能够独立完成, 不必依赖复杂的模型. 但仍然无法在服务级别协议框架下实现循环使用的流水线.

这就是为什么每家数据科学公司都需要至少两名数据工程师的原因。

2总结

数据科学家这一职业的发展前景尚不明确,仍需专业人士进行深入分析。然而,如今每天都会推出大量新代码库与工具,我们并未走在降低开发复杂度及构建业务模型基础的路上。许多人对此表示肯定,然而实际情况并不尽如人意。随着系统变得愈发复杂,其运行结果趋于随机化且越来越依赖概率论的应用。

当前人工智能技术的主要挑战在于难以直观理解其预言结果的重要性。我们只能依赖量化分析的方法来针对特定问题进行研究,并以此为基础做出预测;然而这些预测的效果仍有待提高。到目前为止这项技术已经展现出了良好的性能但对其未来发展仍充满不确定性

让我们拭目以待吧。

原文链接:

This article provides an in-depth examination of the future developments within the data-driven field. Understanding these trends will enable businesses to make informed decisions. The integration of emerging technologies is expected to have a significant impact. Data scientists are poised to shape the future of this field through their innovative efforts.

全部评论 (0)

还没有任何评论哟~