Advertisement

到底什么是大数据?来看这篇!

阅读量:

大数据时代已至,单靠一点点大数据是不够的,连最基本的大数据知识都不具备的人都不能自信地说自己活在未来时代

从这篇文章,我和大家一起开始大数据之旅。

1、大数据诞生的时代背景

伴随着计算机技术的深入渗透和社会生活的全面推进,在当今时代出现了大量的信息数据,并且当这些数据积累到一定程度时,往往能够引发重大的社会变革。

网络系统(社交平台与社交媒体结合体)、移动平台(微博等社交媒体工具)、物联网技术(传感器与智慧地球结合体)、车联网技术都在疯狂地产生着数据

此时数据最直接的特点就是:体量大、增长快!

那么人类,每年会产生多少数据量呢?

据不完全统计,地球上数据发展如下:

2006 年:全球共新产生约180EB的数据(个人用户迈进TB时代)

2011 年:新产生数据约1.8ZB。

有市场研究机构预测,2020 年,将新产生数据约35.2ZB 。

仅凭上面的数据, 大家或许缺乏足够的依据, 通过查看下面经过严格对比的数据分析, 才能真正认识海量数据的强大威力.

位(bit) 是计算机存储信息的最小单位,二进制的一个“0”或一个“1”叫一位。 字节(Byte) 是存储容量基本单位,1字节(1Byte)由8个二进制位组成。 如:一个英文字母占1字节,一个中文汉字占2~4字节(不同编码占不同字节数) 注意:位和字节的英文读音相似,业内区分方式一般是:大B 和 小b。 使用场景:存储单位(空间)时使用 大B, 网络速率(带宽)时使用小b。 各单位间的换算关系是: 1KB=1024B 1MB=1024KB (约等于一张网络通用图片(非高清)的大小) 1GB=1024MB(约等于一部电影(非高清)的大小) 1TB=1024GB(常见移动硬盘的容量级别,约等于一家大型医院所有X光片信息量)。 1PB=1024TB(容量相当大,常见于服务器,应用于大数据存储设备) 1EB=1024PB(目前还没有单个存储器达到这个容量) 1ZB=1024EB 1YB=1024ZB 1DB=1024YB 1NB=1024DB

现在1TB的硬盘的标准重量是670g(差不多吧)

1NB=2的60次方TB=1152921504606846976TB

=1152921504606846976个1TB硬盘

总重量约为77245740809万吨,

采用能够承载560,000万吨重量的巨型货轮进行运输,则必须通过数十次来回运送才能将这些数据送达目的地。显然,现有的巨型货轮联合运输也难以完成这一任务。不得不感叹:大数据的力量真是令人惊叹!

目前国内外专家学者主要是在数据规模上达成共识:

超大规模:GB级别

海量规模:TB级别

大数据级:PB级别

—— 摘自《系统规划与管理师》教程

想驾驭这庞大的数据,作为人类的我们,首先想到的是要创造一个概念

2、大数据定义

关于,大数据这一概念的提出者,众说纷纭,我们就不细究啦。

有一种说法是:最早率先提出“大数据”这一术语的是全球知名咨询公司麦肯锡集团。其对‘大数据’的定义为:一种规模达到在获取、存储、管理和分析等方面均超出传统数据库软件工具处理能力范围的数据集合 ,其主要体现为以下五个方面的特性:

体量大 Volum 数据量巨大,非结构化数据的超大规模和增长快速。 非结构化数据占数据总量的90%-90%。 非结构化数据比结构化数据增长速度快10-50倍; 处理的数据是传统数据仓库的10-50倍。
多样性 Variety 类型多样性:结构化、半结构化、非结构化 形式多样性:文本、图像、视频、机器数据、地理信息等 另外:这些数据无模式,或模式不明显;并且属于不连贯的语法或句义。
价值密度低 Value 类似沙里淘金,从海量数据中获取有用信息需要处理大量不相关的信息(例如:在连续一小时不间断的视频监控中,有用数据可能仅有一二秒)。 意味着深度复杂分析(人工智能、机器学习等),甚至可对未来趋势与模式进行预测分析。
处理速度快 Velocity 大数据处理通常指实时获取需要的信息,而非批量式分析。 即:立竿见影, 不是事后见效。 这是大数据区分于传统数据挖掘的最显著特征。 在大数据面前,处理数据的效率就是企业的生命。
真实性 Veracity 数据准确和可信赖,可以对现实进行反映和预测。 但实际情况是:到处充斥着虚假数据(如:刷单、刷粉等行为),数据不能反映真实的情况,不具备价值 并影响分析结果。从大数据中剔除错误、无效、无意义的脏数据是当今的一个重要的研究方向。

3、大数据应用

在《未来简史》一书中,《未来简史》中,《未来简史》中的尤瓦尔·赫拉利曾预言,在《未来简史》中,《未来简史》中的‘人文主义’领域将出现一个新的‘数据主义’。各个领域(包括科学、文学、音乐以及经济学等多个方面),其本质都可以被归结为数学模型。任何事物都可以被视为一个数据处理系统。按照这位著名预测者的观点,在未来的各个层面和社会的不同领域都会体现出大数据的影响。

目前,大数据也确实已应用到广阔的领域,各行业的契合度如下:

—— 摘自《系统规划与管理师》教程

上面这个图,分析如下:

(1)互联网和电子商务行业: 主要用于用户的日常行为数据收集(包括访问日志、用户主体信息和外部环境信息等),进而识别潜在客户,并进行精准广告及营销活动。例如,在我们日常生活中广泛使用的地图导航软件(基于行程规划路线及预估所需时间)。

(2)电信/金融:

(3)政府:

通过大数据技术的应用与创新实践,在提升政府服务效率的同时实现了管理决策的科学化、规范化。这不仅有助于优化城市治理模式,在推动社会治理创新方面也发挥了积极作用。

通过引导社会舆论,为公众提供更好的服务,树立更好的形象。

(4)医疗:

(5)制造: 传统制造业以产品为核心,通过减少生产成本来影响制造业的生存和未来发展。

当前

4、大数据处理

面对具有5V特性的大数据时,我们应当采取何种方式进行处理和分析才能使其价值得以充分释放?这便需要依赖于一套系统的大数据处理技术体系。在大数据的关键技术领域中包括但不限于:数据收集、数据存储、数据整合、数据分析及挖掘等环节。

我目前大数据方面的工作,基本上就是围绕上面这个图开展。

您觉得这个图表难以理解吗?举个例子来说吧:比如您在家中常见的做饭流程——采购阶段(数据采集与准备),包括购买各种食材;放置于菜篮子或冰箱中(作为数据存储),方便后续处理;洗菜阶段(属于数据处理环节);配菜时运用数据分析与建模技术;炒制过程中需进行数据加工与分析;最后将菜肴摆上餐台(展示成果),供家庭成员食用。这样的解释是否更容易理解呢?

上面图中关键技术的专业角度的解释:

数据准备:基于当前业务需求,在线使用ETL工具获取分布在各地的数据信息。
汇总后的数据成为后续分析的重要基础,“精工细作出好料”或许是一个合适的比喻。

数据存储:规则化的数据由关系数据库进行存储管理;非结构化的或半结构化的信息则采用分布式文件系统的NoSQL技术进行存储管理。

计算处理:分布式的并行计算平台(MapReduce、Spark等),将程序部署于该平台进行运行。

数据分析与挖掘:基于业务需求对大数据实施相关联、分组以及归类等提取和分析处理,并通过图形化展示和表格形式呈现数据信息。

大数据是通过数据分析实现其价值的产生与展现;而不是仅因采用了NB技术与算法而使其体现出价值。数据技术支撑了这一过程的完成。其中的数据分析能力相当于大脑的作用域,在这一领域内核心技术提供了有力的支撑力量。

大数据概念的核心是处理海量数据的能力和相应的技术手段。然而,在实际应用中,其价值并不取决于数据的规模大小,而是体现在对其产生的精细分析价值(具体干预作用)。


接下来我们就深入探讨大数据的关键技术,并展开全面分析;逐步揭示大数据技术背后的奥秘,请期待您的持续关注。

如果感觉内容有点儿意义,欢迎大家进行分享

我的文章通常会先把内容发布在公众号上,并随后同步到平台。如有 desire及时获取最新更新,请关注公众号"学点儿编程"并扫以下码即可订阅

全部评论 (0)

还没有任何评论哟~