Advertisement

大数据(big data)究竟是什么?

阅读量:

近年来,在IT行业中‘大数据’已成为一个备受关注的话题。对于从事IT行业的人员来说,在谈论技术发展时提及‘大数据’显得尤为必要。具体而言,在不同语境下‘大数据’的意义可能会有所变化。更直观地说,在实际应用中‘大数据’通常指的是基于像Hadoop这样的大规模并行处理系统的数据存储架构。具有PB级规模(1PB等于1000TB)的数据在线存储于像Hadoop这样的系统中,则统称为‘大数据’。近年来,在经济形势波动较大的年份如2008年、2009年等期间,美国风险投资对这个领域的投资都在持续增加。无论是Cloudera还是MapR这类专注于开发Hadoop系统的创业公司都在蓬勃发展起来。那么问题来了:‘大数据’仅仅是一个时尚话题还是一个真正的发展方向呢?

在过去的几十年里, 浩如烟海的数据存储问题主要依靠磁带作为解决方案。作为一种离线的存储介质, 磁带将数据备份后, 需要经过耗时费力的手工流程才能再次读取, 成本高昂。在美国信用卡公司内部, 存在一个这样的说法: 一位信用卡持有者可以拨打信用卡公司电话, 请求该公司协助查询一年前的一笔消费情况, 其金额约为100美元左右, 并声称这笔钱不是他的支出请求。一天过后, 信用卡公司将告知该情况是否属实? 如果是如此的话, 公司会归还这笔款项。然而实际情况是: 在磁带上检索这位用户的交易记录所需的成本远高于这笔款项的价值, 因此该公司选择不进行调查便归还这笔钱更为合理。这一现象揭示了存在于磁带中的数据实际上已不具备可利用价值

十年以前,在关系型数据库(如Oracle、DB2等RMDB)的基础上建立起来的数据仓库系统已经成为管理和分析大规模数据的主要手段。其中一种具体的技术是基于关系型数据库(如Oracle、DB2)构建的数据仓库系统能够有效地存储并分析海量数据。这种技术通过有效的数据存储与分析能力,在管理TB级(每太Byte等于千GigaByte)规模的数据时展现出显著优势。对于当时的大多数企业而言,在这种情况下获取足够容量的数据已经不再困难。相比之下,在早期的技术中使用磁带作为存储媒介则显得相对落后。

近年来,在云计算与大数据时代背景下,数据收集量呈现出明显的增长态势,在短短的一年时间内几乎翻番。依据摩尔定律,在未来一段时间内单个处理器芯片组要在18至24个月内才能提升一个数量级。因此,在云计算环境下构建高效的数据存储系统必然是以大规模并行计算架构(MPP)为核心的。例如,在Hadoop生态系统中,数百至数千台普通个人计算机可以通过集群协作形成一个PB级的数据存储能力。相比同类型、同规格的传统单机式数据存储系统而言,其硬件成本显著降低。而且作为一项完全开源且免费提供的软件平台体系

Hadoop提供了经济实惠且海量的数据在线存储系统;然而,在Hadoop中进行实时数据分析(即OLAP)仍是一个亟待解决的关键问题。大数据不仅指其存储能力 ,还侧重于对其实时进行分析处理;若仅能实现数据的有效存储而不具备有效分析能力,则其价值将显著降低;博主将会在未来详细阐述大数据分析系统的最新动向(Big Data Analytics)。

全部评论 (0)

还没有任何评论哟~