Advertisement

HDFS常见功能及应用场景介绍

阅读量:

HDFS常见功能及应用场景介绍

分布式存储的兴起于互联网的发展紧密关联,在这一背景下,互联网公司基于其大数据和轻资产性质,一般采用大规模分布式存储系统。

不同于传统高性能计算设备(如高端服务器、专用存储器和处理器),互联网公司的分布式存储架构主要由大量低配置且价格合理的普通PC组成)。随着互联网业务规模不断扩大和技术进步推动下,在线应用需求持续攀升使得单一节点资源无法满足现有性能需求(传统方案通常采用纵向扩展策略),而现代分布式架构则更加注重通过横向扩展来提升整体处理能力)。这种架构特别强调资源可以通过增加节点来进行弹性扩展以应对负载压力的增长

另外,在服务器数量不断增加的情况下,则需要通过软件层面的自动负载均衡技术来保证系统的处理能力能够按比例增长。当这种情况发生时(即系统面临高负载压力时),分布式存储成为大多数企业为了提升资源利用率和系统性能而自然的选择。

当前市场上HDFS分布式存储系统的讨论热度非常高,并且不同类型的组织普遍选择部署这类技术。例如:这类技术能够解决企业面临的问题

在这里插入图片描述

(1)单机处理能力的升级成本效益逐渐下降;
企业认识到为了性能提升采取升级硬件配置而非垂直扩展的方式不再经济。

(2)单机处理能力存在局限性; 单颗处理器自身具备性能限制,在即便追加计算能力也无法完全弥补这一缺陷的情况下也难以达到预期效果;

(3)对于系统的稳定性和可用性而言;
若选择单机模式运行,在当前机器正常的情况下正常运转中;
一旦出现问题,则导致系统无法继续使用。
当然可以选择实施容灾备份方案;

(4)云计算中的存储技术的发展与应用;
云计算中的存储技术与大数据分析是基于分布式架构的应用系统。随着移动终端对计算能力和存储空间的需求日益增长,在线文件存储(如网盘)、相册管理等云服务应用迅速兴起。云计算的核心技术在于构建高效的后端大规模分布式存储系统。而大数据则更进一步,在于不仅要实现海量数据的存储管理,还需借助合适的计算框架或工具对数据进行深入挖掘与价值提取。若无有效的分布式存储支撑,则无法开展大规模的数据分析工作。

HDFS的功能如下:
1)采用分布式存储架构来实现数据处理。
2)通过提供一个命令行界面实现与HDFS的交互。
3) namenode 和 datanode 内置服务器能够方便地让用户检查集群状态。
4)支持对文件系统的数据进行流式处理访问。
5)提供文件访问权限并进行身份认证。

HDFS的架构
下面给出的是 Hadoop 文件系统的体系结构

在这里插入图片描述

HDFS的核心组件包括NameNode和DataNode两种类型的产品硬件架构设计方案。
NameNode是一种基于GNU/Linux操作系统构建的产品硬件设备,在产品网络中提供服务支持功能。
NameNode作为主服务器角色运行,并承担以下职责:

  1. 负责管理文件系统的命名空间分配
  2. 协调客户端对文件系统的访问权限设置
  3. 完成一系列与文件系统相关的操作任务(如重命名、关闭、打开等)
    在HDFS集群中,
    DataNode是一种基于GNU/Linux操作系统架构的数据存储节点设备。
    每台DataNode都对应集群中的一个计算节点,
    主要负责以下功能:
  4. 应对集群中所有节点提交的数据读写请求指令
  5. 根据namenod的信息进行块创建、删除以及复制等基本数据存储操作

3.Block
常见的是将用户数据存储在HDFS文件中。在HDFS系统中,每个文件会被分割成一个或多个片段并存放在单个数据节点上。这些片段被定义为block。换句话说,在HDFS系统中,默认情况下可读取或写入的最小单位数据量被定义为block大小(Block)。默认设置为64MB,可以根据HDFS的配置进行调整以满足不同的需求

在这里插入图片描述

HDFS 的特点如下:

  1. 故障检测与恢复能力 – 由于 HDFS 装备了大量的产品级硬件组件且容易出现故障, 因此必须具备快速自动检测并及时有效的恢复机制。
  2. 数据集管理 – 每个 HDFS 群组都配备数百个节点用于管理复杂而庞大的应用程序的数据集合。
  3. 数据处理效率 – 当计算作业靠近数据存储位置时, 在处理大规模的数据集合时能够有效减少网络带宽消耗并提升处理吞吐量

以上就是HDFS常见功能及应用场景介绍,更多HDFS相关信息敬请关注

全部评论 (0)

还没有任何评论哟~