HDFS 存储多目录及注意事项
发布时间
阅读量:
阅读量
一、HDFS 为什么要配置多目录存储
通常情况下
二、配置 HDFS 多目录存储
1.首先要看一下机器上的磁盘使用情况

注意,这里一共有 4 个目录可以提供存储空间,即:/、/hd3、/hd4、/hd2
为hdfs-site.xml文件中的配置添加多目录设置时,请特别注意新挂载磁盘的访问权限设置问题。
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///${hadoop.tmp.dir}/dfs/data1,file:///hd2/dfs/data2,file:///hd3/dfs/data3,file:///hd4/dfs/data4</value>
</property>
必须确保在配置hdfs-site.xml文件时正确设置文件字段value中的file属性。该字段对应的路径必须与磁盘上已存在的存储目录一致,请参考以下路径:/, /hd3, /hd4, /hd2。切勿随意添加不存在的目录位置,并避免随意猜测路径的做法,否则可能导致配置错误
3.增加磁盘后,保证每个目录数据均衡
- 启动数据均衡任务:执行bin/start-balancer.sh脚本,并设置$threshold参数为10。此参数设定表明,在集群各节点之间磁盘空间利用率的最大允许差异不超过10%,可根据具体需求进行微调。
- 停止数据均衡任务:通过运行bin/stop-balancer.sh脚本完成数据均衡操作。
三、注意事项总结
- 在新挂载磁盘时处理访问权限问题时,默认设置为root权限,在实际操作中建议执行 chmod 777 ... 来赋予读取权限。
- 在HDFS配置中调整hdfs-site.xml文件时,在value参数下的file字段应与当前系统中已存在的存储目录相对应。
- 数据均衡功能不宜长时间保持开启状态。因为该功能会持续监控数据分配情况,并在发现不均衡时自动进行数据复制操作以平衡负载。
全部评论 (0)
还没有任何评论哟~
