Advertisement

HDFS 存储多目录及注意事项

阅读量:

一、HDFS 为什么要配置多目录存储

通常情况下

二、配置 HDFS 多目录存储

1.首先要看一下机器上的磁盘使用情况

注意,这里一共有 4 个目录可以提供存储空间,即:/、/hd3、/hd4、/hd2

为hdfs-site.xml文件中的配置添加多目录设置时,请特别注意新挂载磁盘的访问权限设置问题。

复制代码
 <property>

    
     <name>dfs.datanode.data.dir</name>
    
 <value>file:///${hadoop.tmp.dir}/dfs/data1,file:///hd2/dfs/data2,file:///hd3/dfs/data3,file:///hd4/dfs/data4</value>
    
 </property>

必须确保在配置hdfs-site.xml文件时正确设置文件字段value中的file属性。该字段对应的路径必须与磁盘上已存在的存储目录一致,请参考以下路径:/, /hd3, /hd4, /hd2。切勿随意添加不存在的目录位置,并避免随意猜测路径的做法,否则可能导致配置错误

3.增加磁盘后,保证每个目录数据均衡

  • 启动数据均衡任务:执行bin/start-balancer.sh脚本,并设置$threshold参数为10。此参数设定表明,在集群各节点之间磁盘空间利用率的最大允许差异不超过10%,可根据具体需求进行微调。
    • 停止数据均衡任务:通过运行bin/stop-balancer.sh脚本完成数据均衡操作。

三、注意事项总结

  • 在新挂载磁盘时处理访问权限问题时,默认设置为root权限,在实际操作中建议执行 chmod 777 ... 来赋予读取权限。
  • 在HDFS配置中调整hdfs-site.xml文件时,在value参数下的file字段应与当前系统中已存在的存储目录相对应。
  • 数据均衡功能不宜长时间保持开启状态。因为该功能会持续监控数据分配情况,并在发现不均衡时自动进行数据复制操作以平衡负载。

全部评论 (0)

还没有任何评论哟~