2024年最新大数据技术之集群数据迁移,大数据开发面试



包括专为初学者提供的零基础学习材料以及专为3年以上经验者设计的深入学习课程包,在数据领域涵盖了超过95%的知识点,并且系统性非常强
因为文件数量较多,在此仅作为参考提供了一些目录截屏。完整套件包括大厂面经等资源以及学习笔记等配套材料,并包含源码讲义等实用资源。此外还包括实战项目以及详细的讲解视频,并且后续将持续更新

[root@hadoop101 ~]# scp /etc/hosts hadoop102:/etc/
[root@hadoop101 ~]# scp /etc/hosts hadoop103:/etc/
由于所有集群均采用HA架构,并且为了实现分布式复制功能(distcp),需要在Apache集群上配置CDH组件,并确保其nameservice能够被正确识别。
[root@hadoop101 hadoop]# vim /opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml
dfs.nameservices
mycluster,nameservice1
dfs.internal.nameservices
mycluster
dfs.ha.namenodes.mycluster
nn1,nn2,nn3
dfs.namenode.rpc-address.mycluster.nn1
hadoop101:8020
dfs.namenode.rpc-address.mycluster.nn2
hadoop102:8020
dfs.namenode.rpc-address.mycluster.nn3
hadoop103:8020
dfs.ha.namenodes.nameservice1
namenode30,namenode37
dfs.namenode.rpc-address.nameservice1.namenode30
hadoop104:8020
dfs.namenode.rpc-address.nameservice1.namenode37
hadoop106:8020
dfs.namenode.http-address.nameservice1.namenode30
hadoop104:9870
dfs.namenode.http-address.nameservice1.namenode37
hadoop106:9870
dfs.client.failover.proxy.provider.nameservice1
ParameterizedFailure-OverProxyProvider
dfs.namenode.http-address.mycluster.nn1
hadoop101:9870
dfs.namenode.http-address.mycluster.nn2
hadoop102:9870
dfs.namenode.http-address.mycluster.nn3
hadoop103:9870
dfs.client.failover.proxy.provider.mycluster
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredProxyOnFailureProvider
修改CDH hosts
[root@hadoop101 ~]# vim /etc/hosts

在分发过程中, 这些hadoop104,hadoop105,hadoop106分别对应于apache的hadoop101,hadoop102,hadoop103。
[root@hadoop101 ~]# scp /etc/hosts hadoop102:/etc/
[root@hadoop101 ~]# scp /etc/hosts hadoop103:/etc/
同样修改CDH集群配置,在所有hdfs-site.xml文件里修改配置

dfs.nameservices
mycluster,nameservice1
dfs.internal.nameservices
nameservice1
dfs.ha.namenodes.mycluster
nn1,nn2,nn3
dfs.namenode.rpc-address.mycluster.nn1
hadoop104:8020
dfs.namenode.rpc-address.mycluster.nn2
hadoop105:8020
dfs.namenode.rpc-address.mycluster.nn3
hadoop106:8020
dfs.namenode.http-address.mycluster.nn1
hadoop104:9870
dfs.namenode.http-address.mycluster.nn2
hadoop105:9870
dfs.namenode.http-address.mycluster.nn3
hadoop106:9870
dfs.client.failover.proxy.provider.mycluster
High-Availability Failover Proxy Provider for HDFS NameNode System Configuration and Management
特别提醒:重要提示:因为我的Hadoop集群和CDH集群共有三台(分别是hadoop-1.0.2、hadoop-1.0.3和hadoop-2.0.4),因此需要禁用域名权限访问,并通过IP地址进行远程连接。
CDH把钩去了

apache设置为false

利用Hadoop的distcp命令完成数据迁移,在设置-hadoop.mapred.job.queue.name参数时,默认使用的是default队列。如果集群配置均完成,则该命令可以在CDH以及Apache两种环境中运行。
[root@hadoop101 hadoop]# hadoop distcp -Dmapred.job.queue.name=hive webhdfs://mycluster:9070/user/hive/warehouse/dwd.db/ hdfs://nameservice1/user/hive/warehouse

会启动一个mr任务,正在迁移

查看cdh 9870 http地址





不仅有专门针对初学者提供的零基础学习材料,还有经过精心设计的专业进阶课程供有3年以上工作经验的专业人士深入学习与提升。这些课程系统全面地覆盖了95%以上的相关大数据知识点,并真正构建了一个完整的知识体系。
考虑到文件数量较多,在此仅作为参考提供一套完整的资料集:包含了以下几大类资料:包括但不限于大厂面经、学习笔记、源码讲义、实战项目、大纲路线以及讲解视频。后续也会不断补充和完善。
)]
[外链图片转存中…(img-FYnwBcVm-1714917951123)]
无论是针对小白设计的入门级学习材料还是为资深学员提供的系统性深入的学习与提升课程,在这里都能找到相应的学习资源,并覆盖了绝大多数的大数据知识点。真正的体系化构建让整个学习过程更加完善!
因为文件数量较多,在本次展示中仅对部分目录进行了截图展示。本套装包括大厂面经、学习笔记、源码讲义、实战项目、大纲路线以及讲解视频等内容,并且会不断更新和完善。
