Zookeeper
Hadoop
Hive
hiveserver2
Sqoop
Hbase
Spark
Flink
Kylin
kafka
oozie
map任务的输出先输出到环形缓冲区,环形缓冲区到阈值之后会生成spill文件,这个spill文件是有序的(map的第一次排序),等所有输出都结束之后,会将所有的spill文件进行reduce的个数进行合并,假设一个 map 任务可能生成4个文件(这 4 个文件是有序的,map阶段的排序),一共又10个 map 任务,生成40个文件 这 40 个文件分成4组,每组 10 个文件然后排序合并(...
笔者从事大数据相关的工作,说不清什么原因,就是想自己搞一个 hadoop 集群,本文来记录一下伪分布式下 hadoop 最精简的安装。 安装环境 ubuntu-20.04.3 LTS jdk-1.8.0_321 hadoop-2.10.1 配置 ssh 无密登陆 ssh-keygen -t rsa ssh-copy-id...
初始化 namenode hadoop namenode -format 创建目录 hadoop fs -mkdir /user/qzp 本地文件上传至 HDFS hadoop fs -put ~/test.txt /user/qzp/test.txt HDFS 文件下载至本地 hadoop fs -get /user/qzp/test.txt 检查文件是否存在 hadoo...
Spark安装指南
oozie安装指南
发现新版本的内容。