Flume和Sqoop是Hadoop数据集成和收集系统,两者的定位不一样,下面根据个人的经验与理解和大家做一个介绍:Flume由cloudera开发出来,有两大产品:Flume-og和Flume-ng
Apache Hadoop 单节点上的安装配置 下面将演示快速完成在单节点上的 Hadoop 安装与配置,以便你对 Hadoop HDFS 和 MapReduce 框架有所体会。 先决条件 支持平
hive独立模式安装--jared该部署笔记是在2014年年初记录,现在放在51cto上。有关hadoop基础环境的搭建请参考如下链接:http://ganlanqing.blog.51cto.com
一、初识Spark和Hadoop Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark
1)mkdir input2)cd intput3)echo “hello word” > file1.txt4)echo “hello Hadoop” 
一分钟内部署jupyterlab + pyspark2 + hive,前提是spark2是可以在yarn上正常运行的。最近甲方打着滚的向乙方要求装 jupyterlab,然后还要用spark2,所以,
hadoop环境搭建单机(cdh版本)1.下载安装包 下载地址http://hadoop.apache.org/下载hadoop-2.6.0-cdh6.12.22.安装tar -zxvf
1、NameNode---FSNamesystem:------FSDirectory 目录树---------INodeDirectory节点目录------------List
HA背景对于HDFS、YARN的每个角色都是一个进程,比如HDFS:NN/SNN/DN 老大是NNYARN:RM/NM 老大是RM对于上面,都会存在单点故障的问题,假如老大NN或者RM挂了,那
Hadoop HDFS Balancer Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时