[TOC] spark单机安装部署 1.安装scala 解压:tar -zxvf soft/scala-2.10.5.tgz -C app/ 重命名:mv scala-2.10.5/ scala 配
hu本期内容: 1、Kafka解密背景: 目前No Receivers在企业中使用的越来越多,No Receivers具有更强的控制度,语义一致性。No Recei
RDD源码中隐式转换 def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = w
岁月如白驹过隙,认真想了想过去的四个月。其实压力真的挺大的,上班没事干时偷偷学,加班学,下班了回去继续学,有很长一段时间学到了半夜两点多,第二天七
如今微服务架构讨论的如火如荼。但在企业架构里除了大量的OLTP交易外,还存在海量的批处理交易。在诸如银行的金融机构中,每天有3-4万笔的批处理作业需要处理。针对OLTP,业界有大量的开源框架、优秀的架
1、partition数目 spark的输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。 当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputF
学习spark任何技术之前,请先正确理解spark,可以参考:正确理解spark以下对RDD的三种创建方式、单类型RDD基本的transformation api、采样Api以及pipe操作进行了ja
为什么需要sequenceId? HBase数据在写入的时候首先追加写入HLog,再写入Memstore,也就是说一份数据会以两种不同的形式存在于两个地方。那两个地方的同一份数据需不需要一种机制将两者
1、安装依赖包yum install rsync gcc openldap-develpython-ldapmysql-develpython-devel python-setuptools pyth
电商大数据项目-推荐系统实战(一)环境搭建以及日志,人口,商品分析https://blog.51cto.com/6989066/2325073电商大数据项目-推荐系统实战之推荐算法https://bl