本期内容: 1、updateStateByKey解密 2、mapWithState解密背景:整个Spark Streaming是按照Bat
Prime_DSC_MentionCalcSpark系统简介实现功能 : 根据条件(siteId, startTime, endTime, campaignId, folder)从HBase数据源中读
==> 在内存中缓存数据 ---> 性能调优主要是将数据放入内存中操作 ---> 
看了下es-hadoop插件的源码: 发现ES导入数据重试情况的发生,除了在es.batch.write.retry.policy参数默认开启且es-hadoop插件向ES集群发送bulk写入请求接受
一、RDD的依赖关系 RDD的依赖关系分为两类:宽依赖和窄依赖。我们可以这样认为: (1)窄依赖:每个parent RDD 的 partition 最多被 child RDD 的一个partitio
项目GitHub地址:https://github.com/heibaiying/BigData-Notes 前 言 大数据技术栈思维导图 大数据常用软件安装指南 一、Had
Spark 中文分词 一、导入需要的分词包 import org.ansj.domain.Term import org.ansj.recognition.impl.StopRecognition i
spark-master 高可用测试: 集群介绍 [spark-m] 172.20.101.157 sparkname=master01 172.20.101.164 sparkname=maste
记载我的spark源码阅读火花知识点:1、seq:列表,适合存有序重复数据,进行快速插入/删除元素等场景,Set是集合,适合存无序非重复数据,进行快速查找海量元素等场景memoryKeys
1.选取三台服务器(CentOS系统64位) 114.55.246.88 主节点 114.55.246.77 从节点 114.55.246.93 从节点