[TOC] 加载保存功能 数据加载(json文件、jdbc)与保存(json、jdbc) 测试代码如下: package cn.xpleaf.bigdata.spark.scala.sql.p1
本期内容技术实现解析实现实战SparkStreaming的DStream提供了一个dstream.foreachRDD方法,该方法是一个功能强大的原始的API,它允许将数据发送到外部系统。然而,重要的
在MapReduce中shuffle和Spark的shuffle的过程有一些区别。这里做一下具体的介绍。Mapreduce的shuffle过程图解Spark shuffle过程图解注意:spark s
blockManager Driver和executor上分别都会启动blockManager,其中driver上拥有所有executor上的blockManager的引用;所有executor上
前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h
spark是Apache开源社区的一个分布式计算引擎,基于内存计算,所以速度要快于hadoop.下载地址spark.apache.org安装复制一台单独的虚拟机,名c修改其ip,192.168.56.
甲方和乙方的数据科学家都要用各种界面化工具来做数据科学家的工作,所以,我们从zeppelin搞到了jupyterlab,再从lab整到了hub。对于甲方数据科学家的编程水平,实在是无法恭维却还要硬着头
之前项目中用到了累加器,这里做个小结。
Spark 官方网站使用如下简洁的语言描述了Spark我们可以从中提取出如下信息:Spark是一个引擎快速通用Spark可以用来处理数据数据是大规模的Spark本身并不提供数据存储能力,它只是一个计算
51CTO没有目录功能么?好难受 ========有任何问题欢迎加企鹅讨论^-^1176738641 ======== 前期准备 文件夹创建 #用户目录下创建五个文件夹 app