自从公司使用大数据产品之后,就很少碰开源的东西了,集群出问题也是跟研发沟通,前些天有朋友问我,怎么能把hive底层的引擎换成spark,我想了想,是不是将hive的数据库共享给spark然后用sp
一、概要 公司近期Storm清洗程序那边反应HDFS会出现偶发性的异常导致数据写不进HDFS,另外一些Spark作业在大规模往HDFS灌数据时客户端会出现各种“all datanode b
1、spark sql的概述 (1)spark sql的介绍: Spark SQL 是 Spark 用来处理结构化数据(结构化数据可以来自外部结构化数据源也可以通 过 RDD
学习任何spark知识点之前请先正确理解spark,可以参考:正确理解spark本文详细介绍了spark key-value类型的rdd java api一、key-value类型的RDD的创建方式1
上一篇博文已经介绍了搭建scala的开发环境,现在进入正题。如何开发我们的第一个spark程序。下载spark安装包,下载地址http://spark.apache.org/downloads.htm
1. Spark提交任务./spark-submit --class "com.prime.dsc.mention.main.WordCountForSpark" --master spark://D
Spark机器学习Pipelines中的主要概念MLlib 提供的API可以通过Pipelines将多个复杂的机器学习算法结合成单个pipeline或者单个工作流。这个概念和scikit-l
在提交spark作业的时候,spark出现报错 ./spark-shell 19/05/14 05:37:40 WARN util.NativeCodeLoader: Unable to load
学习任何的spark技术之前,请先正确理解spark,可以参考:正确理解spark以下是用spark RDD java api实现从关系型数据库中读取数据,这里使用的是derby本地数据库,当然可以是
搞Java开发的同学,目标都想成为Java架构师;搞大数据开发的同学,目标都想成为大数据架构师。 成为大数据架构师有什么好处呢? 归其原因: 1.技术上能达到一定的高度,被公司认可,也被社会认可,有成