#

spark

  • spark-shell开发wordcount程序

    编辑要处理的文件 vim spark.txt 内容如下上传文件到hdfs中 hadoop fs -put /spark.txt / 查看 hadoop fs -ls / 进入spark

    作者:九月朦胧
    2020-06-03 16:05:32
  • Spark 参数传递问题解析

    一 . sparkconf  这个需要在代码里面写,在代码里面写了,那么就不能更改了,即便你在外面传递了一个参数,最终也会在代码里面生效,它的优先级最高二 . sparksubmit / s

    作者:ChinaUnicom110
    2020-06-03 12:05:28
  • 【科普】一篇文章让你知晓Spark

    说起大数据的工具,最广为人知的就是Hadoop和Spark了,Hadoop在上一篇文章中已经有所介绍,这期小编就为大家介绍后起之秀Spark。Spark是一个运算速度快如闪电的Apache项目,研发人

    作者:小程序员一
    2020-06-03 07:45:42
  • apache的GenericObjectPool对象池使用经历!

    今天,对照晚上的kafka+Spark streaming+Redis实时数据分析系统实战(https://www.iteblog.com/archives/1378主要目的是整合kafka和Spar

    作者:moviebat
    2020-06-02 13:23:08
  • spark-sql 自定义函数

    (1)自定义UDF object SparkSqlTest { def main(args: Array[String]): Unit = { //屏蔽多余的日志

    作者:原生zzy
    2020-06-02 13:21:57
  • 生产常用Spark累加器剖析之四

    生产常用Spark累加器剖析之四 现象描述 val acc = sc.accumulator(0, “Error Accumulator”) val data = sc.parallelize(1 t

    作者:Stitch_x
    2020-06-01 11:48:50
  • spark(四):shuffle

    shuflle write 上图有 4 个 ShuffleMapTask 要在同一个 worker node 上运行,CPU core 数为 2,可以同时运行两个 task。 在一个 core 上

    作者:afeiye
    2020-06-01 10:49:05
  • Spark 分析网站排名热度

    需求:/ 解决是一个各个子模块内的热度排名--》 排名得用sortBy ---》 (可能就是简单的排序,或者是二次排序) ---》// 前面有一个wordCount---》 算出次数出来  

    作者:ChinaUnicom110
    2020-06-01 04:57:27
  • Spark如何处理中文字符串

    最近工作中需要用spark对中文的字符提取,由于环境一直是英文的,发现打印出来是乱码。后经研究,需要做一个UTF-8的转换 大概如下: val data_file = 

    作者:kongtan
    2020-05-31 16:39:32
  • spark2.x由浅入深深到底系列六之RDD api reduceByKey与foldByKey对比

    学习spark任何知识点之前,最好先正确理解spark,可以参考:正确理解spark一、序言    对于key-value类型RDD的两个api, r

    作者:tangweiqun
    2020-05-31 01:54:26