#

spar

  • Spark如何处理中文字符串

    最近工作中需要用spark对中文的字符提取,由于环境一直是英文的,发现打印出来是乱码。后经研究,需要做一个UTF-8的转换 大概如下: val data_file = 

    作者:kongtan
    2020-05-31 16:39:32
  • 三、spark--spark调度原理分析

    [TOC] 一、wordcount程序的执行过程 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkCo

    作者:隔壁小白
    2020-05-30 20:37:31
  • Spark 累加器实验

    以下代码用 Pyspark + IPython 完成统计日志空行的数量:读取日志,创建RDD:myrdd = sc.textFile("access.log")不使用累加器:In&

    作者:孟硕老师
    2020-05-30 18:09:48
  • spark的宽依赖窄依赖

    1 RDD的依赖关系及容错1.1 RDD的依赖关系RDD的依赖关系分为两种:窄依赖(Narrow Dependencies)与宽依赖(Wide Dependencies,源码中称为

    作者:半边书生123
    2020-05-30 16:00:35
  • spark-一些参数优化

    Spark程序优化所需要关注的几个关键点——最主要的是数据序列化和内存优化 spark 设置相关参数问题1:reduce task数目不合适解决方法:需根据实际情况调节默认配置,调整方式是修改参数sp

    作者:鲸落大叔
    2020-05-28 22:04:08
  • Spark SQL Join原理分析

    Spark SQL Join原理分析 1. Join问题综述: Join有inner,leftouter,rightouter,fullouter,leftsemi,leftanti六种类型,对单独版

    作者:xiao酒窝
    2020-05-28 04:52:18
  • spark-local 模式 提示 /tmp/hive hdfs 权限不够的问题

       spark版本为2.0        在spark 在 local 模式下启动,有时会报/tmp/hive hdf

    作者:去买大白兔
    2020-05-09 14:37:57
  • spark-2.4.2.tgz下载及编译

    51CTO没有目录功能么?好难受 ========有任何问题欢迎加企鹅讨论^-^1176738641 ======== 前期准备 文件夹创建 #用户目录下创建五个文件夹 app

    作者:Stitch_x
    2020-04-09 09:45:52
  • spark基础--rdd的生成

    使用parallelize创建RDD 也 可以使用makeRDD来创建RDD。通过查看源码可以发现,makeRDD执行的时候,也是在调用parallelize函数,二者无区别。通过 .textFile

    作者:xiao酒窝
    2020-04-07 12:11:15
  • spark(一):spark概览及逻辑执行图

    上图是spark框架概要图,spark一些重要概念先简要介绍一下: cluster manager:资源管理集群,比如standalone、yarn; application:用户编写的应用程序;

    作者:afeiye
    2020-04-03 14:56:16