#

spark

  • Spark基础

    官方文档:spark.apache.org/docs/latest   Spark背景    MapReduce局限性:    1>) 繁杂            map/reduce (map

    作者:ycwyong
    2020-08-22 02:12:32
  • Spark SQL 测试JoinType中所有join的类型,便于理解

    准备 测试数据 trade订单号 卖家 买家 买家城市 1 A 小王 北京 2 B 小李 天津 3 A 小刘 北京 order所属订单号 买家 商品名称 价格

    作者:Stitch_x
    2020-08-20 14:56:17
  • spark: RDD与DataFrame之间的相互转换方法

    DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化。DataFrames可以从各种各样的源构建,例如:结构化数据文件,Hive

    作者:birdlove1987
    2020-08-19 13:20:52
  • sparkRDD 算子的创建和使用

    spark是大数据领域近几年比较火的编程开发语言。有众多的好处,比如速度快,基于内存式计算框架。不多说直接讲 spark的RDD 算子的使用。如果有spark环境搭建等问题,请自行查找资料。本文不做讲

    作者:ChinaUnicom110
    2020-08-18 22:03:15
  • spark源码系列之累加器实现机制及自定义累加器

    一,基本概念 累加器是Spark的一种变量,顾名思义该变量只能增加。有以下特点: 1,累加器只能在Driver端构建及并只能是Driver读取结果,Task只能累加。 2,累加器不会改变Spark L

    作者:鲸落大叔
    2020-08-17 09:31:05
  • PySpark进阶--深入剖析wordcount.py

    在本文中, 我们借由深入剖析wordcount.py, 来揭开Spark内部各种概念的面纱。我们再次回顾wordcount.py代码来回答如下问题对于大多数语言的Hello Word示例,都有main

    作者:雷顿学院
    2020-08-16 22:04:57
  • Spark能做什么?Spark应用领域

    Spark能做什么?Spark应用领域Spark是大数据技术中数据计算处理的王者,能够一次处理PB级的数据,分布在数千个协作的物理或虚拟服务器集群中,它有一套广泛的开发者库和API,并且支持Java,

    作者:mo默芯
    2020-08-16 17:52:24
  • spark-1.6.1安装编译&&sparksql操作hive

    maven:3.3.9 jdk:java version "1.8.0_51"spark:spark-1.6.1.tgzscala:2.11.7如果scala版本是2.11.x,执行如下脚本

    作者:xiaobin0303
    2020-08-15 09:45:27
  • 干货:HBase实践之读性能优化策略

    任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。总结

    作者:Hjiangxue
    2020-08-12 20:25:53
  • spark内核架构解密(13)

     本期主要介绍下spark的内核架构。spark的应用程序总体来说,主要包括两部分,一部分是Driver,其包括了SparkConf和SparkContext,另一部分就是Executor,

    作者:lct19910210
    2020-08-11 22:32:16