#

spark

  • Spark 生态系统组件

    摘要: 随着大数据技术的发展,实时流计算、机器学习、图计算等领域成为较热的研究方向,而Spark作为大数据处理的“利器”有着较为成熟的生态圈,能够一站式解决类似场景的问题。那你知道Spark

    作者:博文视点
    2020-07-06 13:15:36
  • spark调优(二):调节并行度

    并行度:其实就是指的是,Spark作业中,各个stage的task数量,也就代表了Spark作业的在各个阶段(stage)的并行度。如果不调节并行度,导致并行度过低,会怎么样?假设,现在已经在spar

    作者:jackeychen100
    2020-07-06 12:48:55
  • SparkStreaming整合kafka的补充

    (1)SparkStreaming 整合 kafka 两种方式对比 Direct 方式的优缺点分析 : 优点: 简化并行(Simplified Parallelism)。不现需要创建以及 unio

    作者:原生zzy
    2020-07-06 09:43:00
  • (版本定制)第4课:Spark Streaming事务处理彻底详解

    本篇文章主要从二个方面展开:一、Exactly Once二、输出不重复事务:银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A

    作者:Spark_2016
    2020-07-06 09:15:40
  • Spark Python操作命令三

    12 数据格式 [[u'3', u'5'], [u'4', u'6'], [u'4', u'5'], [u'4', u'2']] 拆分或截取的原始数据, 可以通过 map 中的 x[0],

    作者:zjy1002261870
    2020-07-05 22:38:10
  • Spark和Hadoop大决战

    Spark作为数据处理的核心应用,有着重要的作用和地位,那么spark能不能取代Hadoop而存在呢?Spark只是分布式计算平台,而hadoop已经是分布式计算、存储、管理的生态系统。与Spark相

    作者:caosheng03
    2020-07-05 19:54:39
  • Spark 系列(二)—— Spark 开发环境搭建

    一、安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解

    作者:heibaiying
    2020-07-05 17:40:25
  • SPARK大数据计算BUG处理:

    大数据计算BUG处理:程序修改前资源情况:Driver : 1台Worker : 2台程序提交申请内存资源 : 1G内存内存分配情况 : 1. 20%用于程序运行2. 20%用于Shuffl

    作者:谁伴我闯荡
    2020-07-05 09:18:23
  • Spark1.5.1学习笔记(二)IDE开发环境配置

    鲁春利的工作笔记,谁说程序员不能有文艺范?

    作者:luchunli1985
    2020-07-05 09:06:10
  • Spark图处理GraphX学习笔记!

    Spark图处理GraphX学习笔记!一、什么是GraphX?Graphx利用了Spark这样了一个并行处理框架来实现了图上的一些可并行化执行的算法。算法是否能够并行化与Spark本身无关算法并行化与

    作者:moviebat
    2020-07-04 19:34:06