#

spark

  • 阿里重磅开源 Blink:为什么我们等了这么久?

    今年,实时流计算技术开始步入主流,各大厂都在不遗余力地试用新的流计算框架,实时流计算引擎和 API 诸如 Spark Streaming、Kafka Streaming、Beam 和 Flink 持续

    作者:首席数据师
    2020-05-31 00:01:32
  • 8.spark core之读写数据

      spark支持多种数据源,从总体来分分为两大部分:文件系统和数据库。 文件系统   文件系统主要有本地文件系统、Amazon S3、HDFS等。   文件系统中存储的文件有多种存储格式。spark

    作者:菲立思教育
    2020-05-30 23:56:46
  • Spark 累加器实验

    以下代码用 Pyspark + IPython 完成统计日志空行的数量:读取日志,创建RDD:myrdd = sc.textFile("access.log")不使用累加器:In&

    作者:孟硕老师
    2020-05-30 18:09:48
  • 向spark集群提交消费kafka应用时kafka鉴权配置问题

    提交消费kafka应用里面包含sasl.jaas.config,通常需要配置文件。但是打成jar包后的应用,通过classload读不到jar包中配置文件。需要初始化kafka时增加propertie

    作者:zbzbzb022
    2020-05-30 14:55:12
  • hadoop和spark的区别介绍

    学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下看看

    作者:adnb34g
    2020-05-30 10:39:16
  • Spark源码研读-散篇记录(二):Spark内置RPC框架之TransportConf

    1 Spark版本 Spark 2.1.0。 2 说明 去年在网易之初,已经开发了一个完整的RPC框架,其中使用的核心技术也是Netty,所以当看到Spark的RPC框架时,并不觉得太陌生,关于个人开

    作者:xpleaf
    2020-05-30 09:13:46
  • sparkSQL的整体实现框架

    这篇博客的目的是让那些初次接触sparkSQL框架的童鞋们,希望他们对sparkSQL整体框架有一个大致的了解,降低他们进入spark世界的门槛,避免他们在刚刚接触sparkSQL时,不知所措,不知道

    作者:hffzkl
    2020-05-28 16:10:46
  • Spark SQL Join原理分析

    Spark SQL Join原理分析 1. Join问题综述: Join有inner,leftouter,rightouter,fullouter,leftsemi,leftanti六种类型,对单独版

    作者:xiao酒窝
    2020-05-28 04:52:18
  • RDD持久化性能测试步骤

    1 前言以Java/Scala代码通过设置开始时间和结束时间的方式来进行统计测试,其实不够准确,最好的方式就是把Spark应用部署到集群中,通过观察Spark UI的统计信息来获取时间,这样会更准备,

    作者:鸽子
    2020-05-25 21:53:39
  • spark-sql的进阶案例

    (1)骨灰级案例--UDTF求wordcount 数据格式:每一行都是字符串并且以空格分开。代码实现: object SparkSqlTest { def main(args: Array[S

    作者:原生zzy
    2020-05-25 06:38:17