#

spark

  • 大数据解决方案、介绍如何快速入门

    Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去

    作者:编程南风
    2020-08-01 10:52:15
  • 揭秘Spark应用性能调优

    引言:在多台机器上分布数据以及处理数据是Spark的核心能力,即我们所说的大规模的数据集处理。为了充分利用Spark特性,应该考虑一些调优技术。本文每一小节都是关于调优技术的,并给出了如何实现调优的必

    作者:博文视点
    2020-08-01 02:41:40
  • hadoop + spark+ hive 集群搭建(apache版本)

    0. 引言 hadoop 集群,初学者顺利将它搭起来,肯定要经过很多的坑。经过一个星期的折腾,我总算将集群正常跑起来了,所以,想将集群搭建的过程整理记录,分享出来,让大家作一个参考。由于搭建过程比较漫

    作者:hello_cjq
    2020-07-31 21:01:03
  • PyCharm搭建Spark开发环境

      1.安装好JDK  下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量:  新建系统变量JAVA_HOME,值为Java安装路径  新建系统变量CLASSPAT

    作者:ckllf
    2020-07-31 13:25:46
  • 第88课:Spark Streaming从Flume Pull数据案例实战及内幕源码解密

    本节课分成二部分讲解:    一、Spark Streaming on Pulling from Flume实战    二、Spark Streaming on

    作者:Spark_2016
    2020-07-31 10:26:03
  • Spark submit依赖包管理!

    Spark submit依赖包管理!使用spark-submit时,应用程序的jar包以及通过—jars选项包含的任意jar文件都会被自动传到集群中。spark-submit --class &nbs

    作者:moviebat
    2020-07-31 05:25:52
  • rdd没有reduceByKey的方法

    写Spark代码的时候经常发现rdd没有reduceByKey的方法,这个发生在spark1.2及其以前对版本,因为rdd本身不存在reduceByKey的方法,需要隐式转换成PairRDDFunct

    作者:happykuan
    2020-07-30 23:23:07
  • sparkSQL来完成对Hive的操作

    接下来做的操作是:(这个操作,将程序打成jar包到集群中运行)(1)编写spark程序在线上的hive中创建表并导入数据(2)查询hive中的数据(3)将查询结果保存到MySQL中代码: object

    作者:原生zzy
    2020-07-30 23:14:05
  • SPARK动态添加节点

    spark集群使用hadoop用户运行,集群机器如下:1DEV-HADOOP-01192.168.9.110Master2DEV-HADOOP-02192.168.9.111Worker3DEV-HA

    作者:谁伴我闯荡
    2020-07-30 03:25:53
  • spark调优

    /etc/sysconfig/network-scripts/ifcfg-eth0 service network restart 性能调优的王道是优化资源调度,或者给更多的资源

    作者:q595754733
    2020-07-30 02:40:29