spark

Spark集群硬件配置推荐

Spark集群硬件配置推荐计算与存储：大多数Spark作业可能需要从外部存储系统（例如：Cassandra、Hadoop文件系统或HBase）读取输入数据，所以要让Spark计算引擎尽可能靠近数

spark 集群硬件配置

作者：无锋剑

2020-07-14 16:03:02
Spark笔记整理（四）：Spark RDD算子实战

[TOC] Spark算子概述 RDD：弹性分布式数据集，是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作，一个RDD代表多个分区里的数据集。 RDD有两种操作算子： T

大数据 spark rdd

作者：xpleaf

2020-07-14 14:31:14
Spark bind on port 0. Attempting port 1 问题解决

Linux 下运行spark local bind on port 0. Attempting port 1 问题2016-11-01&nb

spark 大数据 hadoop

作者：去买大白兔

2020-07-14 12:22:19
Spark应用开发之一：Hadoop分析大数据

要学会和使用一门技术的时候，首先要弄清楚该技术出现的背景和要解决的问题。要说spark首先要了解海量数据的处理和Hadoop技术。一个系统在运行的过程中都会产生许多的日志数据，这些日志数据

spark hadoop 用

作者：mybabe0312

2020-07-14 08:52:14
Spark Streaming笔记整理（三）：DS的transformation与output操作

[TOC] DStream的各种transformation Transformation Meaning map(func) 对DStream中的各个元素进行func函数操作，然后返回一个新

大数据 spark streaming

作者：xpleaf

2020-07-14 00:43:01
动手搭建docker并在docker容器中建spark集群

本人亲自测试搭建,由于是初学一路搭建下来走了不少弯路。如有不对或更简洁的步骤请提出环境： win10上安装的虚拟机，虚拟机装的centos7，并liunx界面化(之前搭建一次在网和端口都可以telne

docker spark dock

作者：马仔里德尔

2020-07-13 14:12:40
spark下dataframe转为rdd格式

dataframe可以实现很多操作，但是存储到本地的时候，只能存 parquest格式需要存储源格式，需要转换为rdd类型将dataframe中的每一行都map成有逗号相连的string，就变为了一个

spark rdd dataframe

作者：王屯屯

2020-07-13 10:48:40
Spark学习之第一个程序打包、提交任务到集群

1、免秘钥登录配置： ssh-keygen cd .ssh touch authorized_keys cat id_rsa.pub > authorized_keys chmod 600 au

spark 程序打包 spar

作者：wangqiang_cyou

2020-07-13 01:10:20
Spark 调优之RDD持久化级别及kryo序列化性能测试

我们上篇文章中讲了，RDD的持久化是spark优化中必须掌握的，并且，在内存不足的情况下，我们可以将持久化类型选择为MEMORY_ONLY_SER，减少内存的占用，持久化更多的partition，并且

spark spar %d

作者：Stitch_x

2020-07-13 00:43:08
6.spark core之键值对操作

键值对RDD（pair RDD）是spark中许多操作所需要的常见数据类型，通常用来进行聚合计算。创建Pair RDD spark有多种方式可以创建pair RDD。比如：很多存储键值对的数

spark pair rdd 聚合

作者：菲立思教育

2020-07-12 23:33:29

< 上一页

下一页>

最新资讯

猜你喜欢

相关标签