从storm到spark streaming,再到flink,流式计算得到长足发展, 依托于spark平台的spark streaming走出了一条自己的路,其借鉴了spark批处理架构,通过批处理方
1、软件环境 RHEL6 jdk-8u45hadoop-2.8.1.tar.gz sshxx.xx.xx.xx ip地址 hadoop1xx.xx.xx.xx ip地址 hadoop2xx.xx.
一提到大数据处理,相信很多人第一时间想到的是 Hadoop MapReduce。没错,Hadoop MapReduce 为大数据处理技术奠定了基础。近年来,随着 Spark 的发展,越来越多的声音提到
目前区块链行业在降温,但大数据行业依旧火爆,很多人都对大数据充满了兴趣,但其中有大部分人都是以前没有接触过计算机技术的,对编程语言也不太了解,那是不是这部分零基础的朋友就学不好大数据呢?答案当然是否定
对软件行业的理解可以用需求、架构、工具和算法四个词对软件行业做一个整体的概括。需求是推动软件行业发展的源动力,需求的变化带来了架构、工具和算法的进步。架构这个层面上,主要涉及的是一种解决问题的思想和策
信息爆炸这个词,想必对于大家来说,已经没有多少新鲜感了,而信息爆炸所引发的大数据,却日益成为了企业的宠儿,越来越多的企业也逐步认识到了大数据的重要性,但是大部分企业往往只看表面,盲目跟风,大量收集数据
数据分析过程包括:数据建模、大数据处理、告警与触发、报告等。 从数据处理的实时性要求角度看,大数据分析可以分为批量和流式两种数据处理方式。批量处理主要适合于实时性要求不高的分析型应用,而流式处理主要适
Hadoop3.x概述 Hadoop3.x中增强了很多特性,并且也改进了很多地方,是Hadoop2.x的升级(这不是废话吗)。需要注意的是,在Hadoop3.x中,不能再使用jdk1.7,而是需要升级
Avro schema作为大数据一个项目,它可以算得上精品中的上等品,让学习或者想要学习大数据的人为之倾倒,不断挖掘学习,那么它究竟有着怎样的神秘面纱