大数据系列之并行计算引擎Spark介绍

 

Spark:

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

Spark的性能特点:

1.更快的速度:内存计算下,Spark 比 Hadoop 快100倍。

  • 内存计算引擎,提供Cache机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的I/O开销
  • DAG引擎,减少多次计算之间中间结果写到HDFS的开销;
  • 使用多线程池模型来减少task启动开销,shuffle过程中避免不必要的sort操作已经减少磁盘I/O操作;

2.易用性:

  • Spark 提供了80多个高级运算符。
  • 提供了丰富的API,支持JAVA,Scala,Python和R四种语言;
  • 代码量比MapReduce少2~5倍;

3.通用性:Spark 提供了大量的库,包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。 开发者可以在同一个应用程序中无缝组合使用这些库。

4.支持多种资源管理器:Spark 支持 Hadoop YARN,Apache Mesos,及其自带的独立集群管理器

Spark基本原理:

Spark Streaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+),虽然比不上专门的流式数据处理软件,也可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Spark背景:

1.MapReduce局限性:

1.仅支持Map和Reduce两种操作;

2.处理效率低效;不适合迭代计算(如机器学习、图计算等),交互式处理(数据挖掘)和流失处理(日志分析)

3.Map中间结果需要写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据;

4.任务调度和启动开销大;

5.无法充分利用内存;(与MR产生时代有关,MR出现时内存价格比较高,采用磁盘存储代价小)

6.Map端和Reduce端均需要排序;

7.MapReduce编程不够灵活。(比较Scala函数式编程而言)

8.框架多样化[采用一种框架技术(Spark)同时实现批处理、流式计算、交互式计算]:

  • 批处理:MapReduce、Hive、Pig;
  • 流式计算:Storm
  • 交互式计算:Impala

Spark核心概念:

  • RDD:Resilient Distributed Datasets,弹性分布式数据集

  • 分布在集群中的只读对象集合(由多个Partition 构成);
  • 可以存储在磁盘或内存中(多种存储级别);
  • 通过并行“转换”操作构造;
  • 失效后自动重构;
  • RDD基本操作(operator)

Transformation具体内容

  • map(func) :返回一个新的分布式数据集,由每个原元素经过func函数转换后组成
  • filter(func) : 返回一个新的数据集,由经过func函数后返回值为true的原元素组成

*flatMap(func) : 类似于map,但是每一个输入元素,会被映射为0到多个输出元素(因此,func函数的返回值是一个Seq,而不是单一元素)

  • flatMap(func) : 类似于map,但是每一个输入元素,会被映射为0到多个输出元素(因此,func函数的返回值是一个Seq,而不是单一元素)
  • sample(withReplacement, frac, seed) :

根据给定的随机种子seed,随机抽样出数量为frac的数据。

  • union(otherDataset) : 返回一个新的数据集,由原数据集和参数联合而成
  • groupByKey([numTasks]) :

在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集。注意:默认情况下,使用8个并行任务进行分组,你可以传入numTask可选参数,根据数据量设置不同数目的Task

  • reduceByKey(func, [numTasks]) : 在一个(K,V)对的数据集上使用,返回一个(K,V)对的数据集,key相同的值,都被使用指定的reduce函数聚合到一起。和groupbykey类似,任务的个数是可以通过第二个可选参数来配置的。
  • join(otherDataset, [numTasks]) :

在类型为(K,V)和(K,W)类型的数据集上调用,返回一个(K,(V,W))对,每个key中的所有元素都在一起的数据集

  • groupWith(otherDataset, [numTasks]) : 在类型为(K,V)和(K,W)类型的数据集上调用,返回一个数据集,组成元素为(K, Seq[V], Seq[W]) Tuples。这个操作在其它框架,称为CoGroup

cartesian(otherDataset) : 笛卡尔积。但在数据集T和U上调用时,返回一个(T,U)对的数据集,所有元素交互进行笛卡尔积。

  • flatMap(func) :

类似于map,但是每一个输入元素,会被映射为0到多个输出元素(因此,func函数的返回值是一个Seq,而不是单一元素)

Actions具体内容

  • reduce(func) : 通过函数func聚集数据集中的所有元素。Func函数接受2个参数,返回一个值。这个函数必须是关联性的,确保可以被正确的并发执行
  • collect() : 在Driver的程序中,以数组的形式,返回数据集的所有元素。这通常会在使用filter或者其它操作后,返回一个足够小的数据子集再使用,直接将整个RDD集Collect返回,很可能会让Driver程序OOM
  • count() : 返回数据集的元素个数
  • take(n) : 返回一个数组,由数据集的前n个元素组成。注意,这个操作目前并非在多个节点上,并行执行,而是Driver程序所在机器,单机计算所有的元素(Gateway的内存压力会增大,需要谨慎使用)
  • first() : 返回数据集的第一个元素(类似于take(1))

saveAsTextFile(path) : 将数据集的元素,以textfile的形式,保存到本地文件系统,hdfs或者任何其它hadoop支持的文件系统。Spark将会调用每个元素的toString方法,并将它转换为文件中的一行文本

  • saveAsSequenceFile(path) : 将数据集的元素,以sequencefile的格式,保存到指定的目录下,本地系统,hdfs或者任何其它hadoop支持的文件系统。RDD的元素必须由key-value对组成,并都实现了Hadoop的Writable接口,或隐式可以转换为Writable(Spark包括了基本类型的转换,例如Int,Double,String等等)
  • foreach(func) : 在数据集的每一个元素上,运行函数func。这通常用于更新一个累加器变量,或者和外部存储系统做交互

算子分类

大致可以分为三大类算子:

  • Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。
  • Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对。
  • Action算子,这类算子会触发SparkContext提交Job作业。

  • Spark RDD cache/persist

Spark RDD cache

1.允许将RDD缓存到内存中或磁盘上,以便于重用

2.提供了多种缓存级别,以便于用户根据实际需求进行调整

3.cache使用

  • 之前用MapReduce实现过WordCount,现在我们用Scala实现下wordCount.是不是很简洁呢?!

  1. import org.apache.spark.{SparkConf, SparkContext} 
  2.  
  3. object SparkWordCount{ 
  4.  def main(args: Array[String]) { 
  5.  if (args.length == 0) { 
  6.  System.err.println("Usage: SparkWordCount <inputfile> <outputfile>") 
  7.  System.exit(1) 
  8.  } 
  9.  
  10.  val conf = new SparkConf().setAppName("SparkWordCount") 
  11.  val sc = new SparkContext(conf) 
  12.  
  13.  val file=sc.textFile("file:///hadoopLearning/spark-1.5.1-bin-hadoop2.4/README.md") 
  14.  val counts=file.flatMap(line=>line.split(" ")) 
  15.  .map(word=>(word,1)) 
  16.  .reduceByKey(_+_) 
  17.  counts.saveAsTextFile("file:///hadoopLearning/spark-1.5.1-bin-hadoop2.4/countReslut.txt") 
  18.  
  19.  } 
  • 关于RDD的Transformation与Action的特点我们介绍下;

1.接口定义方式不同:

Transformation: RDD[X]–>RDD[y]

Action:RDD[x]–>Z (Z不是一个RDD,可能是一个基本类型,数组等)

2.惰性执行:

Transformation:只会记录RDD转化关系,并不会触发计算

Action:是触发程序执行(分布式)的算子。

程序的执行流程:

Spark运行模式:

Local(本地模式):

1.单机运行,通常用于测试;

  • local:只启动一个executor
  • local[k]:启动k个executor
  • local[*]:启动跟cpu数目相同的executor

2.standalone(独立模式)

独立运行在一个集群中

3.Yarn/mesos

1.运行在资源管理系统上,比如Yarn或mesos

2.Spark On Yarn存在两种模式

yarn-client

yanr-cluster

两种方式的区别:

Spark在企业中的应用场景

  • 基于日志数据的快速查询系统业务;

构建于Spark之上的SparkSQL ,利用其快速以及内存表等优势,承担了日志数据的即席查询工作。

  • 典型算法的Spark实现

预测用户的广告点击概率;

计算两个好友间的共同好友数;

用于ETL的SparkSQL和DAG任务。

本文作者:佚名

来源:51CTO

时间: 2017-08-02

大数据系列之并行计算引擎Spark介绍的相关文章

AdTime:大数据 发挥信息消费引擎作用

文章讲的是AdTime:大数据 发挥信息消费引擎作用,当前,拉动我国经济增长的传统"三驾马车"(投资.出口.消费),出现出口下滑,投资谨慎的情况,而消费的巨大空间便受到了前所未有的期待.在消费领域中,信息消费的强劲表现更为抢眼.今年1月~5月,我国信息消费的规模达到1.38万亿元,同比增长了19.8%,信息消费正在成为市场新的亮点和热点. 7月12日,国务院常务会议提出要促进信息消费.信息消费之所以如此受重视,工信部电信研究院曾表示,信息消费不但"稳增长"的潜力巨大

为什么在大数据处理中Cassandra与Spark如此受欢迎?

为什么在大数据处理中Cassandra与Spark如此受欢迎? 说起Cassandra的用途时,我们可以将其理解为一套理想的客户系统实现方案--其能够保证各类应用始终可用,包括产品目录.物联网.医疗系统以及移动应用.Cassandra于2010年成为Apache软件基金会的顶级项目,而且至今仍拥有极高人气.Cassandra专业知识能够帮助我们在人才市场上获得赏识.我们不禁要问--为什么这一开源项目能够大受欢迎? 随着现代云应用对正常运行时间及性能水平的要求逐步提高,已经有越来越多用户开始将注意

大数据系列之大数据分析对IT资源的需求

文章讲的是大数据系列之大数据分析对IT资源的需求, 为了准确描述中国大数据市场和技术发展趋势,解析大数据发展的各阶段对IT技术的需求,2013年6月,中桥调研咨询(以下简称中桥)对中国480家最终用户的IT管理者和专业人员,就大数据市场和技术发展趋势展开了调查.中桥首席分析师王丛结合其在欧美数据中心领域十几年的市场调研积累,对中国大数据市场趋势的调查数据进行解析,以诠释中国大数据市场和技术趋势.同时,会通过在线讲座(www.webinars-china.com )和中国读者解读中国大数据市场趋势

大数据系列之大数据分析如何权衡存储

文章讲的是大数据系列之大数据分析如何权衡存储, 系列1:未来24个月市场趋势和IT投入重点 系列2:大数据分析对IT资源的需求 在之前的系列1和2中,我们已就大数据分析的发展趋势以及对IT资源的需求进行了解析.接下来,针对大数据分析的重要一环-存储,中桥将结合市场热门的存储技术如闪存.固态盘等,来从存储性能.数据保护等角度进行分析. 通过前文的相关数据分析,我们已经了解到,随着大数据时代应用数量.应用数据量和使用者数量的增长,系统对存储IOPS以及OLTP和OLAP的要求越来越高.传统存储也越来

《Spark与Hadoop大数据分析》一一1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面:从数据中提取其深层次的规律性创建数据产品要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子.1.2.1 从数据分析到数据科学的根本性转变 从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好

《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子. 1.2.1 从数据分析到数据科学的根本性转变 从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好的数据产品需求的不断增长. 让我们来

腾讯大数据之TDW计算引擎解析——Shuffle

腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大.计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作业数达到100多万,已经成为公司最大的离线数据处理平台.为了满足用户更加多样的计算需求,TDW也在向实时化方向发展,为用户提供更加高效.稳定.丰富的服务. TDW计算引擎包括两部分:一个是偏离线的MapReduce,一个是偏实时的Spark,两者内部

大数据阿里云产品的简单介绍理解

   很多人问,大数据是什么.一个时尚的技术名词,一个互联网时代的标志.给人高端大气上档次的感觉,很多公司不说自己有大数据都不好意思跟别人谈业务.那我就谈谈我的一些看法来结合阿里云的数加大数据产品比较粗俗的介绍下大数据到底是什么.    首先,从字面意思"大数据",那可以感受到,数据量要大,这是一个必须的条件.举一个例子,比方说我要根据一些销售数据做一个报表给老板看,那么几千条数据甚至几万条,我用excel可以很方便的做出来,数据可以保存在自己电脑上.那么,当数据几十万到几百万,exc

专访携程李亚锋:大数据技术融合下的Spark更具魅力

大数据"作为当下最火热的IT行业词汇,在主流的数据处理工具当中Hadoop和Spark都被大家所熟悉.不过,目前基于内存计算的Spark适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,已经逐渐获得很多企业的支持.这是否意味着我们应该彻底抛弃Hadoop?在前不久的北京Spark亚太峰会上 ,记者有机会专访到携程大数据平台高级经理李亚锋,为大家分享如何通过Spark与Hadoop大数据技术间的融合,实现优势互补,引导企业发现用户的潜在需求. 李亚锋,携程大数据平台高级经理,负