当前位置:网站首页 > Java教程 > 正文

spark java框架教程



下图描述了Spark的不同组件。
spark
Apache Spark Core(核心)
Spark Core是所有其他功能都基于的Spark平台的基础通用执行引擎。它提供了外部存储系统中的内存中计算和引用数据集。
Spark SQL
Spark SQL是Spark Core之上的组件,它引入了一个称为SchemaRDD的新数据抽象,该抽象为结构化和半结构化数据提供支持。
Spark Streaming(流)
Spark Streaming利用Spark Core的快速调度功能来执行流分析。它以小批量提取数据,并对那些小批量数据执行RDD(弹性分布式数据集)转换。
MLlib(机器学习库)
由于基于分布式内存的Spark体系结构,MLlib是Spark之上的分布式机器学习框架。根据基准,它是MLlib开发人员针对交替最小二乘(ALS)实现而完成的。Spark MLlib的速度是Apache Mahout的基于Hadoop磁盘的版本的9倍(在Mahout获得Spark接口之前)。
GraphX
GraphX是基于Spark的分布式图形处理框架。它提供了一个用于表达图形计算的API,该API可以通过使用Pregel抽象API对用户定义的图形进行建模。它还为此抽象提供了优化的运行时。

版权声明


相关文章:

  • java 新手使用教程2024-12-11 17:50:06
  • java手册视频教程2024-12-11 17:50:06
  • java基础图解教程2024-12-11 17:50:06
  • java尚硅谷教程2024-12-11 17:50:06
  • java如何截图教程2024-12-11 17:50:06
  • java自学编程教程2024-12-11 17:50:06
  • 手机java使用教程2024-12-11 17:50:06
  • java画矩形教程2024-12-11 17:50:06
  • java ee tomcat教程2024-12-11 17:50:06
  • 456集java教程2024-12-11 17:50:06