当前位置:网站首页 > Java教程 > 正文

spark java 入门教程



下图描述了Spark的不同组件。
spark
Apache Spark Core(核心)
Spark Core是所有其他功能都基于的Spark平台的基础通用执行引擎。它提供了外部存储系统中的内存中计算和引用数据集。
Spark SQL
Spark SQL是Spark Core之上的组件,它引入了一个称为SchemaRDD的新数据抽象,该抽象为结构化和半结构化数据提供支持。
Spark Streaming(流)
Spark Streaming利用Spark Core的快速调度功能来执行流分析。它以小批量提取数据,并对那些小批量数据执行RDD(弹性分布式数据集)转换。
MLlib(机器学习库)
由于基于分布式内存的Spark体系结构,MLlib是Spark之上的分布式机器学习框架。根据基准,它是MLlib开发人员针对交替最小二乘(ALS)实现而完成的。Spark MLlib的速度是Apache Mahout的基于Hadoop磁盘的版本的9倍(在Mahout获得Spark接口之前)。
GraphX
GraphX是基于Spark的分布式图形处理框架。它提供了一个用于表达图形计算的API,该API可以通过使用Pregel抽象API对用户定义的图形进行建模。它还为此抽象提供了优化的运行时。

版权声明


相关文章:

  • java基础视频教程 百度云2024-11-22 19:42:04
  • java编程教程42024-11-22 19:42:04
  • java掠夺机教程2024-11-22 19:42:04
  • java web api教程2024-11-22 19:42:04
  • java教程pdf文档2024-11-22 19:42:04
  • java教程433集2024-11-22 19:42:04
  • java架构 视频教程2024-11-22 19:42:04
  • java 画时序图教程2024-11-22 19:42:04
  • java联盟 教程视频2024-11-22 19:42:04
  • 韩国 java教程2024-11-22 19:42:04