spark java 入门教程

Java教程来源：网络编辑：小编发布时间：2024-11-22 19:42:04 浏览量：5

下图描述了Spark的不同组件。

Apache Spark Core(核心)

Spark Core是所有其他功能都基于的Spark平台的基础通用执行引擎。它提供了外部存储系统中的内存中计算和引用数据集。

Spark SQL

Spark SQL是Spark Core之上的组件，它引入了一个称为SchemaRDD的新数据抽象，该抽象为结构化和半结构化数据提供支持。

Spark Streaming(流)

Spark Streaming利用Spark Core的快速调度功能来执行流分析。它以小批量提取数据，并对那些小批量数据执行RDD（弹性分布式数据集）转换。

MLlib（机器学习库）

由于基于分布式内存的Spark体系结构，MLlib是Spark之上的分布式机器学习框架。根据基准，它是MLlib开发人员针对交替最小二乘（ALS）实现而完成的。Spark MLlib的速度是Apache Mahout的基于Hadoop磁盘的版本的9倍（在Mahout获得Spark接口之前）。

GraphX

GraphX是基于Spark的分布式图形处理框架。它提供了一个用于表达图形计算的API，该API可以通过使用Pregel抽象API对用户定义的图形进行建模。它还为此抽象提供了优化的运行时。

上一篇： java基础视频教程百度云

下一篇： java教程433集

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.bianchenghao6.com/java-jiao-cheng/17569.html