当前位置:网站首页 > Java教程 > 正文

java spark mysql教程



下图描述了Spark的不同组件。
spark
Apache Spark Core(核心)
Spark Core是所有其他功能都基于的Spark平台的基础通用执行引擎。它提供了外部存储系统中的内存中计算和引用数据集。
Spark SQL
Spark SQL是Spark Core之上的组件,它引入了一个称为SchemaRDD的新数据抽象,该抽象为结构化和半结构化数据提供支持。
Spark Streaming(流)
Spark Streaming利用Spark Core的快速调度功能来执行流分析。它以小批量提取数据,并对那些小批量数据执行RDD(弹性分布式数据集)转换。
MLlib(机器学习库)
由于基于分布式内存的Spark体系结构,MLlib是Spark之上的分布式机器学习框架。根据基准,它是MLlib开发人员针对交替最小二乘(ALS)实现而完成的。Spark MLlib的速度是Apache Mahout的基于Hadoop磁盘的版本的9倍(在Mahout获得Spark接口之前)。
GraphX
GraphX是基于Spark的分布式图形处理框架。它提供了一个用于表达图形计算的API,该API可以通过使用Pregel抽象API对用户定义的图形进行建模。它还为此抽象提供了优化的运行时。

  • 上一篇: java前端教程
  • 下一篇: 刘松阳java教程
  • 版权声明


    相关文章:

  • java前端教程2024-11-30 08:58:04
  • 配置java环境教程2024-11-30 08:58:04
  • java浮动教程2024-11-30 08:58:04
  • java的gui 教程2024-11-30 08:58:04
  • java架构自学教程2024-11-30 08:58:04
  • 刘松阳java教程2024-11-30 08:58:04
  • 微服务java教程2024-11-30 08:58:04
  • java教程第3版2024-11-30 08:58:04
  • java并发免费教程2024-11-30 08:58:04
  • java纯干货教程2024-11-30 08:58:04