大家好,我是编程小6,很高兴遇见你,有问题可以及时留言哦。
本套Python+大数据的学习线路图可以帮助大家从小白蜕变成为数字精英,语言方面不仅有Python的学习,也包含了SQL。黑马程序员数据开发学习路线图涵盖了SQL、Hadoop、Hive、Spark、Flink多个技术生态圈。
免费视频资源请到黑马程序员官网下载
第一阶段:大数据开发入门
从传统关系型数据库入手,掌握数据迁移工具、BI数据可视化工具、SQL,对后续的学习打下基础。
MySQL是整个IT基础课程,俗话说SQL写的好,工作随便找。
学习目标:
- 掌握MySQL数据库的使用
- 掌握SQL语法
- 掌握Kettle数据迁移工具的使用
- 熟练使用BI可视化工具
- 对数据开发有一定认知,掌握BI工程师所具备的基本技能
第二阶段:大数据核心基础
学习Linux、Hadoop、Hive,掌握大数据基础技术。
大数据Hadoop技术栈
建议学习时长:11天
学习目标:
- 掌握Linux常用命令,为数据开发后续学习打下的良好基础
- 掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群
- 掌握Hive的使用和调优
- 具备Hadoop开发能力、离线数据仓库开发能力
- 能够完成基本构建企业级数仓
Hadoop离线是大数据生态圈的核心与及时,是整个大数据开发的入门,也是为后期的Spark、Flink打下坚实基础的内容。
第三阶段:千亿级数仓技术
本阶段主要学习的内容应该是结合真实项目驱动,掌握离线数仓技术。
Pandas技术栈
建议学习时长:3天
学习目标:
- 掌握离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程
- 行业内首个深度使用Presto的项目
- 包括海量数据场景下如何优化配置
- 拉链表的具体应用
- 新增数据和更新数据的抽取和分析
- 提供新零售大型商超集团的数据存储分析以及服务监控方案
- 使用Git对代码进行管理
第四阶段:PB内存计算
Spark官方已经在自己的首页中将Python作为第一语言,在3.2的版本更新中,高亮提示内置捆绑Pandas。所以这里建议各位同学顺应社区和招聘需求的趋势,学习黑马程序员Python on Spark的内容。
Python基础编
建议学习时长:8天
学习目标:
- 掌握Python开发环境基本配置
- 掌握运算符、表达式、流程控制语句、数组等的使用
- 掌握字符串的基本操作
- 初步建立面向对象的编程思维
- 熟悉异常捕获的基本流程及使用方式
Python进阶
建议学习时长:10天
学习目标:
- .掌握面向对象编程能力及思想
- 掌握Python高级语法特性
- 掌握开发中的多任务编程实现方式
- 知道多进程多线程的原理
- 掌握网络编程技术,能够实现网络通讯
- 知道通讯协议原理
- 掌握日志的使用
- 能够使用Python对数据进行处理开发
Spark 3.2 相关内容
建议学习时长8天
学习目标:
- 掌握Spark的RDD、DAG、CheckPoint等设计思想
- 掌握SparkSQL结构化数据处理,Spark On Hive
- 掌握Pandas数据处理分析,以及Pandas on Spark
- 掌握Structured Streaming整合多数据源完成实时数据处理
- 具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力
以上内容学习完之后,可以通过大数据技术架构,解决工业互联网制造行业的数据存储和分析、可视化、个性化推荐问题。基于sparkSQL做数据分析。
以上就是最新版的黑马程序员Python+大数据学习路线图,希望对自学的同学们有所帮助。