大家好,我是编程小6,很高兴遇见你,有问题可以及时留言哦。
大数据技术的目的就是为了应对业务环境(生活或生产)中第一时间产生的大量或海量数据,可能是一天几个亿甚至几十亿的数据,要对这些数据进行结构化处理,既能大吞吐量的写入存储,还能快速的查询到存储的结构,既要均衡的分布这些数据,还能对出现问故障的节点,快速进行恢复,既能保证系统在分布式环境下具有良好的可用性,在某些情况下还要保证数据的一致性(接近),既要能快速的调用业务规则,实现数据驱动下的实时处理,还能对成百上千台存储了N多个PT数据集的并行分析,提供算力最大化的数据处理架构。
那大数据开发呢,实际上分两种:第一类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发。第二类工作的话通常才大公司里才有,一般他们都会搞自己的系统或者再对开源的做些二次开发。这种工作的话对理论和实践要求的都更深一些,也更有技术含量。接下来来开始拆分大数据开发,这些都是基础要掌握的内容
学习资源:2022年黑马python大数据开发学习路线
一、网站
1. 网易公开课 https://http://open.163.com/
2. 腾讯课堂 https://http://ke.qq.com/
3. 中国大学慕课 https://www.http://icourse163.org/
4. B站 https://www.http://bilibili.com/
学习资源非常多,内容系统且全面,重点关注一些专业培训机构上传的学习视频
5. Statista https://www.http://statista.com/
6. CEIC https://www.http://ceicdata.com/en
7. InfoQ-大数据https://www.http://infoq.cn/
二、书籍
1. 《为数据而生》
这是一部大数据在智慧城市、医疗、教育、金融、商业等领域的实践笔记;更是一部为未来大数据的发展提供有可行性的路径指南!
2. 《R语言预测实战》
R语言具有上手快、效率高的特点,它横跨金融、生物、医学、互联网等多个领域,主要用于统计、建模及可视化。预测是数据挖掘的主要作用之一,也是大数据时代的核心价值所在。
3. 《Hadoop权威指南》
本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。