学习大数据开发 这些知识 你有必要了解

大数据 (80) 2023-03-24 20:10

大家好,我是编程小6,很高兴遇见你,有问题可以及时留言哦。

学习大数据开发 这些知识 你有必要了解_https://bianchenghao6.com/blog_大数据_第1张

大数据开发是干什么的?

大数据作为时下火热的IT行业的词汇,随之而来的数据开发、数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据开发也应运而生。

大数据开发其实分两种,第一类是编写一些Hadoop、S park的应用程序,第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于dataanalyst这种职位吧,而且现在HiveSpark-SQL这种系统也提供SQL的接口。第二类工作的话通常才大公司里才有,一般他们都会搞自己的系统或者再对开源的做些二次开发。这种工作的话对理论和实践要求的都更深一些,也更有技术含量。

数据开发的十条锦囊

开发类

Article1

修改表、删除表之前一定要先备份,防止“删库跑路”情况出现。

Article2

重刷数据一定要新建一个任务,特别是任务由于上有修改表结构导致的任务失败,新建任务,写入临时表进行数据核对后再刷新原任务运行后续依赖。

Article3

查看上下游指标间的关联关系,是否存在统计相加之后的值和前序依赖对应的不上。

Article4

Left join之后的数据是否有重复,关联字段是否存在一对多的情况,是否符合业务预期。

Article5

进行聚合操作后,检查聚合后的数据值是否合理,比如sum求和后的值,找一些已有的数据做核对。

Article6

关联数据之前,先检查维度表,各维度的值是否有异常,比如null、空值、异常值等等。

业务类

Article1

忽略数仓对业务成功的支持,只关注效率上的提升,没有被业务认可的数据团队,长久不了。

Article2

只管开发和运维任务,不总结。形成团队的wiki进行开发和运维问题处理知识总结,会大大提高团队问题处理效率。

Article3

过度钻研数据处理技术,忽略业务逻辑,有时候优化一条SQL,也许只是业务逻辑变通。

Article4

烟囱式开发,同一个维度在整个数据平台中不一致,维度数据要跟主数据关联起来。

大数据开发需要掌握哪些技能?学习路线如何?

阶段一:Linux&Hadoop生态体系基础知识、原理

Linux体系、Python编程语言核心用法、Hadoop离线计算原理、分布式数据库Hbase数据仓库HiveFlume分布式日志采集、zookeeper全局分布式锁、kafka分布式发布-订阅消息系统、spark分布式计算框架。

阶段二:分布式计算框架和Spark&Strom/flink生态体系。

(1)分布式计算框架优化与实战

Scala编程语言核心用法、Spark(sq1shel1)大数据处理、Spark-Streaming大数据处理、Spark-Mib机器学习)大数据处理、Spark-Streaming大数据处理、Spar k-Mlib机器学习、hive数仓实战、hbase实战。

实战一:数据采集业务+flume;

实战二:kafka+sparkstreaming实时数据处理;

实战三:推荐系统(完整流程)+工程;

(2)Storm/flink技术架构体系

Storm/flink原理、基础、调优消息队列kafkaRedis工具、zookeeper详解。

实战一:LogServer;

实战二:storm/flink+zookeeper;

实战三:hbase+zookeepe;

阶段三、数据挖掘与机器学习

结巴+隐马尔科夫、维特比算法+userCF、spark实现use rCF+itemCF+LR+商品预测、决策树+随机森林+GBD T、支持向量机SVM、神经网络与深度学习、word2vec+1stmals算法、kmeans+spark应用+交叉特征、贝叶斯+新闻分类+saprk应用。

发表回复