问题补充说明:大数据工程师是做什么的?... 大数据工程师是做什么的? 展开
总结一句话就是写SQL(很多入职一两年的大数据工程师主要的工作就是写SQL)
还有其他的
2为集群搭大数据环境定在四苏处要校编么(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公360问答司内部的大数据系统权限限制很多,严重影响开发效率)
3维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)
4数据迁移(有部分公司需要把数据从值永洲区物早见参美传统的数据库Oracle、MySQL等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)
5应用迁移(有部分公司需要把应用从传统的数据库Oracle、足太口她常四冲行MySQL等数据库的存储过程程跟纪混征火热家态取序或者SQL脚本迁移到大数据平台上,七那这个过程也是非常繁琐的工作,无聊,高度重复且麻烦,吃力不讨好)
6数据采集(采集日志皮但王余矿希益算件数据、文件数据、父普帝载指静别帮积脱陈接口数据,这个涉及到各种格式的转换,一般用得比较多的是Fl知了参均获赶民钟说础力ume和Logstash)
7数据处理
7.1离线数据处理(这个一般就是写写SQL然后扔到Hive中跑,其实和第一点有点重复了)
7.2实时数据处短抗先理(这个涉及到消息队列,Kafka,Spark,额结证输径型阿院吸刚较Flink这些,组件,一般就是Flume采集到数据发给Kafka消跑投然后Spark消费Kafka的数据进行处理)
8数据可视化(这个我司是用SpringBoot连接后台数据与前端,前端用自己魔改的echarts)
9大数据平台开发(偏Java方向的,大概就是把开源的组件整合起来整成一个可用的大数据平台这样,常见的是各种难用的Pa拉增aS平台)
10数据中台开发(中台需要支持接入各种数据源,把各种数据源清洗转英换为可用的数据,然后再基于原始数据搭建起宽表层,一般为了节省开发成本和服务器资源,都是基于宽表层查询出业务数据)
11搭建数据仓库(这里的数据仓库的搭建不是指Hive,Hive是搭建数仓的工具,数仓搭建一般会分为三层ODS、务云展参但袁DW、DM层,其中DW是最重要的,它又可以分获终镇差个仅列易多主为DWD,DWM,DWS,这个层级只是逻辑上的概念,类似于把表名按照层级区分开来的操作,分层的目的是防止开发数据应用的时候直接访问底层数据,可以减少资源,注意,减少资源率复合略派学率饭级因开销是减少内存和CPU的开销,分层后磁盘占用会大大增加,磁盘不值钱所以对西没什么关系,分层可以使数据表的逻辑更加清晰,方便进一步的开发操作,如果分层没有做好会导致逻辑混乱,新来的员工难以接手业务,提高公司的运营成本,还有这个建数仓也分为建离线和实时的)
总之就是离不开写SQL...
标签:工程师,数据