保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险企业的商业信誉。项目将多部门的业务数据库同步到hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。马上体验
教育行业A股IPO第一股(股票代码 003032)
一线城市薪资高
二三线紧随其后
国家实施大数据战略
大数据专业人才紧缺
数字经济引领全球
经济社会发生变革
0基础转行人员数据课程从Python入手
简单高效入门快
适宜零基础人员学习
应届毕业生缺乏工作经验技能
未来没有明确规划
通过学习本课入行IT
互联网转行人员目前工作待遇不理想
市场上升空间有限
需要突破现状转行
有基础寻求系统提升者具有一定的数据理论或基础
需要掌握系统数据技术
在实际业务中如何应用
适合零基础学员课程由浅入深/数据量由小到大
逐步掌握各业务场景下的数据处理
热门技术周更新一线大厂行业专家/年亿元级研发投入
以“周”为单位更新前沿技术
项目驱动式教学多行业多项目实战
提升实战能力 入职即能快速上手
课程贴合市场需求课程与时俱进不断融入热门技术栈
打造学完即上岗人才
还原真实工作场景参与真实项目开发流程
锻炼独立分析、解决问题的能力
积累实际工作经验真实数据业务需求转化
企业级真项目涵盖14大主流行业
Python基础编程
Python编程进阶
MySQL
大数据Hadoop技术栈
企业级离线数仓项目
&数仓项目分组实训
Pandas & Spark技术栈
Spark离线项目
实时计算基础
Spark实时项目
就业引导+就业加强
大数据实时技术栈
&大数据实时计算项目
毕业后进阶课程
主要内容
Python基础语法、Python数据处理、函数、文件读写、面向对象、异常处理、模块和包。
可解决的现实问题
掌握Python基础语法。
可掌握的核心能力
1.掌握Python开发环境基本配置;
2.掌握运算符、表达式、流程控制语句、数组等的使用;
3.掌握字符串的基本操作;
4.初步建立面向对象的编程思维;
5.熟悉异常捕获的基本流程及使用方式。
主要内容
网络编程、多任务编程、高级语法、Python编程综合项目。
可解决的现实问题
熟练使用Python。
可掌握的核心能力
1.掌握类和对象的基本使用方式;
2.掌握网络编程技术,能够实现网络通讯;
3.知道通讯协议原理;
4.掌握开发中的多任务编程实现方式;
5.知道多进程多线程的原理。
主要内容
MySQL与SQL、Kettle与BI工具、Pymysql。
可解决的现实问题
熟练掌握MySQL\SQL、Kettley以及BI工具使用。
可掌握的核心能力
1.掌握MySQL数据库的使用;
2.掌握SQL语法;
3.掌握Kettle数据迁移工具的使用;
4.熟练使用BI可视化工具;
5.对数据开发有一定认知,掌握BI及ETL工程师所具备的基础技能。
主要内容
Linux、大数据基础和硬件先容、Zookeeper、HDFS、MapReduce、YARN、Hive基础、Hive高阶。
可解决的现实问题
1.熟悉Linux操作系统,以及各种Linux命令,实现集群搭建准备;
2.掌握大数据的核心框架Hadoop以及其生态体系,打下大数据学习的良好基础;
3.掌握数据仓库理论,掌握Hive框架,为构建企业级数据仓库奠定技术基础。
可掌握的核心能力
1.掌握Linux常用命令,为数据开发后续学习打下的良好基础
2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能够搭建Hadoop高可用HA集群
3.掌握Hive的使用和调优
4.具备Hadoop开发能力、离线数据仓库开发能力
5.能够构建企业级数仓
主要内容
新零售离线数仓项目、在线教育数仓项目。
可解决的现实问题
掌握企业级常见数据仓库搭建过程,完成大数据体系下的企业级数据仓库构建。
可掌握的核心能力
1.掌握行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
2.真实业务逻辑,共涉及20多个主题,100多个指标,提升核心竞争力;
3.包括海量数据场景下如何优化配置;
4.拉链表的具体应用;
5.新增数据和更新数据的抽取和分析;
6.Hive函数的具体应用;
7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能;
8.使用Git对代码进行管理;
9提供供新零售大型商超集团的数据存储分析以及服务监控方案。
主要内容
Pandas及可视化技术、Spark基础、Spark Core、Spark SQL、Structured Streaming、Spark综合案例。
可解决的现实问题
Pandas数据处理及可视化技术,掌握全球最热门的Spark技术栈,完成高级大数据开发人才的跃进。
可掌握的核心能力
1.掌握Spark的RDD、DAG、CheckPoint等设计思想;
2.掌握SparkSQL结构化数据处理,Spark On Hive;
3.掌握Pandas数据处理分析,以及Pandas on Spark;
4.掌握Structured Streaming整合多数据源完成实时数据处理;
5.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力。
主要内容
保险行业大数据项目和客快物流离线项目二选一。
可解决的现实问题
掌握Spark项目架构及数据流向,完成企业级数仓搭建,实现企业数字化转型;通过项目实战,掌握使用Spark技术完成企业级数仓搭建以及各层指标计算。
可掌握的核心能力
1. 快速搭建保险行业大数据平台;
2. 基于Hive+Spark SQL搭建离线数据仓库;
3. 基于SparkSQL应对轻松应对复杂的迭代计算;
4. 完成基于国内头部保险企业大数据项目开发;
5. 掌握基于Spark分析12亿报单表和8千万客户等数据;
6. 对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示;
7. 掌握基于Elasticsearch标签搜索;
8.掌握Docker环境部署、管理操作;
9.掌握基于Oracle + MySQL异构数据源数据处理技术;
10.掌握基于Oracle Golden Gate以及Canal的实时采集技术;
11.掌握Kudu + Spark的快速离线数据处理、分析技术;
12.掌握Kudu + Impala即席数据分析技术;
13.掌握Kudu、Spark的调优能力。
主要内容
万亿级NoSQL海量数据存储、Flume实时数据采集、分布式流处理平台、NoSQL。
可解决的现实问题
掌握NoSQL与实时计算中组件,数据开发工程师重要技能。
可掌握的核心能力
1.掌握HBase原理及架构;
2.掌握HBase命令操作、MapReduce编程;
3.掌握Phoneix二级索引优化查询;
4.掌握Kafka原理及架构。
主要内容
保险行业大数据项目和客快物流实时项目二选一。
可解决的现实问题
掌握Spark项目架构及数据流向,完成企业级画像平台搭建或实时平台搭建,实现企业数字化转型;通过项目实战,掌握使用Spark技术完成企业级画像平台搭建或Spark实时技术使用。
可掌握的核心能力
1.用户画像架构设计;
2.基于Hbase存储业务数据库数据;
3.基于SparkSQL应对轻松应对标签的计算;
4.完成基于国内头部保险企业大数据项目开发;
5.掌握基于MySQL的五级标签构建;
6.对统计类标签,规则类标签进行代码封装;
7.掌握基于Elasticsearch全文检索技术;
8.掌握Docker环境部署、管理操作;
9.掌握基于Oracle + MySQL异构数据源数据处理技术;
10.掌握基于Oracle Golden Gate以及Canal的实时采集技术;
11.掌握基于ClickHouse高性能存储、计算引擎技术;
12.掌握基于Elasticsearch的全文检索技术;
13.掌握Kudu、Spark的调优能力;
14.掌握基于Spring Cloud的数据微服务接口开发技术。
主要内容
SQL实战、Hive数据分析与面试题加强、Spark数据分析与面试题加强、NoSQL数据分析与面试题加强、大数据多行业架构剖析。
可解决的现实问题
对学习的内容进行整体回顾,并分析经典面试题,引导简历,面试和沟通技巧助力高薪offer。
可掌握的核心能力
1.强化面试就业核心面试题;
2.梳理大数据架构及解决方案;
3.剖析多行业大数据架构。
主要内容
星途车联网Flink实时项目、今日指数证券Flink实时项目和客快物流Flink实时项目三选一。
可解决的现实问题
掌握当下热门的流批一体化分布式计算框架Flink及其生态,适应市场对Flink越发增长的需求;掌握基于Flink全栈进行快速OLAP分析,完成企业级实时项目构建。
可掌握的核心能力
1.掌握基于Flink进行实时和离线数据处理、分析;
2.掌握基于Flink的多流并行处理技术;
3.掌握千万级高速实时采集技术;
4.掌握基于Flink全栈进行快速OLAP分析;
5.掌握实时高性能海量数据分析与存储;
6.掌握针对HBase调优实现HBase存储调优;
7.掌握数据报表分析;
8.掌握业务数据实时大屏场景实现。
主要内容
Python数据分析、Python后端开发、Scala on Spark、Java on Flink、Flink实时计算高级进阶。
可解决的现实问题
在工作后,赠送超240天的课程,进阶课程持续更新、终身受益。
可掌握的核心能力
1.数据分析专项课,无论从事大数据开发、还是专门从事数据分析,升职挑战高薪必备技能;
2.如果你最终想成为融汇前后端运维测试的技术总监,那么请在工作之余学习Python后端开发这套课程;
3.Scala虽然式微,但如果你即将加入的团队还在使用Scala进行Spark开发,请快速学习;
4.阿里为首的一线大厂已经开始采用Python on Flink的技术选型,但还是有部分团队采用Java on Flink,如果需要请快速学习;
5.价值超过万元的Flink实时计算高级进阶课程,助力在职的你持续挑战高薪。
保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险企业的商业信誉。项目将多部门的业务数据库同步到hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。马上体验
通过大数据技术架构,解决工业物联网石油制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于hive数仓分层来存储各个业务指标数据,基于sparksql做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。马上体验
本项目基于一家大型连锁超市研发的大数据分析平台。是第一个深度使用Presto的项目,为后续Presto相关课程的研发打下了坚实的基础,也为学员的就业拓宽了道路;真实的数据结构,复杂的SQL实现过程,学生学习以后可以达到离线数仓的高级开发水平。马上体验
学习大数据,你见过真的海量数据吗?你操作过真的【大规模集群】吗?你接触过真的【云服务】吗?这一切,在黑马程序员都将实现真接触!
黑马程序员与知名云平台厂商—UCloud达成深度合作。为学生提供大规模服务器
集群进行实战,硬件规模达到:
相同的工作场景,开发不必从零开始,解决方案可以拿来即用。黑马整合紧跟市场趋势,建立“Python+大数据开发解决方案库”,80+技术解决方案,覆盖职场常见技术难题,让学员成为团队技术问题解决最高效的人。
涵盖完整车联网业务场景,包含驾驶行程、电子围栏、远程诊断等真实业务通过 QBOX 车辆终端数据收集,并解析为 QSP 数据、QCS 数据、充电数据、HU 数据提供实时计算服务与离线计算服务,并通过 API 接口以报表和大屏展示分析结果数据
建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用
实时监控证券市场的市场每日的业务交易,实现对证券市场交易数据的统计分析搭建监察预警体系,包括:预警规则管理,实时预警,历史预警,监察历史数据分析等股市行情交易数据实时采集、实时数据分析、多维分析,即席查询,实时大屏监控展示高性能处理,流处理计算引擎采用的是 Flink,实时处理 100 万笔/s 的交易数据
涵盖完整车联网业务场景,包含驾驶行程、电子围栏、远程诊断等真实业务通过 QBOX 车辆终端数据收集,并解析为 QSP 数据、QCS 数据、充电数据、HU 数据提供实时计算服务与离线计算服务,并通过 API 接口以报表和大屏展示分析结果数据
基于一家大型物流企业研发的智慧物流大数据平台,日订单上千万,围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等 ,提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观引导意义的解决方案
基于一家大型物流企业研发的智慧物流大数据平台,日订单上千万,围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等 ,提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观引导意义的解决方案
基于一家大型物流企业研发的智慧物流大数据平台,日订单上千万,围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等 ,提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观引导意义的解决方案
基于垂直电商平台构建的用户全方位画像,完整抽取出一个用户的信息全貌 ,业务围绕商品、订单、用户基础信息及行为信息等数据,实现用户和商品基础标签、组合标签、微观画像、标签查询等业务场景,提供了企业级多 方位业务决策分析。
数据分析不仅是(大)数据开发中重要流程,也是(大)数据开发的最终目的;越来越多的企业要求(大)数据工程师承担部分数据 分析的工作
信用风险是金融监管机构重点关注的风险,关乎金融系统运行的稳定。在实际业务开展和模型构建过程中,面临着高维稀疏特征以及样本不平衡等各种问题,如何应用机器学习等数据挖掘方法提高信用风险的评估和预测能力,是各家金融机构积极探索的方向。
确定项目方向目标需求调研
需求分析需求分解
架构设计技术选型数据生命周期数据来源数据分层
小组开发环境搭建数据采集数仓建设定时任务主题开发代码提交文档撰写数据回测
自学必看零基础最新版
免费领取视频教程、重难点技术解析、学习工具、学习笔记等
马上前往学习 >12398人学习初级
14732人学习初级
4149人学习中级
323314人学习初级
61154人学习中级
8803人学习中级
3401人学习中级
50134人学习中级
随着初级程序员趋于饱和,中高级程序员缺口变大,IT培训行业原来就业培训课程难以适应未来的就业竞争。
传智教育推出高级App工程师就业培训课程,定位培养中高级程序员。Python+大数据开发课程有11大行业12个“大厂”级项目,400+业务指标,220+技术点,12个企业级项目授课时间就超150天(每周上5天课)。其课程容量、技术深度、项目广度均超其他机构6个月培训课程50%以上,大大提升学员的就业竞争力。查看更多 >
课程大纲
基础班
1. Python基础编程
高手班
1. Python编程进阶 2. MySQL 3. 大数据Hadoop技术栈 4. 项目一:企业级离线数仓 5. 项目二:数仓项目分组实训 6. Pandas技术栈 7. Spark技术栈 8. 项目三:Spark离线项目(2选1)保险行业大数据项目 9. 项目三:Spark离线项目(2选1)客快物流项目 10. 实时计算基础 11. 项目四:Spark实时项目(2选1)保险行业用户画像项目 12. 项目四:Spark实时项目(2选1)客快物流实时项目 13. 就业引导+就业加强 14. 大数据实时技术栈 15. 项目五:大数据实时计算项目(3选1)星途车联网Flink实时项目 16. 项目五:大数据实时计算项目(3选1)今日指数证券Flink实时项目 17. 项目五:大数据实时计算项目(3选1)客快物流Flink实时项目
进阶课
1. 进阶课程
$versionDesc
课时:8天技术点:52项测验:1次学习方式:线下面授
1.掌握Python开发环境基本配置| 2.掌握运算符、表达式、流程控制语句、数组等的使用| 3.掌握字符串的基本操作| 4.初步建立面向对象的编程思维| 5.熟悉异常捕获的基本流程及使用方式|
1. Python基础语法零基础学习Python的开始,包含了以下技术点:
1.变量| 2.标识符和关键字| 3.输入和输出| 4.数据类型转换| 5.PEP8编码规范| 6.比较/关系运算符| 7.if判断语句语法格式| 8.三目运算符| 9.while语句语法格式| 1.while 循环嵌套| 11.break 和 continue| 12.while 循环案例| 13.for循环|
2. Python数据处理掌握Python的数据类型,并对其进行操作处理,包含了以下技术点:
1.字符串定义语法格式| 2.字符串遍历| 3.下标和切片| 4.字符串常见操作| 5.列表语法格式| 6.列表的遍历| 7.列表常见操作| 8.列表嵌套| 9.列表推导式| 1.元组语法格式| 11.元组操作| 12.字典语法格式| 13.字典常见操作| 14.字典的遍历|
3. 函数能够实现Python函数的编写,包含了以下技术点:
1.函数概念和作用、函数定义、调用| 2.函数的参数| 3.函数的返回值| 4.函数的注释| 5.函数的嵌套调用| 6.可变和不可变类型| 7.局部变量| 8.全局变量| 9.组包和拆包、引用|
4. 文件读写能够使用Python对文件进行操作,包含了以下技术点:
1.文件的打开与关闭、文件的读写| 2.文件、目录操作及案例| 3.os模块文件与目录相关操作|
5. 面向对象从逐步建立起面向对象编程思想,再到会使用对象,到创建对象,再到真正理解为什么封装对象,包含了以下技术点:
1.面向对象先容| 2.类的定义和对象的创建| 3.添加和获取对象属性| 4.self 参数| 5.init方法| 6.继承| 7.子类方法重写| 8.类属性和实例属性| 9.类方法、实例方法、静态方法|
6. 异常处理主要先容了在Python编程中如何处理异常,包含了以下技术点:
1.异常概念| 2.异常捕获| 3.异常的传递|
7. 模块和包主要先容了Python中的模块和包的体系,以及如何使用模块和包,包含了以下技术点:
1.模块先容| 2.模块的导入| 3.包的概念| 4.包的导入| 5.模块中的..all..| 6.模块中..name..|
课时:10天技术点:30项测验:1次学习方式:线下面授
1.掌握面向对象编程能力及思想| 2.掌握Python高级语法特性| 3.掌握开发中的多任务编程实现方式| 4.知道多进程多线程的原理| 5.掌握网络编程技术,能够实现网络通讯| 6.知道通讯协议原理| 7.掌握日志的使用| 8.能够使用Python对数据进行处理开发|
1. 网络编程主要学习通讯协议,以及Python实现TCP、HTTP通讯,包含了以下技术点:
1.IP地址的先容| 2.端口和端口号的先容| 3.TCP的先容| 4.Socket的先容| 5.TCP网络应用的开发流程| 6.基于TCP通信程序开发|
2. 多任务编程主要学习Python中多线程、多进程,包含了以下技术点:
1.多任务先容| 2.多进程的使用| 3.多线程的使用| 4.线程同步|
3. 高级语法主要学习Python的高级语法,包含以下技术点:
1.闭包| 2.装饰器| 3.迭代器| 4.深浅拷贝| 5.正则|
4. Python编程综合项目通过前边所学常识,完成综合案例,锻炼编程能力、培养编程思维
1. Python编程综合项目|
课时:5天技术点:36项测验:1次学习方式:线下面授
1. 掌握MySQL数据库的使用| 2. 掌握SQL语法| 3. 掌握Kettle数据迁移工具的使用| 4. 熟练使用BI可视化工具| 5. 对数据开发有一定认知,掌握BI工程师所具备的基本技能|
1. MySQL与SQL零基础小白通过MySQL数据库,掌握核心必备SQL,包含了以下技术点:
01_数据库概念和作用| 02_MySQL数据类型| 03_数据完整性和约束| 04_数据库、表基本操作命令| 05_表数据操作命令| 06_where子句| 07_分组聚合| 08_连接查询| 09_外键的使用|
2. Kettle与BI工具使用Kettle做数据迁移,通过BI工具展示excel、MySQL中的数据,包含了以下技术点:
01_Kettle基本操作| 02_Kettle数据转换| 03_Kettle使用SQL脚本组件| 04_kettle Job开发| 05_FineBI基本操作| 06_FineBI常用图表| 07_FineBI仪表板| 08_综合案例|
3. PymysqlPython与数据库交互,主要学习PyMySQL包
01. 环境搭建| 02. Python操作数据库|
4. Python编程综合项目通过前边所学常识,完成综合案例,锻炼编程能力、培养编程思维
01. Python编程综合项目|
课时:11天技术点:46项测验:0次学习方式:线下面授
1.掌握Linux常用命令,为数据开发后续学习打下的良好基础| 2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群| 3.掌握Hive的使用和调优| 4.具备Hadoop开发能力、离线数据仓库开发能力| 5.能够完成基本构建企业级数仓|
1. Linux掌握Linux操作系统常用命令和权限管理
01_Linux命令使用| 02_Linux命令选项的使用| 03_远程登录和远程拷贝| 04_Linux权限管理| 05_vi编辑器使用| 06_集群搭建准备|
2. 大数据基础和硬件先容进一步阐述大数据特点与分布式思想,常识点由浅入深,包含了以下技术点:
1.大数据的特点| 2.分布式存储概念| 3.分布式计算的概念| 4.服务器种类先容、机架、交换机| 5.网络拓扑、Raid、IDC数据中心|
3. Zookeeper分布式App管家,实现了集群管理与leader选举,包含了以下技术点:
1.Zookeeper的应用场景| 2.架构和原理| 3.存储模型| 4.选举机制| 5.客户端操作| 6.ZK集群搭建|
4. HDFS分布式文件系统,解决了海量数据存储与容错,包含了以下技术点:
1.HDFS设计的特点| 2.Master-Slave架构| 3.Block块存储、RF拷贝因子、机架感知| 4.Block拷贝策略、读写流程| 5.HDFS Federation、HDFS Snapshots、NameNode HA架构和原理| 6.HDFS管理员常用操作、HDFS权限控制| 7.HDFS普通集群以及HA集群搭建|
5. MapReduce分布式计算系统,解决海量数据的计算,包含了以下技术点:
1.MapReduce架构和原理| 2.Split机制| 3.MapReduce并行度| 4.Combiner机制、 5.Partition机制、自定义Partition| 6.MapReduce序列化、自定义排序、数据压缩|
6. YARN分布式资源调度管理器,管理服务器App资源,包含了以下技术点:
1.Yarn原理和架构| 2.Yarn高可用| 3.Container资源的封装(CPU、内存和IO)| 4.资源调度策略(FIFO、Fair和Capacity)| 5.YARN高可用模式搭建|
7. Hive基础数据仓库Hive,实现企业级数仓必备工具,包含以下常识点:
1.HQL操作| 2.数据类型| 3.分区、分桶、临时表| 4.explain实行计划详解|
8. Hive高阶数据仓库Hive高阶原理和架构深入,实现企业级数仓优化,包含以下常识点:
1.Hive原理和架构| 2.Meta Store服务| 3.HiveServer内置函数| 4.自定义UDF和UDAF| 5.数据压缩、存储格式、自动化脚本、常见性能优化|
课时:10天技术点:120项测验:0次学习方式:线下面授
1.掌握离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程| 2.行业内首个深度使用Presto的项目| 3.包括海量数据场景下如何优化配置| 4.拉链表的具体应用| 5.新增数据和更新数据的抽取和分析| 6.提供新零售大型商超集团的数据存储分析以及服务监控方案| 7.使用Git对代码进行管理|
本项目基于一家大型连锁超市研发的大数据分析平台。黑马第一个深度使用Presto的项目,打下了坚实的项目实操能力,也为学员的就业拓宽了道路;真实的数据结构,复杂的SQL实现过程,学生学习以后可以达到离线数仓的高级开发水平。
进入项目体验掌握离线数仓的分层与建模、大数据量场景下如何优化配置,拉链表的具体应用,新增数据的抽取和分析,更新数据的抽取和分析,以及Hive函数的具体应用等。ClouderaManager可视化、自动部署和配置、Git的CodeReview功能保证项目高质量 离线数仓的分层与建模 项目涉及20多个主题,100多个指标场景 帆软BI企业级报表展示
1.大数据部署运维:Cloudera Manager 2.分析决策需求:数据仓库 3.数据采集:sqoop 4.数据分析:Hive+presto 5.历史数据快照:拉链表 6.数据更新后的统计分析:拉链表 7.数据调度:oozie+shell 8.OLAP系统存储:MySQL 9.FineBI数据展示
课时:5天技术点:120项测验:0次学习方式:线下面授
1.掌握行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程 2.真实业务逻辑,共涉及20多个主题,100多个指标,提升核心竞争力 3.包括海量数据场景下如何优化配置 4.拉链表的具体应用 5.新增数据和更新数据的抽取和分析 6.Hive函数的具体应用 7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能
1、建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 2、项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 3、挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。
进入项目体验项目先容与环境准备、数据仓库的建模和分层、OLTP、ODS、DWD实现、Presto、DWB实现、DWS实现、DM、RPT、导出实现、Oozie架构与部署及使用。使用Hive、Presto、Oozie、数仓技术栈,提供新零售大型商超集团的数据存储分析以及服务监控方案
1.大数据部署运维:Cloudera Manager 2.分析决策需求:数据仓库 3.数据采集:sqoop 4.数据分析:Hive 5.历史数据快照:拉链表 6.数据更新后的统计分析:拉链表 7.数据调度:ds 8.OLAP系统存储:MySQL 9.FineBI数据展示 10.Git代码管理
课时:3天技术点:48项测验:1次学习方式:线下面授
1.掌握离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程 2.行业内首个深度使用Presto的项目 3.包括海量数据场景下如何优化配置 4.拉链表的具体应用 5.新增数据和更新数据的抽取和分析 6.提供新零售大型商超集团的数据存储分析以及服务监控方案 7.使用Git对代码进行管理
1. Pandas及可视化技术Pandas数据处理及可视化技术,包含以下技术点:
01. Pandas数据结构和数据类型| 02. 索引及列的操作| 03. Dataframe数据的增删改查操作| 04. Pandas常用计算函数| 05. 缺失值处理| 06. 分组、分箱、合并与变形操作| 07. DF的读取与保存以及与数据库的交互| 08. Pandas Matplotlib、Pyecharts可视化| 09. Pandas项目开发实战|
课时:8天技术点:130项测验:1次学习方式:线下面授
1.掌握Spark的RDD、DAG、CheckPoint等设计思想| 2.掌握SparkSQL结构化数据处理,Spark On Hive| 3. 掌握Pandas数据处理分析,以及Pandas on Spark| 4.掌握Structured Streaming整合多数据源完成实时数据处理| 5.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力|
1. Spark基础本阶段学习Spark环境搭建及以下常识点
1.Spark基础环境搭建 2.Spark的Standalone环境搭建 3.Spark的StandaloneHA搭建 4.SparkOnYarn环境搭建
2. Spark Core整个spark框架核心部分,掌握框架内部设计思想,数据流转步骤,是学习spark的基础模块,包含了以下技术点:
1.Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程) 2.RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)广播变量 3.DAG原理(DAG思想、DAG的生成、DAG的处理过程)
3. Spark SQL学习spark框架的SQL操作,spark与Hive、HBase等外部数据源的整合操作,包含了以下技术点:
1.Spark SQL架构和原理 2.DataFrame、DataSet DSL和SQL开发 3.Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive) 4.Spark SQL实行计划原理 5.Spark SQL性能调优
4. Structured StreamingSpark实时计算
1.流式处理基本概念及应用场景 2.Structured Streaming架构 3.Structured Streaming基本使用 4.Structured Streaming与其他组件配合使用
5. Spark综合案例践行场景式教学,运用了Spark阶段常识点,使用lambda加解决数据分析的应用,包含了以下技术点:
Spark综合案例实战
课时:9天技术点:100项测验:0次学习方式:线下面授
1. 快速搭建保险行业大数据平台| 2. 基于Hive+Spark SQL搭建离线数据仓库| 3. 基于SparkSQL应对轻松应对复杂的迭代计算| 4. 完成基于国内头部保险企业大数据项目开发| 5. 掌握基于Spark分析12亿报单表和8千万客户等数据| 6. 对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示| 7. 掌握基于Elasticsearch标签搜索|
保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险企业的商业信誉。项目将多部门的业务数据库同步到Hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示
进入项目体验项目核心架构和业务流程、Hive数仓建模 、Sqoop数据同步开发 DolphinScheduler任务调度、使用lag,sum等窗口函数 、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用 、指标汇总计算 、Shuffle优化、Elasticsearch搜索。
基于Spark轻松应对保险复杂的迭代计算;以及用户画像
课时:9天技术点:130项测验:0次学习方式:线下面授
1.掌握Docker环境部署、管理操作| 2.掌握基于Oracle + MySQL异构数据源数据处理技术| 3.掌握基于Oracle Golden Gate以及Canal的实时采集技术| 4.掌握Kudu + Spark的快速离线数据处理、分析技术| 5.掌握Kudu + Impala即席数据分析技术| 6.掌握Kudu、Spark的调优能力|
基于一家大型物流企业研发的智慧物流大数据平台,日订单上千万,围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等,提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观引导意义的解决方案。
进入项目体验涵盖离线业务和实时业务、ClickHouse实时存储和计算引擎、 Kudu + Impala准实时分析系统、基于Docker搭建异构数据源、以企业主流的Spark生态圈为核心技术(Spark、Spark SQL、Structured Streaming)、ELK全文检索、Spring Cloud数据微服务开发、实时监控地图开发、存储和计算性能调优、还原企业搭建大数据平台的完整过程。
1.基于Oracle + MySQL异构数据源数据处理技术 2.基于Kudu + Spark的快速离线数据处理、分析技术 3.基于Kudu + Impala即席数据分析技术 4.学会基于ClickHouse高性能存储、计算引擎技术 5.掌握基于ELK的全文检索技术
课时:4天技术点:61项测验:0次学习方式:线下面授
1.掌握HBase原理及架构| 2.掌握HBase命令操作、MapReduce编程| 3.掌握Phoneix二级索引优化查询| 4.掌握ELK开发掌握Kafka原理及架构|
1. 万亿级NoSQL海量数据存储存储海量数据的列式数据库,内部高效设计解决了海量数据存储,包含了以下技术点:
1.HBase原理及架构| 2.预分区、LSM结构| 3.Bloom Filter,co-processor,结合Phoneix进行优化查询|
2. Flume实时数据采集掌握Flume的使用方法
1.Flume原理及架构| 2.Source-Sink-Channal| 3.文件数据源及相关配置| 4.Flume断点续传|
3. 分布式流处理平台分布消息队列存储数据,应用于低延时实时场景,包含了以下技术点:
1.Kafka原理及架构分析| 2.分布式实时计算架构和思想|
4. NoSQL社交场景大数据分析实战践行场景式教学,运用了NoSQL阶段常识点,解决实时数据分析的应用,包含了以下技术点:
1.社交App场景实战| 2.社交大数据架构剖析| 3.数据采集| 4.数据ETL| 5.数据分析|
课时:8天技术点:130项测验:0次学习方式:线下面授
1. 用户画像架构设计| 2. 基于Hbase存储业务数据库数据| 3. 基于SparkSQL应对轻松应对标签的计算| 4. 完成基于国内头部保险企业大数据项目开发| 5. 掌握基于MySQL的五级标签构建| 6. 对统计类标签,规则类标签进行代码封装| 7. 掌握基于Elasticsearch全文检索技术|
保险行业用户画像是基于金融保险数仓平台之上进行设计和开发,是面向投保用户的偏好、行为习惯和人口属性的画像还原,同时也包括对投保信息的画像还原。提供用户喜好和保险特征帮助营销平台提升保险营销的精准度,也方便个性化推荐系统快速准确的为每个用户推荐相关的商品。
进入项目体验项目核心架构和业务流程、Hbase数据同步开发,DolphinScheduler任务调度、Web标签管理平台、UDF函数计算、统计类标签、规则类标签、挖掘类标签等汇总计算 、Elasticsearch搜索。
基于SparkSQL轻松应对保险行业复杂用户标签计算
课时:8天技术点:130项测验:0次学习方式:线下面授
1.掌握Docker环境部署、管理操作| 2.掌握基于Oracle + MySQL异构数据源数据处理技术| 3.掌握基于Oracle Golden Gate以及Canal的实时采集技术| 4.掌握基于ClickHouse高性能存储、计算引擎技术| 5.掌握基于ELK的全文检索技术| 6.掌握Kudu、Spark的调优能力| 7.掌握基于Spring Cloud的数据微服务接口开发技术|
基于一家大型物流企业研发的智慧物流大数据平台,日订单上千万,围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等,提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观引导意义的解决方案。
进入项目体验涵盖离线业务和实时业务、ClickHouse实时存储和计算引擎、 Kudu + Impala准实时分析系统、基于Docker搭建异构数据源、以企业主流的Spark生态圈为核心技术(Spark、Spark SQL、Structured Streaming)、ELK全文检索、Spring Cloud数据微服务开发、实时监控地图开发、存储和计算性能调优、还原企业搭建大数据平台的完整过程。
1.基于Oracle + MySQL异构数据源数据处理技术 2.基于Kudu + Spark的快速离线数据处理、分析技术 3.基于Kudu + Impala即席数据分析技术 4.学会基于ClickHouse高性能存储、计算引擎技术 5.掌握基于ELK的全文检索技术
课时:5天技术点:60项测验:1次学习方式:线下面授
1.强化面试就业核心面试题| 2.梳理大数据架构及解决方案| 3.剖析多行业大数据架构|
1. SQL实战解决Python大数据常见的SQL面试题,包含了以下技术点:
1.面试题必备SQL实战| 2.SQL优化加强|
2. Hive数据分析与面试题加强解决Hive数据分析开发必备面试题,包含了以下技术点:
1.Hive基础| 2.Hive拉链表| 3.Hive数据仓库构建示例| 4.Hive面试题|
3. Spark数据分析与面试题加强解决Spark开发必备面试题,包含了以下技术点:
1.Spark基础| 2.Spark离线分析| 4.Spark面试题|
4. NoSQL数据分析与面试题加强解决NoSQL常见的面试题,从消息队列到HBase掌握关键原理,包含了以下技术点:
1.Kafka原理加强| 2.HBase原理加强| 3.企业级HBase&Kafka面试题|
5. 大数据多行业架构剖析解决多行业多场景大数据架构设计,具备举一反三设计大数据架构体系能来,包含了以下技术点:
1.数据分析流程| 2.大数据架构剖析| 3.多行业大数据架构设计| 4.大数据存储,调度等解决方案|
课时:6天技术点:90项测验:1次学习方式:线下面授
1.掌握基于Flink进行实时和离线数据处理、分析| 2.掌握基于Flink的多流并行处理技术| 3.掌握千万级高速实时采集技术|
1. Flink Core新一代批流统一数据处理引擎,在计算效率和性能都有很大提升,包含了以下技术点:
1.Flink基础|
2. Flink DataStream构成了Flink解决实时数据处理部分,是掌握实时数据处理必备技能,包含了以下技术点:
1.Flink DataStream的使用| 2.Kafka + Flink|
3. Flink SQL解决Flink中的SQL化开发,Flink-SQL开发必备技能,包含了以下技术点:
1.Flink SQL开发| 2.Hive + Flink SQL|
4. Flink Runtime是对Flink任务进行调优,必须掌握的内容,包含了以下技术点:
1.Watermark| 2.Checkpoint| 3.任务调度与负载均衡| 4.状态管理|
5. Flink高级解决Flink性能监控等高阶常识,具备实时数据分析必备技能,包含以下技术点:
1.Flink性能监控| 2.Flink调优| 3.Flink SQL实行计划|
6. Flink电商案例实战践行场景式教学,运用了Flink阶段常识点,解决实时数据分析的应用,包含了以下技术点:
Flume+Kafka+Flink+HBase+Sqoop+Canal+MySQL实战
课时:8天技术点:130项测验:0次学习方式:线下面授
1.掌握基于Flink全栈进行快速OLAP分析 2.掌握实时高性能海量数据分析与存储 3.掌握针对HBase调优实现HBase存储调优 4.掌握数据报表分析 5.掌握业务数据实时大屏场景实现
1、涵盖完整车联网业务场景,包含驾驶行程、电子围栏、远程诊断等真实业务 2、通过QBOX车辆终端数据收集,并解析为QSP数据、QCS数据、充电数据、HU数据 3、提供实时计算服务与离线计算服务,并通过API接口以报表和大屏展示分析结果数据
进入项目体验Hive、HBase、HDFS数据存储、Kafka数据传输、?Flink全栈数据处理、Nginx做反向代理、LSV和Keepalived负载均衡和高可用
采集超过千万条新能源车辆的数据 实时高性能海量数据分析与存储 业务数据实时大屏场景实现
课时:8天技术点:130项测验:0次学习方式:线下面授
1.掌握基于Flink全栈进行快速OLAP分析 2.掌握实时高性能海量数据分析与存储 3.掌握针对HBase调优实现HBase存储调优 4.掌握数据报表分析 5.掌握业务数据实时大屏场景实现
今日指数项目用于对证券市场的每日交易数据进行实时监控,该项目基于Flink框架搭建,结合HBase、Druid进行实时OLAP分析,在实时分析的平台上搭建监察预警体系,包括预警规则管理、实时预警、历史预警等。学员可以通过该项目学习到分布式实时计算、分布式数据存储等多个大数据技术解决方案。
进入项目体验今日指数项目用于对证券市场的每日交易数据进行实时监控,该项目基于Flink框架搭建,结合HBase、Druid进行实时OLAP分析,在实时分析的平台上搭建监察预警体系,包括预警规则管理、实时预警、历史预警等。
学员可以通过该项目学习到分布式实时计算、分布式数据存储等多个大数据技术解决方案。
课时:8天技术点:130项测验:0次学习方式:线下面授
1.掌握基于Flink全栈进行快速OLAP分析 2.掌握实时高性能海量数据分析与存储 3.掌握针对HBase调优实现HBase存储调优 4.掌握数据报表分析 5.掌握业务数据实时大屏场景实现
本项目是基于大型物流企业业务研发的智慧物流大数据平台,企业业务网点覆盖国内各地,大规模的客户群体,日订单达1000W,平台对千亿级数据进行整合、分析、处理,保障业务的顺利进行。
进入项目体验异构数据源、实时、离线、搜索、调度、数据服务、可视化完整架构,涵盖全生命周期项目
基于大型物流企业快递流程,开发围绕订单、运单、仓库、B端客户、区域、画像多个主题的业务开发
课时:240天技术点:500项测验:0次学习方式:线上学习
1. 在毕业后工作之余进行学习、继续提升| 2. 课程品类和内容持续更新、终身受益|
1. Python数据分析数据分析专项课,无论从事大数据开发、还是专门从事数据分析,升职挑战高薪必备技能
1. Pandas开发进阶| 2. 机器学习数据挖掘统计分析| 3. 多场景分析项目| 4. 金融风控专项分析|
2. Python后端开发如果你最终想成为融汇前后端运维测试的技术总监,那么请在工作之余学习这套课程
1. Python Django Web开发| 2. 美多商城前后台Web项目| 3. Python自动化运维部署| 4. Python Flask Web开发| 5. 黑马头条移动端Web项目| 6. 后端高并发数据库缓存设计| 7. Python测试开发| 8. Python爬虫开发| 9. 微服务及RPC远程调用开发|
3. Scala on SparkScala虽然式微,但如果你即将加入的团队还在使用Scala进行Spark开发,请快速学习
1. Scala编程| 2. 基于Scala的Spark开发| 3. Scala Spark项目1:用户画像| 4. Scala Spark项目2:大数据推荐系统| 5. Scala Spark项目3:大数据反爬虫| 6. Scala Spark项目4:信号检测| 7. Scala Spark项目5:车联网|
4. Java on Flink虽然以阿里为首的一线大厂已经开始采用Python on Flink的技术选型,但还是有部分团队采用Java on Flink,如果需要请快速学习
1. Java编程| 2. 基于Java的NoSQL及存储框架开发| 3. 基于Java的Flink实时计算开发| 4. Java Flink项目1:车联网| 5. Java Flink项目2:金融证券| 6. Java Flink项目3:物流大数据实时计算|
5. Flink实时计算高级进阶价值超过万元的实时计算课程,助力在职的你持续挑战高薪
1. 实时计算基础| 2. 实时计算高阶| 3. 实时计算架构与运维| 4. Flink源码解析|
课程名称:主要针对:主要使用开发工具:
源源不断引进大厂技术大牛,专业研发课程升级、迭代,与企业需求实时接轨
教师录取率<3%,从源头把控师资,带你过关斩将掌握每一个常识点
用数据驱动教学,贯通教/学/练/测/评,为每一位学员私人定制学习计划和就业服务
学前入学多维测评
学前目标导向式学习
学中随堂诊断纠错
学中阶段效果测评
学后在线作业试题库
学后问答社区查漏补缺
保障BI报表数据呈现
就业全面引导就业
就业流程
全信息化处理
学员能力
雷达图分析
定制个性化
就业服务
技术面试题
讲解
就业引导课
面试项目分析
HR面试攻略
模拟企业
真实面试
专业简历引导
面试复盘辅导
风险预警
企业黑名单提醒
老学员毕业后即可加入传智汇精英社区,持续助力学员职场发展,一次学习永久服务
传智教育旗下IT互联网精英社区,以汇聚互联网前沿技术为核心,以传递、分享为己任,联合经纬创投、创新工场、京东人工智能、HUAWEI等众多关注互联网的知名机构及企业、行业大咖,共同研究中国互联网深度融合、跨界渗透、整合汇聚、相互促进的信息化资源共享平台。
行业沙龙
高端人脉
职场资源
技术研习
查看其他班级
9970元/月平均薪资
15900元/月最高薪资
100%就业率
58人月薪过万
*学员就业信息统计数据为数据库中实时调取的真实相关数据,非广告宣传