什么是Spark项目班?
Spark项目班是以项目实战为核心内容的个性化、定制班,是架起所学知识与企业实战无缝对接的桥梁。

多少人苦于没有Spark项目实战经验而“躺尸”在面试的大门前。

“屌丝们”在此请让我对您说声:“Sorry,we are late!”。

Spark项目班在行业类仅此一家,我们不“牛逼”,我们只关注大数据,只关注你所想、所在乎的,就是这么贴心!贴心!贴心!

为什么选择小牛学堂?
专业

新三板上市的
专业大数据培训公司

专一

所有课程门类
都是围绕大数据
各类岗位需求而设计

专注

所有培训讲师都是
来自一线企业的一线技术大牛
所有课程安例都
来自一线企业的真实线上项目

保障

入学签订就业协议

24h

金牌讲师7*24+答疑

1对1

就业老师1对1辅导

我们的学习方式

针对想要自我提升的在职学员,老师全天7X12小时在线,学员在学习过程中遇到任何问题,可随时通过QQ群进行沟通

我要报名

针对线下班,小牛提供全天的培训,班主任、金牌讲师、就业老师全面辅导,学完后让你直接拥有至少2+年的工作经验,面试不在“躺尸”,让你毫无压力高薪就业,就是这么任性!你敢来吗,小伙?

我要报名
spark项目班学习什么?
  • 精准广告推送DMP平台
  • 移动商城业务支撑系统
    实时充值数据监测统计平台
  • 游戏运营平台数据分析系统

模块一:广告行业现状

1、广告行业现状分析
涉及技术
传统广告和互联网广告投放优劣PK
2、广告行业知识介绍
涉及技术
互联网广告的程序化采买概念
3、DSP业务需求详解
涉及技术
SSP详解
AD Exchange详解
RTB实时竞价详解
DSP平台详解
DMP平台详解

模块二:项目背景

1、项目背景介绍
涉及技术
DMP平台建设的必要性分析
2、项目业务流程梳理
涉及技术
DMP业务流程详解
3、项目技术架构分析
涉及技术
DMP技术架构设计分析
4、日志采集
涉及技术
日志采集方案设计分析
5、日志格式
涉及技术
日志格式详解

模块三:项目数据采集

涉及技术:

Flume自定义插件开发流程详解及实际场景应用;source、channel、sink的使用详解及实战经验;Flume HDFS sink深入剖析及实战经验;数据存储目录结构设计;

1、Flume自定义插件详解
2、Flume组件使用详解
3、Flume采集日志到HDFS
4、日志存储目录设计

模块四:数据存储技术选型

1、parquet选型
涉及技术
Paruqet存储原理详解
2、Parquet优势分析
涉及技术
Parquet存储优点详解
3、Parquet实战
涉及技术
日志文件转Parquet文件实战

模块五:离线业务

涉及技术:

Spark SQL实战。Spark Transformations各算子在各业务模型中的实战应用;Spark Action的实战应用最佳实践经验;Spark SQL在项目数据分析业务场景中的各类复杂应用,如参与竞价数、竞价成功数、竞价成功率、ECPC、ECPM等。

1、日志数据量分布统计
2、广告投放效果地域分析
3、广告投放效果渠道分析
4、广告投放效果终端分析
5、广告投放效果媒体分析

模块六:实时业务

涉及技术:

使用Spark Streaming结合Kafka对业务指标进行实时统计分析,并将计算的结果数据存储到Redis中 Kafka分区调优应用; Kafka整合Spark Streaming的数据可靠性优化实战; Kafka整合Spark Streaming的吞吐量协调优化实战; Spark Streaming在复杂业务模型下的逻辑开发实战; Spark Streaming线上环境各类复杂异常处理经验; Spark Streaming线上环境各类监控、JVM优化经验

1、广告日志到Kafka
2、媒体数据实时分析
3、渠道数据实时分析

模块七:用户画像

1、标签体系建设
涉及技术
定制一套标签体系;
2、用户上下文标签
涉及技术
使用Spark Transformations、Action、Broadcast及外部爬虫抓到的网络数据进行处理分析将数据标签化;
3、统一用户识别
涉及技术
使用Spark GraphX算法,对数据进行分析处理,识别出同一用户跨多个设备的问题;
4、基于地理位置的广告投放
涉及技术
使用GEOHASH算法结合HBASE解决用户的地理位置识别问题;
5、用户数据标签聚合
涉及技术
使用Spark Transformations、Action将上下文标签数据和统一用户数据进行合并;
6、HBase存储用户标签
涉及技术
将合并的用户标签数据存储到Hbase中,并根据日志动态扩列;
7、用户标签数据衰减
涉及技术
将Hbase中的标签数据按照日期自动衰减,形成当天最新的标签;

模块八:数据可视化

涉及技术:

使用Echarts、ELK将Hbase中的数据做可视化的web平台;Echarts实际应用实战技能;ELK实际应用实战技能;

1、ElasticSearch
2、Echarts
3、标签可视化平台建设

课程特色

最火爆广告行业数据分析场景,结合最火爆大数据技术体系SPARK,完整重现基于SPARK体系的大数据广告数据挖掘分析系统;
本项目课程涵盖数据处理全流程,综合性超强
本项目课程全方位立体呈现高吞吐量情境下的数据采集、数据预处理、高并发大吞吐量实时流式处理、离线批量处理、数据仓库存储优化、海量分布式消息系统等前沿高端技术
本项目课程全方位真实还原广告行业数据分析模型、地理位置信息处理、广告行业用户画像标签体系、广告行业用户画像设计思想
学好本项目课程,搞定spark开发工程师岗位,所向披靡,志在必得!!!
项目部分效果图

项目实战代码片断截图(点击图片可放大)

标签统计可视化展示(点击图片可放大)

模块一:项目背景介绍

1、实时充值监控平台项目背景详解
涉及技术
充值离线统计及实时统计分析

模块二:需求分析详解

涉及技术:

对项目中各个业务指标进行实战前详解; 切身投入,参与项目,熟悉项目在企业开发中具体的细节及开发流程;

1、业务概况指标详解
2、各省充值数据分析详解
3、充值业务时长分析
4、充值机构排名统计
5、充值数据分析

模块三:项目架构设计

1、日志采集
涉及技术
Flume日志采集Agent的source、channel、sink的使用详解及实战经验;
2、Kafka消息队列设计
涉及技术
Kafka消息队列实战;
Kafka的broker配置、producter配置、consumer配置、Topic详解及实战;
Kakfa Low-Level API;
Kakfa Hight-Level API;
Zookeeper详解及实战;
3、Spark Streaming业务处理
涉及技术
Spark streaming的DStreams使用详解;
Input DStreams and Receivers详解及实战;
Transformations on DStreams详解及实战;
Output Operations on DStreams详解及实战;
DataFrame and SQL Operations详解及实战;
Checkpointing详解及实战;
4、存储选型
涉及技术
Redis存储实时计算结果数据
Redis使用详解及实战;

模块四:项目业务实战

涉及技术:

Spark Streaming整合Kafka实战,通过案例需求对Spark Streaming中的API进行综合性的案例演练; 使用Spark Streaming结合Kafka对业务指标进行实时统计分析,并将计算的结果数据存储到Redis中Kafka分区调优应用;
Kafka整合Spark Streaming的数据可靠性优化实战; Kafka整合Spark Streaming的吞吐量协调优化实战;
Spark Streaming在复杂业务模型下的逻辑开发实战; Spark Streaming线上环境各类复杂异常处理经验; Spark Streaming线上环境各类监控、JVM优化经验;
ElasticSearch+Kibana快速构建报表详解及实战; Echarts详解及实战,将统计结果通过图表的方式做动态展示;

1、实时概况:充值订单量
2、实时概况:充值金额
3、实时概况:充值成功率
4、实时概况:充值平均时长
5、省份实时:充值订单量TOP10
6、省份实时:业务失败TOP5
7、省份实时:业务平均时长TOP10
8、实时充值笔数和金额统计
9、充值机构实时分布排名

模块五:项目成果总结

涉及技术:

该阶段主要由学员汇报所做项目结果,展示分享; 总结在Spark Streaming开发过程中遇到的问题; 总结Spark Streaming实战过程问题解决方案;

1、项目成果汇报展示
2、项目问题总结
3、项目难点总结

课程特色

1.实时充值数据监控统计平台项目实战性很强,主要针对实时流式计算领域实战应用;
2.Spark Streaming 流式计算框架目前在各大互联网企业炙手可热,该项目案例通过实战的方式,让每一位学员对Spark Streaming实时计算框架不在懵逼,成为实时计算领域一把好手,让高薪触手可及。
3.实时充值数据监控统计平台为真实项目需求,且项目中还是涉及了当前非常火爆的ElasticSeach+Kibana框架,毕业后可无障碍入职。
4.Kafka数据偏移量维护的痛点问题也会涉及,

加入我们绝对让你不虚此行。人生苦短,我在小牛等你!

项目部分效果图

项目实战代码片断截图(点击图片可放大)

标签统计可视化展示(点击图片可放大)

模块一:数据分析在游戏行业的应用概况

1、游戏行业现状分析
涉及技术
网络游戏的发展现状和技术架构
2、游戏运营与数据分析的关系
涉及技术
大数据在游戏领域的应用
3、数据分析的重要价值和意义
涉及技术
大数据技术为游戏运营提供数据支持的方式和手段
大数据个性化分析玩家行为的常用技术和算法

模块二:项目背景

1、项目背景介绍
涉及技术
游戏运营平台建设的必要性分析
2、游戏引擎介绍
涉及技术
游戏引擎的演示和试玩
3、项目业务流程梳理
涉及技术
游戏运营平台业务流程详解
4、项目技术架构分析
涉及技术
游戏运营平台技术架构设计分析
5、游戏分析指标
涉及技术
游戏运营平台重要指标介绍
6、日志采集
涉及技术
日志采集方案设计分析
7、日志格式
涉及技术
日志格式详解

模块三:数据采集

1、游戏网站页面JS埋点脚本
涉及技术
JS埋点校本的编写和Nginx的配置
2、Flume的高级使用
涉及技术
自定义Source和Interceptor
3、Kafka消息队列的使用
涉及技术
Kafka集群搭建和使用、Flume整合Kafka
4、Elasticsearch和Logstash的安装和使用
涉及技术
Logstash整合Kafka和Elasticsearch

模块四:离线业务

涉及技术:

使用Spark Core和DataSet分析玩家的行为。熟练使用RDD和DataSet

1、游戏玩家渠道来源分析
2、游戏玩家留存分析
3、游戏玩家留存分析
4、游戏玩家区域分析
5、游戏玩家等级分析
6、游戏玩家在线时长分析
7、游戏玩家充值可消费分析

模块五:实时业务

涉及技术:

使用SparkStreaming消费Kakfa中的玩家实时数据,实时统计玩家的充值消费行为,监控使用外挂的非法玩家。

1、玩家实时充值情况
2.玩家充值成功率实时统计
3.玩家外挂实时排查

模块六:数据可视化

涉及技术:

(SpringMVC、Spring、Mybatis)搭建数据管理平台、使用Echarts实行数据可视化。

1、JavaEE三大框架环境搭建
1、Echarts报表的使用

课程特色

1.该项目中使用了Flume、Kafka、Spark Core、Spark Steaming、Elasticsearch、Redis、Echarts等前沿技术,将前面学到的知识点应用于项目实战,从而达到融会贯通的目的。
2.该项目是一个游戏数据分析项目,但其中的指标和业务流程与社交平台、App应用、门户网站的后台数据分析大同小异,通过该项目完全可以达到触类旁通的目的,完全可以驾驭其他类似的项目!
项目部分效果图

项目实战代码片段截图(点击图片可放大)

可视化效果展示(点击图片可放大)

可视化效果展示(点击图片可放大)

可视化效果展示(点击图片可放大)

可视化效果展示(点击图片可放大)

可视化效果展示(点击图片可放大)