【小牛原创】Spark SQL 从入门到实战 -- spark sql 1.6版本相关api
【小牛原创】Spark SQL 从入门到实战 -- 概述
Spark Streaming:大规模流式数据处理
spark RDD 相关需求
spark RDD 高级应用
Spark手册 - load&save
Spark手册 - debug
Spark手册 - cache&checkpoint
Spark手册 - RDD Action API
Spark手册 - Partitioner源码
Spark手册 - RDD Transformation API
Spark手册 - RDD的依赖关系
Spark手册 - RDD入门
Spark手册 - 远程debug
Spark手册 - 在IDEA中编写WordCount程序(3)
Spark手册 - 在IDEA中编写WordCount程序(2)
Spark手册 - 在IDEA中编写WordCount程序(1)
Spark手册 - 执行Spark程序
Spark手册 - 集群安装
20页PPT|视频类网站大数据生态 Spark在爱奇艺的应用实践
Spark机器学习入门实例——大数据集(30+g)二分类
Spark官方文档中文翻译:Spark SQL 之 Data Sources
使用Spark MLlib来训练并服务于自然语言处理模型
Spark知识体系完整解读
案例 :Spark应用案例现场分享(IBM Datapalooza)
最全的Spark基础知识解答
Spark在GrowingIO数据无埋点全量采集场景下的实践
Apache Spark探秘:三种分布式部署方式比较
Apache Spark探秘:多进程模型还是多线程模型?
Apache Spark探秘:实现Map-side Join和Reduce-side Join
Apache Spark探秘:利用Intellij IDEA构建开发环境
spark on yarn的技术挑战
Apache Spark学习:将Spark部署到Hadoop 2.2.0上
Hadoop与Spark常用配置参数总结
基于Spark Mllib,SparkSQL的电影推荐系统
spark作业调优秘籍,解数据倾斜之痛
Spark入门必学:预测泰坦尼克号上的生还情况
小牛学堂浅谈基于Spark大数据平台日志审计系统的设计与实现
【Hadoop Summit Tokyo 2016】使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析
Spark编程环境搭建经验分享
Spark技术在京东智能供应链预测的应用
spark中textFile、groupByKey、collect、flatMap、map结合小案例
Spark中DataFrame的schema讲解
深度剖析Spark分布式执行原理
【Spark Summit East 2017】从容器化Spark负载中获取的经验
内存分析技术哪家强?Spark占几何
Spark系列之一:Spark,一种快速数据分析替代方案
6种最常见的Hadoop和Spark项目
Hadoop vs Spark
Hadoop与Spark常用配置参数总结
Spark RPC通信层设计原理分析
Spark Standalone架构设计要点分析
Spark UnifiedMemoryManager内存管理模型分析
网易的Spark技术分享

小牛学堂浅谈基于Spark大数据平台日志审计系统的设计与实现

于2017-03-17由小牛君创建

分享到:


随着计算机、网络技术的发展,网络安全已经逐渐成为一个全球性问题,受到世界范围内各行各业的高度重视。危害网络安全的行为主要有伪造、修改、窃听和中断。为排除系统隐含的安全威胁通常采用加密、身份认证、授权和审计等安全措施以提高网络的安全性。审计是通过追踪客户的访问内容和访问方式进而查找系统所存的安全隐患,从而制定相应安全措施以弥补系统存在的安全漏洞。

  日志审计系统是目前在计算机和网络中广泛使用的一种审计工具。随着企业的网络结构日益复杂,日志审计系统面临数据量巨大、数据存储格式和采集方式多样性和数据处理实时性等诸多问题。大数据技术的4V特征,Volume(大量)、Velocity(高速)、Variety(多样性)、Value(价值),表明采用大数据技术的日志审计系统必然成为下一代审计系统的发展趋势。本文通过对大数据Spark技术和日志审计系统的深入分析研究,对基于Spark技术的日志审计系统进行了详尽的设计和实现。
  在需求分析阶段,对需求进行了整体概述并且明确了系统开发的目标以及要解决的问题。使用用例图等UML工具按照功能性和非功能性的划分对系统需求进行了详细说明。其中功能性需求中对集中管理平台、告警分析、统计查询、审计倒查、日志采集进行了用例描述,非功能性需求中给出了项目约束以及开发和运行期项目质量需求。
  在系统架构部分根据系统需求分析得出了设计目标及原则并进一步给出了系统的物理架构和整体架构。其中物理架构系统在物理环境下所处的位置;系统的体系结构包括整个系统的完整功能模块。
  在系统架构设计完毕的基础上,对系统进行了更进一步的详细设计。详细设计包括整体结构设计、模块设计和数据库设计。整体的结构设计又分为横向和纵向两个角度的设计。横向结构由三层构成:展现层、业务层、模型层,纵向结构由三个模块构成:集中管理平台、分析模块、日志模块。该模块设计实现了日志模块、分析模块和集中管理平台,完成了日志采集、标准化、规则匹配、报警功能以及视图展示功能。数据库设计给出了数据库的整体结构设计和表结构。
  在详细设计的基础上,描述了具体实现和测试的部分工作内容。例如采集模块Flume的配置文件,XML规范化文件,分析模块主函数的代码以及系统运行情况等。最后对基于Spark大数据平台日志审计系统的应用情况作了简单介绍,并进行了总结,对基Spark大数据平台日志审计系统的发展进行了展望。

  本文所涉及实现的基于Spark大数据平台日志审计系统,具有速度快、伸缩性良好、处理数据量大等优点,在实际运行中取得了良好效果,为日志审计系统的分析和研究做出了有益的尝试。最后想要了解更多关于Spark的新闻资讯,请关注小牛学堂官网、微信等平台,小牛学堂IT职业在线学习教育平台为您提供权威的大数据Spark培训课程和视频教程系统,通过小牛学堂金牌讲师在线录制的第一套自适应Spark在线视频课程系统,让你快速掌握Spark从入门到精通大数据开发实战技能。