阿里巴巴菜鸟级数据产品经理半年回顾总结篇
干货教程:如何绘制业务流程图(二)
干货教程:如何绘制业务流程图(一)
技术贴:如何在数据库中秘密地查询隐私数据
攻略教程:信息图(infographic)是怎么做出来的?
分析师一定要看!用数据讲故事的五个步骤
技术篇:怎样玩转千万级别的数据?
北漂书生:大数据时代SEO数据如何搜集和分析
干货,从十大问题重新认识并读懂互联网
相似图片搜索、算法、识别的原理解析(下)
相似图片搜索、算法、识别的原理解析(上)
制作信息图时请遵循这10条原则
提高表格可读性的一些技巧,适用于Excel、PPT等数据报表
实用教程:如何让Excel图表更具“商务气质”?
一张数据信息图是这样制作完成的
菜鸟读财报,如何从上市公司财报中挖情报?
北大数据分析老鸟写给学弟们一封信
如何一步一步制作出高品质数据信息图?
总结:海量数据分析处理的十个方法
【实战经验】数据分析师如何了解老板真正想法?
零售业数据分析那些事儿
数据分析时l常用电子表格公式【大全】
用数据来告诉你 上市公司财报的秘密
这12个数据能 帮你搞定淘宝店铺
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(四)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(三)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(二)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(一)
淘宝网店从激活到挽留,4步走玩转数据营销
文案怎样写才有意思、不空洞、打动人?
入门级扫盲贴:数据分析的步骤有哪些?
关系即数据,论社交媒体的关系转换
数据的力量,苹果教你用数据鄙视竞争对手
谁说文科生不能做数据分析?数据分析入行→技能提升→优势
产品运营数据分析——SPSS数据分组案例
如何追踪iPhone和iPad等移动设备的用户行为数据?
阿里巴巴中国站:用户满意度指标权重计算方法
广告中的AdNetwork、AdExchange、DSP、SSP、RTB和DMP是什么?
信息图制作教程:关于数值的表现
为什么大数据会如此轰动?(值得深度的文章)
多图技术贴:深入浅出解析大数据平台架构
面板数据分析中标准误的估计修正——根据Peterson (2009)的归纳
财务官、投资人、CIO看过来:给企业数据定价
推荐系统中常用算法 以及优点缺点对比
探索Weotta搜索引擎背后的大数据技术
如何识别虚假数据?
为什么我们像驯化小狗那样驯化算法
程序员必须知道的10大基础实用算法及其讲解
电子商务:最影响转化率的九大要素
如何迅速成为一名数据分析师?
想从事大数据、海量数据处理相关的工作,如何自学打基础?
如何用亚马逊弹性MapReduce分析大数据?
译文:机器学习算法基础知识
给hadoop新手的一封信:Hadoop入门自学及对就业的帮助
从入门到精通,我是这样学习算法的
小商家,从老客户身上获取的数据才更有意义
13页PPT讲述:大数据下网站数据分析应用
40页PPT详解:京东大数据基础构架与创新应用
67页PPT解密搜索引擎背后的大技术:知识图谱,大数据语义链接的基石
营销洞察力——10个营销度量指标
技术篇:前端数据之美如何展示?
董飞:美国大数据工程师面试攻略【PPT】
easel:如何制作好的信息图——来自专家的顶级技巧
大数据实操:以3D打印机为例,如何知道卖点有没有市场需求?
大数据建模 需要了解的九大形式
用户画像数据建模方法
从规划开始,公司or企业如何入手和实施大数据?
干货:商品信息数据分析和展现系统的设计与开发
高手教你用Excel制作百度迁徙数据地图
50篇干货:淘宝店/电子商务如何玩转数据分析?
精华索引:大数据实际应用案例50篇
验证最小化可行产品 (MVP) 的 15 种方法
干货:数据分析师的完整知识结构
大数据技术Hadoop面试题,看看你能答对多少?答案在后面
用SPSS做数据分析?先弄懂SPSS的基础知识吧
怎样做出优秀的扁平化设计风格PPT? 扁平化PPT设计手册#3
解答│做大数据过程中遇到的13个问题
40页PPT│社交网络发展的新动力:大数据与众包
以Amazon、豆瓣网为例,探索推荐引擎内部的秘密#1
怎样做出优秀的扁平化设计风格PPT?#2
怎样做出优秀的扁平化设计风格PPT?#1
36页PPT│大数据分析关键技术在腾讯的应用服务创新
如何丰满地做SWOT分析?
【35页PPT】TalkingData研发副总阎志涛:移动互联网大数据处理系统架构
27页PPT|以珍爱网为例,如何构建有业务价值的数据分析系统?
国外数据新闻资源分享
21页PPT重磅发布:Mariana——腾讯深度学习平台的进展与应用
从0到100——知乎架构变迁史
PPT解读:百度大数据质量保障方案探索
45页PPT|大数据环境下实现一个O2O通用推荐引擎的实践
从数据看豆瓣兴衰
深度学习系列:解密最接近人脑的智能学习机器——深度学习及并行化实现(四)
重磅推荐:129页PPT讲述移动时代创业黄金法则 via:腾讯企鹅智酷
重磅推荐:大数据工程师飞林沙的年终总结&算法数据的思考
OpenKN——网络大数据时代的知识计算引擎
大数据下城市计算的典型应用
技术贴:大数据告诉你,如何给微信公众号文章取标题?
你的QQ暴露了你的心——QQ大数据及其应用介绍PPT
如何从企业报表看企业的生存能力?
实用的大数据技巧合集
技术帝揭秘:充电宝是如何盗取你的个人隐私的?
重磅!50页PPT揭秘腾讯大数据平台与推荐应用架构
原创教程:饼图之复合饼图与双层饼图(1)
PPT:大数据时代的设计特点——不了解这个你做不了今天的设计
教程贴:如何用方程式写春联?
原创教程:如何用Excel制作简易动态对比图
深度译文:机器学习那些事
教程帖:数学之美——手把手教你用Excel画心(动态图)
董老师走进斯坦福,聊聊硅谷创业公司和大数据的事儿(附课件PPT下载)
【限时】年度钜献,108个大数据文档PDF开放下载
董飞专栏:大数据入门——大数据相关技术、Hadoop生态、LinkedIn内部实战
亿级用户下的新浪微博平台架构
一张图了解磁盘里的数据结构
浅析数据化设计思维在阿里系产品的应用
美团推荐算法实践
一个P2P创业公司有哪些部门,都是做什么的?
一个P2P平台的详细运营框架是怎样的?
机器学习中的算法——决策树模型组合之随机森林与GBDT
神经网络简史
58页PPT看懂互联网趋势,大数据/物联网/云计算/4G都有了
广点通背后的大数据技术秘密——大规模主题模型建模及其在腾讯业务中的应用(附PPT)
微信红包之CBA实践PPT——移动互联网海量访问系统设计
一文读懂机器学习,大数据/自然语言处理/算法全有了……
搜狐新闻客户端的背后大数据技术原理——推荐系统(PPT)
原创教程:用Excel做动态双层饼图
半小时读懂PMP私有广告交易市场
怎样分析样本调研数据(译)
PPT:支付宝背后的大数据技术——DataLab、Higo的实践及应用
大数据技术人员的工具包——开源大数据处理工具list(限时下载)
计算机视觉:随机森林算法在人体识别中的应用
24页PPT:机器学习——支持向量机SVM简介(附下载)
互联网高手教你如何搜集你想要的信息
深度:对地观测大数据处理、挑战与思考
原创教程:用Excel做饼图之复合饼图与双层饼图(2)
移动大数据时代: 无线网络的挑战与机遇(附pdf下载)
Excel使用技巧——25招必学秘技
【年度热门】加上这些 Excel 技能点,秒杀众人(多图)
原创教程:用Excel做纵向折线图
知识图谱——机器大脑中的知识库
何明科专栏:用数据化的方式解析投资条款
DT时代,如何用大数据分析创造商业价值(23页PPT)
MIT牛人梳理脉络详解宏伟现代数据体系
你的老婆是怎么算出来的?揭秘佳缘用户推荐系统
飞林沙:商品推荐算法&推荐解释
PPT:如何成为真正的数据架构师?(附下载)
开源大数据查询分析引擎现状
董飞专栏:打造数据产品必知秘籍
译文:如何做强大又漂亮的信息图
如何使用Amazon Machine Learning构建机器学习预测模型
如何运用数据协助货架管理(内附26张PPT)
SVM算法
主流大数据系统在后台的层次角色及数据流向
PPT:阿里全息大数据构建与应用
人脸识别技术大总结——Face Detection & Alignment
教程:用Excel制作成对条形图
易观智库:大数据下的用户分析及用户画像(18页PPT附下载)
技术向:如何设计企业级大数据分析平台?
电商数据分析基础指标体系
IBM SPSS Modeler 决策树之银行行销预测应用分析
拓扑数据分析与机器学习的相互促进
基于 R 语言和 SPSS 的决策树算法介绍及应用
用php做爬虫 百万级别知乎用户数据爬取与分析
另类新浪微博基本数据采集方法
以10万+阅读的文章为例 教你做微信公众号的运营数据分析
破解数据三大难题:变现?交易?隐私?
微店的大数据平台建设实践与探讨
阿里巴巴PPT:大数据基础建议及产品应用之道
基于社会媒体的预测技术
人工智能简史
技巧:演讲中怎样用数据说话
马云和小贝选谁做老公?写给非数据人的数据世界入门指南
掘金大数据产业链:上游资源+中游技术+下游应用
原创教程:手把手教你用Excel做多层折线图
销售分析:如何从数据指标发现背后的故事
如何一步步从数据产品菜鸟走到骨干数据产品
也来谈谈微博的用户画像
行走在网格之间:微博用户关系模型
如何拍出和明星一样美爆的自拍照?斯坦福大学用卷积神经网络建模告诉你
运营商如何玩转大数据? 浙江移动云计算和大数据实践(PPT附下载)
大数据分析的集中化之路 建设银行大数据应用实践PPT
腾讯防刷负责人:基于用户画像大数据的电商防刷架构
创业提案的逻辑
友盟分享 | 移动大数据平台架构思想以及实践经验
寻路推荐 豆瓣推荐系统实践之路
“小数据”的统计学
重磅!8大策略让你对抗机器学习数据集里的不均衡数据
小团队撬动大数据——当当推荐团队的机器学习实践
微博推荐架构的演进
科普文 手把手教你微信公众号数据分析
信息图制作的六个注意点
【权利的游戏】剧透新玩法:情理之中?意料之外
推荐系统(Recommender System)的技术基础
核心算法 谷歌如何从网络的大海里捞到针
Quora数据科学家和机器学习工程师是如何合作的
阿里巴巴PPT:大数据下的数据安全
数据建模那点事儿
全民拥抱Docker云–Lhotse系统经验分享
实时股票分析系统的架构与算法
架构师必看 京东咚咚架构演进
什么叫对数据敏感?怎样做数据分析?
推荐系统基础知识储备
刘德寰:数据科学的整合与细分 数据科学的七个危险趋势(视频)
实际工作中,如何做简单的数据分析?
分布式前置机器学习在威胁情报中的应用(附PPT下载)
数据科学 怎样进行大数据的入门级学习?
扛住100亿次请求 如何做一个“有把握”的春晚红包系统?(PPT下载)
从 LinkedIn 的数据处理机制学习数据架构
大数据会如何改变管理咨询公司(I)
优秀大数据GitHub项目一览
生硬的数字和数据新闻:这么近,那么远
经典大数据架构案例:酷狗音乐的大数据平台重构(长文)
揭秘中兴大数据在银行领域的系统部署
基于大数据的用户画像构建(理论篇)
【R】支持向量机模型实现
数据图处处有陷阱?五个例子教你辨真伪
如何用R绘制地图
你确定你真的懂用户画像?
数据模型需要多少训练数据?
【接地气】01 数据报表的颜色怎么配
游戏价值和数据分析新思路
【R】异常值检测
快的打车架构实践
豆瓣还是朋友圈:大数据、新方法和日常问
PPT数据图表,怎么做才好看?
大道至简的数据体系构建方法论
数据的误区及自身业务
新浪微博的用户画像是怎样构建的?
面试干货!21个必知数据科学面试题和答案part1(1-11)
易观智库:中国大数据产业生态图谱2016(附下载)
Airbnb的数据基础架构
50PB海量数据排序,谷歌是这么做的
大数据时代工程师如何应对–今日头条走进硅谷技术讲座
D3.js教学记(下)
D3.js教学记(上)
飞林沙:企业级服务公司如何赚钱?只有平台级产品才有大数据的理论
一个母婴电子商务网站的大数据平台及机器学习实践
7大板块 组成数据分析师的完整知识结构
干货:SaaS领域如何分析收入增长?
学术 | 词嵌入的类比特性有实用意义吗?
6个用好大数据的秘诀
一个数据库外行眼中的微信优化 (附专家补充)
大数据调研,如何实现快全准?
数据大师Olivier Grisel给志向高远的数据科学家的指引
数据堂肖永红:数据交易的是使用权或数据的增值,而不是数据本身(PPT附下载)
淘宝商品详情平台化思考与实践
刘译璟:百分点大数据理念和实践(图文+PPT下载)
如何快速搞定一份看起来还不错的演示文档?
【BABY夜谈大数据】决策树
数据驱动设计:数据处理流程、分析方法和实战案例
美图数据总监:Facebook的法宝,我们在产品中怎么用?
树的内核:量化树结构化数据之间的相似性
拿到用户数据之后,LinkedIn怎么赚钱?
GrowingIO张溪梦:增长黑客的核心 企业应该重视产品留存率(附PPT下载)
[译]Airbnb是如何使用数据理解用户旅行体验的?
微博推荐数据服务代理: hyper_proxy的设计和实现
星图数据谷熠:消费领域DaaS 大数据重构未来商业游戏规则(附PPT下载)
鲍忠铁:TalkingData大数据技术与应用实践(PPT下载)
【干货教材】数据分析VS业务分析需求
九枝兰专访:数字营销的核心—企业如何使用数据管理平台(DMP)进行精准营销
我们的应用系统是如何支撑千万级别用户的
R应用空间数据科学
Excel进行高级数据分析(上)
Excel进行高级数据分析(下)
国内各大互联网公司2.0版技术站点收集
网站数据分析思路导图
大数据分析报表设计开发要素
大数据需要的12个工具 推荐
YARN/MRv2 Resource Manager深入剖析—NM管理
YARN/MRv2 Resource Manager深入剖析—RMApp状态机分析
Hadoop 1.0与Hadoop 2.0资源管理方案对比
Hadoop 2.0中单点故障解决方案总结
Hadoop 2.0 (YARN)中的安全机制概述
Hadoop 新特性、改进、优化和Bug分析系列1:YARN-378
Hadoop 新特性、改进、优化和Bug分析系列2:YARN-45
Hadoop 新特性、改进、优化和Bug分析系列3:YARN-392
Hadoop版本选择探讨
探究提高Hadoop稳定性与性能的方法
《Effective C++》读书笔记(第一部分)
Hadoop分布式环境下的数据抽样
Hadoop计算能力调度器算法解析
如何编写Hadoop调度器
数据结构之红黑树
Hadoop pipes设计原理
《C++ Primer plus》学习笔记之”类”
《C++ Primer plus》学习笔记之”类继承”
《C++ Primer plus》学习笔记之”C++中的代码重用”
《C++ Primer plus》学习笔记之”异常”
《C++ Primer plus》学习笔记之”RTTI”
Hadoop pipes编程
Hadoop Streaming高级编程
《C++ Primer plus》学习笔记之”标准模板库”
《C++ Primer plus》学习笔记之”输入输出库”
Linux Shell 命令总结
算法之图搜索算法(一)
awk使用总结
素数判定算法
《C++ Primer plus》学习笔记之“函数探幽”
使用Thrift RPC编写程序
如何在Hadoop上编写MapReduce程序
怎样从10亿查询词找出出现频率最高的10个

分布式前置机器学习在威胁情报中的应用(附PPT下载)

于2017-04-01由小牛君创建

分享到:


大数据安全

今天讲的是比较新的概念,我们在用分布式的前置的机器学习引擎做一些跟威胁情报相关的事情。

大家觉得分布式和前置机器学习又和大数据平台背道而驰了怎么回事?所以我讲的时候很担心有没有人会有挑战说这个东西能不能来讲,有一天正好有一个朋友在圈里发了一张图跟我们的想法是一模一样的,这个实际上是NIC里面的一篇文章,它要做的是什么事情?就是要把数据分析从大数据的平台向前移,前移到入侵点威胁入侵发生的地方。

1 (2)

如果了解前了一阵,看过NIC的总架构的话,就知道IAD一直以领先的技术研究而著名。实际上我们也看到了,这个思路不是我们自己一个人在想,很多人也都在想,为什么?实际上问题我们都知道大数据分析平台现在很流行了,刚刚才投入使用的阶段,现在我们要夺分布式,分布式是什么意思?我们把数据分析的引擎下放到每一个终端上,每一个服务器网络的节点上去。前置都是这个意思实际上我们做这个事情是希望跟主办方的主题扣上,我们想看到的是威胁怎么样发生的。

1 (3)

现在威胁防御已经是一个争分夺秒的时间竞赛了,我选这个例子是因为前一阵子有一家一直在盗取icloud域名和账户,实际上代码来看他并没有这个能力。这是我们抓到的真正在iCloud账户钓鱼的域名,我找了一个新的刚刚注册当前上线下线的话是昨天,威胁情报的有效期是三天。iCloud背后的黑产链条做得非常戳,诈骗各式各样的事情都可以做。这不是人工来做的,我首先是做的恶意域名识别,还有网页内容的分类,这么两个技术来抓到的,实际上也是从大量的数据域名解析力抓到的,恶意域名识别的话,今天前两位已经讲的很多了,如果大家看过原来的分享的话,也知道我们也做了不少的工作。

大数据安全

我们在企业中也经常地看到类似的攻击的手法,就是定向攻击,并不是说iCloud伪装一个outlook的页面,用鱼叉的方式发到公司的邮箱,实际上是让你改密码,管理员说密码过期了,强度不够,这也是定向攻击的手法。这种钓鱼攻击实际上出现的时间只有很短的三天马上就下线了。

1 (4)

所我们现在在做威胁防御要想防御的话,其实有一个共识就是尽可能在供给链的早期发现威胁,早期发现威胁的好处是第一可以争取防御的空间和时间,怎么样做到这一点呢?第一个方法是利用威胁情报。第二个就是我们在接触点实施分析,在接入点实时分析的好处是什么?

我们把机器学习引擎前置,其实大数据分析平台是有很强的滞后的问题的,因为大家如果做过这种数据分析的话,知道数据采集到大数据平台再由人员或者是机器学习去做的话,实际上它的一般来讲都会滞后很长时间。

大数据安全

然后如果我们能够把发现威胁的时间往前移的话,这个应急响应的时间会缩短很多,如果把机器学习引擎前置的话,大数据平台有很多关联性的分析,很多海量挖掘是做不了的,所以这个不能解决所有的问题,但会给我们在威胁防御的竞赛中有一定的竞争优势。所以,如果我们想一想今天主要是讲威胁情报,那么威胁情报到底在利用的时候就是两个,一个是威胁情报的生产,我怎么样才能生产威胁情报?

其实生产威胁情报就是发现未知威胁的过程,因为首先发现了未知威胁才能生产情报。当然,如果这个入侵要抓不到的话,你永远不可能生成情报,所以这个也解释了为什么大家在原来方向过说威胁情报没有一家是全的,因为它攻击本来就是分散的,一个再大的厂商能接触到的入侵总是有限的。我们要利用威胁情报的话,实际上给我们带来的优势是什么?就是跳过了威胁分析的过程,你不用再分析域名、木马,不用再分析CMC,不用再分析什么样的传播机制,只要利用的分析情报就可以跳过分析的过程就可以采取行动了。

大数据安全

 

我们是一个创业公司,所以我其实一直在想威胁防御要怎么来做,这么大一个热点市场不参与实在是说不过去,威胁情报一般来讲第一个都是只有大数据这么一条路,大数据要生产威胁情报。这个路是非常正确的,但投资是巨大的,我们刚才也定到了360在云端有4万台服务器,这个对创业公司来讲是不可能完成的任务,所以我们有没有什么其他的路去走?

实际上大数据分析平台也有自己的问题,包括基础设施不堪重负,昨天美国的前司令不停在说too much data,他认为从业人员来讲这个是不好的趋势,因为他觉得大数据是解决威胁防御的关键的技术。但我们工作在第一线的成天想着帮助用户解决问题做工程的人,都会觉得数据实在是太多了。最近大家都在讲说有一些人可能用终端上安装的东西回传数据,如果真正地从事过大数据,从事过数据采集工作,就会发现这是一个相当困难的工作,不知道大家有没有经验,在企业里管10万个终端,想下发策略采集日志都是非常头疼的工作。这个事情是带宽是永远不够的,所以要采集很多的日志,采集所有的样本实际上是不可能的事情。1 (5)

下一个是存储,我把这些数据采集和平放在什么地方,斯诺登爆料说NIC的 map data也只存半年,你要投多少的资源在基础设施上才能把数据存起来?还有是查询分析,这个360的天眼能做到秒级查询是非常不容易的,背后需要大量的技术人员不停地调优。这是大数据安全分析平台难以回避的问题。我其实有很多很细节工程化的问题都没有进,比如说采集数据的适配,一个大企业里有上百家厂商的设备和产品,你怎么样把日志做适配都是很困难的问题。

大数据安全

还有一个事情是态势感知,因为态势感知现在也是非常热的,各个国际组织也在讲国内也在讲,我们其实经常看到大家把SOC、SIEM包装一下就叫态势感知了,让我们来看看真正的MITRE怎么讲态势感知,它不是收集一些战术层面的数据,而是要跟业务紧密地相关,要能有真正的影响,能对业务和安全有真正的影响,它只是要脱离开要超越我只能简单地采集数据,我简单地菜单日志,简单地采集漏洞和用户登录的行为,我要发现威胁的人,趋势各种各样的目标,这样才叫态势感知,如果我要想真正地做到态势感知,还是要借助很多威胁情报和事故分析,才能超越SOC,要不然大家讲了半天态势感知,做来做去最后发现又是做了SOC。

1 (7)

我们怎么样看威胁情报的应用,我们认为还是以价值为导向,什么叫价值?就是在企业中能辅助业务,给业务创造价值,降低业务的风险,这才是真正以价值为导向。

回到刚才的问题,你数据太多,是的,但是数据是没用的,除非它能够增加价值、能够帮助管理层做决策,除此之外的数据其实是没有什么用的。所以我们要找到什么样的目标?

举一个例子,这是我们已经有做到的,我们可以帮助大家看到关键数据在企业中风险分布,我们可以帮助大家真正地看见企业到底有哪些数据,有哪些类别的数据,他们这些数据都在什么地方?哪些数据正在承受着风险,这实际上是往深了看见,而不是简单地采集一些日志。还有业务系统的行为日常,业务系统会不会有异常的连接、异常的数据导出和内陆,还有木马扩散的路径,如果真的是做到了这些,才真的是为业务创造了价值和降低了企业的风险。

大数据安全

在这个基础上,我们就要机器学习的引擎前置,它有什么样的能力?现在行业内对威胁情报的评估都是公认要保留有情境的信息的情报是最有价值的。价值体现在什么地方?

首先是有关联性,你的业务场景和很多的环境都有关联,可以行动也可以预测。我们要做的事情是,分布式前置引擎,能实时地找到企业中的关键数据是什么地方,不管是业务数据是结构化的还是非结构化,还是企业运营的数据,像财务报表,我们要知道数据在什么地方,哪些是有风险的,还有是木马的分类,为什么?

因为木马分类我稍候会多讲两句,用机器学习做预测,还有恶意的域名,还有行为异常。行为异常有很多种类型,比如说特权用户,其实特权用户的滥用在企业中是非常高的风险,是给业务带来非常坏的影响的,还有像网址分类,我刚才举的例子iCloud钓鱼我们用了恶意域名识别和网址分类两个技术来做的,它是通过识别网页的内容来做分类的。

这样在很多时候比如说刚才讲的用鱼叉钓鱼的方式发送邮件到企业员工的信箱,用管理员的口吻说你的密码过期了,让你重新地登录密码,这是非常严重的问题,因为现在大家都在做SSO统一登录,一个账户实际上可以上所有的账户,还有是流量异常。我们把能力组合起来,把它打包前置放到传感器、放到终端和网络的端点上,可以最大程度上保留相关的contax。

大数据安全 大数据安全

机器学习给大家一个概念,首先大家讲无监督学习,给他一堆原始数据,会自动地聚类算法给一些结果,你把聚类的经过拿来做训练数据,用人工干预一下这就叫做有监督的机器学习,它可以生成一组规则,放到生成器,给他更多的原始数据就可以翻倍。机器学习的好处是可以按照这个套路定好了规则之后可以好不疲倦地做,如果是人工分析师的话,这个做木马的识别,现在一个熟练的病毒的分析师,在分析一个复杂病毒的时候基本上都需要半天到一天的时间,可能简单的病毒看半个小时就过去了,花得时间再小但还是比机器的时间长。如果我们有很好的大的规则库的话,可以让机器不停地做。

再讲木马的聚类分类,有时候太技术了不太好在短时间内讲清楚,在传统手工分析的时候会看到做木马同源分析,昨天在APT分论坛也有嘉宾在讲,我怎么样做木马的同源的分析,他用的方式有些跟传统手工方式分析是比较接近的,大家看到都是通过逆向工程来做的,有哪些功能模块和列表可以列出来,有什么编程错误?加密方式和免杀的对抗手段,这是用传统的逆向工程来做的。

但机器学习完全是另一个思路,首先最基本的思路是,如果收益这么多这个水平有很多水平高的人,所以写的漏洞利用的代码其实在一个家族里都是共通的,基本上这段代码都是复用的,还有通信的代码,跟CNS做通信,整个DGA的算法都是通用的,所以有大量的代码辅用,这实际上是对机器学习的非常获得特征。

大数据安全 大数据安全

对人来讲这是看不出来的,相同的代码在相同的编译器编译出来的结果、顺序和方法都是一样的。但你人怎么去看我连着20个、30位代码的顺序都是相同的,这个人是没法儿看的,但机器可以毫不疲倦地不停地看包括函数的顺序逻辑,编译器的特征,因为编译器的特征也是很重要的,编译出来的信息是完全不一样的木马的作者写这些东西的时候还要用自己熟悉的编译器来做。机器就可以说我来做木马的同源分析。

还有关键数据行为异常,所以我们在这方面有比较深的积累,可以监测到关键数据在企业上的动向,我们也可以经常地抓到外部的数据和泄漏,这是典型的行为分析,昨天因为美军前司令也在讲行为分析也是大势所趋。

举一个例子,我们很容易地找到一些机械,这个部门的终端用户平均每天打开多少次的关键数据如果是3倍、4倍甚至是10倍的关键数据被打开的话,很也可能被入侵或者是内部员工离职自己要抽取数据,我们也确实是抓到了真实的例子,一个目录一个目录的压缩,两兆一个包,外传到FTP,这实际上是外部入侵的结果,把这个数据传出来,之后要对目标动手,有85%以上的APT都是要投取数据,这是面对APT的最后一道防线。比如说像大量的访问恶意域名用DNS隐蔽隧道来外传数据,这个我在之前也分享过这种点滴泄漏。

我再讲一讲其他的场景,比如说恶意域名相关的威胁几位嘉宾也讲了不少,我们也分享了一个PPT给大家,还有宫总讲的让你必须下载的一个东西,这种drive-by的下载和内置的木马也是比较普通的,怎么样防这个东西呢?

1 (8) 1 (10)

网址分类是非常有用的。为什么?因为大量的下载的话都不是出现在正规的网站上而是擦边球,利用大家感兴趣的,可以很容易地下载一些东西,比较感兴趣的东西愿意付出一些代价我愿意等几秒钟可以下载文件去运行,或者是可能为了要肯某个网站把Flash就给打开了,视频网站像实时美女主播的网站一打开以后就种了一个木马。

还有是非授权的特权账户访问,这个实际上在企业中也经常见到,一个部门的特权用户跑到另外一个部门,用另外一个部门的终端登录系统,这是非常典型的被盗取的,还有异常登录行为,像这种很快的会发现一个终端上会很快地试图登录很多的业务系统,优惠换到另外一个终端,用另外一个用户名试图登录很多的用户系统,而且这些行为都是发生在凌晨的时间,像Tor/P2P这些我不细讲了。

还有文件的内网扩散,因为现在实际上有很多免杀的病毒,而且昨天也看到了一位嘉宾分享的时候知道了最多可以释放十几次的文件,第一层第二层完全没有任何恶意的,这个怎么样判断?这个判断有一个非常好的办法是看它在内网扩散的速度,因为大家都知道实际上一个文件如果是正常的,一个样有木马的Word,正常的Word文档一般是在一个部门里传输的,或者是邮件的传输都是有限入次数的,一天之内就传到了几千台机器上,这个肯定是一个可疑的文件。

大数据安全
22

还有在威胁情报中还有很多利用上的难点,比如说推送,天眼是把情报放到企业的服务器说,其实每天新增的威胁情报数量很多,C&C的域名很容易就达到几万条,根据我们的经验我们扫了一个省一天的所谓的DNS解析,我们发现了70多万恶意域名,有大概四五十万是钓鱼的,剩下的很多就是C&CDGA算法生成的,如果把这个数据还有钓鱼网站以及木马家族的变异样本和入侵的手法TTP推送到终端是非常艰巨的任务,这在企业里做是很痛苦的。

我们还是可以把机器学习引擎前置来做到,我只要做好的更新的成本非常低,不管每天生成了多少,之前我们一天就可以生成5万个,还有我们利用域名与网页内容协同来防止钓鱼,比如说outlook外部的页面让你更改密码,如果只用域名是不够的,我们先发现网址再用内容实时做,还有木马家族的同源变种预测,因为有很多木马都是免杀的,我们用机器学习的办法来做预测,还有异常行为的分析。

大数据安全 大数据安全 大数据安全 大数据安全 大数据安全

我们再讲讲碰到实现的过程中有一些要点跟大家分享,实际上要做机器学习的引擎前置的话,有这么几个需求是必须要满足的,

第一是轻量化,不可能搞一个巨大无比的引擎扔到前端终端服务器上,而且还非常耗资源把所有正常的业务都给瘫痪了,还有有比较强的针对的场景做DGA的就做DGA,性能要高,不能占用很多的CPU,尤其是针对解释执行的那些库的话,CPU的占用和速度都是很成问题的。

产品级的稳定要推下去不能成天去更新,如果成天更新就完全把机器学习引擎前置的优点给抵消了,还有是改进响应速度,这就很难用开源做,因为开源所有的机器学习库都不行,不管是什么的,也没有什么选择,人家都是打包好的你自己也拆不出来,只有一块扔下去,还是很大,只有通用的算法实现。性能也难以接受,还有各种bug改来改去,开源的东西就是这样的,自己更新你跟不上它的速度,自己改的话,下一版还要做合并,工作量是非常大的。

大数据安全

1 (11)

1 (19)

PPT下载:分布式前置机器学习在威胁情报中的应用.pdf

End.