阿里巴巴菜鸟级数据产品经理半年回顾总结篇
干货教程:如何绘制业务流程图(二)
干货教程:如何绘制业务流程图(一)
技术贴:如何在数据库中秘密地查询隐私数据
攻略教程:信息图(infographic)是怎么做出来的?
分析师一定要看!用数据讲故事的五个步骤
技术篇:怎样玩转千万级别的数据?
北漂书生:大数据时代SEO数据如何搜集和分析
干货,从十大问题重新认识并读懂互联网
相似图片搜索、算法、识别的原理解析(下)
相似图片搜索、算法、识别的原理解析(上)
制作信息图时请遵循这10条原则
提高表格可读性的一些技巧,适用于Excel、PPT等数据报表
实用教程:如何让Excel图表更具“商务气质”?
一张数据信息图是这样制作完成的
菜鸟读财报,如何从上市公司财报中挖情报?
北大数据分析老鸟写给学弟们一封信
如何一步一步制作出高品质数据信息图?
总结:海量数据分析处理的十个方法
【实战经验】数据分析师如何了解老板真正想法?
零售业数据分析那些事儿
数据分析时l常用电子表格公式【大全】
用数据来告诉你 上市公司财报的秘密
这12个数据能 帮你搞定淘宝店铺
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(四)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(三)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(二)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(一)
淘宝网店从激活到挽留,4步走玩转数据营销
文案怎样写才有意思、不空洞、打动人?
入门级扫盲贴:数据分析的步骤有哪些?
关系即数据,论社交媒体的关系转换
数据的力量,苹果教你用数据鄙视竞争对手
谁说文科生不能做数据分析?数据分析入行→技能提升→优势
产品运营数据分析——SPSS数据分组案例
如何追踪iPhone和iPad等移动设备的用户行为数据?
阿里巴巴中国站:用户满意度指标权重计算方法
广告中的AdNetwork、AdExchange、DSP、SSP、RTB和DMP是什么?
信息图制作教程:关于数值的表现
为什么大数据会如此轰动?(值得深度的文章)
多图技术贴:深入浅出解析大数据平台架构
面板数据分析中标准误的估计修正——根据Peterson (2009)的归纳
财务官、投资人、CIO看过来:给企业数据定价
推荐系统中常用算法 以及优点缺点对比
探索Weotta搜索引擎背后的大数据技术
如何识别虚假数据?
为什么我们像驯化小狗那样驯化算法
程序员必须知道的10大基础实用算法及其讲解
电子商务:最影响转化率的九大要素
如何迅速成为一名数据分析师?
想从事大数据、海量数据处理相关的工作,如何自学打基础?
如何用亚马逊弹性MapReduce分析大数据?
译文:机器学习算法基础知识
给hadoop新手的一封信:Hadoop入门自学及对就业的帮助
从入门到精通,我是这样学习算法的
小商家,从老客户身上获取的数据才更有意义
13页PPT讲述:大数据下网站数据分析应用
40页PPT详解:京东大数据基础构架与创新应用
67页PPT解密搜索引擎背后的大技术:知识图谱,大数据语义链接的基石
营销洞察力——10个营销度量指标
技术篇:前端数据之美如何展示?
董飞:美国大数据工程师面试攻略【PPT】
easel:如何制作好的信息图——来自专家的顶级技巧
大数据实操:以3D打印机为例,如何知道卖点有没有市场需求?
大数据建模 需要了解的九大形式
用户画像数据建模方法
从规划开始,公司or企业如何入手和实施大数据?
干货:商品信息数据分析和展现系统的设计与开发
高手教你用Excel制作百度迁徙数据地图
50篇干货:淘宝店/电子商务如何玩转数据分析?
精华索引:大数据实际应用案例50篇
验证最小化可行产品 (MVP) 的 15 种方法
干货:数据分析师的完整知识结构
大数据技术Hadoop面试题,看看你能答对多少?答案在后面
用SPSS做数据分析?先弄懂SPSS的基础知识吧
怎样做出优秀的扁平化设计风格PPT? 扁平化PPT设计手册#3
解答│做大数据过程中遇到的13个问题
40页PPT│社交网络发展的新动力:大数据与众包
以Amazon、豆瓣网为例,探索推荐引擎内部的秘密#1
怎样做出优秀的扁平化设计风格PPT?#2
怎样做出优秀的扁平化设计风格PPT?#1
36页PPT│大数据分析关键技术在腾讯的应用服务创新
如何丰满地做SWOT分析?
【35页PPT】TalkingData研发副总阎志涛:移动互联网大数据处理系统架构
27页PPT|以珍爱网为例,如何构建有业务价值的数据分析系统?
国外数据新闻资源分享
21页PPT重磅发布:Mariana——腾讯深度学习平台的进展与应用
从0到100——知乎架构变迁史
PPT解读:百度大数据质量保障方案探索
45页PPT|大数据环境下实现一个O2O通用推荐引擎的实践
从数据看豆瓣兴衰
深度学习系列:解密最接近人脑的智能学习机器——深度学习及并行化实现(四)
重磅推荐:129页PPT讲述移动时代创业黄金法则 via:腾讯企鹅智酷
重磅推荐:大数据工程师飞林沙的年终总结&算法数据的思考
OpenKN——网络大数据时代的知识计算引擎
大数据下城市计算的典型应用
技术贴:大数据告诉你,如何给微信公众号文章取标题?
你的QQ暴露了你的心——QQ大数据及其应用介绍PPT
如何从企业报表看企业的生存能力?
实用的大数据技巧合集
技术帝揭秘:充电宝是如何盗取你的个人隐私的?
重磅!50页PPT揭秘腾讯大数据平台与推荐应用架构
原创教程:饼图之复合饼图与双层饼图(1)
PPT:大数据时代的设计特点——不了解这个你做不了今天的设计
教程贴:如何用方程式写春联?
原创教程:如何用Excel制作简易动态对比图
深度译文:机器学习那些事
教程帖:数学之美——手把手教你用Excel画心(动态图)
董老师走进斯坦福,聊聊硅谷创业公司和大数据的事儿(附课件PPT下载)
【限时】年度钜献,108个大数据文档PDF开放下载
董飞专栏:大数据入门——大数据相关技术、Hadoop生态、LinkedIn内部实战
亿级用户下的新浪微博平台架构
一张图了解磁盘里的数据结构
浅析数据化设计思维在阿里系产品的应用
美团推荐算法实践
一个P2P创业公司有哪些部门,都是做什么的?
一个P2P平台的详细运营框架是怎样的?
机器学习中的算法——决策树模型组合之随机森林与GBDT
神经网络简史
58页PPT看懂互联网趋势,大数据/物联网/云计算/4G都有了
广点通背后的大数据技术秘密——大规模主题模型建模及其在腾讯业务中的应用(附PPT)
微信红包之CBA实践PPT——移动互联网海量访问系统设计
一文读懂机器学习,大数据/自然语言处理/算法全有了……
搜狐新闻客户端的背后大数据技术原理——推荐系统(PPT)
原创教程:用Excel做动态双层饼图
半小时读懂PMP私有广告交易市场
怎样分析样本调研数据(译)
PPT:支付宝背后的大数据技术——DataLab、Higo的实践及应用
大数据技术人员的工具包——开源大数据处理工具list(限时下载)
计算机视觉:随机森林算法在人体识别中的应用
24页PPT:机器学习——支持向量机SVM简介(附下载)
互联网高手教你如何搜集你想要的信息
深度:对地观测大数据处理、挑战与思考
原创教程:用Excel做饼图之复合饼图与双层饼图(2)
移动大数据时代: 无线网络的挑战与机遇(附pdf下载)
Excel使用技巧——25招必学秘技
【年度热门】加上这些 Excel 技能点,秒杀众人(多图)
原创教程:用Excel做纵向折线图
知识图谱——机器大脑中的知识库
何明科专栏:用数据化的方式解析投资条款
DT时代,如何用大数据分析创造商业价值(23页PPT)
MIT牛人梳理脉络详解宏伟现代数据体系
你的老婆是怎么算出来的?揭秘佳缘用户推荐系统
飞林沙:商品推荐算法&推荐解释
PPT:如何成为真正的数据架构师?(附下载)
开源大数据查询分析引擎现状
董飞专栏:打造数据产品必知秘籍
译文:如何做强大又漂亮的信息图
如何使用Amazon Machine Learning构建机器学习预测模型
如何运用数据协助货架管理(内附26张PPT)
SVM算法
主流大数据系统在后台的层次角色及数据流向
PPT:阿里全息大数据构建与应用
人脸识别技术大总结——Face Detection & Alignment
教程:用Excel制作成对条形图
易观智库:大数据下的用户分析及用户画像(18页PPT附下载)
技术向:如何设计企业级大数据分析平台?
电商数据分析基础指标体系
IBM SPSS Modeler 决策树之银行行销预测应用分析
拓扑数据分析与机器学习的相互促进
基于 R 语言和 SPSS 的决策树算法介绍及应用
用php做爬虫 百万级别知乎用户数据爬取与分析
另类新浪微博基本数据采集方法
以10万+阅读的文章为例 教你做微信公众号的运营数据分析
破解数据三大难题:变现?交易?隐私?
微店的大数据平台建设实践与探讨
阿里巴巴PPT:大数据基础建议及产品应用之道
基于社会媒体的预测技术
人工智能简史
技巧:演讲中怎样用数据说话
马云和小贝选谁做老公?写给非数据人的数据世界入门指南
掘金大数据产业链:上游资源+中游技术+下游应用
原创教程:手把手教你用Excel做多层折线图
销售分析:如何从数据指标发现背后的故事
如何一步步从数据产品菜鸟走到骨干数据产品
也来谈谈微博的用户画像
行走在网格之间:微博用户关系模型
如何拍出和明星一样美爆的自拍照?斯坦福大学用卷积神经网络建模告诉你
运营商如何玩转大数据? 浙江移动云计算和大数据实践(PPT附下载)
大数据分析的集中化之路 建设银行大数据应用实践PPT
腾讯防刷负责人:基于用户画像大数据的电商防刷架构
创业提案的逻辑
友盟分享 | 移动大数据平台架构思想以及实践经验
寻路推荐 豆瓣推荐系统实践之路
“小数据”的统计学
重磅!8大策略让你对抗机器学习数据集里的不均衡数据
小团队撬动大数据——当当推荐团队的机器学习实践
微博推荐架构的演进
科普文 手把手教你微信公众号数据分析
信息图制作的六个注意点
【权利的游戏】剧透新玩法:情理之中?意料之外
推荐系统(Recommender System)的技术基础
核心算法 谷歌如何从网络的大海里捞到针
Quora数据科学家和机器学习工程师是如何合作的
阿里巴巴PPT:大数据下的数据安全
数据建模那点事儿
全民拥抱Docker云–Lhotse系统经验分享
实时股票分析系统的架构与算法
架构师必看 京东咚咚架构演进
什么叫对数据敏感?怎样做数据分析?
推荐系统基础知识储备
刘德寰:数据科学的整合与细分 数据科学的七个危险趋势(视频)
实际工作中,如何做简单的数据分析?
分布式前置机器学习在威胁情报中的应用(附PPT下载)
数据科学 怎样进行大数据的入门级学习?
扛住100亿次请求 如何做一个“有把握”的春晚红包系统?(PPT下载)
从 LinkedIn 的数据处理机制学习数据架构
大数据会如何改变管理咨询公司(I)
优秀大数据GitHub项目一览
生硬的数字和数据新闻:这么近,那么远
经典大数据架构案例:酷狗音乐的大数据平台重构(长文)
揭秘中兴大数据在银行领域的系统部署
基于大数据的用户画像构建(理论篇)
【R】支持向量机模型实现
数据图处处有陷阱?五个例子教你辨真伪
如何用R绘制地图
你确定你真的懂用户画像?
数据模型需要多少训练数据?
【接地气】01 数据报表的颜色怎么配
游戏价值和数据分析新思路
【R】异常值检测
快的打车架构实践
豆瓣还是朋友圈:大数据、新方法和日常问
PPT数据图表,怎么做才好看?
大道至简的数据体系构建方法论
数据的误区及自身业务
新浪微博的用户画像是怎样构建的?
面试干货!21个必知数据科学面试题和答案part1(1-11)
易观智库:中国大数据产业生态图谱2016(附下载)
Airbnb的数据基础架构
50PB海量数据排序,谷歌是这么做的
大数据时代工程师如何应对–今日头条走进硅谷技术讲座
D3.js教学记(下)
D3.js教学记(上)
飞林沙:企业级服务公司如何赚钱?只有平台级产品才有大数据的理论
一个母婴电子商务网站的大数据平台及机器学习实践
7大板块 组成数据分析师的完整知识结构
干货:SaaS领域如何分析收入增长?
学术 | 词嵌入的类比特性有实用意义吗?
6个用好大数据的秘诀
一个数据库外行眼中的微信优化 (附专家补充)
大数据调研,如何实现快全准?
数据大师Olivier Grisel给志向高远的数据科学家的指引
数据堂肖永红:数据交易的是使用权或数据的增值,而不是数据本身(PPT附下载)
淘宝商品详情平台化思考与实践
刘译璟:百分点大数据理念和实践(图文+PPT下载)
如何快速搞定一份看起来还不错的演示文档?
【BABY夜谈大数据】决策树
数据驱动设计:数据处理流程、分析方法和实战案例
美图数据总监:Facebook的法宝,我们在产品中怎么用?
树的内核:量化树结构化数据之间的相似性
拿到用户数据之后,LinkedIn怎么赚钱?
GrowingIO张溪梦:增长黑客的核心 企业应该重视产品留存率(附PPT下载)
[译]Airbnb是如何使用数据理解用户旅行体验的?
微博推荐数据服务代理: hyper_proxy的设计和实现
星图数据谷熠:消费领域DaaS 大数据重构未来商业游戏规则(附PPT下载)
鲍忠铁:TalkingData大数据技术与应用实践(PPT下载)
【干货教材】数据分析VS业务分析需求
九枝兰专访:数字营销的核心—企业如何使用数据管理平台(DMP)进行精准营销
我们的应用系统是如何支撑千万级别用户的
R应用空间数据科学
Excel进行高级数据分析(上)
Excel进行高级数据分析(下)
国内各大互联网公司2.0版技术站点收集
网站数据分析思路导图
大数据分析报表设计开发要素
大数据需要的12个工具 推荐
YARN/MRv2 Resource Manager深入剖析—NM管理
YARN/MRv2 Resource Manager深入剖析—RMApp状态机分析
Hadoop 1.0与Hadoop 2.0资源管理方案对比
Hadoop 2.0中单点故障解决方案总结
Hadoop 2.0 (YARN)中的安全机制概述
Hadoop 新特性、改进、优化和Bug分析系列1:YARN-378
Hadoop 新特性、改进、优化和Bug分析系列2:YARN-45
Hadoop 新特性、改进、优化和Bug分析系列3:YARN-392
Hadoop版本选择探讨
探究提高Hadoop稳定性与性能的方法
《Effective C++》读书笔记(第一部分)
Hadoop分布式环境下的数据抽样
Hadoop计算能力调度器算法解析
如何编写Hadoop调度器
数据结构之红黑树
Hadoop pipes设计原理
《C++ Primer plus》学习笔记之”类”
《C++ Primer plus》学习笔记之”类继承”
《C++ Primer plus》学习笔记之”C++中的代码重用”
《C++ Primer plus》学习笔记之”异常”
《C++ Primer plus》学习笔记之”RTTI”
Hadoop pipes编程
Hadoop Streaming高级编程
《C++ Primer plus》学习笔记之”标准模板库”
《C++ Primer plus》学习笔记之”输入输出库”
Linux Shell 命令总结
算法之图搜索算法(一)
awk使用总结
素数判定算法
《C++ Primer plus》学习笔记之“函数探幽”
使用Thrift RPC编写程序
如何在Hadoop上编写MapReduce程序
怎样从10亿查询词找出出现频率最高的10个

掘金大数据产业链:上游资源+中游技术+下游应用

于2017-04-01由小牛君创建

分享到:


背景:我们正处在一个数据量爆发增长的时代。 在摩尔定律长达 50 年的支配下, 当今的信息产业呈现出前所未有的繁荣,新的互联网技术不断涌现。从传统互联网的 PC终端, 到移动互联网的智能手机,再到物联网传感器,技术革新使数据生产能力呈指数级提升。 据 IDC 预测, 目前每年数据的生产量是 8ZB( 1ZB=1012GB) , 2020 年将达到 40ZB。 属于大数据的时代已经到来。

大数据

数据产业有望呈现“线上数据化->线下数据化-> 数据流通“三段式发展过程。

( 1) 线上数据化:互联网 1.0 时代,以互联网企业为代表,最早沉淀线上数据;
( 2) 线下数据化:“互联网+”时代,以传统线下企业为代表,借助互联网实现数据化;
( 3)数据流通:在线上/线下全产业实现数据化的趋势下,数据在产业链上下游甚至跨产业流通并创造价值。

数据开放大势所趋。 信息使用的边际收益是递增的,信息流动和分享的范围越大,创造的价值就越高,而线上/线下数据化和数据开放正是信息大范围流动的两大前提。推动数据开放和流通在发达国家已成为共识,美欧多国通过国家战略为数据开放背书。自从“互联网+”上升为我国战略后,中央不断加大力度推动数据开放,在地方政府和产业界的带动下,部分地区已经做了诸多有益的尝试。

从“流量思维”到“数据思维”。表面上看“数据思维”取代“流量思维”是为迎合技术发展而发生的态度转变,但更深层次,从流量到数据是对整个互联网经济的重新定义和洗牌,两种思维分别是两代互联网经济的代表。

( 1) 思维本质:从优化资源配置到生产核心资源。 第一代互联网重构的是时间、空间,本质上是资源的优化配置;而第二代互联网的核心是数据,数据成为了新的生产要素。
( 2) 经济价值:从流量的天花板到数据的万亿空间。流量时代,互联网撬动的GDP 约为 2.5 万亿人民币( 2013 年),占到国内 GDP 总量的 4.4%;在经历了第一代互联网时期的爆发式增长, BAT 等互联网巨头的流量规模已经形成,变现方式单一将导致流量变成一种相对廉价资源;数据思维时代,企业将从单纯追求“量”向追求“质”转变,大数据能够帮助企业从有限的流量中挖掘更大的价值;根据我们的推算,大数据有望撬动中国 GDP 至少在万亿量级,将完全比肩流量经济。

数据流通的两种模式:闭环生态、开放交易。

( 1) 模式一:“内部创新+外延并购”形成闭环。 典型公司:阿里巴巴等互联网巨头。 这一模式可以理解为,以大型互联网公司拥有的海量数据资源为根基,通过内部创新和外延并购构建闭环生态,推动数据在闭环中流动以创造价值。从“数据魔方(卖数据) -> 达摩盘(大数据营销平台) -> 入股第一财经(闭环生态区圈)”的发展路径可以洞悉阿里逐步收缩的大数据战略。

( 2) 模式二:打造开放的大数据交易平台。 典型平台和公司:贵阳大数据交易所,九次方大数据公司等。贵阳大数据交易所是全球第一家大数据交易所,由政府和产业界共同发起成立,将引领中国大数据交易市场的发展,九次方作为其第二大股东,将成为积极推动大数据开放交易的先行者。

掘金产业链。 我们将大数据产业链按上中下游划分为:资源、技术、应用。

( 1)“互联网+”时代,所有企业都有潜力发展成为数据资源公司,处于产业链的核心地位,数据是其持续变现的资本;
( 2)产业发展初期,数据技术型公司,包括硬件、 基础软件、分析服务、信息安全等,是最直接的受益群体;
( 3)数据开放的趋势下,极有可能引爆新一轮大众创业、万众创新的格局,诞生具备创新式数据思维及突出技术实力的应用型公司。

上游资源: 任何企业都将可能成为数据公司

互联网+时代, 数据资源型企业发展迎来历史机遇。 我们在产业升级三段论中提到,大数据产业已经发展到了线下数据化的阶段。 众多的互联网公司和线下企业在数据思维的驱动下, 生产和存储着海量的数据资源,各类数据已然成为跑马圈地的主要对象。 由于大数据资源未来将是企业价值的重要载体, 我们甚至可以这样认为: 所有企业都有潜力发展成为数据资源公司。

大数据

资源型公司处在产业链中的核心地位。 BAT 之所以能够在大数据时代继续坐稳互联网企业龙头的位置,是因为它们几乎垄断了搜索、 社交、电商等关键领域的数据,并借此聚拢技术型、 创意型以及其他资源型公司,构建由自己主导的生态圈。线下龙头企业在触网后同样能够生产丰富的数据资源,它们极有可能复制 BAT 在线上的成功路径。大北农结合猪管网、智农商城、农信网等打造的智慧大北农生态圈, 即是传统行业龙头转型数据资源型公司的成功典范。

大数据

资源型公司拥有持续变现的基础。 大数据资源将帮助一部分企业从订单型向运营型升级,交易不再是一锤子买卖, 而是持续挖掘数据价值变现的动态过程。 一些依托数据资源的运营型公司或将通过如下三步构建闭环:

1)公司与客户达成协议,共建信息化平台;

2) 平台沉淀出大数据,公司对此具有使用权( 甚至拥有权) ;

3) 公司利用这部分大数据资源,获取长期可持续的价值回报。

石基信息利用酒店管理系统获取的数据与阿里合作建立酒店预定平台、易华录以 PPP 的方式得到智慧城市的核心数据等, 都是订单型向运营型转变的典型案例。

大数据 大数据

向数据资源型公司升级的浪潮已至, “大数据+” 时代来临。 我们认为,互联网+改革带来的价值和红利未来主要将以大数据的形式来呈现, “大数据+” 将是这轮产业升级的根本目的和动力。 在国家和产业界的大力推动下, 消费、医疗、金融、 制造业等各个领域均掀起了大数据的应用热潮。 据统计, 自“互联网+” 战略提出以来,已有百余家 A 股上市的传统企业给制定了转型方案。 我们精选出其中最有可能成功升级为数据资源型公司的标的, 分行业列于下表:

大数据

右键点击可放大

 

基于以下观点,我们认为在互联网+时代, 数据资源型公司的数量会迎来井喷式的增长,传统行业龙头可利用数据资源巩固自身地位, 但其他公司也将获得弯道超车的机会。

1)互联网+对传统行业最直接的影响就是线上化后的数据化, 且对数据进行存储、分析的成本在不断下降, 因而互联网公司对大数据资源的垄断将被打破, 行业竞争开启新格局;

2)快速转型的传统龙头企业将重新整合所在的细分行业, 构建以自身为核心的生态圈,推动大数据在其中的流通,提升整个产业链的效率;

3)目前正处于“大数据+” 发展的早期, 对这样一个明显具有网络效应的产业而言, 抢占先发优势极为重要,数据资源的积累程度将直接影响企业在大数据时代的地位和影响力。

中游技术:大数据产业链最直接受益群体

大数据市场规模

Wikibon 估测 2014 年全球大数据市场规模达到 285 亿美元,同比增长 53.2%,大数据成为全球 IT 支出新的增长点;

而根据易观国际的测算口径, 2017 年我国大数据市场有望达到 170 亿元。 全球大数据市场中,行业解决方案、计算分析服务、存储服务、数据库服务和大数据应用为市场份额排名最靠前的细分市场,分别占据35.4%、 17.3%、 14.7%、 12.5%和 7.9%的市场份额。云服务的市场份额为 6.3%,基础软件占据 3.8%的市场份额,网络服务仅占据了 2%的市场份额。可以看出, 大数据技术占据了绝大多数市场份额, 将成为大数据产业发展的最直接受益者,但从更广义的角度来看,大数据带来的是社会多个领域的创新和变革, 并将对传统行业进行改造,未来大数据应用领域的发展空间难以估量, 据此, 麦肯锡曾预测中国大数据潜在市场将达到 1.57 万亿元。

大数据 大数据

从公司层面上看,以 IBM 为首的 IT 巨头在收入上遥遥领先; 创业型公司Cloudera、 Splunk 等的收入与巨头厂商仍有差距。 2013 年 IBM 大数据业务收入为 13.68 亿美元, HP 和 Dell 的大数据收入分别为 8.69 和 6.52 亿美元,排在第二三位。三家公司的大数据业务均占总体收入的 1%左右。 收入最高的纯大数据公司为Palantir( 为政府和金融机构提供数据分析软件服务), Pivotal(大数据集成产品,提供 Hadoop,内存 SQL 数据库以及 MPP 等多种服务) 和 Splunk(大规模机器数据收集,存储,可视化分析) , 分别为 4.18 亿, 3 亿, 2.83 亿美元。

大数据

技术路径之争

大数据处理系统一般需要经过 4 个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析。

( 1) 数据准备:在进行存储和处理之前,需要对数据进行清洗、整理,传统数据处理体系中称为 ETL( Extracting, Transforming, Loading)过程。
( 2) 数据存储与管理:大数据存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。
( 3) 计算处理环节:海量数据处理要消耗大量的计算资源,对于传统单机或并行计算技术来说,速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算成为大数据的主流计算架构,但在一些特定场景下的实时性还需要大幅提升。
( 4)数据分析环节:数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识,是大数据价值挖掘的关键。

大数据

大数据解决方案基本可分为两类, 由主流数据库厂商主导的传统方案升级: 数据库一体机(例如 Oracle ExaData 以及 IBM Netezza 等),以及以开源力量为主的大数据技术( 以 Hadoop 为代表)。 随着数据的海量化和快速增长的趋势不断增强,传统关系数据库技术表现出明显的不足,如何以合理的成本获得海量数据的高可用性已经成为现代 IT 领域的重大挑战。 大数据对数据分析、计算和存储三个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一段时间大数据技术创新的焦点。在所有大数据解决方案中,最为引人注目的是由主流数据库厂商主导的传统方案升级,以及以开源力量为主的大数据技术。 两者是相互补充的关系。

大数据 大数据

目前大数据开源技术中使用最广的是 Hadoop, 一个能够对大量数据进行分布式处理的软件框架。 Hadoop 框架的核心设计是: HDFS 和 MapReduce。 HDFS 为海量的数据提供了存储, 提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。 而 MapReduce 为海量的数据提供计算,它将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。 基于以上特点, 用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。

Hadoop 是大数据行业应用最广的分布式系统

大数据

产业链划分: 硬件+基础软件+分析服务+信息安全

硬件领域,主要包括服务器和存储两个重要组成部分:

( 1)服务器方面, 大数据应用拉动服务器销量增长, 国内厂商的市场占有率进一步加强。 IDC 报告显示:中国 X86 服务器全年销售额 350 亿元,同比增长 29.7%,再次成为全球增长贡献最大的市场。本土厂商市场占有率较 2013 年提升了 9.1 个百分点,达到 60.4%。同时X86 服务器市场容量进一步向高端转移,四路高端领域出货量同比增长 30%,达到市场平均增速的 1.5 倍。

( 2)存储方面,本土厂商市场占有率不断增加,入门级及中端存储增长速度快。 IDC 数据显示 2015 年第一季度,由于华为、宏杉科技、浪潮、曙光等本地厂商在市场和技术层面的井喷式发展,市场占有率已经达到 49.9%,首次拿下国内市场的半壁江山。 此外数据显示,存储市场在中低端保持了较高的增长,高端存储呈现萎靡状态,随着技术的演进,更多高端存储将被通过中低端存储Scaleout 的解决方案替代, 进一步为本土厂家提供机会。

大数据 大数据 大数据 大数据

基础软件领域,外国厂家占有绝对优势, 技术是核心竞争力, 由于基础软件以开源软件为主,市场规模有限。

Wikibon 预计到 2017 年 Hadoop 和 NoSQL 软件/服务收入将达到约 35 亿美元, 其中, Cloudera(Hadoop)和 MongoDB(NoSQL)是相关领域的代表性企业。

在 Hadoop 生态领域, Cloudera 是规模最大、知名度最高的企业,也是当前大数据领域最强有力的解决方案服务商之一。 2014 年 4 月Cloudera 融资 9 亿美元, 估值约 41 亿美元。 2014 年 12 月正式宣布在中国设立分公司, Cloudera 免费版在国内市场已经占据了 80%的份额,并有越来越多的用户转向收费的商业版本。 MongoDB, 原名 10gen,是使用颇为广泛的 MongoDB 非关系型数据库的创建者,在今年年初的新一轮融资之后,估值已达到约 16 亿美元。

大数据

分析服务领域, 是目前大数据市场最重要的组成部分, 2014 年市场规模占比达35%, 而相关企业也得到了投资者的热烈追捧。 美国知名的大数据分析企业包括Palantir 和 Splunk。 Palantir 是一家面向政府、金融机构的软件提供商, 其估值已达到 200 亿美元,成为继 Uber、 Airbnb 之后全美估值第三高的创业公司,关于Palantir, 最传奇的说法是,它帮助美国政府找到了本·拉登。 Palantir 以反恐为切入点, 如今,政府和金融业务已经成为 Palantir 的两大支柱产品, 年收入预期至少在10 亿美元。 Splunk 成立于 2006 年,是第一家大数据处理的上市公司,在首个交易日以 109%的涨幅撑开了人们对大数据的想象空间。作为一家商业智能软件提供商,其软件平台可以实时对任何 APP、服务器或网络设备的机器数据进行索引、监控与分析,并将结果生成图形化报表,在此基础上帮助客户避免服务性能降低或中断。

大数据

信息安全领域,随着大数据的发展重要性不断提升, 大数据时代传统信息安全企业将面临新的机遇和挑战。 随着大数据时代的到来,解决网络安全问题变得越来越难,传统防御威胁的手段已逐渐失效, 大数据时代也被称作“大泄密” 时代, PWC(普华永道)指出, 2014 年全球所有行业检测到的网络攻击共有 4280 万次,比去年增长了 48%。诸多网络安全故障的发生,都表明大数据时代的安全问题日渐恶化,而企业在大数据应用前首先要考虑的就是数据安全威胁。因此随着大数据产业的快速发展, 信息安全领域投资规模也将不断扩大。

大数据

我们认为大数据技术型企业将最先受益于大数据行业的爆发式增长:
( 1) 国产服务器厂商市场占有率不断增加, 市场容量进一步向高端领域转移;
( 2) 基础软件领域国外企业占有核心技术优势,国内企业主要集中于下游大数据处理分析领域;
( 3)主要厂商仍处于数据分析阶段,即订单驱动型商业模式,不具有数据运营权。但行业转型动力明显,主流数据分析型企业纷纷尝试直接获取数据资源或与数据资源方合作实现平台化发展,获得持续性收入;
( 4) 信息安全依然是大数据技术发展的保障,行业需求将随整体市场规模的扩大而不断发展。

下游应用:数据开放将引爆万众创新

数据应用型企业位于大数据产业链的下游,通过对开放数据的运用或与数据资源型企业的合作实现大数据价值挖掘后的变现。 相比资源型与技术型企业,应用型企业以新兴创业公司为主,先天带有互联网基因,专注于解决行业痛点,是实现大数据商业化的关键一环,按照终端用户又可分为 2B 和 2C 两类。

2B:面向企业或者公共政府部门,提供数据分析结果的服务, 如交通流量数据公司 Inrix,

2C:面向个人,提供基于数据分析的服务; 如 FlightCaster 基于分析过去十年里每个航班的情况,然后将其与过去和现实的天气情况进行匹配,预测航班是否会晚点。

数据应用型企业可能同时手握大数据资源并拥有大数据分析核心技术,但与传统线下企业和 IT 企业不同的是,我们更强调创新式思维模式及数据变现能力。 如 Netflix,美国最大的商业视频网站,拥有 2900 万个用户。每天采集海量的用户数据,不仅包括人们喜欢看什么类型的视频,在哪看,用什么设备看等,还包括你何时快进,何时暂停,是否看完整个影片等。 Netflix 通过对海量数据的分析推出史上首部大数据制作的电视剧《纸牌屋》 。

数据应用型企业不等同于数据分析型企业,前者强调众包思想,具有独立的数据变现模式, 可以与数据资源型企业共创价值,充分挖掘大数据开放流动带来的资源红利, 体现了大众创业、万众创新的理念;而数据分析型企业则更像是外包商, 为客户提供服务,是原有商业模式的补充。 对于外包和众包, 宝洁公司负责科技创新的副总裁 Larry Huston 评价道, “外包是指我们雇佣人员提供服务,劳资双方的关系到此为止,其实和雇佣关系没什么两样。但是现在我们的做法是从外部吸引人才的参与,使他们参与到这广阔的创新与合作过程。这是两种完全不同的概念。 ” 外包强调高度专业化,是企业的购买活动,而众包则是跨专业创新的过程, 应用型企业与资源型企业不是雇佣而是合作关系。

大数据

政府数据开放为数据应用型企业提供了发展良机, 数据的开放和流通,将极大促进数据价值释放, 掀起新一轮大众创业、万众创新的浪潮,不亚于当初的移动应用及手游开发。 关于政府数据开放一个典型的例子就是 1983 年美国将用于军事的卫星定位系统 GPS 向公众开放使用,并且在 2000 年后取消了对民用的 GPS 精度的限制。GPS 数据开放后,带动了一连串的生产和生活服务创新,包括汽车导航、精准农业、通信等,同时创造了大量就业岗位,仅美国国内就有约 300 万的就业岗位依赖于 GPS。再看互联网开放平台为第三方企业创造的价值, 以腾讯为例, 腾讯希望成为互联网连接器, 一端连接合作伙伴,一端连接海量用户, 共同打造互联网生态, 从 2010 年实施平台开放以来, 截止 2013 年末,第三方收益达到 50 亿,今年有望突破百亿, 创业者人数超过 500 万。 我们认为类似于互联网开放平台所能创造的价值, 依托大数据开放平台, 在各细分垂直领域必将诞生一批“小而美” 的数据应用型企业。

国外已有一些数据应用型企业深耕多年, 涉及范围有交通、医疗、 营销等。 Inrix是一家典型的数据应用型企业,致力于为全球交通问题提供智能数据和先进的分析方法,截至 2012 年 12 月已经为全球 32 个国家的企业提供了服务。 目前奥迪公司、德国汽车俱乐部、荷兰汽车协会、宝马汽车公司、英国广播公司、福特汽车公司、微软公司、丰田汽车公司和沃达丰公司等都是它的亲密合作伙伴。 Inrix 依靠分析历史和实时路况数据,能给出及时的路况报告,以帮助司机避开正在堵车的路段,并且帮他们提前规划好行程。

国内多数的数据应用型企业还处于初创阶段, 2014 年底蓝色光标以接近 2500万美元的金额认购数据营销技术公司精硕科技(Admaster Inc)约 12%的股份, 后者估值超过 2 亿美元大关。 AdMaste 是国内少有的第三方数字营销监测和调研机构,专注于为广告主提供全流程的网络广告效果监测、分析评估、媒介优化咨询和技术解决方案等服务。 在细分领域, 国内影视大数据龙头企业艾漫科技于今年年初完成 A轮超 6000 万人民币融资,这是迄今为止国内关于娱乐影视大数据领域最大的一笔 A轮融资,由荣联创富基金和创势资本联合投资。

大数据

基于以下观点,我们认为数据应用型企业在未来几年将会进入快速发展阶段。

( 1)数据规模爆炸加政府助推数据开放, 任何一个企业掌握大数据,都不可能只凭借其一己之力充分挖掘大数据的价值,势必应当群策群力。
( 2) 政府、 金融、电信、电子商务、物流、媒体等行业正迎来大数据应用井喷期,万亿市场规模可期, 各大生态体系都将为新型企业崛起提供机会。
( 3)应用型企业兼具互联网/大数据思维与技术,相比传统企业,可以更快发现行业痛点并加以解决, 实现弯道超车。
( 4) 数据分析型企业转型动机强烈,希望参与大数据应用变现带来的巨大收益。

摘自上海申银万国证券研究所报告《大数据,互联网经济新内核》

End.