阿里巴巴菜鸟级数据产品经理半年回顾总结篇
干货教程:如何绘制业务流程图(二)
干货教程:如何绘制业务流程图(一)
技术贴:如何在数据库中秘密地查询隐私数据
攻略教程:信息图(infographic)是怎么做出来的?
分析师一定要看!用数据讲故事的五个步骤
技术篇:怎样玩转千万级别的数据?
北漂书生:大数据时代SEO数据如何搜集和分析
干货,从十大问题重新认识并读懂互联网
相似图片搜索、算法、识别的原理解析(下)
相似图片搜索、算法、识别的原理解析(上)
制作信息图时请遵循这10条原则
提高表格可读性的一些技巧,适用于Excel、PPT等数据报表
实用教程:如何让Excel图表更具“商务气质”?
一张数据信息图是这样制作完成的
菜鸟读财报,如何从上市公司财报中挖情报?
北大数据分析老鸟写给学弟们一封信
如何一步一步制作出高品质数据信息图?
总结:海量数据分析处理的十个方法
【实战经验】数据分析师如何了解老板真正想法?
零售业数据分析那些事儿
数据分析时l常用电子表格公式【大全】
用数据来告诉你 上市公司财报的秘密
这12个数据能 帮你搞定淘宝店铺
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(四)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(三)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(二)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(一)
淘宝网店从激活到挽留,4步走玩转数据营销
文案怎样写才有意思、不空洞、打动人?
入门级扫盲贴:数据分析的步骤有哪些?
关系即数据,论社交媒体的关系转换
数据的力量,苹果教你用数据鄙视竞争对手
谁说文科生不能做数据分析?数据分析入行→技能提升→优势
产品运营数据分析——SPSS数据分组案例
如何追踪iPhone和iPad等移动设备的用户行为数据?
阿里巴巴中国站:用户满意度指标权重计算方法
广告中的AdNetwork、AdExchange、DSP、SSP、RTB和DMP是什么?
信息图制作教程:关于数值的表现
为什么大数据会如此轰动?(值得深度的文章)
多图技术贴:深入浅出解析大数据平台架构
面板数据分析中标准误的估计修正——根据Peterson (2009)的归纳
财务官、投资人、CIO看过来:给企业数据定价
推荐系统中常用算法 以及优点缺点对比
探索Weotta搜索引擎背后的大数据技术
如何识别虚假数据?
为什么我们像驯化小狗那样驯化算法
程序员必须知道的10大基础实用算法及其讲解
电子商务:最影响转化率的九大要素
如何迅速成为一名数据分析师?
想从事大数据、海量数据处理相关的工作,如何自学打基础?
如何用亚马逊弹性MapReduce分析大数据?
译文:机器学习算法基础知识
给hadoop新手的一封信:Hadoop入门自学及对就业的帮助
从入门到精通,我是这样学习算法的
小商家,从老客户身上获取的数据才更有意义
13页PPT讲述:大数据下网站数据分析应用
40页PPT详解:京东大数据基础构架与创新应用
67页PPT解密搜索引擎背后的大技术:知识图谱,大数据语义链接的基石
营销洞察力——10个营销度量指标
技术篇:前端数据之美如何展示?
董飞:美国大数据工程师面试攻略【PPT】
easel:如何制作好的信息图——来自专家的顶级技巧
大数据实操:以3D打印机为例,如何知道卖点有没有市场需求?
大数据建模 需要了解的九大形式
用户画像数据建模方法
从规划开始,公司or企业如何入手和实施大数据?
干货:商品信息数据分析和展现系统的设计与开发
高手教你用Excel制作百度迁徙数据地图
50篇干货:淘宝店/电子商务如何玩转数据分析?
精华索引:大数据实际应用案例50篇
验证最小化可行产品 (MVP) 的 15 种方法
干货:数据分析师的完整知识结构
大数据技术Hadoop面试题,看看你能答对多少?答案在后面
用SPSS做数据分析?先弄懂SPSS的基础知识吧
怎样做出优秀的扁平化设计风格PPT? 扁平化PPT设计手册#3
解答│做大数据过程中遇到的13个问题
40页PPT│社交网络发展的新动力:大数据与众包
以Amazon、豆瓣网为例,探索推荐引擎内部的秘密#1
怎样做出优秀的扁平化设计风格PPT?#2
怎样做出优秀的扁平化设计风格PPT?#1
36页PPT│大数据分析关键技术在腾讯的应用服务创新
如何丰满地做SWOT分析?
【35页PPT】TalkingData研发副总阎志涛:移动互联网大数据处理系统架构
27页PPT|以珍爱网为例,如何构建有业务价值的数据分析系统?
国外数据新闻资源分享
21页PPT重磅发布:Mariana——腾讯深度学习平台的进展与应用
从0到100——知乎架构变迁史
PPT解读:百度大数据质量保障方案探索
45页PPT|大数据环境下实现一个O2O通用推荐引擎的实践
从数据看豆瓣兴衰
深度学习系列:解密最接近人脑的智能学习机器——深度学习及并行化实现(四)
重磅推荐:129页PPT讲述移动时代创业黄金法则 via:腾讯企鹅智酷
重磅推荐:大数据工程师飞林沙的年终总结&算法数据的思考
OpenKN——网络大数据时代的知识计算引擎
大数据下城市计算的典型应用
技术贴:大数据告诉你,如何给微信公众号文章取标题?
你的QQ暴露了你的心——QQ大数据及其应用介绍PPT
如何从企业报表看企业的生存能力?
实用的大数据技巧合集
技术帝揭秘:充电宝是如何盗取你的个人隐私的?
重磅!50页PPT揭秘腾讯大数据平台与推荐应用架构
原创教程:饼图之复合饼图与双层饼图(1)
PPT:大数据时代的设计特点——不了解这个你做不了今天的设计
教程贴:如何用方程式写春联?
原创教程:如何用Excel制作简易动态对比图
深度译文:机器学习那些事
教程帖:数学之美——手把手教你用Excel画心(动态图)
董老师走进斯坦福,聊聊硅谷创业公司和大数据的事儿(附课件PPT下载)
【限时】年度钜献,108个大数据文档PDF开放下载
董飞专栏:大数据入门——大数据相关技术、Hadoop生态、LinkedIn内部实战
亿级用户下的新浪微博平台架构
一张图了解磁盘里的数据结构
浅析数据化设计思维在阿里系产品的应用
美团推荐算法实践
一个P2P创业公司有哪些部门,都是做什么的?
一个P2P平台的详细运营框架是怎样的?
机器学习中的算法——决策树模型组合之随机森林与GBDT
神经网络简史
58页PPT看懂互联网趋势,大数据/物联网/云计算/4G都有了
广点通背后的大数据技术秘密——大规模主题模型建模及其在腾讯业务中的应用(附PPT)
微信红包之CBA实践PPT——移动互联网海量访问系统设计
一文读懂机器学习,大数据/自然语言处理/算法全有了……
搜狐新闻客户端的背后大数据技术原理——推荐系统(PPT)
原创教程:用Excel做动态双层饼图
半小时读懂PMP私有广告交易市场
怎样分析样本调研数据(译)
PPT:支付宝背后的大数据技术——DataLab、Higo的实践及应用
大数据技术人员的工具包——开源大数据处理工具list(限时下载)
计算机视觉:随机森林算法在人体识别中的应用
24页PPT:机器学习——支持向量机SVM简介(附下载)
互联网高手教你如何搜集你想要的信息
深度:对地观测大数据处理、挑战与思考
原创教程:用Excel做饼图之复合饼图与双层饼图(2)
移动大数据时代: 无线网络的挑战与机遇(附pdf下载)
Excel使用技巧——25招必学秘技
【年度热门】加上这些 Excel 技能点,秒杀众人(多图)
原创教程:用Excel做纵向折线图
知识图谱——机器大脑中的知识库
何明科专栏:用数据化的方式解析投资条款
DT时代,如何用大数据分析创造商业价值(23页PPT)
MIT牛人梳理脉络详解宏伟现代数据体系
你的老婆是怎么算出来的?揭秘佳缘用户推荐系统
飞林沙:商品推荐算法&推荐解释
PPT:如何成为真正的数据架构师?(附下载)
开源大数据查询分析引擎现状
董飞专栏:打造数据产品必知秘籍
译文:如何做强大又漂亮的信息图
如何使用Amazon Machine Learning构建机器学习预测模型
如何运用数据协助货架管理(内附26张PPT)
SVM算法
主流大数据系统在后台的层次角色及数据流向
PPT:阿里全息大数据构建与应用
人脸识别技术大总结——Face Detection & Alignment
教程:用Excel制作成对条形图
易观智库:大数据下的用户分析及用户画像(18页PPT附下载)
技术向:如何设计企业级大数据分析平台?
电商数据分析基础指标体系
IBM SPSS Modeler 决策树之银行行销预测应用分析
拓扑数据分析与机器学习的相互促进
基于 R 语言和 SPSS 的决策树算法介绍及应用
用php做爬虫 百万级别知乎用户数据爬取与分析
另类新浪微博基本数据采集方法
以10万+阅读的文章为例 教你做微信公众号的运营数据分析
破解数据三大难题:变现?交易?隐私?
微店的大数据平台建设实践与探讨
阿里巴巴PPT:大数据基础建议及产品应用之道
基于社会媒体的预测技术
人工智能简史
技巧:演讲中怎样用数据说话
马云和小贝选谁做老公?写给非数据人的数据世界入门指南
掘金大数据产业链:上游资源+中游技术+下游应用
原创教程:手把手教你用Excel做多层折线图
销售分析:如何从数据指标发现背后的故事
如何一步步从数据产品菜鸟走到骨干数据产品
也来谈谈微博的用户画像
行走在网格之间:微博用户关系模型
如何拍出和明星一样美爆的自拍照?斯坦福大学用卷积神经网络建模告诉你
运营商如何玩转大数据? 浙江移动云计算和大数据实践(PPT附下载)
大数据分析的集中化之路 建设银行大数据应用实践PPT
腾讯防刷负责人:基于用户画像大数据的电商防刷架构
创业提案的逻辑
友盟分享 | 移动大数据平台架构思想以及实践经验
寻路推荐 豆瓣推荐系统实践之路
“小数据”的统计学
重磅!8大策略让你对抗机器学习数据集里的不均衡数据
小团队撬动大数据——当当推荐团队的机器学习实践
微博推荐架构的演进
科普文 手把手教你微信公众号数据分析
信息图制作的六个注意点
【权利的游戏】剧透新玩法:情理之中?意料之外
推荐系统(Recommender System)的技术基础
核心算法 谷歌如何从网络的大海里捞到针
Quora数据科学家和机器学习工程师是如何合作的
阿里巴巴PPT:大数据下的数据安全
数据建模那点事儿
全民拥抱Docker云–Lhotse系统经验分享
实时股票分析系统的架构与算法
架构师必看 京东咚咚架构演进
什么叫对数据敏感?怎样做数据分析?
推荐系统基础知识储备
刘德寰:数据科学的整合与细分 数据科学的七个危险趋势(视频)
实际工作中,如何做简单的数据分析?
分布式前置机器学习在威胁情报中的应用(附PPT下载)
数据科学 怎样进行大数据的入门级学习?
扛住100亿次请求 如何做一个“有把握”的春晚红包系统?(PPT下载)
从 LinkedIn 的数据处理机制学习数据架构
大数据会如何改变管理咨询公司(I)
优秀大数据GitHub项目一览
生硬的数字和数据新闻:这么近,那么远
经典大数据架构案例:酷狗音乐的大数据平台重构(长文)
揭秘中兴大数据在银行领域的系统部署
基于大数据的用户画像构建(理论篇)
【R】支持向量机模型实现
数据图处处有陷阱?五个例子教你辨真伪
如何用R绘制地图
你确定你真的懂用户画像?
数据模型需要多少训练数据?
【接地气】01 数据报表的颜色怎么配
游戏价值和数据分析新思路
【R】异常值检测
快的打车架构实践
豆瓣还是朋友圈:大数据、新方法和日常问
PPT数据图表,怎么做才好看?
大道至简的数据体系构建方法论
数据的误区及自身业务
新浪微博的用户画像是怎样构建的?
面试干货!21个必知数据科学面试题和答案part1(1-11)
易观智库:中国大数据产业生态图谱2016(附下载)
Airbnb的数据基础架构
50PB海量数据排序,谷歌是这么做的
大数据时代工程师如何应对–今日头条走进硅谷技术讲座
D3.js教学记(下)
D3.js教学记(上)
飞林沙:企业级服务公司如何赚钱?只有平台级产品才有大数据的理论
一个母婴电子商务网站的大数据平台及机器学习实践
7大板块 组成数据分析师的完整知识结构
干货:SaaS领域如何分析收入增长?
学术 | 词嵌入的类比特性有实用意义吗?
6个用好大数据的秘诀
一个数据库外行眼中的微信优化 (附专家补充)
大数据调研,如何实现快全准?
数据大师Olivier Grisel给志向高远的数据科学家的指引
数据堂肖永红:数据交易的是使用权或数据的增值,而不是数据本身(PPT附下载)
淘宝商品详情平台化思考与实践
刘译璟:百分点大数据理念和实践(图文+PPT下载)
如何快速搞定一份看起来还不错的演示文档?
【BABY夜谈大数据】决策树
数据驱动设计:数据处理流程、分析方法和实战案例
美图数据总监:Facebook的法宝,我们在产品中怎么用?
树的内核:量化树结构化数据之间的相似性
拿到用户数据之后,LinkedIn怎么赚钱?
GrowingIO张溪梦:增长黑客的核心 企业应该重视产品留存率(附PPT下载)
[译]Airbnb是如何使用数据理解用户旅行体验的?
微博推荐数据服务代理: hyper_proxy的设计和实现
星图数据谷熠:消费领域DaaS 大数据重构未来商业游戏规则(附PPT下载)
鲍忠铁:TalkingData大数据技术与应用实践(PPT下载)
【干货教材】数据分析VS业务分析需求
九枝兰专访:数字营销的核心—企业如何使用数据管理平台(DMP)进行精准营销
我们的应用系统是如何支撑千万级别用户的
R应用空间数据科学
Excel进行高级数据分析(上)
Excel进行高级数据分析(下)
国内各大互联网公司2.0版技术站点收集
网站数据分析思路导图
大数据分析报表设计开发要素
大数据需要的12个工具 推荐
YARN/MRv2 Resource Manager深入剖析—NM管理
YARN/MRv2 Resource Manager深入剖析—RMApp状态机分析
Hadoop 1.0与Hadoop 2.0资源管理方案对比
Hadoop 2.0中单点故障解决方案总结
Hadoop 2.0 (YARN)中的安全机制概述
Hadoop 新特性、改进、优化和Bug分析系列1:YARN-378
Hadoop 新特性、改进、优化和Bug分析系列2:YARN-45
Hadoop 新特性、改进、优化和Bug分析系列3:YARN-392
Hadoop版本选择探讨
探究提高Hadoop稳定性与性能的方法
《Effective C++》读书笔记(第一部分)
Hadoop分布式环境下的数据抽样
Hadoop计算能力调度器算法解析
如何编写Hadoop调度器
数据结构之红黑树
Hadoop pipes设计原理
《C++ Primer plus》学习笔记之”类”
《C++ Primer plus》学习笔记之”类继承”
《C++ Primer plus》学习笔记之”C++中的代码重用”
《C++ Primer plus》学习笔记之”异常”
《C++ Primer plus》学习笔记之”RTTI”
Hadoop pipes编程
Hadoop Streaming高级编程
《C++ Primer plus》学习笔记之”标准模板库”
《C++ Primer plus》学习笔记之”输入输出库”
Linux Shell 命令总结
算法之图搜索算法(一)
awk使用总结
素数判定算法
《C++ Primer plus》学习笔记之“函数探幽”
使用Thrift RPC编写程序
如何在Hadoop上编写MapReduce程序
怎样从10亿查询词找出出现频率最高的10个

重磅推荐:大数据工程师飞林沙的年终总结&算法数据的思考

于2017-04-01由小牛君创建

分享到:


从前东家离职已经一个多月的时间了,在这一个月,前前后后也和几家公司做了技术交流,自己也第一次静下来这么久来思考总结。今年是我毕业的第五年,也正巧赶上年底,就把这些凑到一起写个小总结吧,也没有什么主题,没有主次,纯粹记录,想到哪儿写到哪儿。

大数据

1. 推荐系统

在最近的三四年时间里,我的主要工作就是搭建推荐系统,这几年来不说看了上千篇论文也有数百篇了,这种专注让我自认为在推荐系统领域至少处在一个业界相对领先的水准,但是也恰恰是这段经历让我被打上了深深的标签:他是一个“推荐系统专家”。既然这样,那我就先来说说推荐系统吧。

推荐系统是一个太庞大的词,我们不妨先退一步说推荐算法本身,其实推荐算法本身是一个综合性的问题,他说浅他可以做的很浅,说深也可以把他做到很深。你可以简单地用最基本的Content-based,再复杂点可以Collaborative Filtering,如果你想做的深入一些,基于SVD/LDA等的降维算法,基于SVD++等的评分预测算法,基于Learning To Rank的排序算法,甚至你再转换问题,把推荐问题再转换成分类问题,或者采用以上算法前先用各种聚类算法做数据的预处理,你可以折腾出很多很多的花样。所

以做推荐领域的工程师是个很“痛苦”的事儿,因为只要机器学习领域有任何的突破性进展,你都需要去做跟踪,NLP领域出了Word2Vec,出了GloVe,其他领域的算法工程师可以说我对NLP不感兴趣,但是你必须跟踪,因为他可以辅助你去做文本内容类的推荐算法;Deep Learning可以让图像识别领域做更棒的特征工程,你也马上要去跟踪学习,因为在做图片推荐时终于有一种方式也许能解决元信息问题;RecSys2013的best paper通过调整节点顺序从而优化矩阵分块策略,极大改善了矩阵分解算法的效率,你就要去跟踪来更新自己的旧有离线算法;微软亚研搞出了一个Light LDA允许在低网络流量下去做LDA的多机并行,你就要兴冲冲地跑过去读他们啰啰嗦嗦的几十页的paper,因为终于不用忍受LDA低劣的性能了,而这些追踪往往是无穷无尽的。但是如果你一旦停止了更新知识库,就会学术界远远甩在身后,做一个“协同过滤”工程师。

但是算法的一切调整只有寄托于产品才能发挥出其最大的威力,但是如何根据产品去选择和调整算法是我认识大多数的算法工程师所非常薄弱的一点。举个实际的例子,我们都知道在所有的比赛中,多种算法的混合是最重要的环节,经常就会有人问我,说哪种混合策略是最好的,但是其实这是严重依赖于产品本身的。例如Tinder,他们的产品形态是每次只出现一个人,让你点击喜欢还是不喜欢,那么这种情况你必须需要一个算法的分类器来为每个用户选择一个合适的推荐算法,并且根据用户的反馈来实时调整分类器,因为如果用户连续Unlike了几个用户,他可能就流失掉了。但是对于LinkedIn的用户推荐列表中,你很适合用若干算法混合的算法,因为这样可以保证至少让整个列表中至少有X个所感兴趣的用户,而往往同一个推荐算法的Items是趋同的。再对于展示在首页的推荐入口区域,可以优先选择若干推荐算法的交集策略,这样可以用少量的高质量Item最大化的满足用户的心理底线,从而吸引用户点击。所以认清产品的形态和交互形式,依据产品去订制算法是成为优秀算法工程师,而非算法研究员的重要一点。

一个优秀的推荐算法,一个优秀的推荐系统的确可以为企业创造很多价值,曾经和某知名电商网站的数据总监交流,他们的推荐系统实实在在地把销售额增加了15%,但是过于神话迷恋推荐算法和过于看扁推荐算法都是一种偏激的行为。作为推荐算法工程师更应该清楚推荐算法本身的瓶颈,或者可以估计到该算法为企业带来的实际价值,从而来决定是否应该继续优化该推荐算法。何时始,何时止,是任何一个推荐算法工程师都必须要面对和决定的问题,但是聊这个话题必须要牵扯到推荐系统的两个重要部分:产品和数据。

一时想不起更好的例子来了,就说淘宝吧,以淘宝的搜索推荐为例。首先,我相信淘宝从整体来讲是不需要推荐算法的,因为淘宝是以爆款商品为主打的,构成了淘宝盈利的大部分,而我相信以淘宝的KPI和运营文化,必然会以CTR为主要的KPI,所以在这个程度上,淘宝的运营必然不停地推荐爆款商品而不可能冒着风险让这部分来做个性化。这就是产品不适合做推荐的典型例子。 另一方面,由于爆款商品的推荐所以让长尾的产品没办法积累到足够的点击数据,这使得数据的缺失和偏移变得异常严重,推荐算法更是无从发挥威力。(没在淘宝工作过,所以纯属局外人猜测,另外我相信电商网站大多如此)

那么你从这一个例子就否定掉推荐系统的作用?这个我觉得有一个例子非常容易反应情况:现在地上每隔1米就有100块钱,在遥远的10000米外可能会有500W,你到底是选择一直低头捡100块钱,还是跑向遥远的10000米去找那500W的问题。

大数据

2. 深度学习

深度学习近两年可谓是机器学习领域最热的词了,大有飞入寻常百姓家的意思,现在你去参加一个数据的活动,你要是说你不会深度学习,估计会被当做神经病一样看待。但是实际上,深度学习到底有多大的价值呢?这是需要理性看待的问题。

我们先说什么是深度学习。其实从整体上来讲,Deep Learning就是曾经的多层神经网络,整体的思想认为每一个层次都可以被作为一个独立的特征抽象存在,所以最广泛地被用作特征工程上,而GPU的存在更是解决了几十年前的ANN的训练效率问题。那么简单来说,Deep Learning可以对抽取出的特征进行非线性组合形成更有效的特征表示。确实,从这一点来说,Deep Learning确实从理论上很好的解决了机器学习领域很麻烦的“特征抽取”问题,但是在实际的工业界,“特征工程”到底有多复杂?我们看看Deep Learning表现最好的IR领域吧,曾经是怎么做的呢?据了解微软有个小Team专门做的事儿就是从图片上找各种各样的特征,因为算法本身其实已经被锁死在Random Forest上了,往往特征的微调就能带来算法效果的极大提升,那么Deep Learning的出现当然可以很好地取代这项工作(实际效果确实无法得知),那么总结下Deep Learning的好处:从海量的特征中通过特征工程抽取出有效的特征组合。

但是刨除掉语音和图像领域,转向离我们更近的工作,无论是推荐系统还是数据挖掘,特征是怎么出来的呢?对于一个电影,对于一个用户,满打满算一共就那么多特征,这个时候Deep Learning根本无从发挥。那么再退一步说,就算把User对于Item的标定作为Item的特征,由于在实际中大部分的缺失值存在,那么如果你希望用Deep Learning来对该矩阵做特征重组,第一件事情就是如何填充缺失值,而这恰恰是比特征工程更困难的事情。

至少从我目前的眼界来看,我还没有找出几家真正需要用Deep Learning来为企业创造价值的公司。

大数据

3. 大数据的反思

每一家公司都在说自己是大数据,要利用大数据,更是出现了“大数据工程师”这个职位,但是在我看来,对于算法工程师而言,该做的不是迷信大数据,而是把大数据给提取成小数据,利用小数据为企业创造价值。大数据标志着需要更大规模的集群,更大规模的计算能力,更长的生产周期,而这些都是企业的“成本”,对于大部分公司,基本面临的都是两个问题,如何拿到数据和如何利用数据,而不是如何“最好”地利用数据。

大数据其实意味着大样本量,那么大样本量带来的是高置信度以及广覆盖度。例如从FM来说,大数据量意味着更全面地了解一个用户的听歌品位,从金融互联网的信用风险评估来说,大数据量意味着不仅仅从消费记录而包含了社交网络信息去对用户做更全面的评价,从用户画像来说意味着建立全面的兴趣图谱和知识图谱,这些都是大数据带给我们的实际意义。说得学术一些,我们不妨认为大数据是频率学派对于贝叶斯学派一次强有力的逆袭。那么既然说到这个份上了,我们不妨思考一下,我们是不是有希望在回归贝叶斯学派,利用先验信息+小数据完成对大数据的反击呢?

另外,既然我们已经说到了大数据的广覆盖度,就针对这个再额外说一下吧。诚然,大数据能够全面地覆盖到所有信息,但是从实际的工业界来看,考虑到实际的计算能力以及效果,大多数公司都会对大数据做“去噪”,那么在去噪的过程中去除的不仅仅是噪音,也包括“异常点”,而这些“异常点”,恰恰把大数据的广覆盖度给降低了,于是利用大数据反而比小数据更容易产生趋同的现象。尤其对于推荐系统来说,这些“异常点”的观察其实才是“个性化”的极致。

大数据

4. 技术选型

既然都说到这里了,就顺着说到技术选型。之前和某公司聊过,他们说,你对技术选型怎么看,这里我就把当时说过的话重新整理一下吧。我认为初创公司技术选型分做两个层面看:

A. 对于大部分互联网初创公司,一般是根据初创成员擅长的领域去选择语言,选择无外乎两种,要么选择开发效率高并且入门简单的语言框架,例如Python , 例如Rails。要么选择市场覆盖量大,容易招人,并且有着非常成熟解决方案的语言,例如Java。

B. 对于小部分用Clojure的初创公司(我真心不愿意去黑),必须满足一点,公司就是小团队作战,不需要扩张,用这种语言的好处就是连这种语言都会或者都愿意去学,会省掉很多面试的成本,但是招人的成本也增加了不少。(我真的是勉强为这种公司找个理由)

对于成熟公司的技术转型,也是分成几点来看:

A. 性能问题:说实话我极少遇到一个公司语言成为了性能瓶颈,我目前好像知道的也就是Twitter把一些核心架构从Rails变成了Java,实际原因是不是因为性能我也不知道。但是其实一定避免说上来性能问题先怪语言,据说腾讯某些工程师就特别愿意干这样的事儿,把C++当圣经,鄙视一切其他语言……但是如果真的是撑不住了,那么就换吧。

B. 社区问题 & 开发效率问题 & 招人成本问题:在10年左右的时候,大批的公司把.NET平台换成Java平台,最核心的原因除了Windows的价格问题外,还包括遇到了问题解决不了,因为大公司都是用Java/C++的,所以至少出了性能问题我还能去定点挖人,用.NET出了问题都不知道去哪儿找人。 另外就是比如C++开发起来确实慢,而且非常容易系统崩溃,这个时候逐渐地去做技术转型到其他语言也是有道理的,只是要掌握节奏的问题。最后就是那些刚开始作死用一些小众语言(比如Clojure)的公司,随着大规模招人就需要做技术转型了。在这一点上,最主要的就是避免为了转型,为了秀技术,为了跟风而转型,我相信新技术也一定有新技术的好,一定解决了某一方面的问题,但是转型有着转型的代价,人力成本,系统稳定性,量产招人的困难程度,这些都可以换算成“成本”,那么在做这种转型时一定要把这笔账算清,再决定转还是不转。

C. 管理问题。一个网站,一个服务,我们不分MVC,纯粹去用PHP往模板里面写代码,其实也能做出来,开发成本稍微高点呗,但是代码容易看懂啊。这个例子有些极端,我想表达的是,用再烂的技术都能做出一个可用的东西。但是问题是,在现在的时代,程序员真他妈难找啊!当薪资几乎相同的情况下,也只能靠技术来吸引人和留人。也就是说至少要让员工觉得他们能学到新东西,外人来面试的时候我也要有能吹牛逼的资本,这时怎么办?我一般会选择在一些边缘系统上去做技术尝试,例如我会倾向于用其他语言(例如Go, Swift)搭建外围系统或实验室项目。这也是我对某些流失情况严重的团队最大的建议。

大数据

5. 算法,产品和企业价值

这一点又回到了曾经老生常谈的问题,算法工程师对于企业的价值是什么,为了讨论的方便,我们还是把算法工程师换成数据工程师吧。

A. 任何系统不要脱离产品而存在。先吐个槽,之前在某个公司面试,某个公司上来就问我,你觉得我们的用户画像应该怎么做?这个问题是非常业余的(这个问题就像是有人问我我们网站有性能问题,你说咋办;好吧,这个问题也是这个公司问我的),任何数据系统都是强产品关联的,这也是太多公司去做数据系统的误区,在这里我还是用户画像为例。 用户画像到底是什么,其实说简单了他就是一个用户宽表,如果偏要我说需要注意的,就是在选择数据库的时候一定要选择列容易扩充的数据库。如果要说具体需要哪些字段,我还真的没法说,我只能把他归类成用户元属性数据,行为统计数据,潜在挖掘数据,至此而已。因为数据系统从来不是一个事先规划好的系统,而是需要随着业务增长来逐渐填充的系统,这也是数据平台难做的原因。 所以我真心无法理解有一些不太大的公司成立了一个部门,这个部门专门做用户画像(例如PPTV)。

B. 数据工程师不仅仅是处理数据而是理解数据。我遇到的数据工程师大抵分成两类,一类是数据开发工程师,例如Hadoop工程师,数据仓库工程师;一类是学术化的工程师,深钻模型,这种工程师其实还是更适合研究院;当然,这两种工程师都各有优缺点,但是我更觉得对于大部分企业来说更需要一个理解数据而非处理数据的工程师,核心价值更应该在于深入去理解产品业务,数据处理,数据建模,做数据分析和挖掘,接下来对于产品的发展做数据化的驱动,并且知道何时应该继续对模型进行优化,何时应该适可而止。

C. 沿着上一点继续说,Growth Hacker & Data Scientist。一个优秀的算法/数据工程师应该具备Growth Hacker 和 Data Scientist的能力,其实这两点也恰恰标志着不仅仅是数据,而是一个产品的最重要两点:增长和留存。作为Growth Hacker,你应该为企业找到潜在的机会点,帮助产品增长;另一方面,你也应该作为Data Scientist,发现现有数据的问题,帮助产品优化体验,提升留存,而推荐系统往往是属于这一部分的子集。

D. 避免成为成本部门。这是我后期去带一个事业部的时候才有着的最深体会。对于任何一个部门来讲,最痛苦的莫过于自己成为了公司的成本部门,所以为什么小公司的实验室部门根本搞不下去,所以为什么数据部门都希望自己有个数据产品,所以为什么技术部门都不希望自己仅仅是一个支撑部门。那么无论是对于技术团队,还是数据团队,作为部门的负责人,永远需要想的都应该是,我们为企业到底创造了什么实际的价值,而这个价值是不是当前公司所最紧缺的。例如公司现在最缺的是增长,你整个部门偏偏要拼死命做留存;公司最需要的是产品快速迭代,你偏偏要去搞底层性能优化。这些很势利,却是决定着部门荣辱兴衰的最重要一点,无论是什么部门,去帮忙解决公司最痛的那个点才是最重要的。

6. 数据和直觉

有一次我和别人聊了很多,他说所以做产品经理必须要数据决策对不对?我觉得这个事儿也对也不对。

数据驱动是什么?数据驱动是从已有的数据中去发现规律对产品进行优化,但是数据做不到的是从未知中挖掘机会点,而这往往是一个优秀产品经理的直觉。我经常和人举的一个例子是,要是数据驱动,也许今天应该也出现不了微信。很多时候优秀的创意就是来源于一个直觉,而不是循规蹈矩的分析推导,因为这样往往会陷入我在上文提到的大数据的窘境。所以不要无视数据,更不要神化数据,该相信直觉的时候还是相信直觉。其实有时候做算法也是一样,你不可能把上千种算法都A-B Test一次,有时候别人问我为什么,我能说的也就是直觉,作为算法工程师的直觉,“用另外一种算法效果不会更好的”。

更何况产品经理的沟通,协调,跟踪能力同样是不可或缺的一部分,也是大部分工程师所缺乏的自身特质。

数据科学家

7. 数据工程师的窘境

这一点我不知道该从何写起,其实算是数据工程师职业生涯上面临的最大尴尬吧。

现在所有公司都在谈数据驱动,可是说实话我目前还真的没看到有真正数据驱动的公司,为什么呢?很关键的就是,说驱动你得驱动得起来才行啊。对于大部分公司,数据部门只是作为一个独立的支撑部门存在,我让你干嘛你就干嘛就行了,今天帮我跑个数据,明天帮我上个模型,产品是我的,你别和我指手画脚。再一些公司呢,数据部门,不对,不能叫做部门,“数据组”只是产品的一个附属部门,部门的老大都是产品总监,你就更没资本去驱动你的Boss了。 其实归根结底,还是中国人不相信这些东西,老板自己都不相信或者不重视,各位想一下大部分中小公司对于CTO和技术总监的要求就知道了:帮我把性能问题给解决了,而这些却恰恰应该是一个系统架构师的定位。这里必须要再丢一下caoz的文章:《CTO这点事 – caoz的梦呓》

那么数据工程师发展到最后职业生涯到底进展到哪儿呢?我也不知道,也许我们都只能期望国内数据行业的进一步成熟和被认可了。而这些就是我以前老大讲的,在数据的工程领域,我们都是先行者,没有人可以告诉我们怎么走,这些都是需要我们自己去探索和闯荡的路。

8. 企业价值 & 市值

我一直有个理论,一个大的市场,一定能够容纳下两家上市公司。例如我们认为分类信息是个大领域,那么58上市了,我相信赶集一定能上,而且如果“58” 30亿的市值,我相信赶集应该会在20亿上下浮动。这个其实极大地关系到了如何选择一个公司。

其实现在就这么多行业了,社交网络已经日渐没落,腾讯和陌陌已经切去了聊天IM的大部分市场,所以现在一家再做细分领域的聊天社交,包括匿名社交我相信都只是骗骗投资人的钱罢了。视频行业大势已定,几乎没什么太大空间了。唯一一个老牌并且有想象空间的就是音乐,问题还是在于版权和付费意识决定了音乐行业的变现一直是大问题,所以倒是仍然值得再去拼一次。

那么剩下的就是大家都热炒无数次的。

电商: 电商一定还会有市场,只是新应用的用户获取成本太高,如何选择品类,如何实现用户的自传播从而实现盈利成为了最关键的问题。

O2O: 一个又一个细分市场,因为线下太大,没有任何一家有资本和能力全部囊括。但是稍微熟悉O2O行业的都知道,O2O的最大关键还是在于Offline的服务品质,线上只是线下的一个宣传手段罢了,就像曾经在QQ上也能订餐,现在只是发展出一个APP然后服务规模扩大化精细化了而已,既然只是一个渠道,那么Online的部分在O2O行业所能得到的重视程度自然也就有限(个人意见,不喜可喷)。

互联网金融:金融互联网是个千万亿的市场,一旦成功注定是秒杀互联网行业的,可是正是因为这种高市值也伴随着高风险,一个不小心现金流就如同那些P2P公司一样卷铺盖跑路了。另外问题一样,互联网金融,核心还是金融,互联网只是渠道,那么核心竞争力还是取决于如何利用数据来推动金融业务的发展,例如现在P2P里的信用风险评估,其实就是金融业的最基本概念罢了,现在拿出来用互联网再炒一遍。

在线教育:不懂…..只是直觉觉得不看好,因为觉得反人性的,太严肃的东西在互联网上都玩不转

硬件:离我太远,我只是觉得现在的智能硬件还处于太初级的阶段,大多是传统硬件加个Wifi而已,有待继续发展。

其实对于大多数人来讲,技术永远都不是瓶颈,难的都是如何选择一个公司和行业,从短期来讲选公司,在过去我们都可以靠融资多少,风投机构是否靠谱来判断一个公司,但是在资本大热的今天变得越来越不可行了,那么这个时候只能依靠自己的判断。例如拉勾,B轮2500万美元,那么也就是说预计B轮估值3亿左右,那么就看看吧,51job和智联都在10个亿左右的市值,而拉勾做的太深领域无法自拔,只能是他们的一个金字塔顶,于是你可以去推算一下他的想象空间。

长期来讲选行业,那么未来几年内大热的行业也就这么多,选行业看看前车之鉴例如旅游,看看途牛的估值也知道这个行业的互联网发展了;再接下来我觉得重要的还是在于在这个行业中到底能扮演什么样的角色,是否能解决核心问题,例如硬件的核心问题从眼前来看是供应链和生产工艺,那么做数据去盲目进入只会沦为边缘角色,如此类推。

作者:飞林沙

End.