阿里巴巴菜鸟级数据产品经理半年回顾总结篇
干货教程:如何绘制业务流程图(二)
干货教程:如何绘制业务流程图(一)
技术贴:如何在数据库中秘密地查询隐私数据
攻略教程:信息图(infographic)是怎么做出来的?
分析师一定要看!用数据讲故事的五个步骤
技术篇:怎样玩转千万级别的数据?
北漂书生:大数据时代SEO数据如何搜集和分析
干货,从十大问题重新认识并读懂互联网
相似图片搜索、算法、识别的原理解析(下)
相似图片搜索、算法、识别的原理解析(上)
制作信息图时请遵循这10条原则
提高表格可读性的一些技巧,适用于Excel、PPT等数据报表
实用教程:如何让Excel图表更具“商务气质”?
一张数据信息图是这样制作完成的
菜鸟读财报,如何从上市公司财报中挖情报?
北大数据分析老鸟写给学弟们一封信
如何一步一步制作出高品质数据信息图?
总结:海量数据分析处理的十个方法
【实战经验】数据分析师如何了解老板真正想法?
零售业数据分析那些事儿
数据分析时l常用电子表格公式【大全】
用数据来告诉你 上市公司财报的秘密
这12个数据能 帮你搞定淘宝店铺
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(四)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(三)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(二)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(一)
淘宝网店从激活到挽留,4步走玩转数据营销
文案怎样写才有意思、不空洞、打动人?
入门级扫盲贴:数据分析的步骤有哪些?
关系即数据,论社交媒体的关系转换
数据的力量,苹果教你用数据鄙视竞争对手
谁说文科生不能做数据分析?数据分析入行→技能提升→优势
产品运营数据分析——SPSS数据分组案例
如何追踪iPhone和iPad等移动设备的用户行为数据?
阿里巴巴中国站:用户满意度指标权重计算方法
广告中的AdNetwork、AdExchange、DSP、SSP、RTB和DMP是什么?
信息图制作教程:关于数值的表现
为什么大数据会如此轰动?(值得深度的文章)
多图技术贴:深入浅出解析大数据平台架构
面板数据分析中标准误的估计修正——根据Peterson (2009)的归纳
财务官、投资人、CIO看过来:给企业数据定价
推荐系统中常用算法 以及优点缺点对比
探索Weotta搜索引擎背后的大数据技术
如何识别虚假数据?
为什么我们像驯化小狗那样驯化算法
程序员必须知道的10大基础实用算法及其讲解
电子商务:最影响转化率的九大要素
如何迅速成为一名数据分析师?
想从事大数据、海量数据处理相关的工作,如何自学打基础?
如何用亚马逊弹性MapReduce分析大数据?
译文:机器学习算法基础知识
给hadoop新手的一封信:Hadoop入门自学及对就业的帮助
从入门到精通,我是这样学习算法的
小商家,从老客户身上获取的数据才更有意义
13页PPT讲述:大数据下网站数据分析应用
40页PPT详解:京东大数据基础构架与创新应用
67页PPT解密搜索引擎背后的大技术:知识图谱,大数据语义链接的基石
营销洞察力——10个营销度量指标
技术篇:前端数据之美如何展示?
董飞:美国大数据工程师面试攻略【PPT】
easel:如何制作好的信息图——来自专家的顶级技巧
大数据实操:以3D打印机为例,如何知道卖点有没有市场需求?
大数据建模 需要了解的九大形式
用户画像数据建模方法
从规划开始,公司or企业如何入手和实施大数据?
干货:商品信息数据分析和展现系统的设计与开发
高手教你用Excel制作百度迁徙数据地图
50篇干货:淘宝店/电子商务如何玩转数据分析?
精华索引:大数据实际应用案例50篇
验证最小化可行产品 (MVP) 的 15 种方法
干货:数据分析师的完整知识结构
大数据技术Hadoop面试题,看看你能答对多少?答案在后面
用SPSS做数据分析?先弄懂SPSS的基础知识吧
怎样做出优秀的扁平化设计风格PPT? 扁平化PPT设计手册#3
解答│做大数据过程中遇到的13个问题
40页PPT│社交网络发展的新动力:大数据与众包
以Amazon、豆瓣网为例,探索推荐引擎内部的秘密#1
怎样做出优秀的扁平化设计风格PPT?#2
怎样做出优秀的扁平化设计风格PPT?#1
36页PPT│大数据分析关键技术在腾讯的应用服务创新
如何丰满地做SWOT分析?
【35页PPT】TalkingData研发副总阎志涛:移动互联网大数据处理系统架构
27页PPT|以珍爱网为例,如何构建有业务价值的数据分析系统?
国外数据新闻资源分享
21页PPT重磅发布:Mariana——腾讯深度学习平台的进展与应用
从0到100——知乎架构变迁史
PPT解读:百度大数据质量保障方案探索
45页PPT|大数据环境下实现一个O2O通用推荐引擎的实践
从数据看豆瓣兴衰
深度学习系列:解密最接近人脑的智能学习机器——深度学习及并行化实现(四)
重磅推荐:129页PPT讲述移动时代创业黄金法则 via:腾讯企鹅智酷
重磅推荐:大数据工程师飞林沙的年终总结&算法数据的思考
OpenKN——网络大数据时代的知识计算引擎
大数据下城市计算的典型应用
技术贴:大数据告诉你,如何给微信公众号文章取标题?
你的QQ暴露了你的心——QQ大数据及其应用介绍PPT
如何从企业报表看企业的生存能力?
实用的大数据技巧合集
技术帝揭秘:充电宝是如何盗取你的个人隐私的?
重磅!50页PPT揭秘腾讯大数据平台与推荐应用架构
原创教程:饼图之复合饼图与双层饼图(1)
PPT:大数据时代的设计特点——不了解这个你做不了今天的设计
教程贴:如何用方程式写春联?
原创教程:如何用Excel制作简易动态对比图
深度译文:机器学习那些事
教程帖:数学之美——手把手教你用Excel画心(动态图)
董老师走进斯坦福,聊聊硅谷创业公司和大数据的事儿(附课件PPT下载)
【限时】年度钜献,108个大数据文档PDF开放下载
董飞专栏:大数据入门——大数据相关技术、Hadoop生态、LinkedIn内部实战
亿级用户下的新浪微博平台架构
一张图了解磁盘里的数据结构
浅析数据化设计思维在阿里系产品的应用
美团推荐算法实践
一个P2P创业公司有哪些部门,都是做什么的?
一个P2P平台的详细运营框架是怎样的?
机器学习中的算法——决策树模型组合之随机森林与GBDT
神经网络简史
58页PPT看懂互联网趋势,大数据/物联网/云计算/4G都有了
广点通背后的大数据技术秘密——大规模主题模型建模及其在腾讯业务中的应用(附PPT)
微信红包之CBA实践PPT——移动互联网海量访问系统设计
一文读懂机器学习,大数据/自然语言处理/算法全有了……
搜狐新闻客户端的背后大数据技术原理——推荐系统(PPT)
原创教程:用Excel做动态双层饼图
半小时读懂PMP私有广告交易市场
怎样分析样本调研数据(译)
PPT:支付宝背后的大数据技术——DataLab、Higo的实践及应用
大数据技术人员的工具包——开源大数据处理工具list(限时下载)
计算机视觉:随机森林算法在人体识别中的应用
24页PPT:机器学习——支持向量机SVM简介(附下载)
互联网高手教你如何搜集你想要的信息
深度:对地观测大数据处理、挑战与思考
原创教程:用Excel做饼图之复合饼图与双层饼图(2)
移动大数据时代: 无线网络的挑战与机遇(附pdf下载)
Excel使用技巧——25招必学秘技
【年度热门】加上这些 Excel 技能点,秒杀众人(多图)
原创教程:用Excel做纵向折线图
知识图谱——机器大脑中的知识库
何明科专栏:用数据化的方式解析投资条款
DT时代,如何用大数据分析创造商业价值(23页PPT)
MIT牛人梳理脉络详解宏伟现代数据体系
你的老婆是怎么算出来的?揭秘佳缘用户推荐系统
飞林沙:商品推荐算法&推荐解释
PPT:如何成为真正的数据架构师?(附下载)
开源大数据查询分析引擎现状
董飞专栏:打造数据产品必知秘籍
译文:如何做强大又漂亮的信息图
如何使用Amazon Machine Learning构建机器学习预测模型
如何运用数据协助货架管理(内附26张PPT)
SVM算法
主流大数据系统在后台的层次角色及数据流向
PPT:阿里全息大数据构建与应用
人脸识别技术大总结——Face Detection & Alignment
教程:用Excel制作成对条形图
易观智库:大数据下的用户分析及用户画像(18页PPT附下载)
技术向:如何设计企业级大数据分析平台?
电商数据分析基础指标体系
IBM SPSS Modeler 决策树之银行行销预测应用分析
拓扑数据分析与机器学习的相互促进
基于 R 语言和 SPSS 的决策树算法介绍及应用
用php做爬虫 百万级别知乎用户数据爬取与分析
另类新浪微博基本数据采集方法
以10万+阅读的文章为例 教你做微信公众号的运营数据分析
破解数据三大难题:变现?交易?隐私?
微店的大数据平台建设实践与探讨
阿里巴巴PPT:大数据基础建议及产品应用之道
基于社会媒体的预测技术
人工智能简史
技巧:演讲中怎样用数据说话
马云和小贝选谁做老公?写给非数据人的数据世界入门指南
掘金大数据产业链:上游资源+中游技术+下游应用
原创教程:手把手教你用Excel做多层折线图
销售分析:如何从数据指标发现背后的故事
如何一步步从数据产品菜鸟走到骨干数据产品
也来谈谈微博的用户画像
行走在网格之间:微博用户关系模型
如何拍出和明星一样美爆的自拍照?斯坦福大学用卷积神经网络建模告诉你
运营商如何玩转大数据? 浙江移动云计算和大数据实践(PPT附下载)
大数据分析的集中化之路 建设银行大数据应用实践PPT
腾讯防刷负责人:基于用户画像大数据的电商防刷架构
创业提案的逻辑
友盟分享 | 移动大数据平台架构思想以及实践经验
寻路推荐 豆瓣推荐系统实践之路
“小数据”的统计学
重磅!8大策略让你对抗机器学习数据集里的不均衡数据
小团队撬动大数据——当当推荐团队的机器学习实践
微博推荐架构的演进
科普文 手把手教你微信公众号数据分析
信息图制作的六个注意点
【权利的游戏】剧透新玩法:情理之中?意料之外
推荐系统(Recommender System)的技术基础
核心算法 谷歌如何从网络的大海里捞到针
Quora数据科学家和机器学习工程师是如何合作的
阿里巴巴PPT:大数据下的数据安全
数据建模那点事儿
全民拥抱Docker云–Lhotse系统经验分享
实时股票分析系统的架构与算法
架构师必看 京东咚咚架构演进
什么叫对数据敏感?怎样做数据分析?
推荐系统基础知识储备
刘德寰:数据科学的整合与细分 数据科学的七个危险趋势(视频)
实际工作中,如何做简单的数据分析?
分布式前置机器学习在威胁情报中的应用(附PPT下载)
数据科学 怎样进行大数据的入门级学习?
扛住100亿次请求 如何做一个“有把握”的春晚红包系统?(PPT下载)
从 LinkedIn 的数据处理机制学习数据架构
大数据会如何改变管理咨询公司(I)
优秀大数据GitHub项目一览
生硬的数字和数据新闻:这么近,那么远
经典大数据架构案例:酷狗音乐的大数据平台重构(长文)
揭秘中兴大数据在银行领域的系统部署
基于大数据的用户画像构建(理论篇)
【R】支持向量机模型实现
数据图处处有陷阱?五个例子教你辨真伪
如何用R绘制地图
你确定你真的懂用户画像?
数据模型需要多少训练数据?
【接地气】01 数据报表的颜色怎么配
游戏价值和数据分析新思路
【R】异常值检测
快的打车架构实践
豆瓣还是朋友圈:大数据、新方法和日常问
PPT数据图表,怎么做才好看?
大道至简的数据体系构建方法论
数据的误区及自身业务
新浪微博的用户画像是怎样构建的?
面试干货!21个必知数据科学面试题和答案part1(1-11)
易观智库:中国大数据产业生态图谱2016(附下载)
Airbnb的数据基础架构
50PB海量数据排序,谷歌是这么做的
大数据时代工程师如何应对–今日头条走进硅谷技术讲座
D3.js教学记(下)
D3.js教学记(上)
飞林沙:企业级服务公司如何赚钱?只有平台级产品才有大数据的理论
一个母婴电子商务网站的大数据平台及机器学习实践
7大板块 组成数据分析师的完整知识结构
干货:SaaS领域如何分析收入增长?
学术 | 词嵌入的类比特性有实用意义吗?
6个用好大数据的秘诀
一个数据库外行眼中的微信优化 (附专家补充)
大数据调研,如何实现快全准?
数据大师Olivier Grisel给志向高远的数据科学家的指引
数据堂肖永红:数据交易的是使用权或数据的增值,而不是数据本身(PPT附下载)
淘宝商品详情平台化思考与实践
刘译璟:百分点大数据理念和实践(图文+PPT下载)
如何快速搞定一份看起来还不错的演示文档?
【BABY夜谈大数据】决策树
数据驱动设计:数据处理流程、分析方法和实战案例
美图数据总监:Facebook的法宝,我们在产品中怎么用?
树的内核:量化树结构化数据之间的相似性
拿到用户数据之后,LinkedIn怎么赚钱?
GrowingIO张溪梦:增长黑客的核心 企业应该重视产品留存率(附PPT下载)
[译]Airbnb是如何使用数据理解用户旅行体验的?
微博推荐数据服务代理: hyper_proxy的设计和实现
星图数据谷熠:消费领域DaaS 大数据重构未来商业游戏规则(附PPT下载)
鲍忠铁:TalkingData大数据技术与应用实践(PPT下载)
【干货教材】数据分析VS业务分析需求
九枝兰专访:数字营销的核心—企业如何使用数据管理平台(DMP)进行精准营销
我们的应用系统是如何支撑千万级别用户的
R应用空间数据科学
Excel进行高级数据分析(上)
Excel进行高级数据分析(下)
国内各大互联网公司2.0版技术站点收集
网站数据分析思路导图
大数据分析报表设计开发要素
大数据需要的12个工具 推荐
YARN/MRv2 Resource Manager深入剖析—NM管理
YARN/MRv2 Resource Manager深入剖析—RMApp状态机分析
Hadoop 1.0与Hadoop 2.0资源管理方案对比
Hadoop 2.0中单点故障解决方案总结
Hadoop 2.0 (YARN)中的安全机制概述
Hadoop 新特性、改进、优化和Bug分析系列1:YARN-378
Hadoop 新特性、改进、优化和Bug分析系列2:YARN-45
Hadoop 新特性、改进、优化和Bug分析系列3:YARN-392
Hadoop版本选择探讨
探究提高Hadoop稳定性与性能的方法
《Effective C++》读书笔记(第一部分)
Hadoop分布式环境下的数据抽样
Hadoop计算能力调度器算法解析
如何编写Hadoop调度器
数据结构之红黑树
Hadoop pipes设计原理
《C++ Primer plus》学习笔记之”类”
《C++ Primer plus》学习笔记之”类继承”
《C++ Primer plus》学习笔记之”C++中的代码重用”
《C++ Primer plus》学习笔记之”异常”
《C++ Primer plus》学习笔记之”RTTI”
Hadoop pipes编程
Hadoop Streaming高级编程
《C++ Primer plus》学习笔记之”标准模板库”
《C++ Primer plus》学习笔记之”输入输出库”
Linux Shell 命令总结
算法之图搜索算法(一)
awk使用总结
素数判定算法
《C++ Primer plus》学习笔记之“函数探幽”
使用Thrift RPC编写程序
如何在Hadoop上编写MapReduce程序
怎样从10亿查询词找出出现频率最高的10个

豆瓣还是朋友圈:大数据、新方法和日常问

于2017-04-01由小牛君创建

分享到:


作者:辍耕录

如果让我们决定是否去看一部电影,有两种办法来做决策:我们可以上豆瓣了解这部电影质量如何,专家的评价怎么样;也可以在朋友圈浏览一下,看看身边有多少人去看了这部电影。实际生活没有这么泾渭分明,在豆瓣上也可以打卡,在朋友圈也会有人分享心得,上面只是个大概的特点罢了。不过,这确实代表了观看电影这一行为背后两个可能的推手。一是学习(learning),我们去看电影可能是因为我们从别人那里听说这部电影好。二是情绪分享(emotion sharing),我们去看电影可能只是因为周围的人都去看了。这个问题初看起来无关紧要,但对电影厂商关系重大,因为这决定了他们的宣传策略。如果我们看电影更多的是因为电影好,那电影商就应该设法拍出好的电影并且把这个信息传递给我们。如果我们看电影更多的只是因为周围的人都看了,那电影好坏也许就没那么重要了,想办法把电影炒热,炒出话题性也许更重要。所以这个区别绝对不是无关紧要的。

以Amazon、豆瓣网为例,探索推荐引擎内部的秘密#1

基于社会媒体的预测技术

问题来了,怎么才能设计一种实证策略,把这两种效应区分开呢?这是Gilchrist和Sands在Journal of Political Economy即将刊出的论文Something To Talk About最主要的贡献之一。他们文章的另一个创新点是用LASSO来挑选变量,这一点我们后面也会谈到。为了区分这一点,他们首先弄了一个非常简单的模型。每个人的效用是三项之和,第一项是电影的客观质量,第二项是自身的异质性,服从0到1上的均匀分布,第三项是他人的影响,等于身边已经看了电影的人的数量再乘上一个系数。每一个体都有一个保留效用而且非常短视:只要这一期效用高于保留水平就会看。他不会说后面看的人多了,效用更高再去看,只要高于保留就会去。这个模型非常容易解,结果就是每一期看电影的总人数都是上一期的人的数量乘上一个比例,也就是每一期都是指数衰减的,这个比例就是他人影响的系数。这是没有社会学习的情况,也就是说,如果单纯只有情感共享一个因素的话,从上映开始观众就应该越来越少,而且是以指数速率衰减的。他们的目标就是实证这个模型。

首先是要有好的数据。两位作者从BoxOfficeMojo拿到了基本是最全的观影人数记录。数据的时间范围是2002到2012年,这个网站很多数据都是免费的!如果对这个题目感兴趣可以直接上去拷。接下来是对数据的预处理。为了防止截尾问题,他们只用了上映时间至少超过六周的电影做实证。上映时间不到六周的电影很多都不是平常的电影,五个数据点做扩散也比较无力。另一项重要的预处理是只用周五、周六、周日的数据,这是研究电影产业的惯例,因为在周中和周末观影的人群行为差异很大。不过,在在线发布的补充材料中,他们说明了,即使把这两点加进去,估计结果也不会受到显著影响。加入票房表现比较糟糕的电影并不会显著改变估计结果。加入周中的也不会,实际上,由于美国电影绝大多数都在周五上映,无论是扩散还是学习过程,大部分都发生在周末。这样下来,一共是包含557个周末,共1671天的数据。平均来看,排除那两种数据之后,电影在上映首周平均有250万观众,在接下来的一周只剩下130万,到第六周之后平均只剩下20万了。如果前面讲的情感共享非常重要的话,把所有其它因素拿掉,第一周观影人数增加应该会带来后面每一周观影人数的增加。

这还不够,最重要的是要寻找一个工具变量来把影片质量分离掉。我们知道,除了口口相传可以影响每周的观影人数外,影片质量也可以。如果影片质量比较好,那也可能每一周的观影人数都特别多。两位作者找到的这个工具变量就是天气。已有的研究显示,天气,无论是温度还是降水,都会显著影响人们的观影行为,但天气不会影响影片的质量。因为前面叙述的票房数据是遍及全美的,作者也不辞辛劳收集了全美1941个气象站10年来的气温、降水、降雪和冰雹数据,并且和气象站覆盖区域内的电影院做了一一匹配。为了说明气象站数据确实可以反映当天电影院附近的气候状况,他们特意做了检验,结论是只有1%的电影院离最近的气象站距离超过160公里。而在这个范围内,小气候有比较好的一致性,这就解决了这个可能的批评。

接下来是想办法把天气数量这个数据划得更细。比如说气温,不是所有范围内的气温都会对观影行为产生影响的,像15-20摄氏度这个范围内,我们的观影行为受气温影响可能就很小。为了解决这个问题,两位作者先把气象数据划成了很多小块,每个单独作为一个变量。像气温就以5度作为一个变量的界限,当天气温是否在80-85华氏度是一个变量,当天气温是否在85-90华氏度又是一个变量。降水则以四分之一英寸每小时划界,像当天降水是否早0到十分之一英寸每小时就是一个变量,降雪、冰雹等数据也类似划分。接下来就是选工具变量了。不过这里有两个问题。首先,电影厂商也知道气候变动会影响票房,所以他们也会看天气预报,然后按照天气来选电影上映的时间。其次,直接挑选工具变量,会面临巨大的运算量——这是个NP问题,常用的优化方法表现很差,甚至可能根本得不到最优解。再考虑到这里的数据量,有必要采取特别的处理方法。

为了解决第一个问题,两位作者首先计算了典型天气条件下的典型观影量。电影厂商也不可能预知未来,他们也只能根据已有数据去推测过几天会有怎样的天气。两位作者用所有气象数据,计算了季节平均气候和月平均气候。比如说春季的典型气候,或者说1月份的典型气候,然后拿那一天实际气候减去对应的典型气候,就得到了异常气候。两种精度不同的度量最后差别不大。接下来要算典型观影量。先要控制日固定效应,也就说是周几。还要控制周固定效应,也就是看这一周是一年里的第几周。一个平凡的工作周中的观影量圣诞节周的观影量当然不能相提并论。最后还要控制美国的一堆节日。我尝试着把节日数量数清楚,但直到最后也没有成功,姑且算4、50个吧。我把详细的列表放在了下面,有志者可以自己去数。结合上面所有因素,我们才能得到典型气候下的典型观影量,如果用计量的语言来说,就是回归的拟合值。只有这时候我们才能把异常天气和异常观影量放进来。

节假日
我们希望找到最好的工具变量是这样子的:和影片质量没有关系,但是又会极大地影响观影量。接下来的任务就是从前面划好的一堆气候、降水、降雪之类的变量里拿出一个,最好地符合上面的条件。这等价于我现在有一个向量,里面全是工具变量,我希望找到一个最优的工具变量的系数组合,来帮我实现这个目的。通常的办法,讲得再形式化一点,就是下面这张图,等价于我要求一组向量,最大化对异常值的解释力再加上一个惩罚项。前一项是一个简单的二次函数,是“好”的函数,处理起来没有任何问题。但后面一项处理起来很难,因为这实际上是一组指标,如果某个对应的工具变量系数不为0,这个指标就取1,否则取0,以此达到惩罚的目的。像这篇文章的情况,工具变量非常多,按前面的划分方法,加起来可能有差不多有三四十个,就假设三十个吧,那可能的情况也有种,属于NP问题,运算效率非常低下。两位作者在这里创新地引入了LASSO方法,把后面的惩罚项换成了各工具变量系数和,也就是beta的绝对值。这就把这个问题变成全局上的“好”函数,而通常的比较快速的求解方法也就可以运用了。这也是这篇文章重要进展之一:以后如果我们有一组备选的工具变量,我们也可以用LASSO来大大加快数据的处理时间。当数据规模非常庞大时,这一点尤为珍贵。

LASSO
我们可能还希望看看挑选出来的工具变量和影片质量是否确实没有关系。此外,在后面检验社会学习假说时也要用到质量。他们借助IMDB来构造影片质量数据库,具体方法是看IMDB上1000个“最有贡献的投票者”的投票结果,把所有影片按照评分高低放到了各个十位点上。他们发现,电影质量和观影人数确实有非常明显的联系。平均而言,排在前十分之一的电影在六周之类售出了约800万张票,而排在最后十分之一的电影只卖出了大概460万张票。此外,两位作者还指出可以用总预算来衡量观众对影片质量的把握程度。之所以这样,原因是影片的广告预算一般是总预算的一个固定比例,而广告越多,观众对电影的了解也可能越多。为证实这一点,他们特别把影片预算排在前百分之十和后百分之十的影片拿出来,分别计算了预料之外的购票数量。所谓预料之外的售票量,就是结合其它特征和第一周的购票量之后算出的第二周购票数量,也可称为回归的拟合值。这个量的分布就反映了观众对影片质量的了解,尾巴越肥,极端值越多,观众对影片的质量把握就越差。两位作者做了K-S检验,发现,预算前百分之十的电影的这个分布,和后百分之十的显著不同。平均而言,大预算电影明显能更好地传递自身信息。把上面所有信息都考虑过之后,我们终于可以放心愉快地使用我们找出来的工具变量了。两位作者在一开始把工具变量的数目限制在一个,发现效果最好的是当日气温是否位于75-80华氏度这个变量,一旦这样的异常天气出现,观影人数会异常地向下跌落10%,也就是差不多有23万人不去看电影。75-80华氏度是个非常舒服的天气,家庭可以选择更多其它的活动。这样的一个工具变量确实是非常优越的。

工具变量找到了,问题也就解决了。接下来就是普通的两阶段最小二乘回归。只不过这里要做五次,因为作者使用了六周的数据,回归结果如下。这里的回归结果需要解释一下,如果我们回忆一开始的模型,就会发现:因为只要高于保留效用,个体就会看电影。所以,只有第一期看的那些人才是真正觉得电影好的。而觉得电影好的第一期也都会去看。后面的都是被前面的个体带动起来的。于是后面看电影的数量就应该是前一期的数量乘上他人影响的系数,这也是我们前面讨论过的结论。因此,如果我们把所有因素都过滤掉以后再回归,从第二周开始的电影观影人数都应该只受第一期人数影响,或者说这个系数应该是正的,并且每一周的系数都是指数衰减。从图中可以看出,几乎所有系数都非常显著,说明情感共享确实是影响观影人数的重要因素。仔细观察数据还可以发现,估计结果和他人影响为o.5的时候非常相近,基本上每一周观影人数都衰减一半。这样的估计对评分最高和最低的十分之一电影都显著。即使把只有一个工具变量的约束拿掉,允许LASSO在所有变量里寻找最优权重,拼出一个最优的工具变量,结果依然稳健。因此,文章的一个主要结论已经出来了:情感共享确实影响观影人数,而且在美国,还可以估计出他人影响系数大概是0.5。

情感共享相关系数
在此基础上,作者还针对纽约和洛杉矶等地区做了检验,结论是一致的。不过,分区检验的主要困难是前述观影数据只有全国汇总人数,而分区检验需要地方数据。不过这难不住他们,Google搜索指数可以提供关于区域观影人数的比较准确的估计。根据已有的研究,在大部分地区,这个指数和实际观影人数的相关度都超过了0.7。他们尽量将观影人数精确到日。不过,如果搜索人数太少,Google搜索会显示不出来。如果遇到这种情况,他们就查询周搜索指数,然后重构观影人数。他们以此作为代理变量重复了前面的步骤,发现上述结论在各地区依然稳健。

上面的结论还不够,虽然作者已经说明了情感共享确实能够影响观影人数,但我们还要排除替代性的解释,最主要的就是排除学习。作者考虑了两种不同的学习机制。第一种学习机制是社会学习(social learning),在这种情景中,个体可以充分地传达他们关于电影的评价。也就是说,我看了一部电影,我可以完全地把我对电影的感受传达给你。作者在这里使用了一个很巧妙的估计策略:如果社会学习真的存在,那么,质量越高的电影,面临的信息阈值(information threshold)就会越小。因为关于高质量电影的信息可以充分传递,比方说一部绝世佳作,只要几个人和我说这部片精妙无双,我的预期效用就会超过我的保留效用,然后我就会去看。或者说,对于质量更高的电影来说,更大的初始动量(第一周去看电影的人的数量)也会带来后续更庞大的观影人群。用计量的方法来检查这个结论,就是分开高质量和低质量电影两组,然后用后续观影人数做因变量,控制其它特征后拿第一周观影人数做自变量做回归。结果发现系数是不显著的。有待排除的另一种学习方法是观察学习(observational learning)。在这种学习机制中,个体只能观察到别人的行为而无法知晓别人的评价。也就是说,我只能看到别人有没有去看电影,但我不知道他/她心里是怎么想的。作者在这里的处理同样十分精妙。如果每个人都是观察式学习的,那么对电影的初始信念越分散,初始动量带来的后续观影人群就越大。设想这么一个场景,初始所有人的信念都一样,那此时初始动量的增加对我不会有任何影响,因为我没有接收到任何新的信息。相反,如果所有人的信念都不一样,此时第一周观影人数的每一个增量都很宝贵,此时每一个增量都会带来关于电影质量的进一步信息。明白了这一点,实证的策略就是一模一样的了,只不过之前控制质量,现在要控制大家对质量了解的准确程度。我们在前面已经提过影片总预算和信念准确程度的相关关系,正好在这里派上用场。结果显示,回归系数也不显著。综上所述,我们可以得到本文的第二个主要结论:没有证据支持学习对观影人数的影响。

这篇文章到这里就大体结束了,不过如果真要认真去抠的话,还是可以抠出很多细节。文章的独特之处有二:一是对庞大数据集的细致处理。十年间所有电影的相关数据,还有十年间将近2000个气象观测站的每日数据,都需要收集、整理、清洁、处理,只是为了解决这么一个在我们一开始看来,似乎不是太大的问题。但整篇文章看下来,我们不得不承认,只有这样规模的数据和这种程度的努力,才能真正把这个问题处理得比较干净。二是对新技术的快速运用。这篇文章虽然2015年才正式被接受,但初稿在2012年已经完成。而文中使用的,在多维变量空间中用LASSO方法进行判别的严格理论也才刚刚被Chernozukov和Hansen等学者做出来,等于是新理论刚出来,实际问题就用上了。这也是很给人启发的。超大的数据集赋予了我们许多可能——工具变量居然多到要去判别了,但相应地,我们也要用更细密的方法,做出更踏实的结论,才对得起这么豪华的数据。

参考文献:

Gilchrist D, Sands E G. Something to Talk About: Social Spillovers in Movie Consumption[J]. Journal of Political Economy, forthcoming.

End.