阿里巴巴菜鸟级数据产品经理半年回顾总结篇
干货教程:如何绘制业务流程图(二)
干货教程:如何绘制业务流程图(一)
技术贴:如何在数据库中秘密地查询隐私数据
攻略教程:信息图(infographic)是怎么做出来的?
分析师一定要看!用数据讲故事的五个步骤
技术篇:怎样玩转千万级别的数据?
北漂书生:大数据时代SEO数据如何搜集和分析
干货,从十大问题重新认识并读懂互联网
相似图片搜索、算法、识别的原理解析(下)
相似图片搜索、算法、识别的原理解析(上)
制作信息图时请遵循这10条原则
提高表格可读性的一些技巧,适用于Excel、PPT等数据报表
实用教程:如何让Excel图表更具“商务气质”?
一张数据信息图是这样制作完成的
菜鸟读财报,如何从上市公司财报中挖情报?
北大数据分析老鸟写给学弟们一封信
如何一步一步制作出高品质数据信息图?
总结:海量数据分析处理的十个方法
【实战经验】数据分析师如何了解老板真正想法?
零售业数据分析那些事儿
数据分析时l常用电子表格公式【大全】
用数据来告诉你 上市公司财报的秘密
这12个数据能 帮你搞定淘宝店铺
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(四)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(三)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(二)
首席工程师揭秘:LinkedIn大数据后台是如何运作的?(一)
淘宝网店从激活到挽留,4步走玩转数据营销
文案怎样写才有意思、不空洞、打动人?
入门级扫盲贴:数据分析的步骤有哪些?
关系即数据,论社交媒体的关系转换
数据的力量,苹果教你用数据鄙视竞争对手
谁说文科生不能做数据分析?数据分析入行→技能提升→优势
产品运营数据分析——SPSS数据分组案例
如何追踪iPhone和iPad等移动设备的用户行为数据?
阿里巴巴中国站:用户满意度指标权重计算方法
广告中的AdNetwork、AdExchange、DSP、SSP、RTB和DMP是什么?
信息图制作教程:关于数值的表现
为什么大数据会如此轰动?(值得深度的文章)
多图技术贴:深入浅出解析大数据平台架构
面板数据分析中标准误的估计修正——根据Peterson (2009)的归纳
财务官、投资人、CIO看过来:给企业数据定价
推荐系统中常用算法 以及优点缺点对比
探索Weotta搜索引擎背后的大数据技术
如何识别虚假数据?
为什么我们像驯化小狗那样驯化算法
程序员必须知道的10大基础实用算法及其讲解
电子商务:最影响转化率的九大要素
如何迅速成为一名数据分析师?
想从事大数据、海量数据处理相关的工作,如何自学打基础?
如何用亚马逊弹性MapReduce分析大数据?
译文:机器学习算法基础知识
给hadoop新手的一封信:Hadoop入门自学及对就业的帮助
从入门到精通,我是这样学习算法的
小商家,从老客户身上获取的数据才更有意义
13页PPT讲述:大数据下网站数据分析应用
40页PPT详解:京东大数据基础构架与创新应用
67页PPT解密搜索引擎背后的大技术:知识图谱,大数据语义链接的基石
营销洞察力——10个营销度量指标
技术篇:前端数据之美如何展示?
董飞:美国大数据工程师面试攻略【PPT】
easel:如何制作好的信息图——来自专家的顶级技巧
大数据实操:以3D打印机为例,如何知道卖点有没有市场需求?
大数据建模 需要了解的九大形式
用户画像数据建模方法
从规划开始,公司or企业如何入手和实施大数据?
干货:商品信息数据分析和展现系统的设计与开发
高手教你用Excel制作百度迁徙数据地图
50篇干货:淘宝店/电子商务如何玩转数据分析?
精华索引:大数据实际应用案例50篇
验证最小化可行产品 (MVP) 的 15 种方法
干货:数据分析师的完整知识结构
大数据技术Hadoop面试题,看看你能答对多少?答案在后面
用SPSS做数据分析?先弄懂SPSS的基础知识吧
怎样做出优秀的扁平化设计风格PPT? 扁平化PPT设计手册#3
解答│做大数据过程中遇到的13个问题
40页PPT│社交网络发展的新动力:大数据与众包
以Amazon、豆瓣网为例,探索推荐引擎内部的秘密#1
怎样做出优秀的扁平化设计风格PPT?#2
怎样做出优秀的扁平化设计风格PPT?#1
36页PPT│大数据分析关键技术在腾讯的应用服务创新
如何丰满地做SWOT分析?
【35页PPT】TalkingData研发副总阎志涛:移动互联网大数据处理系统架构
27页PPT|以珍爱网为例,如何构建有业务价值的数据分析系统?
国外数据新闻资源分享
21页PPT重磅发布:Mariana——腾讯深度学习平台的进展与应用
从0到100——知乎架构变迁史
PPT解读:百度大数据质量保障方案探索
45页PPT|大数据环境下实现一个O2O通用推荐引擎的实践
从数据看豆瓣兴衰
深度学习系列:解密最接近人脑的智能学习机器——深度学习及并行化实现(四)
重磅推荐:129页PPT讲述移动时代创业黄金法则 via:腾讯企鹅智酷
重磅推荐:大数据工程师飞林沙的年终总结&算法数据的思考
OpenKN——网络大数据时代的知识计算引擎
大数据下城市计算的典型应用
技术贴:大数据告诉你,如何给微信公众号文章取标题?
你的QQ暴露了你的心——QQ大数据及其应用介绍PPT
如何从企业报表看企业的生存能力?
实用的大数据技巧合集
技术帝揭秘:充电宝是如何盗取你的个人隐私的?
重磅!50页PPT揭秘腾讯大数据平台与推荐应用架构
原创教程:饼图之复合饼图与双层饼图(1)
PPT:大数据时代的设计特点——不了解这个你做不了今天的设计
教程贴:如何用方程式写春联?
原创教程:如何用Excel制作简易动态对比图
深度译文:机器学习那些事
教程帖:数学之美——手把手教你用Excel画心(动态图)
董老师走进斯坦福,聊聊硅谷创业公司和大数据的事儿(附课件PPT下载)
【限时】年度钜献,108个大数据文档PDF开放下载
董飞专栏:大数据入门——大数据相关技术、Hadoop生态、LinkedIn内部实战
亿级用户下的新浪微博平台架构
一张图了解磁盘里的数据结构
浅析数据化设计思维在阿里系产品的应用
美团推荐算法实践
一个P2P创业公司有哪些部门,都是做什么的?
一个P2P平台的详细运营框架是怎样的?
机器学习中的算法——决策树模型组合之随机森林与GBDT
神经网络简史
58页PPT看懂互联网趋势,大数据/物联网/云计算/4G都有了
广点通背后的大数据技术秘密——大规模主题模型建模及其在腾讯业务中的应用(附PPT)
微信红包之CBA实践PPT——移动互联网海量访问系统设计
一文读懂机器学习,大数据/自然语言处理/算法全有了……
搜狐新闻客户端的背后大数据技术原理——推荐系统(PPT)
原创教程:用Excel做动态双层饼图
半小时读懂PMP私有广告交易市场
怎样分析样本调研数据(译)
PPT:支付宝背后的大数据技术——DataLab、Higo的实践及应用
大数据技术人员的工具包——开源大数据处理工具list(限时下载)
计算机视觉:随机森林算法在人体识别中的应用
24页PPT:机器学习——支持向量机SVM简介(附下载)
互联网高手教你如何搜集你想要的信息
深度:对地观测大数据处理、挑战与思考
原创教程:用Excel做饼图之复合饼图与双层饼图(2)
移动大数据时代: 无线网络的挑战与机遇(附pdf下载)
Excel使用技巧——25招必学秘技
【年度热门】加上这些 Excel 技能点,秒杀众人(多图)
原创教程:用Excel做纵向折线图
知识图谱——机器大脑中的知识库
何明科专栏:用数据化的方式解析投资条款
DT时代,如何用大数据分析创造商业价值(23页PPT)
MIT牛人梳理脉络详解宏伟现代数据体系
你的老婆是怎么算出来的?揭秘佳缘用户推荐系统
飞林沙:商品推荐算法&推荐解释
PPT:如何成为真正的数据架构师?(附下载)
开源大数据查询分析引擎现状
董飞专栏:打造数据产品必知秘籍
译文:如何做强大又漂亮的信息图
如何使用Amazon Machine Learning构建机器学习预测模型
如何运用数据协助货架管理(内附26张PPT)
SVM算法
主流大数据系统在后台的层次角色及数据流向
PPT:阿里全息大数据构建与应用
人脸识别技术大总结——Face Detection & Alignment
教程:用Excel制作成对条形图
易观智库:大数据下的用户分析及用户画像(18页PPT附下载)
技术向:如何设计企业级大数据分析平台?
电商数据分析基础指标体系
IBM SPSS Modeler 决策树之银行行销预测应用分析
拓扑数据分析与机器学习的相互促进
基于 R 语言和 SPSS 的决策树算法介绍及应用
用php做爬虫 百万级别知乎用户数据爬取与分析
另类新浪微博基本数据采集方法
以10万+阅读的文章为例 教你做微信公众号的运营数据分析
破解数据三大难题:变现?交易?隐私?
微店的大数据平台建设实践与探讨
阿里巴巴PPT:大数据基础建议及产品应用之道
基于社会媒体的预测技术
人工智能简史
技巧:演讲中怎样用数据说话
马云和小贝选谁做老公?写给非数据人的数据世界入门指南
掘金大数据产业链:上游资源+中游技术+下游应用
原创教程:手把手教你用Excel做多层折线图
销售分析:如何从数据指标发现背后的故事
如何一步步从数据产品菜鸟走到骨干数据产品
也来谈谈微博的用户画像
行走在网格之间:微博用户关系模型
如何拍出和明星一样美爆的自拍照?斯坦福大学用卷积神经网络建模告诉你
运营商如何玩转大数据? 浙江移动云计算和大数据实践(PPT附下载)
大数据分析的集中化之路 建设银行大数据应用实践PPT
腾讯防刷负责人:基于用户画像大数据的电商防刷架构
创业提案的逻辑
友盟分享 | 移动大数据平台架构思想以及实践经验
寻路推荐 豆瓣推荐系统实践之路
“小数据”的统计学
重磅!8大策略让你对抗机器学习数据集里的不均衡数据
小团队撬动大数据——当当推荐团队的机器学习实践
微博推荐架构的演进
科普文 手把手教你微信公众号数据分析
信息图制作的六个注意点
【权利的游戏】剧透新玩法:情理之中?意料之外
推荐系统(Recommender System)的技术基础
核心算法 谷歌如何从网络的大海里捞到针
Quora数据科学家和机器学习工程师是如何合作的
阿里巴巴PPT:大数据下的数据安全
数据建模那点事儿
全民拥抱Docker云–Lhotse系统经验分享
实时股票分析系统的架构与算法
架构师必看 京东咚咚架构演进
什么叫对数据敏感?怎样做数据分析?
推荐系统基础知识储备
刘德寰:数据科学的整合与细分 数据科学的七个危险趋势(视频)
实际工作中,如何做简单的数据分析?
分布式前置机器学习在威胁情报中的应用(附PPT下载)
数据科学 怎样进行大数据的入门级学习?
扛住100亿次请求 如何做一个“有把握”的春晚红包系统?(PPT下载)
从 LinkedIn 的数据处理机制学习数据架构
大数据会如何改变管理咨询公司(I)
优秀大数据GitHub项目一览
生硬的数字和数据新闻:这么近,那么远
经典大数据架构案例:酷狗音乐的大数据平台重构(长文)
揭秘中兴大数据在银行领域的系统部署
基于大数据的用户画像构建(理论篇)
【R】支持向量机模型实现
数据图处处有陷阱?五个例子教你辨真伪
如何用R绘制地图
你确定你真的懂用户画像?
数据模型需要多少训练数据?
【接地气】01 数据报表的颜色怎么配
游戏价值和数据分析新思路
【R】异常值检测
快的打车架构实践
豆瓣还是朋友圈:大数据、新方法和日常问
PPT数据图表,怎么做才好看?
大道至简的数据体系构建方法论
数据的误区及自身业务
新浪微博的用户画像是怎样构建的?
面试干货!21个必知数据科学面试题和答案part1(1-11)
易观智库:中国大数据产业生态图谱2016(附下载)
Airbnb的数据基础架构
50PB海量数据排序,谷歌是这么做的
大数据时代工程师如何应对–今日头条走进硅谷技术讲座
D3.js教学记(下)
D3.js教学记(上)
飞林沙:企业级服务公司如何赚钱?只有平台级产品才有大数据的理论
一个母婴电子商务网站的大数据平台及机器学习实践
7大板块 组成数据分析师的完整知识结构
干货:SaaS领域如何分析收入增长?
学术 | 词嵌入的类比特性有实用意义吗?
6个用好大数据的秘诀
一个数据库外行眼中的微信优化 (附专家补充)
大数据调研,如何实现快全准?
数据大师Olivier Grisel给志向高远的数据科学家的指引
数据堂肖永红:数据交易的是使用权或数据的增值,而不是数据本身(PPT附下载)
淘宝商品详情平台化思考与实践
刘译璟:百分点大数据理念和实践(图文+PPT下载)
如何快速搞定一份看起来还不错的演示文档?
【BABY夜谈大数据】决策树
数据驱动设计:数据处理流程、分析方法和实战案例
美图数据总监:Facebook的法宝,我们在产品中怎么用?
树的内核:量化树结构化数据之间的相似性
拿到用户数据之后,LinkedIn怎么赚钱?
GrowingIO张溪梦:增长黑客的核心 企业应该重视产品留存率(附PPT下载)
[译]Airbnb是如何使用数据理解用户旅行体验的?
微博推荐数据服务代理: hyper_proxy的设计和实现
星图数据谷熠:消费领域DaaS 大数据重构未来商业游戏规则(附PPT下载)
鲍忠铁:TalkingData大数据技术与应用实践(PPT下载)
【干货教材】数据分析VS业务分析需求
九枝兰专访:数字营销的核心—企业如何使用数据管理平台(DMP)进行精准营销
我们的应用系统是如何支撑千万级别用户的
R应用空间数据科学
Excel进行高级数据分析(上)
Excel进行高级数据分析(下)
国内各大互联网公司2.0版技术站点收集
网站数据分析思路导图
大数据分析报表设计开发要素
大数据需要的12个工具 推荐
YARN/MRv2 Resource Manager深入剖析—NM管理
YARN/MRv2 Resource Manager深入剖析—RMApp状态机分析
Hadoop 1.0与Hadoop 2.0资源管理方案对比
Hadoop 2.0中单点故障解决方案总结
Hadoop 2.0 (YARN)中的安全机制概述
Hadoop 新特性、改进、优化和Bug分析系列1:YARN-378
Hadoop 新特性、改进、优化和Bug分析系列2:YARN-45
Hadoop 新特性、改进、优化和Bug分析系列3:YARN-392
Hadoop版本选择探讨
探究提高Hadoop稳定性与性能的方法
《Effective C++》读书笔记(第一部分)
Hadoop分布式环境下的数据抽样
Hadoop计算能力调度器算法解析
如何编写Hadoop调度器
数据结构之红黑树
Hadoop pipes设计原理
《C++ Primer plus》学习笔记之”类”
《C++ Primer plus》学习笔记之”类继承”
《C++ Primer plus》学习笔记之”C++中的代码重用”
《C++ Primer plus》学习笔记之”异常”
《C++ Primer plus》学习笔记之”RTTI”
Hadoop pipes编程
Hadoop Streaming高级编程
《C++ Primer plus》学习笔记之”标准模板库”
《C++ Primer plus》学习笔记之”输入输出库”
Linux Shell 命令总结
算法之图搜索算法(一)
awk使用总结
素数判定算法
《C++ Primer plus》学习笔记之“函数探幽”
使用Thrift RPC编写程序
如何在Hadoop上编写MapReduce程序
怎样从10亿查询词找出出现频率最高的10个

大数据下城市计算的典型应用

于2017-04-01由小牛君创建

分享到:


大数据

近年来,随着感知技术和计算环境的成熟,各种大数据在城市中悄然而生。城市计算就是用城市中的大数据来解决城市本身所面临的挑战,通过对多种异构数据的整合、分析和挖掘,来提取知识和智能,并用智能来创造“人—环境—城市”三赢的结果。微软亚洲研究院主管研究员郑宇从城市计算的基本框架及核心问题、典型应用、主要技术等方面对城市计算研究进行了全面而详细的分析,让我们一睹为快!

城市计算的基本框架及核心问题

基本框架

城市计算的基本框架包括城市感知及数据捕获、数据管理、城市数据分析和服务提供(如图1)。与自然语言分析和图像处理等“单数据单任务”系统相比,城市计算是一个“多数据多任务”系统。城市计算中的任务包括改进城市规划、缓解交通拥堵、保护自然环境、减少能源消耗等。而一个任务又需要同时用到多种数据。例如,在城市规划的设计过程中,需要同时参考道路结构、兴趣点分布、交通流等多种数据源。

大数据

核心问题

城市计算是一门新兴的交叉领域,涵盖面较广。从计算机科学的角度来看,其核心的研究问题主要包括以下4 个方面:

城市感知

如何利用城市现有的资源(如手机、传感器、车辆和人等),在不干扰人们生活的前提下自动感知城市的韵律,是一个重要的研究课题。如何从大量的传感器和设备中高效而可靠地收集、传送数据将给现有的传感器网络技术带来挑战。此外,人作为传感器参与到城市感知过程是一个新概念。例如,当一场灾难发生后,有些用户会在社交网络上发布消息或上传照片。这些用户其实就是在感知发生在他们身边的事情。用户在出入地铁站时的刷卡行为也间接帮助我们感知了地铁系统的拥挤和人们的出行。人赋予了传统传感器强大的感知能力和前所未有的灵活性,但产生的数据更加随机、无序(如微博上的文字),数据的产生时间也变得难以预测、不可控,这给数据的收集和解析带来了挑战。

海量异构数据的管理

城市产生的数据五花八门,属性差别很大。例如:气象是时序数据,兴趣点是空间点数据,道路是空间图数据,人的移动是轨迹数据(时间+ 空间),交通流量是流数据,社交网上用户发布的信息是文本或图像数据。如何管理和整合大规模的异构数据是一个新的挑战。尤其是在一个应用中使用多种数据时,只有提前建立起不同数据之间的关联,才能使后面的分析和挖掘过程变得高效、可行。

异构数据的协同计算

这部分包括三个方面:(1) 如何从不同的数据源中获取相互增强的知识是一个新的课题。传统的机器学习往往基于单一数据,如自然语言处理主要分析文本数据,图像视觉主要基于图像数据。在城市计算的很多应用中,对不同性质的数据一视同仁,其效果并不理想。(2) 在保证知识提取深度的同时,如何提高对大数据的分析效率,从而满足城市计算中众多实时性要求较高的应用(如空气质量预测、异常事件监测等),也是一个难题。(3) 数据维度的增加也容易导致数据稀疏性问题。当数据规模达到一定程度,简单的矩阵分解算法都变得难以执行。

虚实结合的混合式系统

城市计算常常催生混合系统,如云加端模式,即信息产生在物理世界,通过终端设备被收集到云端(虚拟世界)分析和处理,最后云再将提取的知识作为服务提供给物理世界的终端用户。数据在物理和虚拟世界中来回穿行,从分散到集中,再到分散。这对系统的设计和搭建提出了更高的要求。基于浮动车数据的快速行车路线设计以及城市异常事件的监测都是典型的混合式系统。

城市计算的典型应用

城市规划

城市拥堵在一定程度上突显了现有道路网的设计已经不能满足不断发展的城市交通流的需求。如图2(a) 所示,利用高速和环路等主干道将城市分割成区域,然后分析大规模车流轨迹数据在不同区域之间行驶的一些特征,便可找到连通性较差的区域对,从而发掘现有城市道路网的不足之处。图2(b) 给出了基于北京市3 万多辆出租车3 个月轨迹数据的分析结果。这些结果可以作为制定下一版交通规划的参考。同时,通过对比连续两年的检测结果,可以验证一些已经实施的规划(如新建道路和地铁)是否合理。

城市计算

城市的不断发展催生了不同的功能区域,如文教、商业和住宅区等。准确掌握这些区域的分布对制定合理的城市规划有着极其重要的意义。但是一个区域的功能并不是单一的,例如在科学文教区里仍然有饭店和商业设施的存在。因此,一个区域需要由一个功能的分布来表达(如70%的功能为商业,20% 的功能为住宅,剩余的为教育)。由于一个区域杂糅了很多不同类别的兴趣点,而且每个兴趣点的作用大小和被访问频度都很难预知,这给城市规划提出了很大的挑战。例如,同样都是餐馆,一个小区里的小店和全聚德之类的大店所反映的区域功能是完全不一样的。

结合兴趣点数据和人们的移动模式,Discovering regions of different functions in a city using human mobility and POIs分析了城市中不同的功能区域。如图3(a) 所示,相同颜色的区域具有相同的功能分布(如红色区域主要为科学文教区)。图中所采用的人的移动性数据是从出租车的轨迹数据中提取出来的,该轨迹数据包含乘客上车和下车地点的信息。人的移动性数据可以很好地区分相同类别的兴趣点的热度,也可以揭示一个区域的功能。例如有一个区域,大部分人都是上午8 点左右离开,晚上7 点返回,则这个区域很可能是住宅区。一个区域的主要功能是文教,但也不代表该区域的任何一个地点都服务于文教。因此,给定一种功能,我们希望知道它的核心区域所在。图3(b) 显示了成熟商业区的核心区域,颜色越深表示该区域是成熟商业区的概率越大。

城市计算与大数据

智能交通

T-Drive 系统利用装有GPS 传感器的出租车来感知交通流量,并为普通用户设计出真正意义上的最快驾车线路。如图4 所示,T-Drive 提出了一个基于地标图的路由算法,其中一个红点表示出租车司机走过最频繁的路段之一(称为一个地标),红点之间的连线表示连接两个地标点的一条虚拟边,代表连续经过这两个地标点的出租车轨迹的聚合。根据出租车轨迹数据,可以学习出任何一条虚拟边的通行时间。T-Drive 的改进版进一步考虑了天气及个人驾车习惯、技能和道路熟悉程度等因素,提出了针对个人的个性化最快线路设计。这个系统不仅可以为每30 分钟的驾车路程节约5分钟时间,还可以通过让不同用户选择不同的道路来缓解可能出现的拥堵。

打车难是很多大城市面临的一个问题。通过分析出租车乘客的上下车记录,T-Finder提供了一个面向司机和乘客的双向推荐服务。一方面,这个系统向出租车司机建议一些“趴活”地点。只要向这些地点行驶,司机将在最短的时间内(在路上或者推荐地点)拉到乘客,并且使收入最大化。另一方面,如图5(a) 所示,该系统向乘客推荐一些周边的路段,在这些路段上寻找到空车的概率更高(不同颜色表示不同概率,蓝色最高,红色最低)。同时,T-Finder 还可以预测周边的一些出租车停靠站在未来半小时内将驶入的空车数目。T-Finder通过推荐能够缓解非高峰时段的打车难问题,但该系统并不能真正解决高峰时段的问题。T-Share则通过出租车实时动态拼车的方案来解决这一难题。在T-Share系统里,用户通过手机提交打车请求,表明上下车地点、乘客人数和期望到达目的地的时间。后台系统实时维护所有出租车的状态,在接收到一个用户请求后,搜索出满足新用户条件和车上已有乘客条件的最优的车。这里的最优是指出租车去接一个新的用户所增加的里程最小。如图5(b)所示,该出租车被规划为先后接 u1 和 u2,放下 u1 接 u3,再放 u2 ,然后放 u3(+ 表示上车,- 表示下车)。根据仿真结果显示,TShare系统一年可以为北京市节约8 亿升汽油(可供100 万辆车开10 个月,价值10 亿元人民币,并减排二氧化碳 16 亿千克),乘客能打到车的概率提高3 倍,但费用降低7%,出租车司机的收入增加10%。

城市计算与大数据

图5 城市计算中的出租车解决方案

还有一些研究工作,利用乘客在地铁系统中的刷卡数据来估计单个地铁站点内的拥挤程度和不同站点间的通行时间,从而优化人们的出行线路、时间和购票方式的选择。还有人通过分析出租车的轨迹数据来建议开通公交线路。如果有大量的人通过打出租车从一个地点到另一个地点,则说明这两个地点需要公交线路来连通。

环境

空气质量信息对控制污染和保护人们身体健康有着重要的意义。很多城市都开始通过建设地面空气监测站来实时感知地面的空气质量。但是由于监测站的建设成本高昂,一个城市的站点有限,并不能完全覆盖整个城市。如图6(a) 所示,北京城区仅有22 个空气监测站点(平均约100平方公里设一个站点)。然而空气质量受多方面因素影响(如地表植被、交通流量、楼房密度等),而且随地域不均匀变化。如果一个区域没有监测站,我们并不知道该地区空气质量的好坏,更不能用一个笼统的数据来概括整个城市的空气状况。

城市计算与大数据

利用群体感知是解决这个问题的一种方式。例如,“哥本哈根车轮”项目在自行车车轮里安装一些传感器,通过用户手机将收集的数据发送至后台服务器。依靠群体的力量,我们就可以感知整个城市不同角落的温度、湿度和二氧化碳浓度。由于受传感器大小和感知时间的限制,这种方式只适用于部分气体,如一氧化碳和二氧化碳。由于传感器体积较大,不便于携带,对于细颗粒物(PM2.5) 这样的悬浮物则需要2~4 小时的测量时间才能产生较为精确的数据。

U-Air 利用地面监测站有限的空气质量数据,结合交通流、道路结构、兴趣点分布、气象条件和人们流动规律等大数据,基于机器学习算法建立数据和空气质量的映射关系,从而推断出整个城市细粒度的空气质量。图6(b) 显示了北京某时刻的细粒度空气质量(其中不同颜色表示不同污染指数,绿色为优)。

社交和娱乐

社交网络的盛行,尤其是基于位置的社交网络的风靡,带来了丰富的媒体数据,如用户关系图、位置信息(签到和轨迹)、照片和视频等。这些数据不仅表现了个人的喜好和习惯,也反映了整个城市人们的生活方式和移动规律。基于这些数据,产生了很多推荐系统,包括朋友推荐、社区推荐、地点推荐、旅行线路推荐和行为活动推荐。文献A survey on recommendations in location-based social networks 综述了基于位置的社交网络中的各种推荐系统。

城市计算中的社交应用更加强调从大量用户的社交媒体数据中提炼出群体智慧。人作为一个重要的感知和计算单元参与到计算的过程中是城市的重要特点之一。例如,一个用户的签到或者带有地标的照片数据都可被看成是不确定的轨迹,原因在于用户不会不停地签到或拍照。在得到这样一条轨迹数据时,我们无法判断出该用户选择的具体线路,如图7(a)。但是,当我们把很多个用户的不确定线路叠加到一起,就能猜测出最有可能的线路,如图7(b),即“不确定+ 不确定→确定”。这样的应用可以帮助人们规划旅行线路。例如,一个用户想在一条线路中去后海、天坛和颐和园3 个地方,把这3 个点输入到系统里,可以根据大众的签到数据计算出一条最热门的游玩路线。

城市计算与大数据

社交媒体数据同时也向城市计算的其他方面贡献着力量。例如,通过网民在社交网络中发布的信息来预测总统选举结果、疾病蔓延和房价走势,发现异常事件和灾难,分析交通流量,设计广告推送和商业选址。通过社交媒体还能分析一个城市的风格以及不同城市之间的相似性。

能源消耗

文献Sensing the pulse of urban refueling behavior利用装有GPS 的出租车在加油站的等待时间来估计加油站的排队长度,估算出此时加油站内的车辆数目及加油量。通过将全城的加油站数据汇总,便可计算出任意时刻消耗掉(加入到汽车油箱里)的燃油数。这些数据能实现三方面的应用:第一,给需要加油的用户提供推荐信息,寻找排队时间最短的加油站;第二,可让加油站运营商知道各个地区的加油需求,从而考虑增加新的站点或动态调整某些加油站的工作时间;第三,政府可以实时掌握整个城市的油耗,制定更为合理的能源战略,如图8 所示。

城市计算与大数据

文献Coordinated clustering algorithms to support charging infrastructure design for electric vehicles通过分析人口数据、车辆的轨迹数据、各地区能源消耗情况和兴趣点的分布来研究未来新能源汽车的充电站建在何处最优。也有不少工作通过分析汽车内部的传感器数据(如踩油门、刹车的时间和次数等)来建议经济省油的开车方式。

经济

城市经济是一个相对成熟的研究领域。例如,分析决定土地价格的因素、土地使用限制对经济的影响,公司选址和人们选择住宅的位置对周边未来经济的影响等。

文献Geo-spotting: mining online location-based services for optimal retail store placement通过分析大量用户的签到数据为商业选址提供位置建议。比如,要开设一个新的麦当劳餐厅,什么地方是最理想的位置。结合道路结构、兴趣点分布、人口流动等诸多因素来对屋的价值排序。即在市场向好时,哪些小区的房价将会涨得更多;市场下行时,哪些小区的房价比较抗跌。与使用传统经济学模型不同,以上这两个例子采用了机器学习算法和数据驱动的方法。

城市安全和应急响应

城市中总是会有一些突发事件,如自然灾害(地震和洪水等)、大型赛事和商业促销、交通事故和临时管制、群体性事件等。如果能及时感知、甚至预警这些事情,将能极大地改善城市管理,提高政府对突发事件的应对能力,保障城市安全,减少损失和悲剧的发生。

Discovering spatio-temporal causal interactions in traffic data streams、On mining anomalous patterns in road traffic streams、On detection of emerging anomalous traffic patterns using GPS data通过分析北京3 万多辆出租车的轨迹来发现城市中的异常事件。其主要思想是当异常事件发生时,附近的交通流将出现一定程度的紊乱。文献Inferring the root cause in road traffic anomalies 试图用具体的交通线路来进一步解释异常出现的原因。如图9所示,L1 连通的两个区域之间出现了交通流异常,但问题本身可能并不在这两个区域。其原因在于天安门附近因马拉松比赛而导致了交通管制,之前通过紫色虚线出行的车流就不得不绕道到绿色分段线的线路。所以绿色的线路才是产生这次异常的原因。根据司机选择路线的改变来捕捉交通异常,并进一步从相关的微博中提取关键词来解释异常的原因,如婚博会、道路坍塌等。

城市计算与大数据

图9 分析交通异常

Modelingand probabilistic reasoning of population evacuation during large-scale disaster通过分析160 万日本人一年的GPS 移动轨迹数据库来对日本大地震和福岛核事故发生后的灾民移动、避难行为进行建模、预测和模拟。这样日后再有类似事件发生时,便可从之前的灾难中吸取经验,提前做好准备。例如,为人们推荐合理的撤退线路。

城市计算的主要技术

传感器技术

传感器网络

实现现有专业传感器(如温度传感器、位置传感器、交通流线圈、空气质量监测仪等)之间的互联互通,完成数据的快速收集。

主动参与式感知

用户通过主动分享自己获取的数据来共同完成一个复杂的任务。例如,每个用户都利用手机上的传感器来分享自己周边的气温和湿度,从而构建出全城细粒度的气象信息。

被动群体感知

城市里各种信息基础设施(如蜂窝移动通信系统和公交卡系统)为城市计算提供了良好的感知平台。这些基础设施可能并不是专门为城市计算设立的,但当用户在使用这些基础设施时会产生大量的数据,将这些数据融合到一起能很好地反映城市的韵律。例如,通过分析大量用户的地铁刷卡数据就能掌握城市的人口流动规律。通过分析大规模的出租车轨迹数据就能感知城市路面的交通流。与主动参与式感知技术不同,被动式群体感知中的用户并不知道自己的数据将作何使用,甚至不知道自己在产生数据。

数据管理技术

流数据管理

由于大量的传感器数据都以流的形式输入,高效的流数据库技术是城市计算数据管理层的基石。

轨迹管理

交通流、人的移动以及带位置标签的社交媒体都可以表示为轨迹数据(即带有时间戳并按时间排序的点序列)。在城市计算中经常会用到轨迹处理技术,如地图匹配算法、轨迹压缩、轨迹搜索、轨迹频繁模式挖掘等。

图数据管理

社交网络中人的关系、不同地区之间的人口流动、道路上的交通流等等都可表达为图模型。因此,图数据的管理和模式发现技术尤为重要。城市计算的应用中更多会用到带有时空属性的图模型,即每个节点都有空间坐标信息,图中边和点的属性(甚至图结构)会随时间而变化。前文提到的最快行车路线设计、查找路网中不合理规划、发现城市不同的功能区域以及交通流异常检测都是以带有时空属性的图为研究模型。

时空索引

有效的索引可以大大提高数据提取的效率。由于空间和时间是城市计算中最常用的两个数据维度,各种空间索引和时空索引都是常用技术。更重要的是利用时空索引技术将不同种类的数据(如文本、车流等)关联和组织起来,为之后的高效数据挖掘和分析做好准备。

数据挖掘技术

用于城市计算的数据挖掘和机器学习算法比较多。各种模式发现、统计学习和人工智能方法都可以应用到该领域。但在挑选这些技术时需要考虑以下两个因素:

能从异构数据中学习到相互增强的知识

通常有3 种方法来实现这个目标:(1) 分别从不同数据中提取特征,然后简单地将这些特征直接拼接并归一化到一个特征向量里,输入到机器学习的模型中。由于不区分不同数据的特性,因此这种方法并不是最有效的。(2) 在计算模型的不同阶段先后使用不同数据。例如,文献Urban computing with taxicabs先用道路数据将城市分割成很多区域,然后再将轨迹数据映射到这些区域上构建图,最后通过分析图模型来找出不合理的道路规划。(3) 将不同的数据分别输入到同一个计算模型的不同部分。如文献Discovering regions of different functions in a city using human mobility and POIs将人的移动性数据和兴趣点数据分别输入到一个主题模型的两个不同部分来分析城市的不同功能区域。文献U-Air: when urban air quality inference meets big data将交通流、人的移动性和气象数据等时变信息输入到一个随机条件场conditional random fields, CRF) 来模拟一个地点空气的时序相关性,将道路结构、兴趣点分布等空间(非时变)信息输入到神经网络中来模拟不同区域间空气质量的相关性。然后,这两个模型在半监督学习的框架里相互迭代、增强,共同推断出一个地点的空气质量。如果只是简单将所有数据输入到一个分类器中,由于那些空间数据不随时间变化,会被忽略,因此预测效果并不好。

应对数据的稀疏性

大数据与数据的稀疏性并不矛盾。以预测城市的细粒度空气为例,我们能观测到的交通流、人流、道路和兴趣点数据都是大数据,由于只有有限的监测站能产生空气质量的读数,因此,训练数据很稀疏。另外一个例子是利用出租车来估计城市的燃油消耗。出租车的GPS 轨迹数据巨大,但某些时刻有相当一部分加油站并没有出租车出入。如何估计这些站点的油耗,也是一个应对数据稀疏性的问题。解决这一问题通常可采用以下3 种方法:(1) 使用半监督学习算法或转移学习算法。如文献使用半监督学习算法来弥补因空气监测站少而带来的训练样本稀疏性问题。(2)采用矩阵分解算法和协同过滤。城市油耗估计就是利用这种方法来解决数据稀疏性问题的。(3) 基于相似性的聚类算法。假设我们需要根据埋在地面的线圈传感器来估计行驶在道路上的车辆数,但由于不是所有路面都埋有线圈,所以很多道路上的流量无法估计。根据道路的拓扑结果、周边的兴趣点分布等信息,我们可以计算不同道路之间的相似性,从而对道路进行聚类。这样被分在同一个类里的道路很可能具有相同的车流模式。于是,在一个类中,我们可以将有传感器道路的读数赋给那些没有传感器的道路。

优化技术

城市计算中也经常用到各种优化技术。比如文献T-Share: a large scale dynamic taxi ridesharing service就是通过将时空搜索技术和路径优化相结合来寻找能够接送乘客的最佳出租车。文献Inferring the root cause in road traffic anomalies通过线性规划来分析最有可能造成交通异常的车流。文献Where to Find My Next Passenger? 向出租车司机推荐最优的乘客寻找路线。

混合数据的可视化技术

可视化以直观的方式帮助我们理解获取的知识和模式。图10 是每个工作日 12~14 点之间乘坐出租车到达各个区域的人数的热度图(颜色越深,人越多)。将不同时间段的此类热度图连续播放,便可以动态反映整个城市的人口流动规律。相对而言,北京东部的中央商业区具有更高的人气。与单一数据可视化不同,城市计算中的可视化技术需要同时考虑多个维度,其中空间和时间是两个至关重要的维度。

城市计算与大数据

城市计算是一个新兴的交叉领域,是计算机学科与传统城市规划、交通、能源、经济、环境和社会学等多个领域在城市空间的交汇。它关系到人类未来的生活质量和可持续性发展。大数据时代的到来为城市计算提供了更多的机遇和更广阔的前景。

作者:郑 宇

CCF高级会员、杰出演讲者。微软亚洲研究院主管研究员。

主要研究方向为基于位置的服务等。

End.