思考大数据啤酒和尿布经典故事是

时间:2023/12/2来源:超级市场介绍 作者:佚名 点击:

这是一个关于零售帝国沃尔玛的故事。在一次例行的数据分析之后研究人员突然发现跟尿布一起搭配购买最多的商品竟是啤酒。尿布和啤酒听起来风马牛不相及但这是对历史数据进行挖掘的结果反映的是数据层面的规律。这种关系令人费解但经过跟踪调查研究人员发现一些年轻的爸爸常到超市去购买婴儿尿布有30~40的新爸爸会顺便买点啤酒犒劳自己。随后沃尔玛对啤酒和尿布进行了捆绑销售不出意料销售量双双增加。上面这个案例出自于涂子沛先生的所著的大数据畅销书《数据之巅》在这个案例中要情节有情节要数据有数据誓言旦旦不容你置疑。但是这个故事虽经典但是让你意想不到的是案例是编造的这个经典的“啤酒和尿布”(BeerandDiapers)的案例不仅是《大数据》类图书的常客事实上它更是无数次流连于“数据挖掘”之类的书籍中特别是用来解释“关联规则AssociationRule”的概念更是“居家旅行必备之良药周星驰语”。当前基本上所有讲大数据应用都会捎带讲上这个经典案例要求大家多研究“相关性”少研究因果关系但实在扫兴的是这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽但信不得实践是检验真理的唯一标准。如果这个故事是真的按理说应该给超级市场以无限启发才对可实际上不管是中国还是在美国在超市里面观察一下就会发现根本没有类似的物品摆放相近的都很少。故事性强事出有因。据吴甘沙先生透露它是Teradata公司一位经理编出来的“故事”目的是让数据分析看起来更有力更有趣而在历史上从没有发生过感兴趣的读者可以自己参阅文献。但公平地讲这个故事对数据挖掘的普及意义重大仅从教育意义上看仍不失为一个好故事。相关性并非什么大事即便真的有这个案例也不说明数据分析出来的“相关性”有什么特别的神奇之处。舍恩伯格教授的《大数据时代》核心观点之一就是趾高气扬的因果关系光芒不再卑微的相关关系将被“翻身做主人”知道“是什么”就够了没必要知道“为什么”。但需要我们更为深入了解的事实是“要相关不要因果”这个观点其实并非舍恩伯格首先提出的。最早的提出者应为《连线》Wired主编ChrisAnderson年他在题为“理论的终结数据洪流让科学方法依然过时EndofTheory:theDataDelugeMakestheScientificMethodObsolete”文章中率先提出在PB时代我们可以说有相关性足够了Petabytesallowustosay:Correlationisenough。图1连线杂志理论的终结“要相关不要因果”的观点并不受学术界待见。甚至《大数据时代》的中文版翻译者周涛亦在序言里说“放弃对因果关系的追求是人类的堕落”。对于这个观点李国杰院士认为在大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是相关性本身并没有多大价值关键是找对了“相关性”背后的理由才是新知识或新发现。大数据分析的第二个功能或者说更为的核心功能在于预测。预测主要用于对未来进行筹划大到产业的布局小到流感的预警均可用预测。但是对未来的预测能准吗?埃文科技——网络空间地图测绘领域技术专家,提供最全面、最精准的网络空间地图服务。公司成立于年,专注于网络空间、地理空间和社会空间的相互映射,绘制三位一体的网络空间地图,对网络空间资源的静态属性和动态变化情况进行探测。拥有19项软件著作权及13项发明专利

转载注明  http://www.ytylm.com/zztz/13157.html

首页| 网站简介| 发布优势| 广告合作| 隐私保护| 服务条款| 合作伙伴| 网站地图| 版权申明

版权所有 超级市场 
Copyright 2012-2020 All Rights Reserved.