徽剑IT评点:撕下大数据下的数据挖掘面纱

一、大数据没那么神秘

二、数据是会说话的

三、数据挖掘的流程

四、核心之一:领域专家建模

五、核心之二:数据采集

六、记住,大数据其实不是那么数学和计算机

七、可以的应用

一、大数据没那么神秘

最近一年来谈大数据的很火,到处都在说大数据,各种的以大数据为名头的会议、活动也比比皆是,你方唱罢我登台,好不热闹。

有网友问我,好多科技公司言必称自己是大数据,实际情况呢?我回答:什么样的数据叫大,是G级还是T级、E级、Z级,乃至B级?这个真不好定义,既然无法定义,那么反复强调自己的大数据,未免滑稽。据我的观察,在必称自己是大数据的公司中,很多甚至连T级都达不到,我曾开玩笑说过,一块硬盘可以打包的数据这叫硬盘公司,对应一个皮包可以装载公司一切的皮包公司。

那么所谓的大数据是什么呢?我曾经这样批判过所谓的大数据:云计算忽悠过了,大数据上了。于是全世界都是大数据了,然后领导开会,找机会拨款,又可以捞了。本来就一数据仓库与数据挖掘,看看1991年定义:DataWarehouse是一个面向主题、集成的、反映历史变化的数据集合,用于支持管理决策。跟所谓云一样,老掉牙的技术,活生生包装成新潮。所谓数据仓库,并没有数据量和范围的限制。广义的基于数据仓库的决策支持系统由三个部件组成:数据仓库技术,联机分析处理技术和数据挖掘技术,目的就是为企业管理好这些海量数据,进一步发掘其内在的价值。这跟所谓大数据概念有何区别?

很多时候,很多人提到大数据,是用来唬人的,展现自己所谓的高深莫测。想想吧,大数据啊,普通人一辈子都接触不到啊,他居然能轻松自如呢,牛人啊、大神啊!

很多人都在宣传,所谓大数据给相关公司带来业绩上翻天覆地的变化,而我认为,如果不能很好地做数据挖掘的话,大数据不但不能能给相关公司带来业绩上的任何变化,反而还会因为大量冗余数据给公司运维带来麻烦。数据只是死的,如果你不能从中找出有价值的内容,再“大”也没意义。其实数据无论大小,如果能够很好地做数据挖掘,带来有意思的知识发现,都有意义。

所以说,我给大家的定义就是,大数据确实有,但是并不是那么神秘,只是数量级别不同而已。数据是体现现实的,数据挖掘也是给现实找方法的,所以,扯数据大小,除了数据库管理员,真没啥意思!

徽剑IT评点:撕下大数据下的数据挖掘面纱

二、数据是会说话的

接下来,我们说说数据挖掘。很多人会问,数据挖掘能够做什么?

有一个很多数据挖掘书籍都会提到的经典案例:

"尿布与啤酒"的故事。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。

看到没,这就是数据挖掘,从常人的知识外找到线索。通俗说,数据挖掘可以做到以下几点:

1、 找到没有意识到的问题

2、 找到未来发展的趋势

3、 找到过去存在的问题

4、 把定性的问题定量化

5、 数据对象关联的规则问题

这五块能够产生的效应,我就不用废话了吧?

  

爱华网本文地址 » http://www.aihuau.com/a/25101012/126744.html

更多阅读

百度技术沙龙:基于大数据的预测技术

点击标题下「大数据文摘」可快捷关注本次分享的话题分别是“大数据与预测”和“基于互联网数据的社会经济预测”。回复“百度沙龙”,可一并下载2篇PPT在由@百度主办、@InfoQ负责策划组织和实施的第53期百度技术沙龙活动上,来自百度研

徽剑IT评点:八评电商之二,骗子满天飞忽悠遍地走

前两天发了八评电商之第一评,电商不商投资人遭殃,反响很不错,很多人表示写的比较好。不过今天这个第二评,估计会让一大批“电商资深人士”咬牙切齿。有人跟徽剑说,你这个主要写的电商是B2C,而B2B徽剑多年前写过,今天就不想再写了,有兴趣的

《读名画:大橡树下的母马和马驹》

《读名画:大橡树下的母马和马驹》文/阿麦我不言语。我站在大橡树下,看枣红马啃着鲜嫩的青草,马驹吮吸着乳汁……这一刻,世界是静谧的。我想起了母亲,那个微笑的小女人她生育了六个孩子。和她一起啃过树皮的大哥去了五姐也走了。她给毛主

65、赵刚:企业大数据架构:业务、数据和技术

嘉宾简介:赵刚,博士,北京赛智时代信息技术咨询有限公司(CIOManage)创始人,主要从事智慧产业和智慧应用咨询。曾任赛迪顾问公司高级副总裁,分管信息化、互联网与管理咨询业务,曾任赛迪时代公司总裁,赛迪学者。长期致力于信息化与信息产业的研

教学论文:新课程背景下的高中作文有效教学

新课程背景下的高中作文有效教学胡荃君提要:在新课程背景下,高中作文教学必须适应新的更高的要求,力求构建“有效”的写作教学新模式,真正提高学生写作能力和语文素养。作文教学的有效性首先体现在教学目标的具体、明确上,整体规划单元

声明:《徽剑IT评点:撕下大数据下的数据挖掘面纱》为网友笙歌绝笙箫默分享!如侵犯到您的合法权益请联系我们删除