![]() |
二.大数据的核心思想
1.有什么不重要,怎么用才重要
在会上,无奈的发现每当举男女之间的例子,众人理解能力就飙升,而讲偏产品技术方面时,下面就一脸木然昏昏欲睡。(诸位!!!你们是来听色情讲座呢?)
Netflix公司利用大数据来拍《纸牌屋》的励志故事大家都听过无数遍。Netflix是美国最大的DVD与网络视频租赁网站,他们在国内有2700万用户,全球有3300万。他们从流媒体视频用户处收集到的数据是异常惊人的,每一次搜索,每一次暂停,每一次积极或者消极的评价,还有自己的位置数据设备数据社交媒体数据,在分析完这些数据之后,发现自己的这些观众都喜欢演员凯文-史派西,还喜欢导演大卫-芬奇,并且喜欢1990年的英国同名电视剧。三项综合在一起,Netflix就下定决心拍摄《纸牌屋》,并将数据分析运用得淋漓尽致。在Netflix的观影页面上,提供暂停后截图的功能,他们就依靠这种数据来判断观众更喜欢哪种布景和画面。
当然,这三个因素其实都有不稳定性,例如凯文-史派西也曾拍过只被评了4.2分的《弗雷德圣诞老人》,大卫-芬奇首次执导的《异形3》也成系列中口碑最差的一部。但是从概率上来说,这三个成功因素都包括的剧集更靠谱。
另外国政通推出的“同名同姓”应用,虽然看起来比较偏娱乐化实用性不强,但是这背后的那些身份数据是可以进行各种二次利用。每次看到类似应用,我总会把前同事“操瑞士”的奇葩名字输进去,现在只有这款应用准确的找到了全国只有1个操瑞士,并且是安徽人。呼叫瑞士大使馆迅速锁定他的位置吧!
所以大数据的核心并不是拥有数据,而是拿数据去做了什么。也就是说你不能仅仅占有人家的身子,也要占据人家的心灵。
2.对数据的容错性更强,来源更加多样化
一个500M的用户数据excel表算不算大数据?曾经在做某款产品的用户筛选时,这么一个excel成功拖死我电脑三次,我当时愤怒的说:“KAO,这SB大数据!”现在想起来,我冤枉了大数据君,您受苦了。
真正的大数据,应该是从不同维度,不同途径过来的各种格式数据碎片,并不限于文字/视频/声音/位置/图片等。只有将不同维度的数据放在一起判断,得出来的趋势才有可能更真实。雷同的数据积累的再多,超过某一个限度之后,我们再从新样本上获得的有用信息就越来越少,就如同经济学上的边际效应递减一样。而用简单点儿的话解释就是如果你已经交往过五个IT码农,那么第六个其实也不会新鲜到哪里去,倒不如重新调整方向,换个高富帅找点儿不同的刺激。
多样化的来源同样可以避免陷在一个死胡同里出不来。例如以前经常说的“三年自然灾害”,如果仅仅去查询这三年的天气状况和死亡人数的关系。那么可能最后得出结论是“晴朗天气比阴天更容易致人死亡”。但实际上如果去结合《人民日报》亩产十万斤的相关翔实公正报道再加上那些年中国粮食对外进出口情况,那么就会得出更有建设性的结论。在一90后妹子的追问下,只说了四个数字。1958年,中国出口粮食288.34万吨,进口22.35万吨。困难时期第一年,1959年,中国出口415.75万吨,进口0.20万吨,那年,听说大家都好饿。别不多说,免得喝茶。
再举个例子,这两天淘宝首页给我推送的个性化广告除了情趣用品就是“花花公子”服饰大优惠,我不就是为了找素材和配图搜了一下“情趣用品”么?你们没完没了的给我推送这个,节操何在?如果你们能拿到我小学老师的评语,初中老师的评语和操行评定,高中老师的评语和操行评定,通过对多个来源不同的数据源分析,那么你们给我推送的一定会是《钢铁是怎么炼成的》《雷锋日记》等好书。(大学老师的评语就算了,那厮打CS被我蹂躏了太久容易怀恨在心。)
3.拥有大数据的身,也要有大数据的心
以往的数据分析,更多的是精确的样本/深度的数据挖掘,“精确”就是其代名词。不符合规格的样本过滤掉,然后再深度挖掘数据字段间的关系,得出几个精确无比数字去做PPT,或者从一系列数据里精准的找到某个正一脸猥琐偷拍姑娘的人。
但是大数据更多的是通过对各种数据分析得出某种趋势,这种趋势不必过于精确,但是能让相关决策人有底气去做某项决定。大数据不重要,重要的是使用大数据的人。
因为哪怕面向完全相同的数据源,不同的人得出的结论或者决定也可能是截然不同的。三国赤壁大战,当庞统献计“若以大船小船各皆配搭,或三十为一排,或五十为一排,首尾用铁环连锁,上铺阔板,休言人可渡,马亦可走矣”时,同时听到这话的两个人,曹操下席而谢,“非先生良谋,安能破东吴耶!”,而徐庶却私下里扯住庞统“你好大胆,只恐烧不尽绝。”由此可见,“以人为本”是多么精辟的一句废话啊!
无论你NB还是SB,数据总在那里,不离不弃。
4.强调趋势和未来
大数据,更多的应该是分析过去,提醒现在,展望未来。无法用到实践中去的大数据都是耍流氓,无论这个结果是造福了全人类,还是帮助网站提高1%转化率,这都是有用的。
上图这充满着暴力气息的玩意是当年冷战期间美国和苏联研发的高速列车,他们将轰炸机上的涡轮直接装在了火车顶上。其中美国的M-497号在1966年俄亥俄州的铁轨上跑出了295.54公里/小时。虽然几十年后,才有了现代高速铁路,但是如果没有最初的这种野蛮实验,恐怕现在自主研发的高铁也没有那么充足的底气。
谈趋势谈大数据,怎么能不提谷歌的流感趋势呢?谷歌分析自己上亿次的搜索查询,近乎实时的提供全球许多国家和地区的流感疫情评估,从截图可以看出,谷歌的趋势曲线跟美国官方公布的数据重合度非常高,但是后者在时间和效率上完全无法比拟谷歌趋势。
如果你在准备出差的时候,发现你要去的地方正爆发鼠疫,我想大部分人肯定就哭着喊着辞职不去了。
再例如2012年美国某著名避孕套品牌发布校园性健康报告,报告表明在美国大学生中,25%得了性病,其中排名第一的是尖锐湿疣,得病率最高的学校是位于科罗拉多州的美国空军学院(U.S. AIR FORCE ACADEMY)。然后紧接着,无聊的我又从学院官网中看到学校男生占比78.1%,女生占比21.9%。
从这些数据至少我们可以分析出一个结果:跟海归一夜情之前,请查一下学位证。
![]() |
户外广告机 |
落地式广告机 |
高清广告机 |
分屏广告机 |
蓝牙广告机 |
网络广告机 |
数字标牌播放器 |
广告机方案 |
多媒体信息发布系统 |
触控一体机 |
高清机顶盒 镜面广告机 | 多媒体广告机 | 触摸广告机 | 网络广告机 | 液晶广告机 | 车载广告机 | 互动式广告载体 | 楼宇广告机 | 流媒体实时发布系统 | 广告机外壳 | 户外大屏幕 广告机报价 | 数字标牌软件 | 电子看板 | 商业显示 | 嵌入式主板 | 触控一体机 | 数字标牌显示器 | 嵌入式流媒体服务器 立式广告机 | |