欲立先破 探讨大数据的10大局限性
大数据之所以为大数据,首先是因为其数据体量巨大。然而,在这海量的数据中,并非所有的数据都是有用的,大多数时候,有用的数据甚至只是其中的很小一部分。随着数据量的不断增加,无意义的冗余、垃圾数据也会越来越多,而且其增长的速度比数据信息更快。这样一来,我们寻求的重要数据信息或客观真理往往会被庞大数据所带来的噪声所淹没,甚至被引入歧途和陷阱,得出错误的结论。
2、真实性:不得不接受的虚假
“我们进入困局的并不是我们不知道的事物,而是我们知道、但不那么真实的事物。”真实性是一切数据价值的基础,然而这同时也是大数据的一大先天性缺陷。
网络是大数据重要的来源之一,而网络本身就充斥着大量的虚假信息。例如,网络数据中存在着大量的虚假个人注册信息、假账号、假粉丝、假交易、灌水贴及虚假的意思表示等。这种失真是由网络本身的特性决定的,比如说,绝大多数社交网站很难也不会对会员注册信息的真实性进行全面核查,电商平台也无法控制一人注册多账号,或账号与实际消费个体的非对应关系(想想你家有没有共用一个宽带或电商账号的情况)。
除了网络数据,即便是通过原始方法采集的个人信息数据也无法保障其真实、准确。就拿电信运营商来说,即便推行了实名制,数据质量与期望仍有相当差距。
可以预见,在相当长的时间内,即使的数据科学家、先进的数据处理方法也无法消除或修正某些数据固有的错误和不足,对大数据真实性的追求无疑是摆在我们面前的又一挑战。
3、代表性:永不可能的全样本
迈尔·舍恩伯格在《大数据时代》一书中阐述的一个核心观点便是,大数据是全样本,因此不再依赖随机取样。笔者认为,这种观点是错误的。
大数据来源大致可以分为两类,一类来自于物理世界的科学数据,如实验数据、传感数据、观测数据等;另一类则来自于人类社会活动,主要是互联网数据,如社交关系、商品交易、行为轨迹等个人信息。然而,这两类数据的产生、收集都存在很大的盲区和局限性。例如:很多人在网上订餐或消费的时候往往会参考其他人的推荐和点评,但经常在消费以后发现并不如意。撇开个人口味和刷评的因素,还有一个重要原因在于,网上点评的人并不具备足够的代表性。喜欢上网的本身就只是消费人群中的一部分,上网消费同时又喜欢点评的人更只是其中的一小部分,所以,由带有明显倾向的小众来代表整个群体明显是错误的。
无论科学技术如何发达,来自于物理世界和网络社会的大数据永远都不可能覆盖整个自然界和人类社会;如果再考虑宗教、法律、伦理、道德上的诸多限制,那么大数据就更不可能成为“全样本”了。而且,被遗漏的那部分数据往往并不是随机偏差,而是系统偏差,在统计分析时不能不考虑。也正因为如此,社会学家对大数据的代表性总是保持着一份可贵的疑虑和审慎,在许多领域仍然坚持用传统的抽样方法而不是大数据来进行社会研究。
4、完整性:广度与深度的缺失
大数据的完整性不足主要是指单个组织所能获取的数据体量虽然巨大,但所包含的实际信息却十分有限,以致难以以此为基础进行复杂的逻辑运算或全面描述。这种不完整主要包括信息维度(决定信息广度)的缺失和维度信息(决定信息深度)的缺失。
举例而言,电信运营商由于把控着数据管道,从而可以较全面地掌握用户的上网信息,有着较好的信息广度,但其掌握的信息深度却不够。运营商可以清楚地知道用户在什么时间、什么地点、以什么终端、什么网络访问了京东、亚马逊、天猫等电商,浏览了何种商品,停留了多长时间等(信息广度充分),但却不能掌握用户是否在某电商平台上购买了商品、购买了何种商品、参与了什么促销活动、以什么方式付款、支付了多少款额等(信息深度不足)。很显然,京东对用户在自己商城的浏览、消费行为了如指掌(信息深度充分),但它却无法了解用户的其他互联网行为及在其他电商平台的消费行为(信息广度不足)。
在大多数情况下,对某种自然、社会现象的深入研究或者对用户的超级刻画,信息广度和信息深度缺一不可。从这个意义上讲,真正的大数据应是建立在共同的标准基础之上,融合了企业、政府、科学研究等跨领域、跨行业、跨平台数据的集合,是社会大数据。
然而,当前的大数据依然以独立孤岛的形式存在,没有任何一个组织能够获取在广度和深度上都足够充分的数据。应该大力推进全社会的数据公开和共享,其中政府数据开放尤其重要。毫不夸张地讲,真正核心的数据绝大部分掌握在政府手中,没有政府参与,就没有真正的大数据。
5、时效性:秒级价值存在
任何数据都位于一个连续的时间轴上,都有其时间属性,即数据年龄。不同年龄的数据有着不同的价值特性,往往老数据具有总体或趋势分析价值,新数据则更具有个体应用价值。大数据时代,信息更新速度非常快,从应用的角度看,大数据的时效性往往非常短。
用于探测地震和海啸的传感器所产生的数据时效往往只有几秒钟,在此之后就基本失去意义了。美国国家海洋局的超级计算机能够利用传感器传输的数据,在日本地震后9分钟内计算出海啸的可能性及强度。短短的9分钟,基本反映了当前人类计算的高水平,但这对于瞬间消失的生命来说还是太长了。
实时营销对用户状态信息的时效性也有很高的要求,试想想,如果你的目标用户在离开店面500米后才收到你所谓“量身定做”的促销信息,他(她)是不是会对此嗤之以鼻?
大数据时效性的要求对数据的实时采集、实时加工、实时分发提出了极高的要求。数据处理上有一个的“1秒定律”,即要在秒级的时间范围内计算出分析结果并分发出去,超过这个时间,数据就失去价值了。这在许多时候还很难做到,从而在相当程度上限制了大数据的应用。

智能制造网APP
智能制造网手机站
智能制造网小程序
智能制造网官微
智能制造网服务号











智能控制
机器人
仪器仪表
物联网
3D打印
工业软件

回放

预告



浙公网安备 33010602000006号
智能制造网APP
智能制造网小程序
微信公众号


