正在阅读:欲立先破 探讨大数据的10大局限性

欲立先破 探讨大数据的10大局限性

2016-09-07 13:37:19来源:中云网 关键词:大数据网络运营商阅读量:31254

导读:谈大数据的局限性,并非要否定其价值。相反,只有我们充分认识了大数据的特点和优劣势,才能更加有效地对其进行采集、加工、应用,充分挖掘和发挥其价值。
  【中国智能制造网 市场分析】“忽如一夜春风来,千树万树梨花开”,似乎在一夜之间,大数据就红遍了南北半球,,大数据被神化得无处不在,无所不包,无所不能。这里面有认识上的原因,也有故意忽悠的成份。笔者以为,越是在热得发烫的时候,越是需要有人在旁边吹吹冷风。在这里谈大数据的局限性,并非要否定其价值。相反,只有我们充分认识了大数据的特点和优劣势,才能更加有效地对其进行采集、加工、应用,充分挖掘和发挥其价值。
  

欲立先破 探讨大数据的10大局限性
 
  1、数据噪声:与生俱来的不和谐
  
  大数据之所以为大数据,首先是因为其数据体量巨大。然而,在这海量的数据中,并非所有的数据都是有用的,大多数时候,有用的数据甚至只是其中的很小一部分。随着数据量的不断增加,无意义的冗余、垃圾数据也会越来越多,而且其增长的速度比数据信息更快。这样一来,我们寻求的重要数据信息或客观真理往往会被庞大数据所带来的噪声所淹没,甚至被引入歧途和陷阱,得出错误的结论。
  
  2、真实性:不得不接受的虚假
  
  “我们进入困局的并不是我们不知道的事物,而是我们知道、但不那么真实的事物。”真实性是一切数据价值的基础,然而这同时也是大数据的一大先天性缺陷。
  
  网络是大数据重要的来源之一,而网络本身就充斥着大量的虚假信息。例如,网络数据中存在着大量的虚假个人注册信息、假账号、假粉丝、假交易、灌水贴及虚假的意思表示等。这种失真是由网络本身的特性决定的,比如说,绝大多数社交网站很难也不会对会员注册信息的真实性进行全面核查,电商平台也无法控制一人注册多账号,或账号与实际消费个体的非对应关系(想想你家有没有共用一个宽带或电商账号的情况)。
  
  除了网络数据,即便是通过原始方法采集的个人信息数据也无法保障其真实、准确。就拿电信运营商来说,即便推行了实名制,数据质量与期望仍有相当差距。
  
  可以预见,在相当长的时间内,即使的数据科学家、先进的数据处理方法也无法消除或修正某些数据固有的错误和不足,对大数据真实性的追求无疑是摆在我们面前的又一挑战。
  
  3、代表性:永不可能的全样本
  
  迈尔·舍恩伯格在《大数据时代》一书中阐述的一个核心观点便是,大数据是全样本,因此不再依赖随机取样。笔者认为,这种观点是错误的。
  
  大数据来源大致可以分为两类,一类来自于物理世界的科学数据,如实验数据、传感数据、观测数据等;另一类则来自于人类社会活动,主要是互联网数据,如社交关系、商品交易、行为轨迹等个人信息。然而,这两类数据的产生、收集都存在很大的盲区和局限性。例如:很多人在网上订餐或消费的时候往往会参考其他人的推荐和点评,但经常在消费以后发现并不如意。撇开个人口味和刷评的因素,还有一个重要原因在于,网上点评的人并不具备足够的代表性。喜欢上网的本身就只是消费人群中的一部分,上网消费同时又喜欢点评的人更只是其中的一小部分,所以,由带有明显倾向的小众来代表整个群体明显是错误的。
  
  无论科学技术如何发达,来自于物理世界和网络社会的大数据永远都不可能覆盖整个自然界和人类社会;如果再考虑宗教、法律、伦理、道德上的诸多限制,那么大数据就更不可能成为“全样本”了。而且,被遗漏的那部分数据往往并不是随机偏差,而是系统偏差,在统计分析时不能不考虑。也正因为如此,社会学家对大数据的代表性总是保持着一份可贵的疑虑和审慎,在许多领域仍然坚持用传统的抽样方法而不是大数据来进行社会研究。
  
  4、完整性:广度与深度的缺失
  
  大数据的完整性不足主要是指单个组织所能获取的数据体量虽然巨大,但所包含的实际信息却十分有限,以致难以以此为基础进行复杂的逻辑运算或全面描述。这种不完整主要包括信息维度(决定信息广度)的缺失和维度信息(决定信息深度)的缺失。
  
  举例而言,电信运营商由于把控着数据管道,从而可以较全面地掌握用户的上网信息,有着较好的信息广度,但其掌握的信息深度却不够。运营商可以清楚地知道用户在什么时间、什么地点、以什么终端、什么网络访问了京东、亚马逊、天猫等电商,浏览了何种商品,停留了多长时间等(信息广度充分),但却不能掌握用户是否在某电商平台上购买了商品、购买了何种商品、参与了什么促销活动、以什么方式付款、支付了多少款额等(信息深度不足)。很显然,京东对用户在自己商城的浏览、消费行为了如指掌(信息深度充分),但它却无法了解用户的其他互联网行为及在其他电商平台的消费行为(信息广度不足)。
  
  在大多数情况下,对某种自然、社会现象的深入研究或者对用户的超级刻画,信息广度和信息深度缺一不可。从这个意义上讲,真正的大数据应是建立在共同的标准基础之上,融合了企业、政府、科学研究等跨领域、跨行业、跨平台数据的集合,是社会大数据。
  
  然而,当前的大数据依然以独立孤岛的形式存在,没有任何一个组织能够获取在广度和深度上都足够充分的数据。应该大力推进全社会的数据公开和共享,其中政府数据开放尤其重要。毫不夸张地讲,真正核心的数据绝大部分掌握在政府手中,没有政府参与,就没有真正的大数据。
  
  5、时效性:秒级价值存在
  
  任何数据都位于一个连续的时间轴上,都有其时间属性,即数据年龄。不同年龄的数据有着不同的价值特性,往往老数据具有总体或趋势分析价值,新数据则更具有个体应用价值。大数据时代,信息更新速度非常快,从应用的角度看,大数据的时效性往往非常短。
  
  用于探测地震和海啸的传感器所产生的数据时效往往只有几秒钟,在此之后就基本失去意义了。美国国家海洋局的超级计算机能够利用传感器传输的数据,在日本地震后9分钟内计算出海啸的可能性及强度。短短的9分钟,基本反映了当前人类计算的高水平,但这对于瞬间消失的生命来说还是太长了。
  
  实时营销对用户状态信息的时效性也有很高的要求,试想想,如果你的目标用户在离开店面500米后才收到你所谓“量身定做”的促销信息,他(她)是不是会对此嗤之以鼻?
  
  大数据时效性的要求对数据的实时采集、实时加工、实时分发提出了极高的要求。数据处理上有一个的“1秒定律”,即要在秒级的时间范围内计算出分析结果并分发出去,超过这个时间,数据就失去价值了。这在许多时候还很难做到,从而在相当程度上限制了大数据的应用。
  
我要评论
  • 人工智能+大数据:2025年它们如何塑造企业

    “2025 年商业中的人工智能与大数据”如今已成为竞争优势的代名词。人工智能 (AI) 与大数据的融合正在通过预测分析、个性化服务和自动化运营重塑全球经济的各个领域。
    人工智能大数据
    2025-09-16 10:29:40
  • 中国大数据规模未来5年增速世界第一 全球占比10%

    中国大数据市场表现格外亮眼,预计2029年中国大数据IT支出规模为730.2亿美元,全球占比约10%。
    大数据大数据技术
    2025-09-12 11:44:02
  • 新华三与广东电信深化战略合作 共拓数字经济新蓝海

    多年来广东电信与新华三一直保持着良好的合作关系,取得丰硕成果。期待双方在传统云网合作基础上,共同探索先进算力网络建设,协力深耕粤港澳大湾区数字化沃土。
    数字经济大数据
    2025-07-11 11:40:07
  • 5G-A网络加速落地 智慧城市迎来新变革

    5G-A不仅是通信技术的迭代,更是推动千行百业数字化转型的“新基建”。从个人娱乐到工业生产,从城市治理到全球协作,其应用场景的深度和广度将远超5G。
    5G-A网络
    2025-05-12 12:00:30
  • 物流智能转型新引擎:DeepSeek+物流

    DeepSeek 物流不仅是技术的革新,更是城市发展的重要推动力。它通过智能化手段提升物流效率、优化资源利用、减少环境影响,并为智慧城市建设提供支撑。未来,随着AI技术的不断进步,物流行业将迎来更深刻的变革。
    物流大数据服务平台
    2025-04-30 10:11:15
  • 2025年4月1日开始施行的重要新规一览

    四月,一系列新规定即将实施,包括《公共安全视频图像信息系统管理条例》、《车联网网络安全异常行为检测机制》等。
    大数据服务平台
    2025-04-02 09:31:36
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了