正在阅读:数据囤积问题日益严重 该如何解决?

数据囤积问题日益严重 该如何解决?

2016-06-20 09:12:37来源:datanami数据分析网翻译 原标题:数据囤积问题正变得越来越严重 关键词:大数据数据平台数据囤积阅读量:30608

导读:客户以为能从数据废气中轻松发掘出竞争优势的心理认知,以及囤积行为本身所带来的惯性,你会发现,数据囤积很容易变成一个严重的问题。
  【中国智能制造网 市场分析】在包含大量数据的环境中生活工作,有一个不好的地方:总想把每一个Byte、每一个字节都储存起来,以备未来使用。多亏了亚马逊简易存储服务和Hadoop等价格低廉的存储系统,让我们在技术上能够把收集到的所有数据都储存起来。但如果做过了头,也会导致数据囤积的危险局面。

数据囤积问题日益严重 该如何解决?
  
  虽然数据囤积的危害可能不像实物囤积那么严重,但背后的心态都是相同的。收藏过去25年里每一期《纽约时报》的实物囤积者之所以这么做,是因为他们错误地认为,在未来的某个时候,他们将需要参考这份报纸上的内容。同样,数据囤积者之所以收藏谷歌的每一份关键词报告,是因为他们错误地认为这将有助于开展营销工作。
  
  数据囤积现象愈演愈烈,这不足为奇。毕竟,由于大数据热潮,我们拥有了大量且便宜的存储空间,其中很多都是云存储空间。EMC的数据传道者比尔·斯克马佐说,用同样的钱,你在Hadoop数据湖里储存的数据量可以达到传统数据仓库的50倍。这是项巨大的优势。
  
  数据囤积问题正在恶化,因为一些大数据方案提供商一直在告诉客户不要扔掉任何数据。再加上以为能从数据废气中轻松发掘出竞争优势的心理认知,以及囤积行为本身所带来的惯性,你会发现,数据囤积很容易变成一个严重的问题。
  
  从一个到另一个

  
  在过去20年里,我们从数据存储的一个跳到了另一个。以前(1995年),存储成本比现在高得多,企业只会储存对业务至关重要的数据。通常来说,当时的数据均来自操作数据存储系统,并且会严格按照预设模式进行转换,然后从中提取有用信息,基于这些严密控制的数据仓库生成数据报告。
  
  但大数据湖却可说整个颠覆了数据存储的“剧本”。如今,企业不是只储存那些已证实具备商业价值的数据,而是把所有的数据都储存起来,哪怕在未来提供商业价值的可能性相当渺茫。其中有很多数据都属于原始数据或者“数据废气”。而数据废气以前都会被丢弃,因为它不具备直接可用的商业价值。
  
  数据整合初创公司Xplenty的联合创始人兼执行官扬里夫·莫尔说,我们已经从一个走到了另一个。他认为,数据囤积问题正在逐年恶化。
  
  “现在,企业出于保险起见,往往会把所有数据都储存起来,以防以后有人想要使用。”莫尔说,“如今,存储成本很低,所以他们把所有数据都塞进亚马逊S3或者谷歌云端硬盘。但当分析师需要从中提取某些信息时,却会变得很困难。这种情况一直都在不断出现。”
  
  莫尔说,ApacheHadoop和云存储为数据囤积创造了条件。虽然这些平台降低了存储成本,但也暴露出从数据中提取有用信息的专业能力不足的问题。
  
  “这是个巨大的挑战。”莫尔说,“梳理数据并从中获得有用信息不是件易事。你必须依靠那些具备数据分析能力的数据科学家和专业分析师。”
  
  ROT数据越来越多
  
  大公司和其他机构,比如政府机构,已经开始向数据囤积问题屈服。维尔软件美国国防部和美国情报部门业务主管乔迪·霍克说,联邦机构发现,增加更多的存储空间比直面他们的数据囤积问题更加简单。
  
  “有很多错误的看法。”霍克在今年4月在接受记者采访时说,“他们认为存储很便宜,所有数据都有价值,所有数据都有相等的价值,于是他们把数据全都储存到云端。既然存储是免费的,干嘛不用?”
  
  霍克说,实际上并非所有的数据都有用。维尔软件的《2016年数据基因指数》报告显示,普通机构储存的数据中,有40%到60%都属于冗余、过时或琐碎的数据。
  
  而且,维尔软件发现,在各个机构的数据中,40%以上都属于过期数据(也就是在三年时间里都没人用过)。各机构都在花费大量金钱储存无数不再使用的文件。“每千万亿字节要花费他们500万美元,但储存的却都是些ROT数据。”霍克说。
  
  瞄准营销
  
  虽然数据囤积问题无处不在,但Xplenty的莫尔说,有一个企业部门格外容易遇到这个问题,那就是营销部门。
  
  “营销人员只是收集所有的数据,却未必知道该如何处理这些数据。”莫尔说,“营销人员必须明白,不是所有的数据都同等重要。他们不必收集营销服务提供给他们的每一项数据。营销人员堪称创造数据沼泽的突出代表。”
  
  对于囤积者来说,追踪事物情况(或曰“治理”)也变成了一个大问题。就像实物囤积者在塞满东西的房间里很难找到某件物品一样,数据囤积者也被大量数据弄得晕头转向。如果严密的模式控制失灵,“随便怎样”的心态占领了数据湖,那么那里很快就会退化成浑浊的数据沼泽。
  
  数据囤积没有明确的定义,这个问题在很多机构都存在,只是程度各有不同。数据囤积也应该与法律强制保存的档案区分开来。例如,按照法律规定,银行必须将数据保存很多年,而一些医疗机构则必须将医疗数据保存几十年。
  
  20年前,内部数据是大部分数据仓库举措的数据来源。但现在,大数据囤积者却往往拼命收集现成的外部数据,尤其是社交媒体数据,它们经常被储存在数据湖中,因为它们能够与其他数据结合,产生有用的信息。但社交媒体数据常常“充满噪音”,商业价值令人存疑。
  
  数据囤积解决方案
  
  解决数据囤积问题的步是承认问题的存在,然后可以采取几个策略。
  
  维尔软件的霍克建议采取自上而下的数据治理方案,首先从认清数据及其价值开始。先建立一套更好的数据分类模型,然后让一位数据专家或者数据官全面掌管,实施更好的数据治理政策。
  
  “我们相信,如果我们现在就实施信息治理策略,并且先从ROT和过期数据入手,然后制定解决方案,将没有价值的数据从我们的系统中移除,将能更好地帮助我们完成使命,压缩成本。”她在接受联邦新闻电台的采访时说,“这是企业文化上的改变。这是技术上的改变。手动检查每一项数据显然不可行,但我们有能力实现数据的自动盘查,记录下我们有什么,然后采取行动。”
  
  Xplenty的莫尔说,让人们对数据囤积问题有所认识乃是当务之急。“必须让人们明白他们应该如何处理他们的数据,尤其是在评估数据架构方面,特别是在云端。”他说,“人们不知道该如何在云端建立数据架构。”
  
  终,数据囤积问题必须得到自下而上的解决,这意味着要让具体的人员改变他们对数据的看法。“重要的不是你后收集到了多少数据,而是你从数据中获得了多少价值。”他说,“这是所有分析师和所有数据专家每天都应该问问自己的问题。”
我要评论
  • 人工智能+大数据:2025年它们如何塑造企业

    “2025 年商业中的人工智能与大数据”如今已成为竞争优势的代名词。人工智能 (AI) 与大数据的融合正在通过预测分析、个性化服务和自动化运营重塑全球经济的各个领域。
    人工智能大数据
    2025-09-16 10:29:40
  • 中国大数据规模未来5年增速世界第一 全球占比10%

    中国大数据市场表现格外亮眼,预计2029年中国大数据IT支出规模为730.2亿美元,全球占比约10%。
    大数据大数据技术
    2025-09-12 11:44:02
  • 新华三与广东电信深化战略合作 共拓数字经济新蓝海

    多年来广东电信与新华三一直保持着良好的合作关系,取得丰硕成果。期待双方在传统云网合作基础上,共同探索先进算力网络建设,协力深耕粤港澳大湾区数字化沃土。
    数字经济大数据
    2025-07-11 11:40:07
  • 2024年“数字中国发展指数”同比增长超10% 数字中国建设稳中提质

    近年来,数字中国建设成效显著,数字化发展水平快速提升,经济发展内生动力、创新活力不断增强。以2020年为基期,2024年数字中国发展指数为150.51,同比增长10.65%。
    数字中国数据平台
    2025-05-09 09:19:32
  • 物流智能转型新引擎:DeepSeek+物流

    DeepSeek 物流不仅是技术的革新,更是城市发展的重要推动力。它通过智能化手段提升物流效率、优化资源利用、减少环境影响,并为智慧城市建设提供支撑。未来,随着AI技术的不断进步,物流行业将迎来更深刻的变革。
    物流大数据服务平台
    2025-04-30 10:11:15
  • 2025年4月1日开始施行的重要新规一览

    四月,一系列新规定即将实施,包括《公共安全视频图像信息系统管理条例》、《车联网网络安全异常行为检测机制》等。
    大数据服务平台
    2025-04-02 09:31:36
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了